Skip to content

中文图书数据集/数据挖掘/自然语言处理/中国图书分类法/图书情报学/数据挖掘/文本分类/

Notifications You must be signed in to change notification settings

JiangYanting/Chinese_book_dataset

Repository files navigation

Chinese_book_dataset

中文图书分类数据集/自然语言处理/中国图书分类法/图书情报学/数据挖掘/文本分类/

若在科研论文、项目工程中使用了该数据集,欢迎引用:

蒋彦廷. 依据《中国图书馆分类法》的英文图书分类探索[J]. 北京大学学报(自然科学版), 2023, 59(1): 11-20.

JIANG Yanting. English Books Automatic Classification According to CLC[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 11-20.

蒋彦廷,吴钰洁. 英文文献的《中图法》分类号自动标注研究——基于文本增强与类目映射策略[J].数字图书馆论坛(CSSCI扩展版),2022(5):39-46.

Jiang Yanting, Wu Yujie. Research on Automatic Chinese Library Classification Labeling for English Literature based on Text Data Augmentation and Classification Mapping Strategies[J]. Digital Library Forum, 2020(5): 39-46.

一个广泛搜集爬取的中文图书分类数据集

1.简介

这是一个广泛搜集爬取的中文图书分类数据集。数据采集自各大电子书网站。

2.数据集字段

数据集包含的字段有:书名、作者、出版社、关键词、摘要、中国图书分类号、出版年月7个字段。

3.数据规模

数据集包含13.3万余册图书信息。其中超过96.5%的图书,均为一个图书分类号。仅有少数图书具有多个图书分类号或没有分类号。

只含一个分类号的图书数量统计如下图所示:

图书统计

4.用途

可用于数据挖掘、数据分析、自然语言处理、文献计量学、文本分类、图书情报研究与应用等领域。

注1:图书分类的标准

参考《中国图书馆分类法(中图法)》。http://www.ztflh.com/ 包含21个一级大类,200多个二级类,更多的三级类别。

中图法的一级图书类别:A马克思主义、列宁主义、毛泽东思想、邓小平理论;B哲学、宗教;C社会科学总论;D政治、法律;E军事;F经济;G文化、科学、教育、体育;H语言、文字;I文学;J艺术;K历史、地理;N自然科学总论;O数理科学和化学;P天文学、地球科学;Q生物科学;R医药、卫生;S农业科学;T工业技术;U交通运输;V航空、航天;X环境科学、安全科学

数据表字段

书名 作者 出版社 关键词 摘要 中国图书分类号 出版年月

下载地址

请邮件联系540980735@qq.com,或加qq号:540980735,或加微信号jyt629000获取。

2022-6-5 更新update

设计开发了针对英文文献智能分类与推荐的小程序,Windows环境下下载即可使用:

https://github.com/JiangYanting/English_books_classification_Program

About

中文图书数据集/数据挖掘/自然语言处理/中国图书分类法/图书情报学/数据挖掘/文本分类/

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published