转自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml
中文文本分类语料库-TanCorpV1.0
谭松波,王月粉 1 语料简介 相比于国际上众多的英文分类语料库而言,本人深感中文分类语料库非常缺乏。因此,建立一个较具规模的中文语料库一直是本人的夙愿。但手工收集上万篇文本确实比较困难,因此收集工作进展较慢。直到最近才告一段落。 本语料库分为两个层次,收集文本14150篇。第一层为12个类别;第二层为60个类别。层次结构及每类样本数如下表: 表1 语料的层次结构
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2 使用说明 本语料采用词频矩阵的方式给出,其格式采用Han[1-2]定义的格式,Han数据格式包括三个文件,即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料,本人对它进行了扩充,增加了一个文件,x.mat.hlabel。这样就能描述多层语料,并能兼容单层语料。 x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档,具体格式为:词 词频,…,词 词频;x.mat.rlabel是类别文件,每行一个类别名,对应x.mat中每篇文档的类别,对多层而言,它表示文档的叶子节点类别;x.mat.clabel是词名,也就是字典。字典中每个词语的编 等于它所在行的行 ;x.mat.hlabel描述每个类别的层次关系。 预处理采用分词工具ICTCLAS[3]对文档进行分词,并去掉数字与标点符 。 本人欢迎各位业界同行使用本分类语料,并希望用如下方式加以引用: [1] 谭松波,王月粉. 中文文本分类语料库-TanCorpV1.0. 本页面 址. [2] Songbo Tan et al. A Novel Refinement Approach for Text Categorization. ACM CIKM 2005. 本语料可以作为三个分类语料集使用: TanCorp-12:单层语料
TanCorp-60:单层语料
TanCorpHier:两层语料
特别声明:本语料仅作学术研究之用,不可用于任何商业用途! 若您有任何问题或建议,请直接跟我联系。 3 算法评测 为了验证语料的有效性,我们采用五种经典的文本分类算法进行评测,即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow;贝叶斯采用多项式模型;SVMTorch采用线性核函数。所有实验都采用三分交叉验证,即把数据集随机划分成三份,每次取其中两份进行训练,一份进行测试,然后把三次分类结果的平均结果作为最终结果。 实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点,这主要是因为TanCorp-60样本分布的严重不均衡性。 表2: 五种分类算法在TanCorp上的最好微平均比较
表3: 五种分类算法在TanCorp上的最好宏平均比较
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
引用文献: [1] E. Han, Karypis. Centroid-Based Document Classification: Analysis & Experimental Resultsl. The Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases, 2000 [2] E. Han. http://www.cs.umn.edu/?han/data/tmdata.tar.gz. [3] Huaping Zhang. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. Second SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, July, 2003, pp. 63-70 [4] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1(1): 76-88. [5] P.P.T.M. van Mun. Text Classification in Information Retrieval using Winnow. http://citeseer.ist.psu.edu/cs. [6] Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization[C]. Menlo Park, CA: AAAI Press. 1998, 41-48. [7] SVMTorch. http://www.idiap.ch/~bengio/projects/SVMTorch.html.
常见问题 1. 我从您的主页上下载了部分语料库,但是系统显示文件是access的快捷方式,文件很大,但是不知道如何打开,使用p> 答:不能使用access打开,可以使用UltraEdit打开。 2. 我下载了你主页上的中文语料,解压后在matlab中为什么不能Loadp> 答:”.mat”只是表示该文件存储的是词频矩阵,跟matlab没有关系。 3. 我打开您语料中的.mat文件时有错误,是怎么回事呢您能把它存成其他格式吗,比如.txt文件。 答:可能是因为你采用别的软件来打开它。目前已提供预处理后的txt文件下载。 |
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树人工智能基于Python的监督学习211742 人正在系统学习中 相关资源:鸿威台球室计费系统说明书_棋牌室管理系统-专业指导文档类资源…
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!