适用于特殊类型自然语言分类的自适应特征谱神经 络

适用于特殊类型自然语言分类的自适应特征谱神经 络

王一峰, 孙丽茹, 崔良乐, 赵毅

哈尔滨工业大学(深圳)理学院,广东 深圳 518055

  

摘要计算机算力的提升使得深度学习算法迅速发展,然而由于古诗文特殊的语序、用词、结构、句式、文法结构、表达方式,深度学习模型需要消耗更多的算力进行特征提取等工作,因此并未在这一领域取得广泛的应用。为此,提出了一种新型的神经 络结构——自适应特征谱神经 络。该算法有效减少了运算时间,可以自适应地选择对分类最有用的特征,形成最高效的特征谱,得到的分类结果具有一定的可解释性,而且由于其运行速度快、内存占用小,因此非常适用于学习辅助软件等方面。以此算法为基础,开发了相应的个性化学习平台。该算法使古诗文分类的准确率由93.84%提升到了99%。

关键词自适应特征谱 ; 神经 络 ; 文本分类 ; 古诗词 ; 拉普拉斯矩阵

1 引言

文本分类算法是自然语言处理中很重要的一类算法,在20世纪50年代就已经有科学家借助“专家系统”对文本进行分类,然而该方法可覆盖的范围以及分类准确率都非常有限,只能用于解决一些条件明确、描述清晰且有条理的文本分类问题。随着统计学方法的发展,特别是20世纪90年代后互联 在线文本数量的增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典方法,其主要流程是“人工特征工程+分类器”,即把整个文本分类问题拆分成特征工程和分类器两部分。对于不同类型的文本,特征选取方法是不同的,分类器的设计也是不同的,例如:采用Apriori算法对同时出现在语句中的特征项进行筛选,进而实现分类;基于遗传算法对诗文特征项进行选取,接着利用朴素贝叶斯模型进行分类;通过均值漂移、谱聚类、k-means等聚类算法选取特征,随后采用支持向量机、距离加权最近邻、贝叶斯模型等分类器进行分类。其中,使用聚类算法寻找特征,随后采用加权最近邻分类器的方法是目前对中国古诗文分类准确率最高的一种方法,平均准确率可以达到93.84%,其中,针对某一特定类型古诗词文本的分类准确率最高可以达到96.67%。

2 数据预处理

在机器学习算法中,输入的数据通常是数值型的,因此需要将文字型文本特征转换为数值型数据特征,将输入模型的文本变成向量,从而确保模型可以进行计算和分类。

具体操作是用高频词组成特征库,再将特征库中的词用向量表示。首先,使用Sunday算法查找古诗文中出现频率较高的字词,组成“特征库”。使用Sunday算法的好处是在字符串匹配时可以大幅减少运算时间。Sunday算法查找原理如图1所示。

图2   基于CBOW模型的古诗文特征词向量可视化

从图2可以看到,位置相近、大小相近、颜色相近的特征词具有更加相近的含义。设由CBOW模型得到的特征词t的词向量为

则拉普拉斯矩阵L可表示为:

图3   自适应特征谱神经 络结构

完成神经 络的训练后,得到了现阶段对分类最有意义的特征谱,被称为“最优特征谱”。由于拉普拉斯层与自适应特征谱层之间的 络结构已经完成了根据分类任务筛选特征、给出相应权重的任务,因此在测试或应用时,只保留最优特征谱及后续的输入层、隐藏层、输出层结构,这大大缩短了实际应用时的响应时间。以最优特征谱为基础,对每篇古诗文对应的表示向量做如下操作:用Sunday算法在输入文本中搜索最终保留的m个特征词,假设检索到了k个特征词(k≤m),则对这k个特征词对应的特征谱中的数值进行归一化,之后分别乘以这k个特征词的词向量,最终再对这k个词向量求和。这种方法的本质是以k个特征词在最优特征谱中对应的数值为基础,对其对应的词向量进行加权平均,最终得到可以表示输入文本的文本向量。借助这种方法,该模型的输入维度始终可以保持为词向量的维度,运行速度、内存占用并不会随着输入文本长度的增加而发生明显变化。

4 实验结果与改进空间

图5   不同特征词对山水田园类文本的表示能力可视化

图6表示同时将400个特征词对4个维度的信息进行了可视化:爱情类为竖轴,山水田园类为横轴,在坐标轴上的投影值越大表示对该类型文本的表示能力越强;圆圈的大小表示该特征词对忧国忧民类古诗文本的表示能力,颜色深浅表示该特征词对哲理类古诗文本的表示能力。

图7   k-means算法聚类结果:忧国忧民类文本特征

图9   谱聚类算法聚类结果:哲理类文本特征

5 性能分析及应用

在完成大量的迭代计算之后,自适应特征谱神经 络得到了充分的训练。训练完成的自适应特征谱神经 络会对不同的输入文本提取不同的特征词,并为其分配不同的权重。以古诗文《孔雀东南飞》为例,自适应特征谱神经 络根据不同文字的组合方式,对文中有助于主题分类的特征词进行提取,并为其分配了适当的权重,该权重经过后续 络结构的运算即可得到最终的分类结果。按照文本中不同特征词权重的数值,生成《孔雀东南飞》的专属特征词词云图,如图11所示。特征词在词云图中的大小与其被自适应特征谱神经 络赋予的权重成正比。

从图11可以看出,自适应特征谱神经 络为《孔雀东南飞》中的“姻”“缘”“情”“相”“望”等字赋予了较大的权重,这些特征词与“爱情”的联系确实较为密切,符合人们的日常认知。然而同样和“爱情”关系密切的“妻”“女”“君”“愁”“怨”“泪”“嫁”等字则未被赋予太大的权重,这说明自适应特征谱神经 络认为这些字在文中的出现形式和组合方式对“爱情”这一主题的代表性不强,或者这些字的出现方式与家国类、哲理类等其他类型的古诗文类似,因此只被赋予了中等大小的权重。而诸如“安”“山”“水”等字,自适应特征谱神经 络认为其与“爱情”并无明显关系,因此对其赋予的权重极小,这也与人们的日常认知相符。由此可见,自适应特征谱神经 络确实可以自适应地提取有助于分类的特征。

图12   自适应特征谱神经 络对不同古诗文本提取特征词所生成的词云图

目前,笔者已经以自适应特征谱神经 络算法为基础,与相关科技公司合作,开发了一款古诗文主题分类App,如图13所示。当用户在文本框中输入古诗文内容后,下方会显示该古诗文所属不同类别的概率柱状图,同时会输出一张由自适应特征谱神经 络给出的特征词权重所生成的词云图作为分类依据。由此可见,该算法具有一定的创新性,并且在市场上具有广阔的应用前景。

文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34609 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年7月19日
下一篇 2020年7月19日

相关推荐