【文本分析】基于粤港澳大湾区博物馆访客评价的文本分析

此文是2021年初在深圳大学文化产业研究院黄老师的指导下,与吴同学合作完成的,且于2021年4月发表于《文化深圳》杂志第一期。

文章目录

    • 1 背景
    • 2 研究思路
    • 4 数据基本情况
      • 4.1 粤港澳大湾区的博物馆数据统计
      • 4.2 粤港澳大湾区各城市博物馆的平均得分
    • 5 词云图分析
    • 6 LDA主题聚类分析
      • 6.1 数据处理
      • 6.2 LDA主题聚类
    • 7 文本情感分析
      • 7.1 文本情感分析含义
      • 7.2 基于BosonNLP情感词典的情感分析方法
      • 7.3 基于知 情感词典的情感分析方法
      • 7.4 对比分析两种情感分析方法
    • 8 总结、建议及展望
      • 8.1 总结
      • 8.2 建议
      • 8.3 展望
    • 参考文献

1 背景

2 研究思路

图2:粤港澳大湾区各城市博物馆评价数的饼状图

4.2 粤港澳大湾区各城市博物馆的平均得分

通过对11座粤港澳大湾区城市的博物馆访客评价分数进行平均分计算,发现各城市博物馆的平均得分如表2所示,通过计算得出粤港澳大湾区博物馆的平均得分为4.26,其中东莞、澳门的博物馆平均得分远高于平均分,分值达到4.40以上;而肇庆、中山、佛山、珠海、惠州则低于平均得分,处于4.1-4.2之间,这说明访客对粤港澳大湾区不同城市的博物馆满意度存在较大差异。

表2 粤港澳大湾区城市博物馆的平均得分

城市 平均得分
东莞 4.491
澳门 4.405
江门 4.386
广州 4.335
香港 4.329
深圳 4.289
肇庆 4.181
中山 4.144
佛山 4.111
珠海 4.109
惠州 4.108

图5:LDA主题聚类分析流程

6.2 LDA主题聚类

LDA主题聚类方法是一种无监督的贝叶斯模式,属于无监督的学习方式,在训练时不需要人工标注的训练集,只需要指定文档集和主题的个数,是一种基于概率统计方法的动态主题识别模型,包含词、主题、文档 3 层结构模型[4]。LDA 模型是目前研究和使用得非常广泛的一种主题识别模型,对长文本具有良好的表达能力[5][6][7][MOU1] 。LDA 主题建模利用词频的共现频率进行词组聚类,将庞大的词向量空间转化为主题空间,通过主题降维得到的主题概率分布具有语义特征,可有效地将主题相近的词与词组聚成一类[8]。 除此之外,LDA 主题模型可以用来识别大规模文档集或语料库中潜藏的主题信息,其效果优于混合主题模型( multinomial mixture)等其他主题划分方法[9]。也有学者发现,LDA主题模型在耗时和准确率上均比其他三种主题模型具有明显的优势[10]。因此基于LDA模型对粤港澳大湾区大规模的文档集——博物馆评论进行主题分类,能够有效地提取访客评论中的主要观点。

基于数据处理得到的分词结果,在进行LDA主题聚类前,通过对分词结果进行词性标注,进行字典转换,生成统计词典。基于词典对每个词进行字典向量化,实现文本非结构化数据向结构化数据转化,从而将访客的评论数据转换成向量形式以进行主题聚类。

图7;基于BosonNLP情感词典的情感分析算法框架

7.3 基于知 情感词典的情感分析方法

基于知 情感词典的情感分析原理分为以下几步(算法框架图如图8所示):

(1)对文本进行分句、分词,并将得到的文本语料与哈工大停用词表(文本分析研究领域的主要停用词表)对比,去除停用词;

(2)接着对每一句在线评论进行情感分析,首先判断评论中的情感词数目,如含有积极词,则总积极词数目加1;如含有消极词,则消极词数目加1。

(3)统计情感词过程中还需判断该词前面是否存在程度副词,此处使用“程度级别”词语表,按照等级可分为most(最高)、very(很、非常)、more(更、更多)、ish(稍、一点点)、insufficiently(欠、不)、inverse(少,过少)六个情感程度词典。如果评论文本存在程度副词,则需根据等级赋予不同的权重,乘以情感词数。

(4)因为标点“!”与“往表示情感的加强,所以如果文本句尾存在““!”的符 ,则情感词数目增加一定值。

(5)接着计算整段文本的情感值(积极词值-消极词值),得到该条文本评论的情感倾向。

接下来使用基于知 情感词典的情感分析方法分别对粤港澳大湾区11座城市的博物馆在线评论进行分析,各城市的情感得分高低排序如表5所示。不同于基于访客对博物馆直接整体打分的分析,从情感得分分析,佛山、深圳、广州三座城市的博物馆得分位居前列,访客情感最积极,中山、惠州的博物馆情感得分位居末位。

表5:各城市博物馆情感得分高低排序表

城市 平均得分
佛山 3.94
深圳 3.08
广州 2.97
澳门 2.62
肇庆 2.5
珠海 2.47
江门 2.4
东莞 2.29
香港 2.23
中山 2.11
惠州 1.98

【文本分析】基于粤港澳大湾区博物馆访客评价的文本分析

图9:粤港澳大湾区各城市博物馆情感地图

8 总结、建议及展望

8.1 总结

8.2 建议

8.3 展望

参考文献

[1] Wang, Y 2017. “More Important Than Ever: Measuring Tourist Satisfaction”. Griffith Institute for Tourism Research Report No. 10.

[2] Fuchs, M., W. H?pken, and M. Lexhagen. 2014. “Big Data analytics for knowledge generation in tourism destinations – A case from Sweden.” Journal of Destination Marketing and Management, 3 (4):198-209.

[3] 李向宇.基于词云分析的近5年核心期刊幼儿体育文献研究现状[J].运动,2014(05):79-81.

[4] Blei D M,Ng A Y,Jordan M I. Latent Dirichlet allocation[J]. The Journal of Machine Learning Research,2003( 3) : 993 - 1022.

[5] 胡吉明,陈果. 基于动态 LDA 主题模型的内容主题挖掘与演 化[J]. 图书情

[6] 祝娜,王效岳,杨京,白如江.基于LDA的科技创新主题语义识别研究[J].图书情 工作,2015,59(14):126-134.

[7] 罗恺,袁晓东.基于LDA主题模型与 会 络的专利技术融合趋势研究——以关节机器人为例[J].情 杂志,2021,40(03):89-97.

[8] 李勇,陈晓婷,刘庆莉.供给侧视角下物流技能人才需求与培养匹配分析[J].职业技术教育,2020,41(02):26-30.

[9] 王博,刘盛博,丁堃,刘则渊.基于LDA主题模型的专利内容分析方法[J].科研管理,2015,36(03):111-117.

[10]刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情 科学,2017,35(02):16-21+26.

[11]Ding Y. Topic-based page rank on author cocitation networks [J]. Journal of the American Society for Information Science and Technology,2011,62( 3) : 449 - 466.

[12]陈晨. 博物馆儿童教育现状研究[D].南京师范大学,2017.

[13]周婧景. 博物馆儿童教育研究[D].复旦大学,2013.

[14]赵妍妍, 秦兵, 刘挺. 文本情感分析综述[J]. 软件学 , 2010, 21(8): 1834-1848.

[15]洪巍, 李敏. 文本情感分析方法研究综述[J]. 计算机工程与科学, 2019, 41(04):180-187.

[16]张伟,刘缙,郭先珍.学生褒贬义词典.北京:中国大百科全书出版 ,2004.

[17]史继林,朱英贵.褒义词词典.成都:四川辞书出版 ,2005.

[18]玻森数据:http://static.bosonnlp.com/dev/resource

[19]王文珺. 提升基层博物馆公共服务水平的策略研究[J]. 文物鉴定与鉴赏, 2019, 000(009):142.

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年3月9日
下一篇 2022年3月9日

相关推荐