【Paper Note】基于情感分析和关系 络的影视产品评论数据文本挖掘研究

  • 中国知 链接

摘要

Abstract

[Objective] In order to dig the audience’s subjective sentiment on the film and television products, and establish a suitable model to evaluate them. [Methods] This paper establishes the evaluation model to film review data through LDA and relational network. Compared the results with the scores of film website, we obtain more accurate analysis results. [Results] We can get the audience’s subjective sentiment scores from analyzing the film review data with more quality. [Conclusions] There is a believable result about strong-subjective review data, also, the method is applied to the e-commerce and sentiment analysis of public opinion data.
Keywords:LDA;Relational Network;Sentiment Analysis;Film Evaluation;Text Mining

1 引言

2 影视产品评估模型及算法

2.1模型设计

2.2.1数据爬取

2.2.2文本去重与机械压缩去词

2.2.3中文文本分词

在中文中,只有字、句和段落通过标点符 区分,而词与词之间的界定比较模糊,而在模型分析过程中,尤其是进行情感评分时,合理进行中文文本分词显得尤为重要。分词算法可分为:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法三类。

2.3算法设计

根据以上模型,应用LDA主题分析和关系 络两种方法进行建模分析。

2.3.1基于LDA模型的主题分析

文本情感分析又称意见挖掘,通过对自然语言的情感语义进行处理,对文本的住客观性、观点、情绪、极性的挖掘和分析,从中抽取情感词并通过情感程度进行评分。LDA模型在文本聚类、相似度计算等领域均有广泛应用,是一种无监督的学习,引入狄利克雷先验知识,提高模型的泛化能力,有效防止过拟合;此外,LDA模型可以解决多指代问题,在对影视作品评论数据进行分析时更具有优势。
LDA模型采用BOW将评论数据信息转化为数字信息,以便于进行数学建模,其基本原理如下:
每篇影视作品评论数据由主题Z按比例随机混合,并服从多项分布:

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年3月16日
下一篇 2018年3月16日

相关推荐