舆情监测技术手段主要包括哪些?

从技术角度来看, 络舆情监测其实是众多技术结合的成果。一般来说,舆情监测技术手段主要包括:

一、 络舆情采集

在信息采集步骤中,主要包括 络爬虫(We-bCrawler)和 页清洗(WebPageCleaning)等技术。

络爬虫是一个按照一定规则自动抓取 络信息的程序,又称为 络蜘蛛(WebSpider)。 络爬虫分为三类:通用爬虫(GeneralPurposeWebCrawler) ,面向主题爬虫(FocusCrawlerorTopicalCrawler) ,面向DeepWeb爬虫(DeepWebCrawler)。考虑到 络舆情监测一般是面向行业监测,倾向于使用面向主题爬虫。

页清洗就是从 页中过滤掉“噪声”数据,提取出 页中有价值的信息内容。 页清洗分析方法主要分为三类:基于树结构分析方法,基于Web挖掘方法,基于正则表达式方法。基于树结构分析方法应用最广,开源软件Htmlparse是比较有代表性的工具,缺点是高度依赖每个 站 页的结构。

二、舆情自动分类

络舆情分类是将收集的舆情进行自动分类,是整理和发现舆情的关键步骤,主要运用到自然语言处理中的文本分类(TextCategorization)和文本聚类(TextClusters)等技术。

三、话题识别与跟踪

话题识别与跟踪(TopicDetectionandTracking)是对 络舆情聚类分析后,通过算法找出热点问题,并通过算法跟踪话题发展过程,是 络舆情监测中的核心技术。

四、文本情感分析

文本情感分析(又称文本倾向性或意见挖掘(OpinionMining)),是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析是自然语言处理技术中新兴的研究课题,具有很大的研究价值和应用价值,一般来说,它分为三个主要研究任务:情感信息抽取、情感信息分类、情感信息的检索与归纳。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年5月27日
下一篇 2022年5月27日

相关推荐

发表回复

登录后才能评论