因此市场上相关的舆情监测软件产品也是层出不穷,可供用户选择。
从技术角度来看, 络舆情监测其实是众多技术结合的成果。一般来说,舆情监测技术手段主要包括:
一、 络舆情采集
在信息采集步骤中,主要包括 络爬虫(We-bCrawler)和 页清洗(WebPageCleaning)等技术。
络爬虫是一个按照一定规则自动抓取 络信息的程序,又称为 络蜘蛛(WebSpider)。 络爬虫分为三类:通用爬虫(GeneralPurposeWebCrawler) ,面向主题爬虫(
FocusCrawlerorTopicalCrawler) ,面向DeepWeb爬虫(DeepWebCrawler)。考虑到 络舆情监测一般是面向行业监测,倾向于使用面向主题爬虫。
页清洗就是从 页中过滤掉“噪声”数据,提取出 页中有价值的信息内容。 页清洗分析方法主要分为三类:基于树结构分析方法,基于Web挖掘方法,基于正则表达式方法。基于树结构分析方法应用最广,开源软件Htmlparse是比较有代表性的工具,缺点是高度依赖每个 站 页的结构。
二、舆情自动分类
络舆情分类是将收集的舆情进行自动分类,是整理和发现舆情的关键步骤,主要运用到自然语言处理中的文本分类(TextCategorization)和文本聚类(TextClusters)等技术。
三、话题识别与跟踪
话题识别与跟踪(TopicDetectionandTracking)是对 络舆情聚类分析后,通过算法找出热点问题,并通过算法跟踪话题发展过程,是 络舆情监测中的核心技术。
四、文本情感分析
文本情感分析(又称文本倾向性或意见挖掘(OpinionMining)),是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析是自然语言处理技术中新兴的研究课题,具有很大的研究价值和应用价值,一般来说,它分为三个主要研究任务:情感信息抽取、情感信息分类、情感信息的检索与归纳。
识微科技舆情监测服务免费体验入口请戳下方“蓝字”获取。
舆情监测技术手段有哪些? 络舆情监控技术分析_舆情应对_识微科技
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!