你最关心的马蜂窝事件舆论全景图在这里,用文本挖掘一挖到底

这不是一个国产的问题,前不久Facebook也因面临挑战,在软件中推出反辱骂等限制不良评论的功能。早在1947年,美国学者奥尔波特(Gordon W.Allport)和波斯特曼(Leo Postman)就提出谣言的传播公式:谣言的流通量=事件的重要性×事件的模糊性(Rumor=Importance×Ambiguous)。该公式自提出后一直被学界奉为圭臬。纵观中国互联 企业危机事件的大事记,涉事企业往往保持沉默,置之不理或者回应回避要害,导致事件的模糊性不断放大,而法律诉讼又具有一定的滞后性。几件要素共同作用,形成了 络谣言与真相起此彼伏的奇景,群众看不到事情的真相,涉事企业或委屈满腹,或诚惶诚恐,或羞于提及。虽然互联 拉近了人与人距离,使得信息处理无比高效,不断激发出新的传播方式,可是每一次热点事件爆发,人们距离真相依然非常遥远。

(一)分析篇

一、我们用什么工具一挖到底/span>

原始数据:我们分析了全 2000条以上的新闻数据,数据来自新浪、 易、搜狐等门户 站,以及虎嗅、36氪等科技资讯 站,以上新闻文本数据经过标题去重,也就是说,媒体平台之间相互转发的文章,我们已经将重复标题的新闻文本数据去除。

时间段:10月21日、22日、23日。

工具:编程语言Python,Scrapy爬虫抓取框架,Genism文本分析库,Wordart绘制个性化词云

二、热度指数,大家究竟有多关注br>

图一:热度指数趋势与爆发时间段。

三、关键词词云图,大家都在讨论啥/span>

词云图是文本数据可视化的常用工具,我们选取排名前五十的关键词来绘制关键词云图。可以看到,排名前十的词语分别是:

1.  马蜂窝

2.  点评数据

3.   点评

4.   内容

5.   抄袭

6.   UGC(中文为,用户创造内容)

7.   交易

8.   虚假账

9.   平台

10. 数据造假

舆论关注点一:内容

马蜂窝以游记和攻略起家的公司,与用户有着较深的情感连接,在消费者的品牌意识里,马蜂窝不仅仅是一款旅游产品/平台,它提供给人们的是对于自由生活的向往,是一种不被束缚、逃离俗世的情感归属感,一种正面的价值观。而这种价值观让品牌个性年轻有趣,让人向往,具有很强的品牌领导力,这也是马蜂窝虽然处在在线旅游市场的第二梯队,营业收入(GMV)远远低于第一梯队携程等企业的情况下,其品牌知名度、口碑不亚于第一梯队。正如马蜂窝所主张的:向崇尚自由的加勒比海盗致敬。

关于内容的词汇,以「假」字居多,「抄袭」、「造假」、「虚假」成为核心关键词,可见马蜂窝的品牌形象有所跌落,品牌美誉度受损。

另外,「马蜂窝」一词,在此次事件语境下,一语双关。既是公司名称,又意喻招惹麻烦,惹祸上身。词云图中字体大小与重要度相关。「马蜂窝」一词字体最大最突出。我们可以直观感受到,确实也有不少媒体拿捅了「马蜂窝」用作新闻标题。

那么,投资人和马蜂窝的底气在哪里/span>

第一、如今的马蜂窝已经不仅仅是一家靠出售流量和广告进行导流和转化的平台,慢慢地向一端连接海量用户,一端对接合作商户的平台转变。商业变现的可行性会增强。

第二、旅游消费习惯发生了变化,“专家型”消费者的比例大幅提升。业内人士表示,这一变化也推动着像中青旅这样的老牌企业转型。例如,中青旅的签证业务增长较快,观察用户数据发现,一个中青旅的老用户,一个自然年度在中青旅办七次签证,也不会 名一次跟团游。这种市场的转型,对于马蜂窝是有利的,有旅行需求的专业型消费者越多,对专业的、细致的旅游信息需求越旺盛,这是马蜂窝的优势。

第三、旅游产品具有长决策周期的属性,且消费者对旅游目的地的选择容易受到信息的影响,进而影响决策。如果有刚需存在,受到签证办不下来、航班、线路等负面问题的影响,消费者有较大可能更改旅游目的地。马蜂窝所产出的信息对消费者决策影响力比一般电商所售卖商品的用后评价更有说服力和影响力,提高内容的精准度,就能够带动用户粘性和销售转化率提高。

「投资人」、「资本」、「估值」、「融资」等关键词的本质是有大家都在关心马蜂窝的商业模式和核心盈利能力。这些也是投资人与机构能够为其做出175亿估值,并且买单的原因。这块是本次话题讨论的第二大焦点。相关 道中,存在不少 道直接以175亿作为新闻标题。

在文本聚类的基础上进行典型意见挖掘,话题中的代表性语句包括:

1. 如果大量造假情况真实存在,马蜂窝的融资计划还能顺利进行吗/span>

2. 标题:马蜂窝被曝大规模抄袭用户点评 新一轮融资前陷危机

3. 标题:马蜂窝被爆“点评造假”,或将像熊猫直播一样融资落空/span>

4. 标题:被捅的马蜂窝:融资暗战和五毛党江湖

我们认为,可以做出合理推论:投资机构的投资行为成为困扰舆论的最大问题。

舆论关注点三: 围绕话题风暴的中心「马蜂窝+数据造假」, 民还讨论了什么/span>

当 民在讨论「马蜂窝+数据造假」这个问题时,还讨论了哪些问题们需要挑选出之前 道中出现频率较高的词汇,进行文本相似度计算。技术原理是用Python工具包Gensim跑多种主题算法。

我们选取了“马蜂窝+数据造假”作为检索条件,按照「马蜂窝」「数据造假」的关联词的相关程度,从高到低排序。「承认」「指控」「维护」「攻击行为」「发酵」「歪曲事实」排在前面。分析中可以看出:

第一、大家都在讨论与事实相关的信息。

与事实相关的包括,基于事实的「声明」、「歪曲事实」、对事实的「质疑」、对事实的「否认」,讨论的话题都没有离开事实。换句话说,人民群众高度重视事实,想要了解真相,这是一场围绕寻找事实真相的大讨论。总体看来,追求事实的真相是本次热议的关键。

第二、辩论双方和其举动。

「声明」「承认」与「指控」是爆料团队与被爆料企业在事件中你来我往的举动,也就是说,双方的一举一动都牵动着互联 人民群众的心。「起家」一词也被多次讨论,涉事一共有两方,「起家」显然是关于马蜂窝的企业成长历史,可见关于涉事企业本身的讨论也是热点议题, 民关心涉事企业是一家什么样的企业,拥有哪些服务,有着怎样的历史。「攻击行为」则是属于对于爆料团队的推测。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年9月26日
下一篇 2018年9月26日

相关推荐