想必大家都知道,几年前国内基本上没有舆情监测软件厂商可以爬到 民评论的数据,就算爬到也是非常少的,不是因为别的,就是因为评论数据难爬,几年前的舆情监测软件行业就是一个刚学会走路的娃娃,爬普通 站都不怎么会爬,怎么去爬那个高难度的评论数据呢?但是现在甲鱼舆情监测软件的爬虫可以爬到 民的评论数据了。
甲鱼舆情监测软件爬取评论数据原理:先把需要爬评论的 站打标签归类,把这些 站的数据采集到放在服务器的一个区域,然后根据每个 站帖子回复的评率,对每条帖子进行回踩,并且把每条回踩的评论单独做一个链接。这样可以方便数据分析师对后期的数据进行分析,这个算法还不是最优的算法。目前甲鱼正在通过区块链的算法来爬评论的数据,如果这样做的话可以大大减少服务器的算力。之前几十台服务器做回踩的事情,可能几台服务器甚至更少的服务器就可以完成。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!