酒店评论情感分析,亲妈级教程

酒店评论情感分析,采集与分词篇

开篇吐槽一下下。

类似携程这种生活类 站,还有电商类 站,不是驻守被爬的城墙内就是在反爬的道路上行走。不断的更新加密,批量化的采集不断破解并升级程式,并在 络之上布施教程,小白们熬夜拼命的学习。

做一个流水线般的案例示意

采集工具:八爪鱼

采集平台:携程

采集酒店:浙江饭店

错误:刚开始直接找到杭州浙江饭店直接复制链接至八爪鱼采集工具

在打开 页-登录-点击评论元素- 页识别-页面翻页至尾部会自动跳转到杭州酒店列表,所以步骤不可取。

然后我去酒店翻了一下视频教程

可以从第一张图片看到

输入 址- 页识别-取消识别-登录

这里要注意一下啊,登录之后要看右边的采集流程图,再次添加一个打开 页并且把之前复制的 址重新输入一遍,在采集流程下高级选项选择载入Cookies并应用。

页窗口鼠标拖动进度条,翻页按钮点击一下下,设置翻页按钮。

最后点击第一条酒店评论空白处,全选后保存-采集-采集数据就可以啦!

下面这张图是正在采集。

采集杭州浙江饭店携程酒店评论完成并导出表格文件中

打开ROST软件就是上图界面,功能性分析有一个分词,找到酒店评论文本格式路径打开。

这是用ROST分词,分好词的酒店文本

依旧是功能性分析,分词下面有一个词频统计,点击并通过路径打开已经分词的酒店评论文本。

这就是结果,并无什么关系对吧!

因为,我们没有设置分词,用ROST软件自带是不行的,我们需要自行设置。

看上面图-ROST软件工具-自定义文件-分词自定义图表

这个文档需要重新设置修改,完成后保存,在下次分词之前,依旧是ROST软件,工具菜单栏-自定义文件-重载自定义图表可以生效的哟!

篇幅有限写不完,也没有太多时间

最近有太多私+,我这边不+友的请知悉,有事留言

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月3日
下一篇 2022年10月3日

相关推荐