用八爪鱼获取微博 区管理中心的举 文本
由于想做一些关于虚假新闻检测的工作,希望获得一些时间较新、具有文本内容、时间、评论、图片等多元化数据。
但已开源的数据集,包括politifact、gossipcop(获取链接:https://github.com/KaiDMML/FakeNewsNet)常由于url已无法访问或Twitter权限等问题,无法采集到足够的数据。
已公开的微博谣言数据集(获取链接:https://github.com/thunlp/Chinese_Rumor_Dataset)的时间较早,为2009-2017年的数据。
因此,在朋友推荐下尝试使用八爪鱼软件对微博 区管理中心的举 信息进行抓取,记录下过程,方便后续查看。
1. 八爪鱼软件
下载并安装八爪鱼。
下载地址:https://www.bazhuayu.com/
2. 获取所有微博举 详情的链接和信息
① 按下图步骤新建任务
② 改浏览页面为浏览模式
③ 设置登录cookie
④ 设置转到要采集数据的页面的步骤
按下图所示步骤,设置点击投诉大厅的步骤:
⑤ 采集微博举 详情的链接和信息
在以下页面点击自动识别:
⑥开始采集信息
可以注意到,流程图中具有以下的循环块:

3. 获取所有微博被举 的文本和图片等详细信息
啊~好难写。写个思路吧:
把刚刚获取到的第二列链接单独提出来,新建任务,从文件导入链接。
设置循环打开页面,按照第2大步中的点击按钮的方法、设置cookie的方法等等操作流程图上的步骤,进行采集。如果有问题,欢迎留言~
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!