前几天淘宝数据爬不下来,购买使用了几天八爪鱼,现在总结一下。
1.有点贵哦,而且数据爬的很慢
3.点击按钮请求时需要勾选ajax,创建循环需要选择循环类型,设置翻页时候需要设置退出翻页的条件即第几页结束。
八爪鱼爬虫使用总结
- 下载安装八爪鱼
在浏览器搜索八爪鱼,在官方 站下载安装,官方下载地址https://www.bazhuayu.com/download
- 登录
输入账 密码登录
- 操作教程
八爪鱼首页,点击教程,点击更多。
新手入门和八爪鱼8节课这两个是必要掌握的课程。如需其他操作,可以查看相关教程。
- 采集天猫数据:使用已创建好的任务
- 点击左上角我的任务按钮
- 选择一个你要执行任务
- 点击这个任务名
- 点击右上角的流程按钮查看具体流程,因为阿里系的 站有反爬机制,拿数据必须经过登录。
- 扫码登录的,点击本地采集,用自己手机的淘宝扫码二维码【请在30秒内完成】,截图如下A【推荐使用扫码采集】,扫码爬取数据被反爬的频率低,采集更方便
- 账 密码登录的,请在查看流程的时候,把程序里的淘宝账 和密码换成你自己的,否则短信验证或者图片验证的时候会比较尴尬,截图如下B
- 点击开始采集,选择本地采集,然后在电脑前等待采集,期间有滑动验证码或者短信验证码需要人工进行验证
- 附截账 密码采集截图,请按序 点击:
- 点击右上角的流程
- 点击输入文字
- 输入自己淘宝手机
- 点击确定
- 点击保存
- 开始采集
7.等采集完成,点击导出数据,将数据导出就可以了。
- 附扫码采集截图,按顺序:
- 点击开始采集
- 点击本地
- 使用手机上的淘宝APP进行扫码,然后等待采集,等验证码出现的时候进行验证
- 等采集完成,点击导出数据,将数据导出就可以了。
- 清理缓存
由于阿里巴巴的 站监测反爬虫机制比较强大,需要定期清理缓存和切换浏览器版本降低被监测的几率。
清理八爪鱼缓存(清理之前将未导出的数据导出):
切换浏览器版本:
在开始采集之前,开始采集按钮旁边有个设置按钮,点击设置,选择一个新的浏览器版本,点击保存,保存成功后就可以开始采集了。
- 注意事项
爬数据的时候最好用操作人的淘宝账 ,因为阿里会检测账 登录是不是使用常用设备、常用地址。检测之后反爬会频繁影响爬取数据。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!