八爪鱼爬虫采集天猫商品数据教程

八爪鱼使用教程

工作记录,以防忘记。

1.下载八爪鱼,官 自行下载

下载之后,一键傻瓜式安装。

注册一个免费账 ,登录。

2.目标 站。就拿天猫的冰箱类目作为例子吧。

天猫还是很良心的,提供的页面数据都是有规律的,很好抓取。

3.打开八爪鱼软件,界面还是比较友好的,我很喜欢。

 

选择自定义采集,这时会生成一个新的采集任务。输入目标 站的链接,支持多种方式。

保存 址,进入采集设置的页面。

点击“下一页”,操作选择“循环点击下一页”。

选择要采集的元素内容,比如我想采集商品名称,点击商品名称,操作选择“选择全部”

选择要采集的内容,这里我采集商品名+链接。

最后看一下流程。设置一些采集过程的变量,比如时间,IP池等等。恩,没问题可以开始采集了。

点击开始采集,数据就采集下来啦。

 

遇到的坑

1.虽然天猫的数据还是挺好采集的,但是!天猫还是做了一些反爬限制,比如访问多了,需要登录或者验证。建议在爬取数据前先登录淘宝账 ,中途不会跳出登录界面。出现验证的话,没办法,只能使用代理IP池。自己弄一个,或者图省事买一个。

2.八爪鱼好像不支持对JSON文件的采集,后面再研究看看吧。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年7月1日
下一篇 2019年7月1日

相关推荐