大家好。
今天给大家介绍一款简单、自动且快捷的Python爬虫工具SmartScraper。SmartScraper使页面数据抓取变得容易,不再需要学习诸如pyquery、beautifulsoup等定位包,我们只需要提供的url和数据给ta学习 页定位规律即可。
一、安装
二、快速上手
2.1 获取相似结果
例如 我们想从 豆瓣读书-小说 页面获得20本书的书名和出版信息
-
P1 https://book.douban.com/tag/小说art=0&type=T
-
P2 https://book.douban.com/tag/小说art=20&type=T
我们使用P1链接训练书名、出版信息这两个字段
运行代码,采集到的results如下
使用刚刚训练的scraper尝试从 P2链接 获取书名和出版信息
2.2 保存模型
训练的smartscraper模型可以保存,后续直接调用
模型导入代码
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211387 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!