2.功能强大
后羿采集器把采集工作分为两种类型:智能模式和流程图模式。
4.教程详细
后羿采集器的官 提供了两种教程,一种是视频教程,每个视频五分钟左右;一种是图文教程,手把手教学。看完这两类教程后还可以看看他们的文档中心,写的也非常详细,基本覆盖了该软件的各个功能点。
2.翻页功能
我在介绍 web scraper 时曾把 页翻页分为 3 大类:滚动加载、分页器加载和点击下一页加载。
3.复杂表单
对于一些多项联动筛选的 页,后羿采集器也能很好的处理。我们可以利用后裔采集器里的流程图模式,去自定义一些交互规则。
例如下图,我就利用了流程图模式里的点击组件模拟点击筛选按钮,非常方便。
经过我个人的几次测试,我认为流程图模式有一定的学习门槛,但是和从头学习 python 爬虫比起来,学习曲线还是缓和了不少。如果对流程图模式很感兴趣,可以去官 上学习,写的非常详细。
3.XPath/CSS/Regex
无论是什么爬虫软件,他们都是基于一定的规则去抓取数据的。XPath/CSS/Regex 就是几个常见的匹配规则。后羿采集器支持自定义这几种选择器,可以更灵活的选择要抓取的数据。
比如说某个 页里存在数据 A,但只有鼠标移到对应的文字上才会以弹窗的形式显示出来,这时候我们就可以自己写一个对应的选择器去筛选数据。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!