? 后羿采集器——最良心的爬虫软件

2020年6月23日上午8:13 • 软件开发

后羿采集器把采集工作分为两种类型：智能模式和流程图模式。

后羿采集器的官提供了两种教程，一种是视频教程，每个视频五分钟左右；一种是图文教程，手把手教学。看完这两类教程后还可以看看他们的文档中心，写的也非常详细，基本覆盖了该软件的各个功能点。

我在介绍 web scraper 时曾把页翻页分为 3 大类：滚动加载、分页器加载和点击下一页加载。

对于一些多项联动筛选的页，后羿采集器也能很好的处理。我们可以利用后裔采集器里的流程图模式，去自定义一些交互规则。

例如下图，我就利用了流程图模式里的点击组件模拟点击筛选按钮，非常方便。

经过我个人的几次测试，我认为流程图模式有一定的学习门槛，但是和从头学习 python 爬虫比起来，学习曲线还是缓和了不少。如果对流程图模式很感兴趣，可以去官上学习，写的非常详细。

无论是什么爬虫软件，他们都是基于一定的规则去抓取数据的。XPath/CSS/Regex 就是几个常见的匹配规则。后羿采集器支持自定义这几种选择器，可以更灵活的选择要抓取的数据。

比如说某个页里存在数据 A，但只有鼠标移到对应的文字上才会以弹窗的形式显示出来，这时候我们就可以自己写一个对应的选择器去筛选数据。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！