八爪鱼·云采集 络爬虫软件
八爪鱼·云采集 络爬虫软件
最全的八爪鱼循环提取 页数据方法
在八爪鱼中,创建循环列表有两种方式,适用于列表信息采集、列表及详情页采集,是由八爪鱼自动创建的。当手动创建的循环不能满足需求的时候,则需要我们手动创建或者修改循环,以满足更多的数据采集需求。
循环的高级选项中,有5大循环方式:URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。
URL循环
适用情况:在多个同类型的 页中, 页结构和要采集的字段相同。
示例 址:
HYPERLINK “/subject” /subject
HYPERLINK “/subject/6311303/” /subject/6311303/
HYPERLINK “/subject/1578714/” /subject/1578714/
HYPERLINK “/subject” /subject
HYPERLINK “/subject” /subject
HYPERLINK “/subject” /subject
操作演示:
具体请看此教程: HYPERLINK “/tutorialdetail-1/urlxh_7.html” /tutorialdetail-1/urlxh_7.html
文本循环
适用情况:在搜索框中循环输入关键词,采集关键词搜索结果的信息。
实现方式:通过文本循环方式,实现循环输入关键词,采集关键词搜索结果。
示例 址:/
操作演示:
具体请看此教程: HYPERLINK “/tutorialdetail-1/wbxh_7.html” /tutorialdetail-1/wbxh_7.html
注意事项:有的 页,点击搜索按钮后,页面会发生变化,只能采集到第一个关键词的数据,则打开 页步骤需放在文本循环内。
例: HYPERLINK “/” /
如图,如果将打开 页步骤,放在循环外,则只能提取到第一个关键词的搜索结果文本,不能提取到第二个关键词的搜索结果文本,文本循环流程不能正常执行。
经过调整,将打开 页步骤,放到循环内,则可以提取到两个关键词的搜索结果文本,文本循环流程可正常执行。
具体情况此教程:: HYPERLINK “/tutorialdetail-1/urlxh_7.html” /tutorialdetail-1/urlxh_7.html
三、单个元素循环
适用情况:需循环点击页面内的某个按钮。例如:循环点击下一页按钮进行翻页。
实现方式:通过单个元素循环方式,达到循环点击下一页按钮进行翻页目的。
定位方式:使用xpath定位,始终定位到下一页按钮。
示例 址: HYPERLINK “/guide/demo/genremoviespage1.html” /guide/demo/genremoviespage1.html
操作示例:
具体请看此教程: HYPERLINK “/tutorialdetail-1/fylb-70.html” /tutorialdetail-1/fylb-70.html
四、固定元素列表循环
适用情况: 页上要采集的元素是固定数目的。
实现方式:通过固定因素列表循环,循环页面内的固定元素。
定位方式:使用xpath定位,一条xpath对应循环列表中的一个元素。
示例 址: HYPERLINK “/” /
操作示例:
操作说明:示例中,我们通过“选中页面内第一个链接”,选择“选中全部”,继续选择“循环点击每个链接”,建立了一个循环点击元素的循环,自动生成的循环方式是:固定元素列表。打开固定元素列表查看,20条循环xpath,对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。
这里涉及了xpath相关内容,可参考此xpath教程:
xpath入门1: HYPERLINK “/tutorialdetail-1/xpathrm1.html” /tutorialdetail-1/xpathrm1.html
五、不固定元素列表循环
适用情况: 页上要采集的元素不是固定数目。
实现方式:通过不固定因素列表循环,循环页面内的不固定元素。
定位方式:使用xpath定位,一条xpath对应循环列表中的多个元素。
示例 址: HYPERLINK “/” /
操作示例:
操作说明:通过观察八爪鱼固定元素列表循环中生成的xpath:
//UL[@class=’news-list’]/LI[1]/DIV[2]/H3[1]/A[1]
//UL[@class=’news-list’]/LI[2]/DIV[2
相关资源:…手爪、传感器功能包和一个在windows下可以接受力传感器的软件…
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!