八爪鱼抓取html,最全的八爪鱼循环提取 站 页数据方法.docx

八爪鱼·云采集 络爬虫软件

八爪鱼·云采集 络爬虫软件

最全的八爪鱼循环提取 页数据方法

在八爪鱼中,创建循环列表有两种方式,适用于列表信息采集、列表及详情页采集,是由八爪鱼自动创建的。当手动创建的循环不能满足需求的时候,则需要我们手动创建或者修改循环,以满足更多的数据采集需求。

循环的高级选项中,有5大循环方式:URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。

URL循环

适用情况:在多个同类型的 页中, 页结构和要采集的字段相同。

示例 址:

HYPERLINK “/subject” /subject

HYPERLINK “/subject/6311303/” /subject/6311303/

HYPERLINK “/subject/1578714/” /subject/1578714/

HYPERLINK “/subject” /subject

HYPERLINK “/subject” /subject

HYPERLINK “/subject” /subject

操作演示:

具体请看此教程: HYPERLINK “/tutorialdetail-1/urlxh_7.html” /tutorialdetail-1/urlxh_7.html

文本循环

适用情况:在搜索框中循环输入关键词,采集关键词搜索结果的信息。

实现方式:通过文本循环方式,实现循环输入关键词,采集关键词搜索结果。

示例 址:/

操作演示:

具体请看此教程: HYPERLINK “/tutorialdetail-1/wbxh_7.html” /tutorialdetail-1/wbxh_7.html

注意事项:有的 页,点击搜索按钮后,页面会发生变化,只能采集到第一个关键词的数据,则打开 页步骤需放在文本循环内。

例: HYPERLINK “/” /

如图,如果将打开 页步骤,放在循环外,则只能提取到第一个关键词的搜索结果文本,不能提取到第二个关键词的搜索结果文本,文本循环流程不能正常执行。

经过调整,将打开 页步骤,放到循环内,则可以提取到两个关键词的搜索结果文本,文本循环流程可正常执行。

具体情况此教程:: HYPERLINK “/tutorialdetail-1/urlxh_7.html” /tutorialdetail-1/urlxh_7.html

三、单个元素循环

适用情况:需循环点击页面内的某个按钮。例如:循环点击下一页按钮进行翻页。

实现方式:通过单个元素循环方式,达到循环点击下一页按钮进行翻页目的。

定位方式:使用xpath定位,始终定位到下一页按钮。

示例 址: HYPERLINK “/guide/demo/genremoviespage1.html” /guide/demo/genremoviespage1.html

操作示例:

具体请看此教程: HYPERLINK “/tutorialdetail-1/fylb-70.html” /tutorialdetail-1/fylb-70.html

四、固定元素列表循环

适用情况: 页上要采集的元素是固定数目的。

实现方式:通过固定因素列表循环,循环页面内的固定元素。

定位方式:使用xpath定位,一条xpath对应循环列表中的一个元素。

示例 址: HYPERLINK “/” /

操作示例:

操作说明:示例中,我们通过“选中页面内第一个链接”,选择“选中全部”,继续选择“循环点击每个链接”,建立了一个循环点击元素的循环,自动生成的循环方式是:固定元素列表。打开固定元素列表查看,20条循环xpath,对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。

这里涉及了xpath相关内容,可参考此xpath教程:

xpath入门1: HYPERLINK “/tutorialdetail-1/xpathrm1.html” /tutorialdetail-1/xpathrm1.html

五、不固定元素列表循环

适用情况: 页上要采集的元素不是固定数目。

实现方式:通过不固定因素列表循环,循环页面内的不固定元素。

定位方式:使用xpath定位,一条xpath对应循环列表中的多个元素。

示例 址: HYPERLINK “/” /

操作示例:

操作说明:通过观察八爪鱼固定元素列表循环中生成的xpath:

//UL[@class=’news-list’]/LI[1]/DIV[2]/H3[1]/A[1]

//UL[@class=’news-list’]/LI[2]/DIV[2

相关资源:…手爪、传感器功能包和一个在windows下可以接受力传感器的软件…

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年5月1日
下一篇 2021年5月1日

相关推荐