php 抓取京东搜索页,京东商品列表页爬虫采集方法 – 八爪鱼采集器

采集场景

在京东搜索页 https://search.jd.com/Search 输入关键词搜索,采集搜索后得到的多个商品列表数据。

教程说明

本篇制作时间:2020/4/24    八爪鱼版本:V8.1.8

如果因 页改版造成 址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。

采集步骤

步骤一、打开 页

步骤二、批量输入多个关键词并搜索

步骤三、创建【循环列表】,采集所有商品列表中的数据

步骤五、创建【循环翻页】,采集多页数据

步骤六、设置滚动和修改【循环翻页】XPath

步骤七、启动采集

以下为具体步骤:

步骤一、打开 页

在首页【输入框】中输入目标 址 https://search.jd.com/Search ,点击【开始采集】,八爪鱼自动打开 页。

2、批量输入多个关键词

① 在【打开 页1】步骤后,添加一个【循环】。

② 将【输入文本】和【点击元素】都拖入【循环】中。

④ 进入【输入文本】设置页面,勾选【使用当前循环里的文本来填充输入框】后保存。

特别说明:

a. 经过以上连续4步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有商品列表,【提取数据】中的字段,对应着每个商品列表中的字段。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。

b.为何通过以上4步,可建立【循环-提取数据】点击查

在【当前页面数据预览】页面,可删除多余字段,修改字段名,移动字段顺序等。

特别说明:

a. 创建【循环翻页】后,八爪鱼会自动点击【下一页】按钮进行翻页,从第1页,第2页……直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情

b.在选中【下一页】范围时,选中的范围不同,弹出的提示也不同。如果选中的是最里层的文字【下一页】,黄色操作提示框中弹出的提示是【循环点击下一页】。如果选中的是最整个【下一页】按钮,黄色操作提示框中弹出的提示是【循环点击单个链接】。两者的作用相同,都是为了实现翻页。

步骤六、设置滚动和修改【循环翻页】XPath

1、设置滚动

点击搜索和翻页后,京东默认只显示前30个商品列表。向下滚动页面到底部,才会加载出全部60个商品列表,在八爪鱼中也需设置滚动。

进入【点击元素】和【点击翻页】设置页面,点开【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【向下滚动一屏】,【滚动次数】为6次,【每次间隔】2秒 ,设置后保存。

2、修改【循环翻页】XPath

默认的【循环翻页】XPath会在最后一页重复翻页,导致其他关键词无法输入并采集,需修改【循环翻页】XPath。

进入【循环翻页】设置页面,修改XPath为://a[@class=”pn-next”]/EM[text()=”下一页”]  。

步骤七、启动采集

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

数据示例:

9475209110fc90f6de2d92e6f31d8e7b.png

拓展阅读

通过以上操作,我们可以获得一批京东商品详情页链接,可使用

相关资源:…手爪、传感器功能包和一个在windows下可以接受力传感器的软件…

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年3月1日
下一篇 2021年3月2日

相关推荐