不会哄女朋友?来,教你爬搞笑图片

今日鸡汤

今天我们要爬取糗事百科中的图片, 站

案例分析

我们做爬虫首先需要找规律,在这其中最喜欢的就是分页栏了。有分页栏就代表当你按下一个页码的时候,HTML 页面会发起请求。有请求就肯定有数据,有数据就一定能抓到。

好,接下来回归正题~

我们打开这个 站,快速的将滚动条拖动到最下面,看到了我们最喜欢的分页栏

简简单单同步请求,肯定用了 get 方法,既然为同步请求,我们就需要解析 HTML 页面,获取每个 标签中的 属性。

接下来继续观察浏览器地址栏中的规律,当我们在第一页的时候为
这个地址。
我们切换至第二页为 这个地址。
这其中有些规律。那将最后的数字改为 3 访问到的页面就是第三页。

好啦,html 跳转的规律和 HTML 请求方式,我们都已经知晓。

接下来解析 HTML 页面,在浏览器中右击查看桌面源代码。

然后使用开发者工具中的元素定位,定位一张图片。

这里需要注意,获取的 属性需要添加 前缀。

好啦,分析完毕啦,接下来 Let’s Coding~

开码

  • 第一步:导入所需模块
  • 第二步:用户输入爬取第几页的内容,或者定义爬取多少图片
  • 第三步,设置
  • 第四步:发请求
  • 第五步:解析返回数据
  • 第六步:保存图片

引入 、、

标题中的三个模块分别为:请求模块,正则表达式模块,系统模块

创建文件夹

用户动态指定爬取图片

发请求并解析数据

为获取的图片链接发请求并存储图片

完整代码

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览210545 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年10月15日
下一篇 2020年10月15日

相关推荐