python3爬虫(3):基于urllib3的request库爬取 站图片

python小白群交流:861480019

手机电脑挂机挣零钱群:一毛一毛赚   903271585(每天手机登录然后不用管,一天有不到一块钱的收入,大部分软件可以一块钱提现一次)

注意,申请时说明加入原因,另外这个群都是一群和我一样的小白,大家谁也不说谁,共同进步(ps:写这个文章时,只有我一人)

 

 

  • 前言
  • 预备知识
  • 实战
    • 1 背景
    • 2 requests安装
    • 3 爬取单页目标连接
    • 4 爬取多页目标连接
    • 5 单张图片下载
    • 6 整体代码
  • 总结

 

1 前言

    之前,感觉 上类似于《爬取妹子图》这样的爬虫教程有很多,所以我就没有写爬取图片的实战教程。 最近,有关注我爬虫教程的朋友说,希望我可以出个爬取图片的教程。那么,今天就谈一谈如何爬取图片吧。其实爬取图片相对于一些抓包分析的东西,还是简单很多的,只要找到图片的地址,我们就能够下载下来。别人的爬取图片教程都是爬取《妹子图》,有爬“煎蛋” 的,有爬“妹子图” 的,妹子图片那叫一个劲爆啊!可谓目不暇接。看的我身体也一天不如一天了。出于对广大朋友身体的考虑,今天咱就不爬妹子图了,咱爬《帅哥图》!(PS:我不会告诉你,我是想看看有没有美女程序员光临!)

2 预备知识

    为了也能够学习到新知识,本次爬虫教程使用requests第三方库,这个库可不是Python3内置的urllib.request库,而是一个强大的基于urllib3的第三方库。

    requests库的基础方法如下:

 

 

 

 

    官方中文教程地址:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

    因为官方给出的《快速上手》教程已经整理的很好了,并且本次教程使用的也是最简单的requests.get(),因此第三方库requests的使用方法,不再累述。详情请看官方中文教程,有urllib2基础的人,还是好上手的。

3 实战

3.1 背景

    爬取《帅啊》 的帅哥图片!

    URL : http://www.shuaia.net/index.html

    先看一眼 站的样子:

 

 

3.2 requests安装

    在cmd中,使用如下指令安装第三方库requests:

  • 1

    或者:

  • 1

3.3 爬取单页目标连接

    通过审查元素,我们不难发现,目标的地址存储在class属性为”item-img”的标签的href属性中。这时候,有人可能会问为啥不用下面的标签的src属性为这个图片是首页的浏览图片,根据这个地址保存下来的图片,太小了,并且不清清楚。秉承着热爱“高清无码”的精神,这种图片可不是我想要的。因此,先获取目标的地址,也就是我们点击图片之后,进入的 页地址,然后根据下一个 页,找到图片的地址。

 

 

 

 

    代码:

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

    我们将爬取的信息保存到list中,图片名字和图片地址使用”=”连接,运行结果:

 

 

3.4 爬取多页目标连接

    翻到第二页的时候,很容易就发现地址变为了:www.shuaia.net/index_2.html。第三页、第四页、第五页依此类推。

 

 

 

 

    代码:

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

    我们少爬取一些,爬取前19页的目标连接:

 

 

3.5 单张图片下载

    进入目标地址,审查元素。可以看到,图片地址保存在了class属性为”wr-single-content-list “的div->div->img的src属性中。

 

 

 

 

    代码:

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

    我们将图片保存在程序文件所在目录的imgase目录下:

 

 

 

 

3.6 整体代码

    已经获取到了每张图片的连接,我们就可以下载了。整合下代码,先少下载一点,下载前2页的图片。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年4月9日
下一篇 2018年4月9日

相关推荐