Python爬虫入门之爬取图片

一、基本概念

  1. 通用爬虫和聚焦爬虫

通用 络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联 上的 页下载到本地,形成一个互联 内容的镜像备份。

聚焦爬虫,是”面向特定主题需求”的一种 络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施 页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的 页信息。

  1. HTTP和HTTPS请求

(1)url : 浏览器地址栏的地址

(2)请求方法:一般就两种。get请求和post请求

(3)请求头:常用 User-Agent:是客户浏览器的名称

  1. 抓包工具

浏览器的检查,常用有两个模块ElementsNetwork

二、数据请求

主要用的是Python的第三方库requests库,pip install requests 可以安装。

1、最简单的发送get请求就是通过requests.get来调用:(模拟浏览器的get请求)


2、添加headers和查询参数


3、对响应进行处理


三、数据提取

1、常用提取方式

常用的有三种提取方式。css选择器、xpath语法、正则表达式。

学习难度前两者相似,最后一个较高;但效率从低到高。

2、xpath和lxml库

(1)lxml库, C 语言实现的,是一款高性能的 Python HTML/XML 解析器,之后可以XPath语法,来快速的定位特定元素以及节点信息

(2)xpath常用语法:


四、保存数据


五、爬取彼岸桌面 所有美女图片(1080P高清图)

1、 站截图(177页,每页十几张图片)

2、成果截图

3、最终代码


六、总结

1、学完这些你基本掌握了爬虫的基础流程,利用requests库模拟浏览器发送请求,对服务器返回内容进行解码。之后运用lxml库构建解析树,利用xpath语法提取树中的关键信息节点,最后保存到本地。本案例学完后你基本可以爬取绝大部分 站的图片了。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月19日
下一篇 2021年1月19日

相关推荐