Python爬虫入门之爬取图片

一、基本概念

通用络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联上的页下载到本地，形成一个互联内容的镜像备份。

聚焦爬虫，是”面向特定主题需求”的一种络爬虫程序，它与通用搜索引擎爬虫的区别在于： 聚焦爬虫在实施页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的页信息。

（1）url ：浏览器地址栏的地址

（2）请求方法：一般就两种。get请求和post请求

（3）请求头：常用 User-Agent：是客户浏览器的名称

浏览器的检查，常用有两个模块Elements和Network

主要用的是Python的第三方库requests库，pip install requests 可以安装。

1、最简单的发送get请求就是通过requests.get来调用：（模拟浏览器的get请求）

2、添加headers和查询参数

3、对响应进行处理

1、常用提取方式

常用的有三种提取方式。css选择器、xpath语法、正则表达式。

学习难度前两者相似，最后一个较高；但效率从低到高。

2、xpath和lxml库

（1）lxml库， C 语言实现的，是一款高性能的 Python HTML/XML 解析器，之后可以XPath语法，来快速的定位特定元素以及节点信息

（2）xpath常用语法：

1、站截图（177页，每页十几张图片）

2、成果截图

3、最终代码

1、学完这些你基本掌握了爬虫的基础流程，利用requests库模拟浏览器发送请求，对服务器返回内容进行解码。之后运用lxml库构建解析树，利用xpath语法提取树中的关键信息节点，最后保存到本地。本案例学完后你基本可以爬取绝大部分站的图片了。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！