一、基本概念
- 通用爬虫和聚焦爬虫
通用 络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联 上的 页下载到本地,形成一个互联 内容的镜像备份。
聚焦爬虫,是”面向特定主题需求”的一种 络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施 页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的 页信息。
- HTTP和HTTPS请求
(1)url : 浏览器地址栏的地址
(2)请求方法:一般就两种。get请求和post请求
(3)请求头:常用 User-Agent:是客户浏览器的名称
- 抓包工具
浏览器的检查,常用有两个模块Elements和Network
二、数据请求
主要用的是Python的第三方库requests库,pip install requests 可以安装。
1、最简单的发送get请求就是通过requests.get来调用:(模拟浏览器的get请求)
2、添加headers和查询参数
3、对响应进行处理
三、数据提取
1、常用提取方式
常用的有三种提取方式。css选择器、xpath语法、正则表达式。
学习难度前两者相似,最后一个较高;但效率从低到高。
2、xpath和lxml库
(1)lxml库, C 语言实现的,是一款高性能的 Python HTML/XML 解析器,之后可以XPath语法,来快速的定位特定元素以及节点信息
(2)xpath常用语法:
四、保存数据
五、爬取彼岸桌面 所有美女图片(1080P高清图)
1、 站截图(177页,每页十几张图片)
2、成果截图
3、最终代码
六、总结
1、学完这些你基本掌握了爬虫的基础流程,利用requests库模拟浏览器发送请求,对服务器返回内容进行解码。之后运用lxml库构建解析树,利用xpath语法提取树中的关键信息节点,最后保存到本地。本案例学完后你基本可以爬取绝大部分 站的图片了。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!