概述:
什么是爬虫/h3>
我们要学会爬虫,首先要知道什么是爬虫。
络爬虫(又被称为 页 蜘蛛, 络机器人,在 FOAF 区中间,更经常的称为 页追逐者),是一种按照一定的规则,自动地抓取 万维 信息的程序或者脚本。另外一些不常使用的名字还有 蚂蚁、自动索引、模拟程序或者 蠕虫。
- 中文名
- 络爬虫
- web crawler
外文名
- 别 称
- 络蜘蛛
- 按要求获取 万维 信息
目 的
络爬虫是一个自动提取 页的程序,它为搜索引擎从万维 上下载 页,是搜索引擎的重要组成。传统爬虫从一个或若干初始 页的URL开始,获得初始 页上的URL,在抓取 页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的 页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的 页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的 页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
准备工作:
我们使用的是pycharm,关于pycharm的安装及使用可以参考https://blog.csdn.net/yanyangjie/article/details/78259561
使用工具:requests , lxml ,xpath
关于requests的使用可以去看它的官方文档: http://docs.python-requests.org/zh_CN/latest/user/quickstart.html 个人觉得用lxml来解析 页是最快的,关于lxml的使用,可以看这个: http://yifei.me/note/464
xpath是一门在xml文档中查找信息的语言。 xpath可用来在xml文档中对元素和属性进行遍历。xpath的使用可以参考他的教程: http://www.w3school.com.cn/xpath/index.asp
话不多说,开始我们的爬虫之旅
首先找到我们的目标url:https://music.douban.com/top250tart=0
然后用requests请求 页:
再用lxml解析 页:
接下来就可以提取我们想要的数据了
到了这里,我们基本上完成了,完整代码如下:
总结:
爬虫流程:

1、发起请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等
Request模块缺陷:不能执行JS 和CSS 代码
2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库如lxml,bs4等
解析json数据:json模块
解析二进制数据:以wb的方式写入文件
4、保存数据
数据库(MySQL,Mongdb、Redis)
文件
总而言之,爬虫的流程就是爬取——解析——存储
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树预备知识常用开发工具208386 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!