前言：

最近感觉python爬虫很有趣，打算开始系统的学习一下。

简单来说互联是由一个个站点和络设备组成的大，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的页呈现我们眼前；

1、爬虫是什么/h1>

简单来说，络爬虫就是一段程序，它模拟人类访问互联的形式，不停地从络上抓取我们需要的数据。我们可以定制各种各样的爬虫，来满足不同的需求，如果法律允许，你可以采集在页上看到的、任何你想要获得的数据。

爬虫是一种从络上高速提取数据的方式（当然它也可以用作它途，如果需要的话。因为从本质上来说，它就是利用python与站进行交互、并对站返回的结果进行分析和处理的过程）。你可以把爬虫想想成一个机器人（其实它就是个机器人，不过是软件形式上的），坐在一台电脑旁边，不停地点开一个个页，从里面复制指定文本或图片进行保存（假设需求就是保存指定文本或图片）。神奇的是，它的手速非常非常快，一阵眼花缭乱中，本地磁盘中就已经存了一大堆数据。

如果我们把互联比作一张大的蜘蛛，数据便是存放于蜘蛛的各个节点，而爬虫就是一只小蜘蛛，

1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

3、解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

4、保存数据

数据库（MySQL，Mongdb、Redis）

文件

参考文章：
1、http://www.cnblogs.com/linhaifeng/articles/7773496.html
2、https://www.cnblogs.com/sss4/p/7809821.html
3、https://blog.csdn.net/aaronjny/article/details/77885007

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib208019 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

Python爬虫学习笔记1——pathon爬虫原理

前言：

1、爬虫是什么/h1>

1、发起请求

2、获取响应内容

3、解析内容

4、保存数据

相关推荐