1 兴趣引入

2 基本原理

2.1 浏览器?作原理

2.2 爬??作原理

3 爬虫步骤

3.1 requests.get()

3.1.1 安装 requests 库

3.1.2 requests 库作?

3.1.3 requests 库使?

3.2 Response对象的常?属性

3.2.1 response.status_code

3.2.2 response.content

3.2.3 response.text

3.2.3 response.encoding

4 爬?伦理

4.1 Robots 协议

4.2 协议查看

1 兴趣引入

之前我写过一篇文章，是我博客里面收藏量、点赞量及访客量最多的文章：

爬虫——爬取贵阳房价（Python实现）

这一次，我们更详细的讲解爬虫，小白也能看懂，如果看不懂就直接躺平算了。（哈哈哈）

爬?，从本质上来说，就是利?程序在?上拿到对我们有价值的数据。

2 基本原理

2.1 浏览器?作原理

（1）解析数据：当服务器把数据响应给浏览器之后，浏览器并不会直接把数据丢给我们。因为这些数据是?计算机的语?写的，浏览器还要把这些数据翻译成我们能看得懂的内容； （2）提取数据：我们就可以在拿到的数据中，挑选出对我们有?的数据； （3）存储数据：将挑选出来的有?数据保存在某??件/数据库中。

2.2 爬??作原理

（1）获取数据：爬?程序会根据我们提供的?址，向服务器发起请求，然后返回数据； （2）解析数据：爬?程序会把服务器返回的数据解析成我们能读懂的格式； （3）提取数据：爬?程序再从中提取出我们需要的数据； （4）储存数据：爬?程序把这些有?的数据保存起来，便于你?后的使?和分析。

3 爬虫步骤

下面我们对上图进行详细分析与讲解。

3.1 requests.get()

3.1.1 安装 requests 库

?(1)Mac电脑?打开终端软件（terminal），输?pip3 install requests，然后点击 enter；

?(2) Windows电脑?叫命令提示符（cmd），输?pip install requests 。提示：往后安装其他库时与上?类似，pip install 模块名

3.1.2 requests 库作?

requests 库可以帮我们下载??源代码、?本、图?，甚?是?频。其实，“下载”本质上是向服务器发送请求并得到响应。

3.1.3 requests 库使?

requests.get 是在调?requests库中的get()?法，它向服务器发送了?个请求，括 ?的参数是你需要的数据所在的?址，然后服务器对请求作出了响应。我们把这个响应返回的结果赋值在变量res上。

3.2 Response对象的常?属性

3.2.1 response.status_code

打印 response 的响应状态码，以检查请求是否成功。

3.2.2 response.content

把 Response 对象的内容以?进制数据的形式返回，适?于图?、?频、视频的下载。

3.2.3 response.text

把 Response 对象的内容以字符串的形式返回，适?于?字、??源代码的下载。

3.2.3 response.encoding

能帮我们定义Response对象的编码。（遇上?本的乱码问题，才考虑? res.encoding）

计算机系统及编程语言（底层思维）

4 爬?伦理

4.1 Robots 协议

Robots 协议是互联?爬?的?项公认的道德规范，它的全称是“?络爬?排除标准”（Robots exclusion protocol），这个协议?来告诉爬?，哪些??是可以抓取的，哪些不可以。

4.2 协议查看

（1）在?站的域名后加上 /robots.txt 就可以了。如淘宝的robots协议（ http://w ww.taobao.com/robots.txt ）；（2）协议?最常出现的英?是Allow和Disallow，Allow代表可以被访问，Disallow 代表禁?被访问。文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览211385 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

第一讲：最能入门的爬虫教程（Python实现）

1 兴趣引入

2 基本原理

2.1 浏览器?作原理

2.2 爬??作原理

3 爬虫步骤

3.1 requests.get()

3.1.1 安装 requests 库

3.1.2 requests 库作?

3.1.3 requests 库使?

3.2 Response对象的常?属性

3.2.1 response.status_code

3.2.2 response.content

3.2.3 response.text

3.2.3 response.encoding

4 爬?伦理

4.1 Robots 协议

4.2 协议查看

相关推荐