爬虫第二讲 urllib模块和requests模块

2021年3月17日上午8:41 • 软件开发

文章目录

一、urllib模块
- 1.什么是urllib模块/li>
- - 1.urllib.request模块
  - 2.响应对象
  - 3.urllib.parse模块
  - 5.练习1：输入指定内容在百度中搜索，并保存页内容
  - 6.练习2：输入指定内容在百度贴吧中搜索，并保存多个页内容
  - 7.优化代码
二、requests模块
- 1.安装
- 2.requests常用方法
- 3.响应对象response的方法
- 4.requests模块发送 POST请求
- 5.requests设置代理
- 6.处理不信任的SSL证书
- 7.cookie
- 8.会话

一、urllib模块

1.什么是urllib模块/h2>

python的内置络请求模块
为什么要学习这个模块br> 1，有些比较老的爬虫项目用的就是这个技术
2.有的时候我们去爬取一些数据需要请求和urllib的配合使用
3.内置模块是标准库

示例1

1.urllib.request模块

python2：urllib2，urllib
python3：把urllib和urllib2合并常用的方法

urllib.request.urlopen(“ 址”) 作用：向站发起一个请求并获取响应
字节流 = response.read()
字符串 = response.read().decode(“utf-8”)
urllib.request.Request” 址”,headers=“字典”) urlopen()不支持重构User-Agent

示例1

示例2

2.响应对象

read() 读取服务器响应的内容
getcode() 返回HTTP的响应码
geturl() 返回实际数据的URL(防止重定向问题)

示例

3.urllib.parse模块

常用方法

urlencode(字典)
quote(字符串) (这个里面的参数是个字符串)

示例1

示例2

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

uniapp开发app

上一篇 2021年3月17日

Java开发基础不牢？死锁全详解，一文带你搞定！看完没有不懂的

下一篇 2021年3月17日