爬虫 第二讲 urllib模块和requests模块

文章目录

  • 一、urllib模块
    • 1.什么是urllib模块/li>
      • 1.urllib.request模块
      • 2.响应对象
      • 3.urllib.parse模块
      • 5.练习1:输入指定内容在百度中搜索,并保存 页内容
      • 6.练习2:输入指定内容在百度贴吧中搜索,并保存多个 页内容
      • 7.优化代码
  • 二、requests模块
    • 1.安装
    • 2.requests常用方法
    • 3.响应对象response的方法
    • 4.requests模块发送 POST请求
    • 5.requests设置代理
    • 6.处理不信任的SSL证书
    • 7.cookie
    • 8.会话

一、urllib模块

1.什么是urllib模块/h2>

python的内置 络请求模块
为什么要学习这个模块br> 1,有些比较老的爬虫项目用的就是这个技术
2.有的时候我们去爬取一些数据需要请求和urllib的配合使用
3.内置模块是标准库

示例1

1.urllib.request模块

python2:urllib2,urllib
python3:把urllib和urllib2合并常用的方法

  • urllib.request.urlopen(“ 址”) 作用 :向 站发起一个请求并获取响应
  • 字节流 = response.read()
  • 字符串 = response.read().decode(“utf-8”)
  • urllib.request.Request” 址”,headers=“字典”) urlopen()不支持重构User-Agent

示例1

示例2

2.响应对象

  • read() 读取服务器响应的内容
  • getcode() 返回HTTP的响应码
  • geturl() 返回实际数据的URL(防止重定向问题)

示例

3.urllib.parse模块

常用方法

  • urlencode(字典)
  • quote(字符串) (这个里面的参数是个字符串)

示例1

示例2

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年3月17日
下一篇 2021年3月17日

相关推荐