1 urllib和requests相关部分
1.0.虚拟环境搭建(改用anaconda安装了)
- windows虚拟环境搭建链接:https://blog.csdn.net/qq_33404767/article/details/86479820
- Centos搭建虚拟环境:https://jingyan.baidu.com/article/9080802216fee7fd91c80fe1.html
1.1. 爬虫的实际例子
- 搜索引擎(百度,谷歌,360)
- 伯乐在线
- 惠惠购物助手(谷歌上面的一个插件)
- 数据分析研究(数据冰山知乎专栏)
- 抢票软件等
1.2. url详解
- scheme:代表的是访问的协议,一般为http,https或者ftp
- host:主机名
- port: 端口
- path: 查询路径
- query-string:查询字符串
- anchor:锚点
1.3. 常见响应状态码:
- 200:请求正常, 服务器正常的返回数据
- 301:永久重定向
- 302:临时重定向
- 400:请求的url在服务器上找不到
- 403:服务器拒绝访问,权限不够
- 500:服务器内部错误。
1.4. urllib库
- urlopen
- urlretrieve 下载文件,下载图片
- 参数的编解码 urlencode 与 parse_qs
- urlparse和urlsplit提取URL中各个部分的内容
- 注意: urlparse比urlsplit多提取一个params的内容
- params的内容指的是;的东西
- 带请求头的爬虫
- ProxyHandler处理器(代理设置)
- 常用的代理:
- 西刺代理IP:http://www.xicidaili.com/
- 快代理:http://www.kuaidaili.com/
- 代理云:http://www.dailiyun.com/
- 常用的代理:
- cookies
- 用代码模拟登陆实现人人 的个人主页
- cookie信息的加载与保存
1.5. requests库
- 中文文档链接:https://2.python-requests.org//zh_CN/latest/index.html
- Github链接:https://github.com/psf/requests
- requests之 Get
- requests库使用代理
1.6. requests模块爬取拉勾 职位信息
- 注意: 这里没有使用urllib库,requests模块处理session更简单点, 在这里cookie不需要单独传了,session请求会自己带上
- 相关链接:https://blog.csdn.net/qq_40821402/article/details/88654259
2. 手机端爬虫
2.1. Fiddler的安装和使用
https://blog.csdn.net/ychgyyn/article/details/82154433
2.2. 抖音视频的爬取
https://www.cnblogs.com/stevenshushu/p/9635097.html
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!