15.爬虫之前奏部分

2019年11月19日上午7:44 • 软件工具

1 urllib和requests相关部分

1.0.虚拟环境搭建（改用anaconda安装了）

windows虚拟环境搭建链接：https://blog.csdn.net/qq_33404767/article/details/86479820
Centos搭建虚拟环境：https://jingyan.baidu.com/article/9080802216fee7fd91c80fe1.html

1.1. 爬虫的实际例子

搜索引擎（百度，谷歌，360）
伯乐在线
惠惠购物助手（谷歌上面的一个插件）
数据分析研究（数据冰山知乎专栏）
抢票软件等

1.2. url详解

scheme：代表的是访问的协议，一般为http，https或者ftp
host：主机名
port：端口
path：查询路径
query-string：查询字符串
anchor：锚点

1.3. 常见响应状态码：

200：请求正常，服务器正常的返回数据
301：永久重定向
302：临时重定向
400：请求的url在服务器上找不到
403：服务器拒绝访问，权限不够
500：服务器内部错误。

1.4. urllib库

urlopen

urlretrieve 下载文件，下载图片

参数的编解码 urlencode 与 parse_qs

urlparse和urlsplit提取URL中各个部分的内容
- 注意： urlparse比urlsplit多提取一个params的内容
- params的内容指的是；的东西

带请求头的爬虫

ProxyHandler处理器（代理设置）
- 常用的代理：
  - 西刺代理IP：http://www.xicidaili.com/
  - 快代理：http://www.kuaidaili.com/
  - 代理云：http://www.dailiyun.com/

cookies
用代码模拟登陆实现人人的个人主页

cookie信息的加载与保存

1.5. requests库

中文文档链接：https://2.python-requests.org//zh_CN/latest/index.html
Github链接：https://github.com/psf/requests
requests之 Get

requests库使用代理

1.6. requests模块爬取拉勾职位信息

注意：这里没有使用urllib库，requests模块处理session更简单点, 在这里cookie不需要单独传了，session请求会自己带上
相关链接：https://blog.csdn.net/qq_40821402/article/details/88654259

2. 手机端爬虫

2.1. Fiddler的安装和使用

https://blog.csdn.net/ychgyyn/article/details/82154433

2.2. 抖音视频的爬取

https://www.cnblogs.com/stevenshushu/p/9635097.html

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

潍坊潍县中路新景观带！最快春节前投入使用

上一篇 2019年11月19日

软件往往优于手工计划，为什么企业不用？

下一篇 2019年11月19日