15.爬虫之前奏部分

1 urllib和requests相关部分

1.0.虚拟环境搭建(改用anaconda安装了)

  • windows虚拟环境搭建链接:https://blog.csdn.net/qq_33404767/article/details/86479820
  • Centos搭建虚拟环境:https://jingyan.baidu.com/article/9080802216fee7fd91c80fe1.html

1.1. 爬虫的实际例子

  • 搜索引擎(百度,谷歌,360)
  • 伯乐在线
  • 惠惠购物助手(谷歌上面的一个插件)
  • 数据分析研究(数据冰山知乎专栏)
  • 抢票软件等

1.2. url详解

  • scheme:代表的是访问的协议,一般为http,https或者ftp
  • host:主机名
  • port: 端口
  • path: 查询路径
  • query-string:查询字符串
  • anchor:锚点

1.3. 常见响应状态码:

  • 200:请求正常, 服务器正常的返回数据
  • 301:永久重定向
  • 302:临时重定向
  • 400:请求的url在服务器上找不到
  • 403:服务器拒绝访问,权限不够
  • 500:服务器内部错误。

1.4. urllib库

  • urlopen
  • urlretrieve 下载文件,下载图片
  • 参数的编解码 urlencode 与 parse_qs
  • urlparse和urlsplit提取URL中各个部分的内容
    • 注意: urlparse比urlsplit多提取一个params的内容
    • params的内容指的是;的东西
  • 带请求头的爬虫
  • ProxyHandler处理器(代理设置)
    • 常用的代理:
      • 西刺代理IP:http://www.xicidaili.com/
      • 快代理:http://www.kuaidaili.com/
      • 代理云:http://www.dailiyun.com/
  • cookies
  • 用代码模拟登陆实现人人 的个人主页
  • cookie信息的加载与保存

1.5. requests库

  • 中文文档链接:https://2.python-requests.org//zh_CN/latest/index.html
  • Github链接:https://github.com/psf/requests
  • requests之 Get
  • requests库使用代理

1.6. requests模块爬取拉勾 职位信息

  • 注意: 这里没有使用urllib库,requests模块处理session更简单点, 在这里cookie不需要单独传了,session请求会自己带上
  • 相关链接:https://blog.csdn.net/qq_40821402/article/details/88654259

2. 手机端爬虫

2.1. Fiddler的安装和使用

https://blog.csdn.net/ychgyyn/article/details/82154433

2.2. 抖音视频的爬取

https://www.cnblogs.com/stevenshushu/p/9635097.html

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年11月19日
下一篇 2019年11月19日

相关推荐