文章目录
-
- robots协议
-
- 反爬机制
- 反反爬策略
- UA检测
-
- 反爬机制
- 反反爬策略 UA伪装 UA池
- 封禁IP
-
- 反爬机制
- 反反爬策略 代理IP 代理IP池
环境: Python3.7
工具: Pycharm
robots协议
反爬机制
在域名后面加上robots.txt
反反爬策略 UA伪装 UA池
缺少什么就添加上什么 模拟浏览器发起请求
当你的python爬虫程序发起请求的时候如果不在headers中添加上User-Agent的话就会默认填上python,这样的话绝大多数 站就会拒绝给你发送响应,这时我们要添加上User-Agent在发起请求就可以请求到数据
提取ip的时候一定要把本机ip(手机热点的话就是手机ip,去 上一查就可以了)加入ip白名单中
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览211385 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!