python爬虫浏览器伪装

一些站会设置一些反爬策略来限制爬取数据，所以就需要让爬虫伪装成浏览器取爬取数据

常见的反爬机制主要有，分析用户请求的Headrest信息反爬、检测用户行为比如同一IP频繁访问站、页面的动态加载反爬，

第一种比较常见，本章也主要记述这一种反爬的应对方法，就是User-Agent字段进行检测，当然除了这个字段还会检测其他字段，我们就通过程序伪装一个headers信息

第二种用代理服务器也可以解决

第三种就需要借助一些工具软件了

Fiddler

要伪造headrest信息就得先知道这个信息是什么样的，这个我们可以用Fiddler来进行抓包分析，这个软件可以到官下载安装

使用前需在浏览器上设置代理服务器

需要注意的几点：

1）代码里没有设置Accept-Encoding字段，如果设置为gzip或deflate就可能错，此时改成utf-8或gb2312就好了，或者干脆不设置这个字段信息，因为入设置了压缩编码，那么请求的数据就是压缩数据包需要解压才行，但这是伪装的浏览器没有解压功能的程序，所以就不用多此一举

2）用Fiddler做代理服务器爬取页时，址要以具体文件名或者‘/’结尾

3）referer字段一般设置为要爬取页的域名地址或对应站的主页

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib211383 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！