python爬虫浏览器伪装

一些 站会设置一些反爬策略来限制爬取数据,所以就需要让爬虫伪装成浏览器取爬取数据

常见的反爬机制主要有,分析用户请求的Headrest信息反爬、检测用户行为比如同一IP频繁访问 站、页面的动态加载反爬,

第一种比较常见,本章也主要记述这一种反爬的应对方法,就是User-Agent字段进行检测,当然除了这个字段还会检测其他字段,我们就通过程序伪装一个headers信息

第二种用代理服务器也可以解决

第三种就需要借助一些工具软件了

Fiddler

要伪造headrest信息就得先知道这个信息是什么样的,这个我们可以用Fiddler来进行抓包分析,这个软件可以到官 下载安装

使用前需在浏览器上设置代理服务器

需要注意的几点:

1)代码里没有设置Accept-Encoding字段,如果设置为gzip或deflate就可能 错,此时改成utf-8或gb2312就好了,或者干脆不设置这个字段信息,因为入设置了压缩编码,那么请求的数据就是压缩数据包需要解压才行,但这是伪装的浏览器没有解压功能的程序,所以就不用多此一举

2)用Fiddler做代理服务器爬取 页时, 址要以具体文件名或者‘/’结尾

3)referer字段一般设置为要爬取 页的域名地址或对应 站的主页

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211383 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年10月7日
下一篇 2017年10月7日

相关推荐