Python 络爬虫封锁限制的几种方法

在爬虫时,我们不可避免的会遇到 页的反爬封锁,所以就有了爬虫的攻防,在攻和守之间两股力量不断的抗衡。接下来就讲讲我在爬虫时遇到的一些问题,以及解决的方法。

第一种:封锁user-agent破解

user-agent时浏览器的身份标识, 站就是通过user-agent来确定浏览器类型的。当我们在请求时发现,通过get函数发送的请求返回的内容与在PC浏览器检查的不一样。就可以首先考虑在get函数下的headers属性,把user-agent字段值构造成字典,添加给headers属性。例如:

然后用进行请求,这种方法可以满足部门 页的请求,可以作为遇到问题的第一种尝试。

第二种封锁user-agent的方法就是,携带cookies一些赋给Headers值,把Repuest Headers下的信息都构造成字典,赋给headers属性:

一般利用切换IP地址之后,就可以去爬大部分的 站了,如果一些更高级更安全的 站,现在没有遇到可能今后在遇到了,如果能成功再做记录吧~希望能给看完的各位提供一点解决问题上的思路

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211379 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年1月6日
下一篇 2018年1月6日

相关推荐