Python 络爬虫封锁限制的几种方法

2018年1月6日下午1:57 • 软件工具

在爬虫时，我们不可避免的会遇到页的反爬封锁，所以就有了爬虫的攻防，在攻和守之间两股力量不断的抗衡。接下来就讲讲我在爬虫时遇到的一些问题，以及解决的方法。

user-agent时浏览器的身份标识，站就是通过user-agent来确定浏览器类型的。当我们在请求时发现，通过get函数发送的请求返回的内容与在PC浏览器检查的不一样。就可以首先考虑在get函数下的headers属性，把user-agent字段值构造成字典，添加给headers属性。例如：

然后用进行请求，这种方法可以满足部门页的请求，可以作为遇到问题的第一种尝试。

第二种封锁user-agent的方法就是，携带cookies一些赋给Headers值，把Repuest Headers下的信息都构造成字典，赋给headers属性：

一般利用切换IP地址之后，就可以去爬大部分的站了，如果一些更高级更安全的站，现在没有遇到可能今后在遇到了，如果能成功再做记录吧~希望能给看完的各位提供一点解决问题上的思路

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib211379 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！