上找到的爬虫和反爬虫总结

爬虫策略：
1、(反爬虫专用)代理池了。你们可以去淘宝看下，几十万的代理价值多少钱。我们就不谈到处都有的免费代理了。

2、用python写的爬虫是最薄弱的，因为天生并不适合破解反爬虫逻辑，因为反爬虫都是用javascript来处理。

3、爬去一个公司的数据时，如果PC的页面爬不到，试试H5页面。因为这两个页面通常是两个部门做的

4、检测爬到的数据是否是对方故意造假的数据：①、人工抽查； ②、他们会抓取我们两次，一次是他们解密出来key之后，用正经方式来抓取，这次的结果定为A。一次是不带key，直接来抓，这次的结果定为B。根据前文描述，我们可以知道，B一定是错误的。那么如果A与B相等，说明自己中招了。这个时候会停掉爬虫，重新破解。

5、“人肉爬虫”。假设我们就是有钱，在印度开个分公司，每天雇便宜的劳动力用鼠标直接来点

反爬虫策略：
1、反爬虫都是用javascript来处理

2、封IP
缺点：①、误伤、②、怕爬虫用代理池
然而，问题就出在，IP不是每人一个的。大的公司有出口IP，ISP有的时候会劫持流量让你们走代理，有的人天生喜欢挂代理，有的人为了翻墙24小时挂vpn，最坑的是，现在是移动互联时代，你如果封了一个IP意思，这是中国联通的4G 络，5分钟之前还是别人，5分钟之后就换人了哦！因此，封IP的误伤指数最高。并且，效果又是最差的。因为现在即使是最菜的新手，也知道用(反爬虫专用)代理池了。你们可以去淘宝看下，几十万的代理价值多少钱。我们就不谈到处都有的免费代理了。

3、扫描对方端口，如果开放了代理端口，那就意味着是个代理，我就可以封杀。专门用于封杀代理词的爬虫
缺点：误杀IP
事实是残酷的。我曾经封杀过一个IP，因为他开放了一个代理端口，而且是个很小众的代理端口。不出一天就有人来事件，说我们一个分公司被拦截了。我一查IP，还真是我封的IP。我就很郁闷地问他们IT，开这个端口干什么做邮件服务器啊。我说为啥要用这么奇怪的端口，这不是怕别人猜出来么随便取了个。

4、去订单库查找这个IP是否下过订单，如果没有下过，就封IP。如果下过，那就不封。
缺点：爬虫服务器只需要下一单，就可以永久洗白自己的IP

5、用图片来渲染关键信息，比如价格。这样，人眼可见，机器识别不出来。
缺点：爬虫使用机器学习OCR识别

6、页使用大量的JS/ajax来动态设置爬虫想爬的关键信息

7、识别爬虫后，返回关键数据造假的页面给对方

8、后台运行时，先识别爬虫，但是不抓。过一段时间后，再对识别的爬虫开启拦截或返回造假数据

10、法律途径
缺点：找不到对方爬数据和使用数据的证据。对方一般都是后台分析使用，不会直接拿出来

11、对于允许爬数据的人，开放一个IP白名单

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

上找到的爬虫和反爬虫总结

相关推荐