爬虫策略:
1、(反爬虫专用)代理池了。你们可以去淘宝看下,几十万的代理价值多少钱。我们就不谈到处都有的免费代理了。
2、用python写的爬虫是最薄弱的,因为天生并不适合破解反爬虫逻辑,因为反爬虫都是用javascript来处理。
3、爬去一个公司的数据时,如果PC的页面爬不到,试试H5页面。 因为这两个页面通常是两个部门做的
4、检测爬到的数据是否是对方故意造假的数据:①、人工抽查; ②、他们会抓取我们两次,一次是他们解密出来key之后,用正经方式来抓取,这次的结果定为A。一次是不带key,直接来抓,这次的结果定为B。根据前文描述,我们可以知道,B一定是错误的。那么如果A与B相等,说明自己中招了。这个时候会停掉爬虫,重新破解。
5、“人肉爬虫”。假设我们就是有钱,在印度开个分公司,每天雇便宜的劳动力用鼠标直接来点
反爬虫策略:
1、反爬虫都是用javascript来处理
2、封IP
缺点:①、误伤、②、怕爬虫用代理池
然而,问题就出在,IP不是每人一个的。大的公司有出口IP,ISP有的时候会劫持流量让你们走代理,有的人天生喜欢挂代理,有的人为了翻墙24小时挂vpn,最坑的是,现在是移动互联 时代,你如果封了一个IP意思,这是中国联通的4G 络,5分钟之前还是别人,5分钟之后就换人了哦!因此,封IP的误伤指数最高。并且,效果又是最差的。因为现在即使是最菜的新手,也知道用(反爬虫专用)代理池了。你们可以去淘宝看下,几十万的代理价值多少钱。我们就不谈到处都有的免费代理了。
3、扫描对方端口,如果开放了代理端口,那就意味着是个代理,我就可以封杀 。 专门用于封杀代理词的爬虫
缺点:误杀IP
事实是残酷的。我曾经封杀过一个IP,因为他开放了一个代理端口,而且是个很小众的代理端口。不出一天就有人来 事件,说我们一个分公司被拦截了。我一查IP,还真是我封的IP。我就很郁闷地问他们IT,开这个端口干什么做邮件服务器啊。我说为啥要用这么奇怪的端口,这不是怕别人猜出来么随便取了个。
4、去订单库查找这个IP是否下过订单,如果没有下过,就封IP。如果下过,那就不封。
缺点:爬虫服务器只需要下一单,就可以永久洗白自己的IP
5、用图片来渲染关键信息,比如价格。这样,人眼可见,机器识别不出来。
缺点:爬虫使用机器学习OCR识别
6、 页使用大量的JS/ajax来动态设置爬虫想爬的关键信息
7、识别爬虫后,返回关键数据造假的页面给对方
8、后台运行时,先识别爬虫,但是不抓。 过一段时间后,再对识别的爬虫开启拦截或返回造假数据
10、法律途径
缺点:找不到对方爬数据和使用数据的证据。对方一般都是后台分析使用,不会直接拿出来
11、对于允许爬数据的人,开放一个IP白名单
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!