等等,图片错了,应该是这样的爬虫:
我们今天要说的,
就和这些 App 有关。
一、爬虫的“骚操作”
爬虫也分善恶。
像谷歌这样的搜索引擎爬虫,每隔几天对全 的 页扫一遍,供大家查阅,各个被扫的 站大都很开心。这种就被定义为“善意爬虫”。
但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为“恶意爬虫”。(注意,抢票的你觉得开心没用,被扫描的 站觉得不开心,它就是恶意的。)
给你看一张图:
这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。
你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。
没错。抢票软件也不是吃素的。它们在和铁总搞“对抗”。
有一种东西叫做“打码平台”,你可以了解一下。
打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。
当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
航空类爬虫的分布比例
很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷X度假之首选。
为什么爬虫这么青睐亚航呢它便宜。确切地说,因为它经常放出便宜的票。
本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。
据我所知,他们是这样玩的:
技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。
亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后0.00001秒之后,就帮你用你的名字预定了这张票。
“我是中间商,我就要赚差价!”这波骚操作,堪称完美。
2、排名第二的是 交
交的爬虫重灾区,就是你们喜闻乐见的微博。
给你看张图:
凭本事抢来的红包,就问你有什么不妥吗strong>
3、排名第三的是电商
你回忆一下,有几种东西叫做“比价平台”“聚合电商”和“返利平台”。他们大体都是一个原理:
你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择。有淘宝、京东,还有唯品会苏宁易购。
这就是爬虫的功劳。它们去淘宝上,把胖次袜子杜蕾斯的图片和价格统统扒下来,然后在自己这里展示。
它排在前面的 址,有可能就是经过 SEO 的。作为任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就会丧失公立性。它们会通过不定期调整算法来对抗 SEO。
尤其是很多赌博、黄色 站,搜索引擎如果敢收广告费让他们排到前面,那就离倒闭不远了。所以黄赌毒 站只能利用黑色 SEO,强行把自己刷到前面。直到被搜索引擎发现,赶紧对它们“降权”处理。不过御风算了算,这些黄色 站如果能把自己刷到前几位一两个小时,赚来的钱就远远超过 SEO 的费用。
这也就解释了为什么有时我们“众里寻他千百度”,蓦然回首,却看到“有人正在脱裤裤”了。
5、最后再说说政府部门
你看这张图,全是爬虫针对政府信息的爬取。
在这个平台上,你只要输入一个身份证 或者手机 ,就可以查询到一个人的信用情况。拉到最底下一看,这个 站果然是是根红苗正的。
这张图来自极验验证的滑块验证技术
除了刚才这些小模块,企业还可以通过 WAF(Web 应用防火墙)来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求。
但是,爬虫的请求,和真人的请求真的太像了。
我觉得,对这种战争一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。
在我看来,这场对抗爬虫的常规战眼看就要升级为“智能战”,而且战线会向云端转移。
比如腾讯云的 WAF,听说最近就要通过人工智能的方法来识别爬虫。这里就不帮他们打广告了。还有很多其他的云安全厂商,也开始主推反爬虫的技术。
不过,就像人类目前难以消灭癌症一样,企业也难以完全消灭爬虫。但是我相信,在对抗中这条战线会达到一个精妙的平衡。这个战线每向前推进一步,都需要安全研究员付出艰辛的努力。
三、《中国焦虑图鉴》
最后,中哥帮你搞到了一张秘密表格。
这是被监测到的受爬虫侵扰最多的 Top50。(采样数据,仅供参考)
对了,这份《中国爬虫图鉴》我也从云鼎实验室的朋友那里要到啦,如果你想阅读的话,可以上 找来看,也可以加微信跟我要~
另外云鼎实验室的技术可以探测到全 的恶意威胁,还是挺酷的。他们还有其他的 告放出~
当你握紧双手,里面什么也没有;当你打开双手,世界就在你手中。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树人工智能机器学习工具包Scikit-learn212386 人正在系统学习中 相关资源:哨兵软件测试SAS/SATA硬盘软件_hbasas-Web服务器工具类资源-CSDN…
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!