Python爬虫、反爬虫和反反爬虫

我主要对反爬虫和反反爬虫做一个简单的总结

我想补充一下关于爬虫和反爬虫，以及为什么要爬虫，为什么要反爬虫，也就是从技术和技术带来的影响的角度来看待爬虫。发现一个很有意思的链接，

爬虫、反爬虫、反反爬虫

1 爬虫、反爬虫、反反爬虫

l 爬虫 —— 使用任何技术手段批量获取站信息的一种方式，关键在批量。

l 反爬虫 —— 使用任何技术手段，阻止别人批量获取自己站信息的一种方式。关键也在于批量。

l 误伤 —— 在反爬虫的过程中，错误的将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能用。

l 拦截 —— 成功地阻止爬虫访问。通常来说，拦截率越高的策略，误伤率就越高，因此要做权衡。

l 资源 —— 机器成本与人力成本的总和。

2 常见的爬虫、反爬虫、反反爬虫手段

爬虫、反反爬虫	反爬虫
对某个站或者APP的数据感兴趣。 [1]
首先分析站/APP [2]的请求与返回数据，然后用python，或Java，或上免费的抓取软件，不断遍历某列表抓取数据存数据库。
	zabbix等监控显示某时间段请求陡增，ip相同，useragent还是JavaClient，直接Nginx封杀这个ip
useragent模仿谷歌或者百度浏览器，再获取十几个代理ip，爬的过程中不断轮询替换ip
	发现ip不断变化，直接每次请求添加用户是否登录的校验
通过注册等各种方法，获取一个真实账，模拟登录，每次请求携带登录产生的cookie或者token。
	健全账权限体系，即拥有A的账，无法获取账 B的数据访问权限。
设置定时器，简单粗暴的直接爬取所有能爬取的数据
	针对多IP的高频访问，Nginx设置频率限制，如某个ip短时间访问超过一定次数就直接屏蔽，一定程度增加爬虫方获取有效IP的成本
写代码爬取ip代理站，或者批量购买高匿代理ip，几千IP轮询爬
	在访问频率上继续做文章，升级ip限制策略，加大ip限制的成功率。
ip大量被封，为了解决这问题，开始模拟人类请求特征，比如每半小时爬取改为随机1-3秒爬一次，爬10次休息10秒，每天只在8-12，18-0点爬，隔几天还休息一下。再比如为了减少请求，能只抓列表页就不抓详情页
	此刻再在访问频率上做限制，可能会误伤真实用户。如果站类型不太注重用户体验，可以访问一定次数强制弹框要求输入验证码
简单的验证码，完全可以自学图像识别的教程（关键词PIL，tesseract），对验证码进行二值化预处理，分割，模式训练后，识别验证码
	针对具有用户行为的爬虫，首先要明白，爬虫与人类在访问特征上最大的不一样在于，人不会长时间持续访问一个站，而爬虫的访问数量会随着时间增长而线性增长。根据这特征，分析请求日志，设置ip黑名单
由于各种限制，单个爬虫轮询ip模拟用户行为进行爬取，效率已经大大降低。这个时候有条件，可以考虑分布式，跨省跨机房，利用ADSL进行长期爬取
	既然无法避免被爬，那就继续加大对方爬取成本
如果死磕到底。。
	只能硬着头皮和他继续死磕，直到一方因为机器成本与人力成本问题放弃。

3 为什么需要反爬虫h3>

l 公司的重要资源被批量爬取，丧失竞争力。

l 爬虫占总PV比例太高，因为高访问量浪费了太多钱。

l 爬虫拖垮了站点，严重影响了用户体验。

l 资源被爬取难以起诉成功，对方可以肆意爬取

4 反爬虫的一些措施

反爬虫的关键在于阻止被批量爬取，重点在批量。反爬虫技术的核心在于不断变更规则，比如不断变更验证码。我们在内容上可以做如下文章：

l 站不同地方的文本内容添加不同的自带标签，增加对方数据清理难度。

l 关键数据由文本转图片，甚至添加水印等。目前市场上图片ocr识别无法有效转文字，让对方即使获取了图片也无法有效使用。

l 站相关页面的列表查询，限制总页数的展示。比如数据一共1K页，相关接口却只对外展示前十页。对方找不到入口最多爬取10页数据。

l 间接关闭站核心数据查看入口，比如内容的查看像百度文库一样改为word、pdf或者ppt下载模式，高频下载需要验证码或者账积分。

l 站不提供注册入口，或者注册需要内部推荐或者评审，加大爬虫方获取账的难度。

l 站的请求url复杂化，比如弄的像淘宝一样没有规律，id改为UUID等。

l 前端页面尽可能不暴露数据的唯一键，对唯一键如主键id等进行伪装，可以增加对方爬取后的去重成本。因为对方爬数据可能是在你的多个模块页面进行多维度爬取，会有大量的重复数据。

l 前端html页面别一次性加载列表，根据用户点击js动态加载。即查询页面源码时，只能看到列表的第一条数据。

l 当确定访问异常时，大量返回虚假数据。爬虫几乎没有判断数据真假的能力，只有人才有。对方发现的越晚，我们的处理应对时间就越充裕。

l 核心数据提高安全等级，单独加密等。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib211383 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

Python爬虫、反爬虫和反反爬虫

1 爬虫、反爬虫、反反爬虫

2 常见的爬虫、反爬虫、反反爬虫手段

3 为什么需要反爬虫h3>

4 反爬虫的一些措施

相关推荐