爬虫中反爬机制
首先说明爬虫的步骤
1.请求 页,获取响应结果
2.解析 页,提取数据
3.数据持久化
爬虫 —— 页反爬——进行反 页反爬(反 反爬)
1.User-Agent:将爬虫伪装成浏览器。(haerders)
2.字体反爬:将页面中重要信息使用符 进行隐藏。(例如:猫眼,瓜子二手车)
3.动态页面:使用selenium模块(自动化测试的模块)。其意再模拟人的行为使用浏览器
4.人机验证:九宫格选图片、选成语(词语)、图片+计算公式、字母数字验证码、滑块验证、短信验证等
九宫格图片 –> 深度学习。https://cuiqingcai.com/
选成语 –>超级鹰
图片+计算公式、字母数字验证码 —>光学文字识别(ocr):easyocr,百度非浆,百度AI开发者平台
滑块验证:selenium、pyautogui —>pyautogui :引入对应的物理原理。 达到更加像人再操作电脑
短信验证:接码平台。
5.封IP: 可以使用代理IP: 激光代理IP、蘑菇代理、站大爷、芝麻代理
6.检测selenium: 滑块验证无法成功。1)加入屏蔽selenium代码。2)修改selenium驱动的底层代码
7. 页中的数据放到图片中: 光学文字识别
8.登录使用:再requests中传入对应的cookie信息,或者再selenium中传入cookie信息。再或者使用selenium操作登录系统
RPA –机器人流程自动化(影刀、八爪鱼、壁虎等) –>从selenium进行的演变。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览210539 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!