爬虫中反爬机制

2022年6月11日下午3:47 • 行业观察

首先说明爬虫的步骤

1.请求页，获取响应结果

2.解析页，提取数据

3.数据持久化

1.User-Agent:将爬虫伪装成浏览器。（haerders）

2.字体反爬：将页面中重要信息使用符进行隐藏。（例如：猫眼，瓜子二手车）

3.动态页面：使用selenium模块（自动化测试的模块）。其意再模拟人的行为使用浏览器

4.人机验证：九宫格选图片、选成语（词语）、图片+计算公式、字母数字验证码、滑块验证、短信验证等

九宫格图片 –> 深度学习。https://cuiqingcai.com/

选成语 –>超级鹰

图片+计算公式、字母数字验证码 —>光学文字识别（ocr）：easyocr，百度非浆，百度AI开发者平台

滑块验证：selenium、pyautogui —>pyautogui ：引入对应的物理原理。达到更加像人再操作电脑

短信验证：接码平台。

5.封IP：可以使用代理IP：激光代理IP、蘑菇代理、站大爷、芝麻代理

6.检测selenium: 滑块验证无法成功。1）加入屏蔽selenium代码。2）修改selenium驱动的底层代码

7. 页中的数据放到图片中: 光学文字识别

8.登录使用：再requests中传入对应的cookie信息，或者再selenium中传入cookie信息。再或者使用selenium操作登录系统

RPA –机器人流程自动化（影刀、八爪鱼、壁虎等） –>从selenium进行的演变。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览210539 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！