Python爬虫教程-29-验证码识别-Tesseract-OCR

本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 Tesseract

Python爬虫教程-29-验证码识别-Tesseract-OCR

  • 常见反爬虫手段:
    • 验证码
      • 1.简单图片,扭曲数字验证码
      • 2.中文顺序点击
      • 3.动态验证码
      • 4.滑动验证:滑动小方块到缺口
      • 5.语音验证
      • 6.极验验证:官 :http://www.geetest.com/
        根据鼠标轨迹,判定是机器人还是用户,很强大的验证机制
  • 对于极验是很厉害的拦截机器人手段,好像是使用人工智能机器学习,当然自己想做验证的话建议使用。对于验证有反爬虫,就有可能有反反爬虫

爬虫-验证码识别

  • 通用方法:
    • 1.下载 页和验证码,或截图
    • 2.然后手动输入验证码
  • 对于简单图片
    • 1.使用图像识别软件或者文字识别软件
    • 2.可以使用第三方图像验证码破解 站
      • 比如:超级鹰:http://www.chaojiying.com/
  • 对于极验,官 :http://www.geetest.com/
    • 可以模拟鼠标移动,具体的方法我还不清楚

通用方法案例

  • 能力有限,这里就介绍通用方法,先下载得到验证图片,然后手动输入
  • Tesseract
    • 机器视觉领域的基础软件
    • OCR:OpticalChracterRecognition,光学文字识别
    • Tesseract:是一个 OCR 库,由 Google 赞助

Tesseract-Windows的安装

  • Tesseract Windows安装包下载:https://digi.bib.uni-mannheim.de/tesseract/
  • 上面链接看着头疼就下我的 盘里的:
    • 链接:https://pan.baidu.com/s/13KRXi-2FCkA9_6MBQ_wxeg 密码:gtp1
  • 安装的话就默认安装就好,如果选中那个在线安装包,会很慢,耐心等下
  • 路径最好不要更改,除非熟练掌握环境变量

Tesseract-macOS的安装

  • 我也没有 MacBook,老师顺口一说,记下了
  • brew install tesseract

Tesseract-Linux的安装

  • 我这里是 Ubuntu 18 其他 Linux 版本不确定,进入管理员用户
  • apt-get install tesseract-ocr

python使用tesseract的工具 pytesseract 的安装

  • 如果使用的是 Anaconda 环境:

    • 进入当前环境:(我的环境名为learn,如果只有一个base环境,忽略此步)

      activate learn

    • 安装 pytesseract

      pip install pytesseract

    • 操作截图

    • 代码 py30pytess.py 文件:

    运行结果

    • 这里是错了一个字符,因为需要用很多数据去训练,才能得到更高的准确率
      这里写图片描述
    • 如果想看训练的部分,点击:Tesseract-OCR-02-使用 jTessBoxEditor 提高文字识别准确率

    更多文章链接:Python 爬虫随笔


    声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年8月1日
下一篇 2018年8月1日

相关推荐