最近看到复旦大学信息科学与工程学院博士生利用Python OCR和正则表达式开发一段代码可以快速的核查几百人的核酸结果。OCR光学字符识别软件开发时基本都是调用的别人的OCR文字识别服务。根据经验OCR的识别有一定的难度最少对图片的清晰度是有要求。心想Python的OCR文本识别库已经发展的这么高精准了么?耳听为虚动手为实开始写代码。今天就为大家介绍下利用Python OCR库识别防疫健康码截图的文本信息。
1、安装OCR库
2、文本识别
3、健康码识别结果
(图一)
(图二)
(图三)
小程序 |
健康码截图 |
识别结果 |
通信行程卡 |
(如上图一) |
绿色 xxx****xxxx的动态行程卡 更新于:2022.04.1115:15:42 您于前14天内到达或途经:河北省xxxx市 |
北京健康宝 |
(如上图三) |
2022年04月11日 15:17:54 未见异常① 名: 姓 x* 身份证 : 查询时间: 04-1115:17 失效时间: 04-1124:00 |
河北健康码 |
(如上图二) |
河北健康码 姓名 x*x 身份证 xxxx**********xxxx 2022-04-1115:15:58 核酸检测:阴性(2021-11-26 检测机构:北京xxxx医院(西城院区) |
4、颜色识别
代码中我们是根据识别的文本来判断是绿码还是红码,难免根据小程序的升级判断结果有误。希望可以根据截图的图片的主要颜色来判断绿码还是红码保险准确些。
5、结论
根据我们识别通信行程卡、北京健康宝、河北健康码的截图。整体OCR的识别还是很准确的。基本上重要的我们想要的数据都可以识别出来,以后可以多用PaddleOCR库识别图片。大家有什么不同的观点可以提出来沟通讨论。
感谢大家的评论、点赞、分享、关注。。。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!