斯坦福大学有个工程项目,专门做中文汉字的识别——欧美发达国家的科研院所更有研究精神
提高识别率,训练集是关键!
提高识别率,训练集是关键!!
提高识别率,训练集是关键!!!
下载训练集—traineddata请移步:
https://github.com/tesseract-ocr/tessdata
中文请选如下4个:
chi_sim.traineddata (简体— 对于宋体,像素>= 300dpi:识别率高达%100,同时对英文及阿拉伯数字识别率高达百分之90以上)chi_sim_vert.traineddata (简体,竖排)chi_tra.traineddata (繁体)chi_tra_vert.traineddata(繁体,竖排)【CoderBaby】
- 如何做自己的测试数据集
请参考官 : how to train tesseract
经过测试得出如下结论:
- 对于宋体,白色背景,非倾斜等,像素大于等于300dpi—识别率%100
- 英文和数字,识别率超过90%
- 特殊字符识别率不高
- 像素太低,识别率急剧下降
- 多种背景颜色变化,识别率极低
- 字体换成草书等,识别率大幅降低
- 电影屏幕字幕和 页截图识别率较低
- 扫描件如果字体太淡,太小,完全识别不出来
- 提高识别率,需要自己做训练集,工作量巨大的体力活(简体汉字最少6753个,混合一些复杂的,至少要10000个字符;不同字体要重新做,因为本质上是图形几何计算,国内科研院所和开源的做的不多)
- Java源码实现,tika结合Tesseract-OCR
(1)源码如下(支持多个图片识别)
- 测试数据(图片)说明及下载地址
具体说明及测试效果请参见:https://ocr.space/blog/2015/03/best-ocr-software-for-chinese.html
相关测试图片请参见:https://github.com/A9T9/OCR-Benchmark
(2)原始图片及效果 ()
基于“chi_sim.traineddata ”— 即简体中文训练集
图1
【结论】
300dpi,识别率:%100
图2
转换效果如下:
E g 气
Even as Tvanja praised 8e parties Envoyed i 功 i5 7el gzamt7 comgpi 地 08
Qchieveze1 Q 7W7Der- Ofsocial media lsers appeared crilical of er as-
Sesszet 0f 加 e Trip adiistration「5 role 加 功 i5 endeavou7
IBM 表 示 不 服 ,Google 不 care。 下 而 让 我 们 逐 字 逐 句 来 看 他 们 的 论 文
吧 , 对 于 争 论 的 事 情 , 自 己 下 功 夫 搞 清 楚 。
松 贵 莹 坊 办 少
忠 : https:/ww.cnblogs-com/NaughtyCatpytranslate-of-google-
Quantum-supremacy-article-published-on-nature.html
Quantum supremacy using
a programmable
superconducting
processor
基 于 可 编 程 的 超 导 处 理 器 实 现 的 量 子 霸
权
动 关 盘 源 ,https://doorg/10.1038/s41586-019-1666-5
煌 收 船 2019 乐 7 历 20 历
旋 准 8 船 2019 乐 9 历 20 厂
坊 终 发 疗 2019 知 10 月 23 厅
Abstract
引 言
量 子 计 算 机 吹 牛 遢 说 , 对 于 特 定 的 计 算 任 务 , 基 于 量 子 处 理 器 的 计 算
机 , 其 速 度 相 较 于 经 典 处 理 器 呈 指 数 级 增 长 。 根 本 的 挑 战 在 于 构 建 一
【结论】
宋体,加粗,黑色——识别率%100;倾斜,绿色等——识别率:%70
图4(扫描件).
转化效果如下:
大 行 佳 孔 当 自 弼 不 。
。
巧 者 劳 而 春 者 忱 , 无 能 者 无 所 必 , 作 食 而 邀
游 , 陆 若 不 系 之 舟 。
。
Chacgyuisdt.
。
124565.
。
12256 dogdogunnn
。
。
【结论】
汉字、英文、数字混合
识别率:%60~%70
图6(天气 页截图)
转换效果如下:
机 器 人 餐 厅
cra arenzanmu nnanmes
seeu xraguagpt. ssepumes
人 吊 pahs ztpznaapsus anea
an sro an sessuassnet
e ssoangm crmazees aas
iusiaanorg.mmouz rpeae
snreenatesezur eeae t
+ngszensenapenecieme
矿 svapgzanohat
【结论】
75dpi,识别率:约为%5 【CoderBaby】
图8(电影字幕截图).
转换效果如下:
茂 长 万 灰 咆
恍 “ 望 泷 “ 松 驱
明 匹 一 图 抚 札 狐
东 非 “ 柳 一 吴
埕 跃 X“ 埋 煌 弟
仪 怀 坂 称 鸟 场 “
下 泊 聪 遇 林固 “
| 靴 犹 “
【结论】
竖排,古籍版 (需要“chi_tra.traineddata及“chi_tra_vert.traineddata”)——识别率:%0
图9(手机拍照图片).

转换效果如下:
在 中 国 , 餐 厅 里 的 菜 通 常 很 特 别 , 但 是 有 时 候 做 菜 和 服 务
的 人 也 很 特 别 : 不 久 前 昆 山 一 家 餐 厅 开 业 , 这 家 餐 厅 从 欢 迎 宰
人 、 点 菜 、 制 作 到 上 菜 , 大 部 分 工 作 都 由 机 器 人 完 成 。 餐 厅 经 理
宋 育 刚 对 他 的 “ 员 工 “ 很 满 意 。 这 些 机 咤 人 能 理 解 40 句 日 常 生
活 用 语 , 因 此 可 以 与 顾 客 交 流 。 让 宋 育 刚 最 满 意 的 是 , 他 的 这 些
员 工 们 既 不 会 生 病 也 不 会 请 假 。 充 电 两 个 小 时 后 , 它 们 就 又 能
投 入 使 用 了 , 因 此 它 们 要 比 普 通 员 工 优 秀 。 对 于 顾 客 来 说 , 技 术
水 平 有 没 有 达 到 能 使 这 些 机 蹇 人 厨 师 很 好 地 调 味 还 不 得 而 知 。
不 过 , 机 器 人 厨 师 倒 是 非 常 令 人 期 待 。
【结论】
手机拍照图片,还算清晰的——识别率:%100
参考:
1)https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6
2)http://www.zmonster.me/2015/04/17/tesseract-install-usage.html
************************************************************************
精力有限,想法太多,专注做好一件事就行
- 写博客的意义在于打磨文笔,训练逻辑条理性,加深对知识的系统性理解;如果恰好又对别人有点帮助,那真是一件令人开心的事
************************************************************************
文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览93544 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!