最强开源OCR！印刷体古籍文字识别超越著名商业软件ABBYY

2018年9月15日上午9:08 • 行业观察

52CV君曾经向大家推介过开源OCR文字识别软件Calamari，其使用了目前最先进的OCR技术，非常值得参考。

通过查看“我爱计算机视觉” 站（www.52cv.net）后台数据，52CV君发现，在来自搜索引擎的自然流量中，该文开源OCR文字识别软件Calamari是站上所有单项技术博文里被阅读次数最多的（虽然当时写的文章并不详细），可见该软件的确很受欢迎。

下面的表格很好的反映了其使用的数据和训练的顺序。

该文要识别的文本图像示例：

在大多数情况下Calamari都取得了压倒性优势！即使Calamari表现不是最好的情况，也仅仅是比商业软件ABBYY稍逊一点点。

如果你想做OCR方便的开发，不妨学习下Calamari！

1.先追求数据大而全，再使用特定任务数据；

2.先合成数据，再真实数据；

3.真实数据抽样，模型提精训练，避免过拟合。

重点来了！

Calamari开源地址：

https://github.com/Calamari-OCR/calamari

论文下载：

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！