在此次的软件杯的比赛中,我们的题目是: 店工商信息图片文字提取。
基于这次的题目,我认为最为关键就是图片文字的提取功能,在进行资料查阅的工程中,我了解到现有的文字提取的插件是tesseract,在进行了此插件的安装和配置后。
1.第一次实验:只对一张图片进行识别
代码:
结果截图:
结论:可以识别,但是正确率很低,而且他的识别速度很慢,对于识别速度,我能想到的解决办法是对图片进行切割,关于正确率,我觉得需要对图片进行处理来使得这个图片更加清晰,便于识别。
2.题目还要求对于文件中的图片进行识别,为此我做了第二次实验:识别一个文件夹,为了节省时间,我在文件中放入两张图片。
代码:
结果截图;
结论:在此次的两次实验中,我大致能够了解tesseract的使用过程,但是也发现了他的问题,他自带的字库中中文字数太少,且他的识别速度和他的识别正确率都没有很高,所以我接下来的任务就是 进行图片的进一步的处理。
文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览91673 人正在系统学习中 相关资源:PPT中FLASH插入软件.rar-Flash文档类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!