软件杯-题目和插件

在此次的软件杯的比赛中,我们的题目是: 店工商信息图片文字提取。

基于这次的题目,我认为最为关键就是图片文字的提取功能,在进行资料查阅的工程中,我了解到现有的文字提取的插件是tesseract在进行了此插件的安装和配置后。

1.第一次实验:只对一张图片进行识别

代码:

 

 

结果截图:

结论:可以识别,但是正确率很低,而且他的识别速度很慢,对于识别速度,我能想到的解决办法是对图片进行切割,关于正确率,我觉得需要对图片进行处理来使得这个图片更加清晰,便于识别。

2.题目还要求对于文件中的图片进行识别,为此我做了第二次实验:识别一个文件夹,为了节省时间,我在文件中放入两张图片。

代码:

 

 

结果截图;

结论:在此次的两次实验中,我大致能够了解tesseract的使用过程,但是也发现了他的问题,他自带的字库中中文字数太少,且他的识别速度和他的识别正确率都没有很高,所以我接下来的任务就是 进行图片的进一步的处理

 

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览91673 人正在系统学习中 相关资源:PPT中FLASH插入软件.rar-Flash文档类资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年3月1日
下一篇 2018年3月1日

相关推荐