软件杯-题目和插件

2018年3月1日下午4:14 • 软件开发

在此次的软件杯的比赛中，我们的题目是：店工商信息图片文字提取。

基于这次的题目，我认为最为关键就是图片文字的提取功能，在进行资料查阅的工程中，我了解到现有的文字提取的插件是tesseract，在进行了此插件的安装和配置后。

1.第一次实验：只对一张图片进行识别

代码：

结果截图：

结论：可以识别，但是正确率很低，而且他的识别速度很慢，对于识别速度，我能想到的解决办法是对图片进行切割，关于正确率，我觉得需要对图片进行处理来使得这个图片更加清晰，便于识别。

2.题目还要求对于文件中的图片进行识别，为此我做了第二次实验：识别一个文件夹，为了节省时间，我在文件中放入两张图片。

代码：

结果截图;

结论：在此次的两次实验中，我大致能够了解tesseract的使用过程，但是也发现了他的问题，他自带的字库中中文字数太少，且他的识别速度和他的识别正确率都没有很高，所以我接下来的任务就是进行图片的进一步的处理。

文章知识点与官方知识档案匹配，可进一步学习相关知识Java技能树首页概览91673 人正在系统学习中相关资源：PPT中FLASH插入软件.rar-Flash文档类资源-CSDN文库

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！