linux系统下的ocr软件,【工具类】Linux安装OCR识别工具tesseract

1 安装依赖

yum install -y libpng-devel libjpeg-devel libtiff-devel

2 安装leptonica

tar -xzvf leptonica-1.78.0.tar.gz

cd leptonica-1.78.0

./configure

make && make install

安装完成后,配置环境变量

在 /etc/profile文件尾部添加

export LD_LIBRARY_PATH=/usr/local/lib

export LIBLEPT_HEADERSDIR=/usr/local/include

export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

或者利用如下命令向 /etc/profile文件添加内容

echo “export LD_LIBRARY_PATH=/usr/local/lib” >> /etc/profile

echo “export LIBLEPT_HEADERSDIR=/usr/local/include” >> /etc/profile

echo “export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig” >> /etc/profile

使配置立即生效

source /etc/profile

3 安装tesseract-ocr

tar -xzf tesseract-4.0.0.tar.gz

cd tesseract-4.0.0

./autogen.sh

./configure

make && make install

ldconfig

下载OCR识别字符集

cd /usr/local/share/tessdata

wget https://hub.fastgit.org/tesseract-ocr/tessdata/raw/master/eng.traineddata

wget https://hub.fastgit.org/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

wget https://hub.fastgit.org/tesseract-ocr/tessdata/raw/master/chi_sim_vert.traineddata

测试tesseract-ocr4.0是否可用,分别输入tesseract –version、tesseract和tesseract –list-langs,如果能出现如下界面,则说明tesseract安装成功。

tesseract帮助文档

image.png

5.可能遇到的错误

5.1.字符集错误

【错误描述】

错误描述如下

[root@localhost nsimtest]# tesseract –list-langs

Error opening data file /usr/local/share/tessdata/eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.

Failed loading language ‘eng’

Tesseract couldn’t load any languages!

【解决方案】

如果出现该错误,说明在默认的字符集路径中,未找到任何可用的字符集,此时就需要手动下载字符集,可参考安装步骤3来下载字符集。

【错误描述】

错误描述如下

[root@localhost nsimtest]# tesseract –list-langs

Error opening data file /usr/local/share/tessdata/eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.

Failed loading language ‘eng’

Tesseract couldn’t load any languages!

List of available languages (5):

chi_sim

chi_sim_vert

chi_tra

chi_tra_vert

eng

【解决方案】

如果出现该错误,说明在默认的字符集路径中,有字符集,但是字符集有问题,笔者出现这个错误是因为直接复制Github上的链接到服务器直接下载的,结果下载下来的字符集都是85k左右,刚开始还未注意到这个问题,浪费较多时间。重新根据安装步骤3来下载字符集即可。

正常字符集

5.2.leptonica错误

【错误描述】

b0a3defa8ea5

leptonica错误

【解决方案】

出现该错误的原因是安装完leptonica后,未配置环境变量导致的,可安装安装步骤2配置leptonica的环境变量即可解决,如果在安装tesseract的过程中遇到该错误,则需要重新执行安装步骤3

6. 参考

文章知识点与官方知识档案匹配,可进一步学习相关知识CS入门技能树Linux入门在线安装软件24909 人正在系统学习中 相关资源:渣浆泵的计算机选型软件及应用.rar-制造文档类资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年4月6日
下一篇 2021年4月6日

相关推荐