Linux文字识别软件,linux下的文字识别软件tesseract ( OCR software in Linux: tesseract )

linux下的文字识别软件tesseract ( OCR software in Linux: tesseract )

2012-10-11 12:04

访问量: 5317

分类:

技术

WINDOWS下有汉王OCR识别,免费的LINUX世界有啥与之对应呢bsp; 我找到了tesseract.

Ubuntu下的安装步骤: (setup steps under ubuntu )

1.安装对应的lib (install the libs)

sudo apt-get install autoconf automake libtool

sudo apt-get install libpng12-dev

sudo apt-get install libjpeg62-dev

sudo apt-get install libtiff4-dev

sudo apt-get install zlib1g-dev

sudo apt-get install libleptonica # install leptonica

2. install tesseract 3.00

$ wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz

$tar zxvf tesseract-3.00.tar.gz

$ cd tesseract-3.00 && ./configure && make && sudo make install

3. 安装中文字库 (install Chinese lib )

$ wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz

$ gunzip chi_sim.traineddata.gz

$ sudo cp chi_sim.traineddata /usr/local/share/tessdata/

4. 把图片转换成tif 格式,然后使用: (usage)

$ tesseract apple.tif result -l chi_sim

注意的几点: (NOTICE)

1. 速度比较慢。 不过可以忍受,免费的么。  (slow, but it doesn’t matter, what I care is  tesseract is free )

2. 图片的文字要做到水平。如果你的图片文字是斜的,会影响效果,建议先用“旋转”功能把图片处理一下。 ( if your text is not vertical, you have to make some changes to the image using “notation” tools or something )

文章知识点与官方知识档案匹配,可进一步学习相关知识CS入门技能树Linux入门初识Linux25289 人正在系统学习中 相关资源:自动 络克隆工具v2.2霏凡专版-教育文档类资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年4月2日
下一篇 2021年4月2日

相关推荐