LeadTools中文入门教程（7）：使用OCR识别图像中的中文

LeadTools为.NET(C# & VB.NET)、C/C++、Java和Web开发者提供了快速且精确度高的 OCR SDK技术。

LeadTools为.NET(C# & VB.NET)、C/C++、Java和Web开发者提供了快速且精确度高的 OCR SDK技术。利用LeadTools高级OCR工具包，可以快速的开发健壮的、可扩展的、高性能识别的文档处理应用程序，这些应用程序可提取出扫描文件中的文本，将图像转化为文本搜索格式，如PDF、PDF/A、DOC、DOCX、XML、XPS等。LeadTools广泛支持40余种字符集，编程者通过提供多语言的解决方案扩展用户群，包括英语、西班牙语、法语、德语、日语、中文、阿拉伯语等。

LeadTools识别一页或多页文档的一般步骤概述
使用LeadTools创建“使用OCR识别图像中的中文”应用程序的具体步骤

LeadTools识别一页或多页文档的一般步骤

1 选择您将要使用的引擎类型，并创建一个IOcrEngine接口实例。更多信息，可参考创建OCR引擎实例。

2 使用IOcrEngine.Startup方法启动OCR引擎。更多信息，可参考启动和关闭引擎。

3 创建一个一页或多页的OCR文档。更多信息，可参考处理OCR页面。

4 手动或自动的在页面上建立区域。（此步骤是可选的。一个页面无论有没有区域，都是可识别的。）更多信息，可参考处理OCR区域。

5 可选。设置OCR引擎正在使用的语言（默认为英文）。更多信息，可参考处理OCR页面。

6 可选。设置拼写检查语言（默认为英文）。更多信息，可参考OCR拼写字典。

7 可选。设置任意特殊的识别模块选项。如果一个页面内包括自动或手动创建的区域，这些选项是需要的。更多信息，可参考识别OCR页面, OCR识别模块概述 and 在LEADTOOLS .NET OCR使用OMR。

8 识别。更多信息，可参考识别OCR页面。

9 若需要，保存识别结果。结果可保存为一个文件或保存至内存。更多信息，可参考识别OCR页面。

10 当结束时关闭OCR引擎。更多信息，可参考启动和关闭引擎。

步骤4、5、6、7可以以任意顺序执行，只要它们在OCR引擎启动后、识别页面前执行了即可。

创建“使用OCR识别图像中的中文”应用程序的具体步骤

下面为您提供了”使用OCR识别图像中的中文“的示例代码。为了运行此代码，请LeadTools全功能试用版。

安装全功能试用版后，由于此应用程序要识别中文，因此在创建应用程序之，请LeadTools OCR语言扩展包。

安装完OCR语言扩展包，我们就可以开始创建“使用OCR识别中文”的应用程序了，我们将最终的识别结果保存为.docx格式。

1. 打开Visual Studio .NET。点击文件->新建->项目…。打开新建项目对话框后，在模板中选择“Visual C#”，随后选择“Windows窗体应用程序”。在名称栏中输入项目名称“SampleOcrChinese”，并使用“浏览”按钮选择您工程的存储路径，点击“确定”。

2. 在“解决方案资源管理器”中，右击“引用”，选择“添加引用”。根据当前工程的 Framework 版本和生成目标平台，选择添加相应的LeadTools控件，例如工程中的版本为 Framework 4.0、生成目标平台是 x86，则浏览选择Leadtools For .NET文件夹” LEADTOOLS_INSTALLDIRBinDotNet4Win32”,选择以下的DLL“：

Leadtools.dll
Leadtools.Codecs.dll
Leadtools.Codecs.Bmp.dll
Leadtools.Codecs.Cmp.dll
Leadtools.Codecs.Fax.dll
Leadtools.Codecs.Tif.dll
Leadtools.Forms.dll
Leadtools.Forms.DocumentWriters.dll
Leadtools.Forms.Ocr.dll
Leadtools.Forms.Ocr.Professional.dll
Leadtools.WinForms.dll

点击“确定”按钮，将以上所有的DLL添加到应用程序中。

注意：添加Leadtools.Codecs.*.dll引用后，可使用BMP、JPG、CMP、TIF和FAX图像文件格式。如果您想使用更多的文件格式，可添加相关文件格式的codec DLL至应用程序。

3. 拖拽5个button控件至Form1。Button的名称默认为“button1，button2…”，根据以下表格修改相应的Text属性：

Name	Text
button1	启动OCR引擎
button2	添加页面
button3	删除页面
button4	识别文档(中文)并保存为Word
button5	关闭OCR引擎

4. 将Form1切换至代码视图，将以下代码添加至using 部分：

 using Leadtools; using Leadtools.Codecs; using Leadtools.Forms; using Leadtools.Forms.DocumentWriters; using Leadtools.Forms.Ocr; using Leadtools.ImageProcessing; using Leadtools.WinForms;

5. 将以下私有变量添加至Form1类：

 private IOcrEngine _ocrEngine; private IOcrDocument _ocrDocument;

6. 将以下代码添加至Form1的构造函数：

 InitializeComponent(); // 解锁OCR功能，用您的密钥替换此处  string MY_LICENSE_FILE = "d:\temp\TestLic.lic"; string MY_DEVELOPER_KEY = "xyz123abc"; RasterSupport.SetLicense(MY_LICENSE_FILE, MY_DEVELOPER_KEY); // 初始化OCR引擎 _ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Professional, false);

7. 将以下代码添加至button1（启动OCR引擎）按钮的Click句柄中，启动OCR引擎，在此部分将识别的语言设置为中文简体：

 // 启动OCR引擎 _ocrEngine.Startup(null, null, null, @"D:LEADTOOLS 18BinCommonOcrProfessionalRuntime"); // 创建文档 _ocrDocument = _ocrEngine.DocumentManager.CreateDocument(); //将语言设置为中文简体，中文繁体为"zh-Hant" _ocrEngine.LanguageManager.EnableLanguages(new string[] {"zh-Hans"}); MessageBox.Show("OCR引擎成功启动");

8. 将以下代码添加至button2（添加页面）的Click句柄中，将单页图像文件添加至OCR文档：

 string fileName = Path.Combine(Application.StartupPath, @"....PicchineseImage.bmp"); //将包含中文字符的文件添加至OCR文档 IOcrPage page = _ocrDocument.Pages.AddPage(fileName, null); int pageCount = _ocrDocument.Pages.Count; // // 显示此页面的相关信息 string message = string.Format(    "共{0}页n最后添加的页面大小 = {1} * {2}n分辨率 = {3} * {4}n每个像素的位数 = {5}n",    pageCount,    page.Width, page.Height,    page.DpiX, page.DpiY,    page.BitsPerPixel); MessageBox.Show(message);

9. 将以下代码添加至button3（删除页面）的Click句柄，从OCR文档中移走了所有页面：

 // 从OCR文档中移除所有添加的页面 _ocrDocument.Pages.Clear(); MessageBox.Show("所有页面已被移除");

10. 将以下代码添加至button4（识别文档(中文)并保存为Word）的Click句柄，识别文档中的中文字符，并将识别的结果保存为Word文档：

 // 识别所有页面 // 注意，我们不需要调用AutoZone，引擎会检查页面是否被分区，若无，则会自动分区 _ocrDocument.Pages.Recognize(null); // 将结果保存为Word文档 string wordFileName = Path.Combine(Application.StartupPath, @"....ResultResult.docx"); _ocrDocument.Save(wordFileName, DocumentFormat.Docx, null); // 显示我们刚刚保存的word文件 System.Diagnostics.Process.Start(wordFileName);

11. 将以下代码添加至button5（关闭OCR引擎）按钮的Click句柄，关闭OCR引擎：

 // 释放此文档 _ocrDocument.Dispose(); // 关闭OCR引擎 _ocrEngine.Shutdown(); MessageBox.Show("OCR引擎关闭");

此段代码会将最终的识别结果保存为PDF文件。可按照依照以下步骤：启动OCR引擎->添加页面->识别文档（中文）并保存为Word->删除页面->关闭OCR引擎。

12. 编译、运行程序。结果如下图：

原图像为：

运行程序识别过程的截图如下：

DEMO下载：

SampleOcrChinese.rar

文章转自：葡萄城控件产品博客，http://blog.gcpowertools.com.cn

如果你想体验LeadTools OCR识别中文的效果，不妨查看并免费下载LeadTools试用版自己试试！

如需帮助，请联系在线客服！

标签：OCR SDKJava.NETOCRVBWinForms

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

LeadTools中文入门教程（7）：使用OCR识别图像中的中文

LeadTools识别一页或多页文档的一般步骤

创建“使用OCR识别图像中的中文”应用程序的具体步骤

相关推荐

发表回复