eDiscovery对于软件开发人员来说是一个巨大的市场,在法律程序的任何阶段都充满了机会,本篇文章主要讲述LEADTOOLS如何在eDiscovery应用程序中工作。现在就来跟着来了解一下吧~
LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各种特点的精选组合,它用于在企业级文档自动解决方案中建立端到端的文档图像应用程序,而这些文档图像应用程序需要有捕捉、表格识别和处理、存档、注释和显示功能。
LEADTOOLS Document Imaging Suite SDK免费版
eDiscovery对于软件开发人员来说是一个巨大的市场,在法律程序的任何阶段都充满了机会,本篇文章主要讲述LEADTOOLS如何在eDiscovery应用程序中工作。现在就来跟着来了解一下吧~
LEADTOOLS Document Imaging SDK具有广泛的成像技术,非常适合任何eDiscovery应用程序。最简单的单一服务专家、端到端商业ECM、以及介于两者之间的一切,都可以找到为其应用添加世界级成像技术所需的一切。
与EDRM作为一般指南和流程的工作方式,以及可以跳过或重新审视的步骤大致相同,下面概述的成像技术并不是一组强制性的功能。在大多数情况下,这些技术的顺序遵循企业级ECM中的典型使用流程,但可以进行修改和重组,以匹配任何开发团队的目标和创造力。
扫描
ECM和eDiscovery应用程序中最重要的元素之一就是能够将纸质文档数字化。没有什么比扫描更有效地获得纸质文档的高质量数字复制。即使这是公司为法庭所做的一切准备,由于简化了电子文件的运输和共享,扫描可以节省大量的时间和资金。一个U盘可以代替数百甚至数千磅的纸张,这些纸张从一个办公室运送到另一个办公室,然后运送到法庭。
LEADTOOLS包含高级类,可以使用TWAIN驱动程序或SANE后端从任何扫描仪中轻松获取图像。请考虑以下代码段,该代码段提示用户选择TWAIN源,然后将获取的图像加载到查看器中。
private void GetImageFromTwainSource(){ _twainSession.SelectSource(string.Empty); _twainSession.AcquirePage += new EventHandler( twainSession_AcquirePage); _twainSession.Acquire(TwainUserInterfaceFlags.Show);}private void twainSession_AcquirePage(object sender, TwainAcquirePageEventArgs e){ imageViewer.Image = e.Image;}
文档清理和预处理
考虑成像SDK时另一个非常重要的功能是它能够清理扫描图像。清理图像有两个主要好处,每个都对整个eDiscovery过程产生巨大的影响
首先,可能最明显的是,文档本身更具可读性。这对人眼来说很棒,但对电脑更好。只有几个像素分隔了小写l、大写L和数字1。人眼仍然可以阅读带有划线或折痕的文本,但即使是最好的OCR引擎也会返回胡言乱语。
第二,是存储空间。许多压缩算法通过比较相邻像素来完成其工作。对于构成大多数扫描文档的黑白图像尤其如此。执行清除灰尘斑点、打孔、线条、边框等的图像清理功能,会对运行长度和由单一颜色组成的块的大小产生深远影响,从而允许非常高的压缩率达到92%以上的脏图像的压缩大小。

图1:使用LEADTOOLS清理脏图像。两者都使用CCITT G4压缩,但干净的图像仅为12kb,而不是146kb
OCR
光学字符识别对于任何想要加强eDiscovery游戏的公司来说都是必不可少的。虽然扫描和清洁图像可以完成工作并合法覆盖基础,但OCR具有竞争优势,是许多其他技术的重要基石。
以前静态图像在转换为PDF、Microsoft Word或任何其他可搜索文本格式时都可以变为活动状态。能够搜索数字存储文档的内容是eDiscovery中的一项重要资产,特别是在处理、审查和分析阶段。LEADTOOLS可以创建图像文本PDF,这在eDiscovery中非常有用,因为格式将原始图像保留在文本图层的顶部,使其既可以搜索也可以与原始图像保持不变。即使TIFF仍然是ECM中的首选文件格式,OCR也可以为这些静态图像注入可以搜索或索引的元数据,以便在需要时更容易引用。
LEADTOOLS使OCR非常简单。将磁盘上的源文件转换为可搜索的PDF只需三行代码即可完成
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false);ocrEngine.Startup(null, null, null, null);ocrEngine.AutoRecognizeManager.Run(@"C:nputFile.tif", @"C:utputFile.pdf", DocumentFormat.Pdf, null, null);
形式
表单识别是OCR的一种专门实现,它经过精心调整,可以从文档中提取特定的信息,而不是捕获整个文档。组织可能有各种各样的表单,从就业时提交的税表到发票和发给客户的账单。就其本质而言,表单有很多重复的信息,也许唯一相关的数据是申请人、客户、员工等填写的数据。因此,在ECM中存档这些表格的最有效和最有用的方法是,从这些字段中提取数据,并将它们索引到数据库中或将其另存为元数据。
LEADTOOLS能够处理表单的分类和处理。在分类时,LEADTOOLS会将传入的文档与主模板库(即表单的空白、未填充版本)进行比较。然后一旦找到匹配项,它将执行分区OCR以从填好的表单中提取数据

图2:使用LEADTOOLS Forms Recognition显示提取的字段
本教程内容较多,后半部分内容请点击这里~
想要购买该产品正版授权,或了解更多产品信息请点击“咨询在线客服”

标签:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!