PDF处理控件Aspose.PDF功能演示:从PDF的表格中提取数据

1. 在 Visual Studio 中,依次单击File、New、Project,如果要创建 C# 项目,请选择Visual C#、Windows并选择Windows Forms Application并将项目命名为HelloWorld,单击OK。如果要创建Visual Basic项目,请选择Visual Basic、Windows Forms Application并将项目命名为HelloWorld,单击OK。  

Java API 从 PDF 中的表中提取数据:
Aspose.PDF for Java 是一个功能丰富的 API,用于创建和操作 PDF 文档,我们将使用此 API 从 PDF 文档中的表格中提取数据。您可以 下载 API 的 JAR 或使用以下 Maven 配置将其安装在您的 Java 应用程序中。

<repository><id>AsposeJavaAPI</id><name>Aspose Java API</name><url>https://repository.aspose.com/repo/</url></repository><dependency><groupId>com.aspose</groupId><artifactId>aspose-pdf</artifactId><version>21.9</version></dependency>

使用 Java 从 PDF 中的表格中提取数据:
以下是使用 Java 从 PDF 中的表中提取数据的步骤:

  • 首先,使用Document类加载 PDF 文档。
  • 使用Document.getPages()集合循环浏览 PDF 中的页面。
  • 在每次迭代中,初始化TableAbsorber对象并使用TableAbsorber.visit(Page)方法访问选定的页面。
  • 在嵌套循环中,遍历TableAbsorber.getTableList()集合中的表列表。
  • 对于集合中的每个AbsorbedTable,遍历AbsorbedTable.getRowList()中的行集合。
  • 对于集合中的每个AbsorbedRow,遍历AbsorbedRow.getCellList()中的单元格集合。
  • 最后,循环遍历每个 AbsorbedCell 的TextFragment集合并打印文本。

从 PDF 页面的特定区域提取表格:
以下是使用 Java 从 PDF 中页面的特定部分提取表格的步骤:

  • 首先,使用Document类加载 PDF 文档。
  • 然后,从Document.getPages()集合中选择所需的页面。
  • 提取页面的 Square 注释。
  • 在每次迭代中,初始化TableAbsorber对象并使用TableAbsorber.visit(Page)方法访问选定的页面。
  • 在嵌套循环中,遍历TableAbsorber.getTableList()集合中的表列表。
  • 检查吸收的表格是否在所需的页面区域中。
  • 对于集合中的每个AbsorbedTable ,使用AbsorbedTable.getRowList()遍历行集合。
  • 对于集合中的每个AbsorbedRow ,使用AbsorbedRow.getCellList()遍历单元格集合。
  • 最后,循环遍历每个 AbsorbedCell 的TextFragment集合并打印文本。

更多ASPOSE文档管理控件

标签:

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月18日
下一篇 2022年1月18日

相关推荐

发表回复

登录后才能评论