首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Java中PDF文本提取

Java中PDF文本提取
EN

Stack Overflow用户
提问于 2018-07-11 08:04:30
回答 2查看 2.5K关注 0票数 1

我有一个用iText生成的PDF文件,它是用JasperReports创建的(我不知道它是否相关),我想知道是否可以找到一些API或任何东西来查看结构,因为我需要从中提取文本。

  • 我尝试过使用iTextPDFBox和其他Java库,但我只能逐行获取文本,而则不是我需要的
  • 我也尝试过在HTML、XML、DOM中进行转换,但是我在文本提取中得到了相同的结果,没有解析任何结构。
  • 如果我试图以DOCX的形式打开它,我会看到这个词可以识别某种结构,例如,在DOCX中转换后,一个看起来像PDF中的表的区域实际上是一个表。

我需要了解PDF是如何创建的,如果这是可能的话。我知道使用PDF格式并不容易,但我需要从一些有用的东西开始。谢谢!

EN

回答 2

Stack Overflow用户

发布于 2018-07-11 20:59:36

PDFTron PDFGenie可以从一个PDF文件中进行完整的语义表和段落提取。它可以生成一个可刷新的HTML文件,其中包含表和段落的所有适当的HTML标记。

有关更多细节,请参阅此博客。https://www.pdftron.com/blog/parsing-extraction/table-extraction-and-pdf-to-xml-with-pdfgenie/#a-idpart7aevaluating-accuracy-of-pdf-table-recognition

您可以在这里下载Windows/macOS/Linux PDFGenie命令行工具。https://www.pdftron.com/downloads/linux

票数 1
EN

Stack Overflow用户

发布于 2018-07-11 08:18:31

还有一个选项,我们也可以从Aspose PDF中提取,如果您想查看下面的链接

https://blog.aspose.com/2018/02/28/extract-text-by-paragraphs-and-convert-files-to-pdf-with-aspose.pdf/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51280262

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档