文章/答案/技术大牛

发布

社区首页 >问答首页 >Java中PDF文本提取

问Java中PDF文本提取
EN

Stack Overflow用户

提问于 2018-07-11 08:04:30

回答 2查看 2.5K关注 0票数 1

我有一个用iText生成的PDF文件，它是用JasperReports创建的(我不知道它是否相关)，我想知道是否可以找到一些API或任何东西来查看结构，因为我需要从中提取文本。

我尝试过使用iText、PDFBox和其他Java库，但我只能逐行获取文本，而则不是我需要的。
我也尝试过在HTML、XML、DOM中进行转换，但是我在文本提取中得到了相同的结果，没有解析任何结构。
如果我试图以DOCX的形式打开它，我会看到这个词可以识别某种结构，例如，在DOCX中转换后，一个看起来像PDF中的表的区域实际上是一个表。

我需要了解PDF是如何创建的，如果这是可能的话。我知道使用PDF格式并不容易，但我需要从一些有用的东西开始。谢谢!

java

parsing

pdf

回答 2

Stack Overflow用户

发布于 2018-07-11 20:59:36

PDFTron PDFGenie可以从一个PDF文件中进行完整的语义表和段落提取。它可以生成一个可刷新的HTML文件，其中包含表和段落的所有适当的HTML标记。

您可以在这里下载Windows/macOS/Linux PDFGenie命令行工具。https://www.pdftron.com/downloads/linux

票数 1

Stack Overflow用户

发布于 2018-07-11 08:18:31

还有一个选项，我们也可以从Aspose PDF中提取，如果您想查看下面的链接

https://blog.aspose.com/2018/02/28/extract-text-by-paragraphs-and-convert-files-to-pdf-with-aspose.pdf/

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51280262

复制

相似问题

问Java中PDF文本提取
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java中PDF文本提取EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java中PDF文本提取
EN