我有一个用iText生成的PDF文件,它是用JasperReports创建的(我不知道它是否相关),我想知道是否可以找到一些API或任何东西来查看结构,因为我需要从中提取文本。
我需要了解PDF是如何创建的,如果这是可能的话。我知道使用PDF格式并不容易,但我需要从一些有用的东西开始。谢谢!
发布于 2018-07-11 20:59:36
PDFTron PDFGenie可以从一个PDF文件中进行完整的语义表和段落提取。它可以生成一个可刷新的HTML文件,其中包含表和段落的所有适当的HTML标记。
您可以在这里下载Windows/macOS/Linux PDFGenie命令行工具。https://www.pdftron.com/downloads/linux
发布于 2018-07-11 08:18:31
还有一个选项,我们也可以从Aspose PDF中提取,如果您想查看下面的链接
https://stackoverflow.com/questions/51280262
复制相似问题