我正在尝试用Java制作一个文本处理应用程序,它需要文本作为输入。现在,我从用户指定的PDF文件中提取此输入。我正在使用PdfBox进行文本提取。我遇到的问题是,PDF文件可能包含表格、方程式和特殊符号,所以PdfBox提取的文本在很多地方都包含垃圾。由于这个原因,我的文本处理应用程序无法给出它的最佳结果。我想知道PDF是否有特定的表格格式,这样我就可以到达根级别,并在提取时排除它们。此外,在许多情况下,提取的文本包含呈现为“?”的未知字符。虽然在实际的PDF中,它们看起来是普通的字母表。我也尝试过其他库- IText,但效果并不理想。简而言之,我想要的是从PDF文件中提取简单的句子,排除所有其他垃圾。如果有人能帮我解决这个问题,或者其他更好的Java提取库,那就太好了。谢谢。
发布于 2012-03-28 14:57:43
PDF没有'table‘格式。表格是由行和文本构成的,仅此而已。带标签的PDF可能有这样的标签,但这种情况很少见。
发布于 2012-03-27 18:57:25
我最近需要从PDF中提取文本,以便在Java中进一步处理-我使用了Linux命令pdftotext -如果你有这个命令,这是一个选择吗?
编辑:今天刚刚看到了另一篇关于Apache Tika的文章-它有一个PDF (和许多其他)解析器。可能对你有用。http://tika.apache.org/
https://stackoverflow.com/questions/9888012
复制相似问题