文章/答案/技术大牛

发布

问PDF提取时忽略表格
EN

Stack Overflow用户

提问于 2012-03-27 18:43:14

回答 2查看 554关注 0票数 0

我正在尝试用Java制作一个文本处理应用程序，它需要文本作为输入。现在，我从用户指定的PDF文件中提取此输入。我正在使用PdfBox进行文本提取。我遇到的问题是，PDF文件可能包含表格、方程式和特殊符号，所以PdfBox提取的文本在很多地方都包含垃圾。由于这个原因，我的文本处理应用程序无法给出它的最佳结果。我想知道PDF是否有特定的表格格式，这样我就可以到达根级别，并在提取时排除它们。此外，在许多情况下，提取的文本包含呈现为“？”的未知字符。虽然在实际的PDF中，它们看起来是普通的字母表。我也尝试过其他库- IText，但效果并不理想。简而言之，我想要的是从PDF文件中提取简单的句子，排除所有其他垃圾。如果有人能帮我解决这个问题，或者其他更好的Java提取库，那就太好了。谢谢。

pdf

pdfbox

text-extraction

java

回答 2

Stack Overflow用户

发布于 2012-03-28 14:57:43

PDF没有'table‘格式。表格是由行和文本构成的，仅此而已。带标签的PDF可能有这样的标签，但这种情况很少见。

票数 1

Stack Overflow用户

发布于 2012-03-27 18:57:25

我最近需要从PDF中提取文本，以便在Java中进一步处理-我使用了Linux命令pdftotext -如果你有这个命令，这是一个选择吗？

编辑:今天刚刚看到了另一篇关于Apache Tika的文章-它有一个PDF (和许多其他)解析器。可能对你有用。http://tika.apache.org/

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9888012

复制

相似问题

问PDF提取时忽略表格
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF提取时忽略表格EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDF提取时忽略表格
EN