首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PDF提取时忽略表格

PDF提取时忽略表格
EN

Stack Overflow用户
提问于 2012-03-27 18:43:14
回答 2查看 554关注 0票数 0

我正在尝试用Java制作一个文本处理应用程序,它需要文本作为输入。现在,我从用户指定的PDF文件中提取此输入。我正在使用PdfBox进行文本提取。我遇到的问题是,PDF文件可能包含表格、方程式和特殊符号,所以PdfBox提取的文本在很多地方都包含垃圾。由于这个原因,我的文本处理应用程序无法给出它的最佳结果。我想知道PDF是否有特定的表格格式,这样我就可以到达根级别,并在提取时排除它们。此外,在许多情况下,提取的文本包含呈现为“?”的未知字符。虽然在实际的PDF中,它们看起来是普通的字母表。我也尝试过其他库- IText,但效果并不理想。简而言之,我想要的是从PDF文件中提取简单的句子,排除所有其他垃圾。如果有人能帮我解决这个问题,或者其他更好的Java提取库,那就太好了。谢谢。

EN

回答 2

Stack Overflow用户

发布于 2012-03-28 14:57:43

PDF没有'table‘格式。表格是由行和文本构成的,仅此而已。带标签的PDF可能有这样的标签,但这种情况很少见。

票数 1
EN

Stack Overflow用户

发布于 2012-03-27 18:57:25

我最近需要从PDF中提取文本,以便在Java中进一步处理-我使用了Linux命令pdftotext -如果你有这个命令,这是一个选择吗?

编辑:今天刚刚看到了另一篇关于Apache Tika的文章-它有一个PDF (和许多其他)解析器。可能对你有用。http://tika.apache.org/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9888012

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档