首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何从PDF中提取文本?

如何从PDF中提取文本?
EN

Stack Overflow用户
提问于 2010-09-06 19:11:09
回答 15查看 279.3K关注 0票数 175

有人能推荐一个库/API来从PDF中提取文本和图像吗?我们需要能够获取文档中预先知道的区域中包含的文本,因此API需要为我们提供页面上每个元素的位置信息。

我们希望数据以xmljson格式输出。我们目前正在研究PdfTextStream,它看起来很不错,但也想听听其他人的经验和建议。

有没有其他的方法(商业的或者免费的)来从pdf中提取文本?

EN

回答 15

Stack Overflow用户

发布于 2014-10-16 21:06:12

我得到了一个400页的pdf文件,其中有一个数据表,我必须导入-幸运的是没有图像。Ghostscript为我工作:

gswin64c -sDEVICE=txtwrite -o output.txt input.pdf

输出文件被拆分成带有标题等的页面,但随后很容易编写一个应用程序来剔除空行等,并吸收所有30,000条记录。在这种情况下,-dSIMPLE-dCOMPLEX没有区别。

票数 134
EN

Stack Overflow用户

发布于 2014-08-14 04:47:25

一个高效的命令行工具,开源,免费,在linux和windows上都可以使用:简单地命名为pdftotext。此工具是xpdf库的一部分。

http://en.wikipedia.org/wiki/Pdftotext

票数 39
EN

Stack Overflow用户

发布于 2010-09-16 07:25:41

从今天开始,我知道:从PDF中提取文本的最好方法是。TET是PDFlib.com系列产品的一部分。

PDFlib.com是Thomas Merz的公司。如果你不记得他的名字: Thomas Merz是"PostScript和PDF圣经“的作者。

TET的第一个化身是。它可能可以做Budda006想做的所有事情,包括页面上每个元素的位置信息。哦,它还可以提取图像。它将被分割成碎片的图像重新组合。

pdflib.com还提供了这种技术的另一个化身-- 。第三个化身是。这是一个用于用户桌面的独立工具。这两者都是免费的(就像在啤酒中一样),可以用于私人的、非商业的目的。

它真的很强大。比Adobe自己的文本提取要好得多。它为我提取文本,而其他工具(包括Adobe的)只会输出垃圾。

我刚刚测试了桌面独立工具,他们在网页上说的都是真的。它有一个非常好的命令行。我的一些“有问题的”PDF测试文件,该工具处理,使我完全满意。

从现在开始,这将是我对每一个复杂和具有挑战性的PDF文本提取需求的建议。

TET简直太棒了。它可以检测表格。在表中,它标识跨越多个列的单元格。它分别标识表格行和每个表格单元格的内容。它很好地处理了连字符:它删除了连字符并恢复了完整的单词。它支持非ASCII语言(包括CJK、阿拉伯语和希伯来语)。当遇到连字时,它会恢复原来的字符...

试试看。

票数 31
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3650957

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档