有人能推荐一个库/API来从PDF中提取文本和图像吗?我们需要能够获取文档中预先知道的区域中包含的文本,因此API需要为我们提供页面上每个元素的位置信息。
我们希望数据以xml
或json
格式输出。我们目前正在研究PdfTextStream,它看起来很不错,但也想听听其他人的经验和建议。
有没有其他的方法(商业的或者免费的)来从pdf中提取文本?
发布于 2014-10-16 21:06:12
我得到了一个400页的pdf文件,其中有一个数据表,我必须导入-幸运的是没有图像。Ghostscript为我工作:
gswin64c -sDEVICE=txtwrite -o output.txt input.pdf
输出文件被拆分成带有标题等的页面,但随后很容易编写一个应用程序来剔除空行等,并吸收所有30,000条记录。在这种情况下,-dSIMPLE
和-dCOMPLEX
没有区别。
发布于 2014-08-14 04:47:25
一个高效的命令行工具,开源,免费,在linux和windows上都可以使用:简单地命名为pdftotext。此工具是xpdf库的一部分。
发布于 2010-09-16 07:25:41
从今天开始,我知道:从PDF中提取文本的最好方法是。TET是PDFlib.com系列产品的一部分。
PDFlib.com是Thomas Merz的公司。如果你不记得他的名字: Thomas Merz是"PostScript和PDF圣经“的作者。
TET的第一个化身是。它可能可以做Budda006想做的所有事情,包括页面上每个元素的位置信息。哦,它还可以提取图像。它将被分割成碎片的图像重新组合。
pdflib.com还提供了这种技术的另一个化身-- 。第三个化身是。这是一个用于用户桌面的独立工具。这两者都是免费的(就像在啤酒中一样),可以用于私人的、非商业的目的。
它真的很强大。比Adobe自己的文本提取要好得多。它为我提取文本,而其他工具(包括Adobe的)只会输出垃圾。
我刚刚测试了桌面独立工具,他们在网页上说的都是真的。它有一个非常好的命令行。我的一些“有问题的”PDF测试文件,该工具处理,使我完全满意。
从现在开始,这将是我对每一个复杂和具有挑战性的PDF文本提取需求的建议。
TET简直太棒了。它可以检测表格。在表中,它标识跨越多个列的单元格。它分别标识表格行和每个表格单元格的内容。它很好地处理了连字符:它删除了连字符并恢复了完整的单词。它支持非ASCII语言(包括CJK、阿拉伯语和希伯来语)。当遇到连字时,它会恢复原来的字符...
试试看。
https://stackoverflow.com/questions/3650957
复制相似问题