如何从PDF中提取文本?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (110)

有人能推荐一个库/API来从PDF中提取文本和图像吗?我们需要能够获取文档中预先知道的区域中包含的文本,因此API将需要提供页面上每个元素的位置信息。

我们希望将这些数据输出到xmljson格式。

提问于
用户回答回答于

pdflib.com还提供了这种技术的另一个化身,用于Acrobat的Tet插件第三次化身是PDFlib Tet iFilter。这是一个独立的工具,用户桌面。这两种产品都是免费的(如啤酒),可用于私人、非商业目的。它真的很强大。

用户回答回答于

我得到了一个400页pdf文件,其中有一个数据表,我不得不导入-幸运的是没有图像。Ghostscript为我工作过:

gswin64c -sDEVICE=txtwrite -o output.txt input.pdf

输出文件被分割成带有页眉等的页面,但是很容易编写一个应用程序来删除空行等,并吸收所有30,000条记录。-dSIMPLE-dCOMPLEX在这个案子里没有什么区别。

扫码关注云+社区

领取腾讯云代金券