是否有一个C ++库从PDF文件如PDFBox for Java中提取文本?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (50)

去年,我使用PDFBox在Java中创建了一个应用程序来获取某些PDF文件中的原始文本,并且我现在需要将该应用程序移植到C ++。

我想知道什么是最好的C ++替代方案来完成我所需要的。

如果有帮助,我会举一个例子:

大多数文件将如下所示:http : //www.jumbala.net/backup/league.pdf

在PDFBox中,使用该文件,在第2页和第3页的大部分内容中读取的每行都会输出一行的所有数据,并用空格分隔,而不是像现在一样将其保存在网格中。

因此,第2页中的第一个相关行应如下所示:

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

或类似的东西,因为它们出现的顺序只有很小的变化,但只要类似的行输出相同,因为我只是解析它们并将我需要的值放入不同的变量中。

所以,了解所有这些,是否有一个库可以在C ++程序中使用,以获得类似的结果?

http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file看神圣的链接并尝试它,我得到一个奇怪的输出就像我之前提到的示例文件一样:

http://www.jumbala.net/backup/league.pdf.txt

我实际需要的部分在开头就是怪异的角色。使用Adobe Acrobat Reader X并使用另存为...文本(可访问),我得到以下结果:

http://www.jumbala.net/backup/league_good.pdf.txt

这大概是我使用PDFBox在Java中获得的结果,以及我想在C ++中获得的输出结果。

提问于
用户回答回答于

Xpdf是一个C ++应用程序/库,它包含从PDF文件中提取纯文本的工具。

用户回答回答于

因为这就是你要找的:PoDoFo是C ++库来解析/读取/修改或创建PDF文件。图书馆是跨平台的。

扫码关注云+社区