问有没有一个可以从PDFBox for Java这样的C++文件中提取文本的PDF库？
EN

Stack Overflow用户

提问于 2012-03-31 07:06:04

回答 3查看 36.4K关注 0票数 22

去年，我用Java语言制作了一个应用程序，使用PDFBox获取一些PDF文件中的原始文本，现在我需要将该应用程序移植到C++。

我想知道实现我所需的最好的C++替代方案是什么。

我将举一个例子，以防对您有所帮助：

大多数文件将如下所示：http://www.jumbala.net/backup/league.pdf

使用PDFBox，使用该文件，在第2页和第3页的大部分内容中读取的每一行都将输出一行中的所有数据，并以空格分隔，而不是像现在一样将其保存在网格中。

因此，第2页中的第一个相关行将如下所示：

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

或者类似的东西，因为它们的出现顺序有很小的变化，但我并不关心这些，只要相似的行输出相同，因为我只是解析它们，并将需要的值放在不同的变量中。

那么，了解了所有这些之后，有没有一个库可以让我在C++程序中获得类似的结果呢？

编辑：在http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file上查看了sacredFaith的链接并尝试后，我得到了一个奇怪的输出，我前面提到的示例文件是这样的：

http://www.jumbala.net/backup/league.pdf.txt

我真正需要的部分是在开头的奇怪的字符中。使用Adobe Acrobat Reader X并使用另存为...Text (可访问)，我会得到以下结果：

http://www.jumbala.net/backup/league_good.pdf.txt

这大致就是我在Java中使用PDFBox得到的结果，也是我想在C++中得到的输出结果。

c++

pdf

回答 3

Stack Overflow用户

回答已采纳

发布于 2012-03-31 22:23:21

Xpdf是一个C++应用程序/库，其中包括从PDF文件中提取纯文本的工具。

票数 11

Stack Overflow用户

发布于 2012-03-31 23:38:15

因为这正是您要寻找的：PoDoFo是用于解析/读取/修改或创建pdf文件的C++库。这个库是跨平台的。

票数 3

Stack Overflow用户

发布于 2012-03-31 07:13:09

我从未使用过以下内容，但在谷歌搜索之后，我发现了以下内容：

http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/9951427

复制

相似问题

问有没有一个可以从PDFBox for Java这样的C++文件中提取文本的PDF库？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有一个可以从PDFBox for Java这样的C++文件中提取文本的PDF库？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有一个可以从PDFBox for Java这样的C++文件中提取文本的PDF库？
EN