去年,我用Java语言制作了一个应用程序,使用PDFBox获取一些PDF文件中的原始文本,现在我需要将该应用程序移植到C++。
我想知道实现我所需的最好的C++替代方案是什么。
我将举一个例子,以防对您有所帮助:
大多数文件将如下所示:http://www.jumbala.net/backup/league.pdf
使用PDFBox,使用该文件,在第2页和第3页的大部分内容中读取的每一行都将输出一行中的所有数据,并以空格分隔,而不是像现在一样将其保存在网格中。
因此,第2页中的第一个相关行将如下所示:
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
或者类似的东西,因为它们的出现顺序有很小的变化,但我并不关心这些,只要相似的行输出相同,因为我只是解析它们,并将需要的值放在不同的变量中。
那么,了解了所有这些之后,有没有一个库可以让我在C++程序中获得类似的结果呢?
编辑:在http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file上查看了sacredFaith的链接并尝试后,我得到了一个奇怪的输出,我前面提到的示例文件是这样的:
http://www.jumbala.net/backup/league.pdf.txt
我真正需要的部分是在开头的奇怪的字符中。使用Adobe Acrobat Reader X并使用另存为...Text (可访问),我会得到以下结果:
http://www.jumbala.net/backup/league_good.pdf.txt
这大致就是我在Java中使用PDFBox得到的结果,也是我想在C++中得到的输出结果。
https://stackoverflow.com/questions/9951427
复制相似问题