发布于 2009-04-21 14:54:01
查看libpoppler。我从来没有使用它提取文本,只是查询PDF属性。它非常容易使用。
发布于 2009-04-21 14:51:11
您需要多好地解析它们?仅仅提取字符串应该是相对容易的,而完全准确的渲染则更难。看一看evince或ghostscript的源代码?
这是针对C++的,但这可能是理解PDF structure http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx的一个很好的起点(对不起,之前错误的链接)
发布于 2009-04-21 14:59:55
另一种可能是VersyPDF,尽管我从未用过它。它声称允许您编辑PDF ... http://versypdf.sybrex-systems-ltd.qarchive.org/
https://stackoverflow.com/questions/772919
复制相似问题