寻找从PDF文件中提取内容的解决方案(使用控制台工具或库)。
它将在服务器上使用,从上传的PDF文件生成在线电子书.
需要提取以下内容:
看看(5000美元),BCL (?),PDFLib (795欧元),QuickPDF (250美元)
现在我们使用的是开源pdf2xml (提取文本、图像和链接)和GhostScript (快照和缩略图)。剩下的其他事情是:
我们在支付很多钱(可能是错误地选择了解决方案)还是使用免费/开源解决方案之间犹豫不决。
从PDF中提取几乎所有内容的最佳解决方案是什么?
如有任何意见,将不胜感激。
发布于 2009-11-13 15:40:24
听起来,经过几天或几周的努力,您可以根据您的需要调整开源工具。字体和任何东西都可以被提取出来,这是每个PDF阅读器都必须做的事情来显示它们。
您可能应该估计程序员的成本($/hr),并将其乘以添加所需的开源功能所需的时间(60-80小时?)。如果这是更大或接近5000美元无论如何,你可以考虑只是购买商业软件。
否则,在(相当好的) PDF参考的帮助下,您应该会做得很好。
还有一件事,您可能会发现波普尔是有帮助的。它是用来渲染PDF的,但是这和你想要做的事情有很大关系。
发布于 2009-11-12 11:29:37
字体:我认为字体是无法提取的。
B:对多媒体不太确定
什么是热点?
D:看看iTextSharp (开放源码),您可能可以提取更多的页面信息。
发布于 2015-06-01 11:15:18
还有一个包含3个SDK的PDF套房,它特别设计用于从PDF中提取内容,将PDF渲染为图像并转换为html。虽然不提取字体文件,但它支持XML输出和文本提取,保留原来的布局。
有一个基于这个引擎的"PDF多重工具“免费实用程序,所以您可以使用它来查看它是如何为您的PDF文件工作的。
免责声明:我为ByteScout工作
https://stackoverflow.com/questions/1721557
复制相似问题