文章/答案/技术大牛

发布

社区首页 >问答首页 >从PDF中提取所有内容

问从PDF中提取所有内容
EN

Stack Overflow用户

提问于 2009-11-12 11:24:24

回答 5查看 6.5K关注 0票数 8

寻找从PDF文件中提取内容的解决方案(使用控制台工具或库)。

它将在服务器上使用，从上传的PDF文件生成在线电子书.

需要提取以下内容：

带有字体和样式的文本；
图像；
音频和视频；
链接和热点。
页面快照和缩略图；
一般PDF信息，如书籍布局，页数等。

看看(5000美元)，BCL (?)，PDFLib (795欧元)，QuickPDF (250美元)

现在我们使用的是开源pdf2xml (提取文本、图像和链接)和GhostScript (快照和缩略图)。剩下的其他事情是：

字体；
多媒体；
热点；
页面信息。

我们在支付很多钱(可能是错误地选择了解决方案)还是使用免费/开源解决方案之间犹豫不决。

从PDF中提取几乎所有内容的最佳解决方案是什么？

如有任何意见，将不胜感激。

text

image

extract

pdf

回答 5

Stack Overflow用户

回答已采纳

发布于 2009-11-13 15:40:24

听起来，经过几天或几周的努力，您可以根据您的需要调整开源工具。字体和任何东西都可以被提取出来，这是每个PDF阅读器都必须做的事情来显示它们。

您可能应该估计程序员的成本($/hr)，并将其乘以添加所需的开源功能所需的时间(60-80小时？)。如果这是更大或接近5000美元无论如何，你可以考虑只是购买商业软件。

否则，在(相当好的) PDF参考的帮助下，您应该会做得很好。

还有一件事，您可能会发现波普尔是有帮助的。它是用来渲染PDF的，但是这和你想要做的事情有很大关系。

票数 5

Stack Overflow用户

发布于 2009-11-12 11:29:37

字体:我认为字体是无法提取的。

B:对多媒体不太确定

什么是热点？

D:看看iTextSharp (开放源码)，您可能可以提取更多的页面信息。

票数 1

Stack Overflow用户

发布于 2015-06-01 11:15:18

还有一个包含3个SDK的PDF套房，它特别设计用于从PDF中提取内容，将PDF渲染为图像并转换为html。虽然不提取字体文件，但它支持XML输出和文本提取，保留原来的布局。

有一个基于这个引擎的"PDF多重工具“免费实用程序，所以您可以使用它来查看它是如何为您的PDF文件工作的。

免责声明:我为ByteScout工作

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1721557

复制

相似问题

问从PDF中提取所有内容
EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF中提取所有内容EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF中提取所有内容
EN