首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从PDF中提取所有内容

从PDF中提取所有内容
EN

Stack Overflow用户
提问于 2009-11-12 11:24:24
回答 5查看 6.5K关注 0票数 8

寻找从PDF文件中提取内容的解决方案(使用控制台工具或库)。

它将在服务器上使用,从上传的PDF文件生成在线电子书.

需要提取以下内容:

  1. 带有字体和样式的文本;
  2. 图像;
  3. 音频和视频;
  4. 链接和热点。
  5. 页面快照和缩略图;
  6. 一般PDF信息,如书籍布局,页数等。

看看(5000美元),BCL (?),PDFLib (795欧元),QuickPDF (250美元)

现在我们使用的是开源pdf2xml (提取文本、图像和链接)和GhostScript (快照和缩略图)。剩下的其他事情是:

  1. 字体;
  2. 多媒体;
  3. 热点;
  4. 页面信息。

我们在支付很多钱(可能是错误地选择了解决方案)还是使用免费/开源解决方案之间犹豫不决。

从PDF中提取几乎所有内容的最佳解决方案是什么?

如有任何意见,将不胜感激。

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2009-11-13 15:40:24

听起来,经过几天或几周的努力,您可以根据您的需要调整开源工具。字体和任何东西都可以被提取出来,这是每个PDF阅读器都必须做的事情来显示它们。

您可能应该估计程序员的成本($/hr),并将其乘以添加所需的开源功能所需的时间(60-80小时?)。如果这是更大或接近5000美元无论如何,你可以考虑只是购买商业软件。

否则,在(相当好的) PDF参考的帮助下,您应该会做得很好。

还有一件事,您可能会发现波普尔是有帮助的。它是用来渲染PDF的,但是这和你想要做的事情有很大关系。

票数 5
EN

Stack Overflow用户

发布于 2009-11-12 11:29:37

字体:我认为字体是无法提取的。

B:对多媒体不太确定

什么是热点?

D:看看iTextSharp (开放源码),您可能可以提取更多的页面信息。

票数 1
EN

Stack Overflow用户

发布于 2015-06-01 11:15:18

还有一个包含3个SDK的PDF套房,它特别设计用于从PDF中提取内容,将PDF渲染为图像并转换为html。虽然不提取字体文件,但它支持XML输出和文本提取,保留原来的布局。

有一个基于这个引擎的"PDF多重工具“免费实用程序,所以您可以使用它来查看它是如何为您的PDF文件工作的。

免责声明:我为ByteScout工作

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1721557

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档