文章/答案/技术大牛

发布

社区首页 >问答首页 >从PDF文件中提取文本和图像

问从PDF文件中提取文本和图像
EN

Stack Overflow用户

提问于 2014-01-15 23:04:44

回答 2查看 1.1K关注 0票数 0

我一直在用这本书把我的头撞到墙上，我研究并几乎尝试了向我推荐的每个库。我目前正在尝试用java编写一个程序，它将从pdf文件中提取文本和图像，并允许我将提取的内容写入word文件。我已经设法使用ICEpdf库提取了内容，但是问题是我需要能够以与读取内容完全相同的顺序写入内容。因此，为了澄清，我需要一个库，它可以帮助我跟踪文本和图像在页面中的确切位置，以便我可以将它们放在word文件中的相同位置。

java

image

pdf

text

extract

回答 2

Stack Overflow用户

发布于 2014-01-15 23:19:28

PDF到Word的转换是一个极其复杂的命题。

您最好的选择可能是使用Open Office来为您完成这项工作，甚至不会尝试处理中间步骤。

http://www.openoffice.org/api/

票数 0

Stack Overflow用户

发布于 2014-01-15 23:35:43

看看这个：Advanced PDF parser for Java

关闭：

据我所知，有一个-Also解析器可以将pdf转换成html (这样你就可以跟踪pdf中对象的顺序)。我知道这不是java，但是你也许可以使用输出。http://www.unixuser.org/~euske/python/pdfminer/index.html

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21140897

复制

相似问题

问从PDF文件中提取文本和图像
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF文件中提取文本和图像EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF文件中提取文本和图像
EN