首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从PDF文件中提取文本和图像

从PDF文件中提取文本和图像
EN

Stack Overflow用户
提问于 2014-01-15 23:04:44
回答 2查看 1.1K关注 0票数 0

我一直在用这本书把我的头撞到墙上,我研究并几乎尝试了向我推荐的每个库。我目前正在尝试用java编写一个程序,它将从pdf文件中提取文本和图像,并允许我将提取的内容写入word文件。我已经设法使用ICEpdf库提取了内容,但是问题是我需要能够以与读取内容完全相同的顺序写入内容。因此,为了澄清,我需要一个库,它可以帮助我跟踪文本和图像在页面中的确切位置,以便我可以将它们放在word文件中的相同位置。

EN

回答 2

Stack Overflow用户

发布于 2014-01-15 23:19:28

PDF到Word的转换是一个极其复杂的命题。

您最好的选择可能是使用Open Office来为您完成这项工作,甚至不会尝试处理中间步骤。

http://www.openoffice.org/api/

票数 0
EN

Stack Overflow用户

发布于 2014-01-15 23:35:43

看看这个:Advanced PDF parser for Java

关闭:

据我所知,有一个-Also解析器可以将pdf转换成html (这样你就可以跟踪pdf中对象的顺序)。我知道这不是java,但是你也许可以使用输出。http://www.unixuser.org/~euske/python/pdfminer/index.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21140897

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档