我一直在用这本书把我的头撞到墙上,我研究并几乎尝试了向我推荐的每个库。我目前正在尝试用java编写一个程序,它将从pdf文件中提取文本和图像,并允许我将提取的内容写入word文件。我已经设法使用ICEpdf库提取了内容,但是问题是我需要能够以与读取内容完全相同的顺序写入内容。因此,为了澄清,我需要一个库,它可以帮助我跟踪文本和图像在页面中的确切位置,以便我可以将它们放在word文件中的相同位置。
发布于 2014-01-15 23:19:28
PDF到Word的转换是一个极其复杂的命题。
您最好的选择可能是使用Open Office来为您完成这项工作,甚至不会尝试处理中间步骤。
http://www.openoffice.org/api/
发布于 2014-01-15 23:35:43
看看这个:Advanced PDF parser for Java
关闭:
据我所知,有一个-Also解析器可以将pdf转换成html (这样你就可以跟踪pdf中对象的顺序)。我知道这不是java,但是你也许可以使用输出。http://www.unixuser.org/~euske/python/pdfminer/index.html
https://stackoverflow.com/questions/21140897
复制相似问题