首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >在Java中以编程方式将Word文档转换为HTML

在Java中以编程方式将Word文档转换为HTML
EN

Stack Overflow用户
提问于 2008-10-22 19:36:28
回答 10查看 74.4K关注 0票数 24

我需要将Word文档转换为Java中的HTML文件。该函数将接受word文档的输入,并且输出将是基于word文档具有的页数的html文件,即,如果word文档具有3页,则将生成3个具有所需分页符的html文件。

我搜索了可以将doc转换为html的开源/非商业APIs,但没有结果。任何人谁做过这种类型的工作,请帮助。

谢谢

EN

回答 10

Stack Overflow用户

回答已采纳

发布于 2008-10-22 20:43:20

我们使用tm-提取器(http://mvnrepository.com/artifact/org.textmining/tm-extractors),并退回到商业Aspose (http://www.aspose.com/)。两者都有原生的Java API。

票数 3
EN

Stack Overflow用户

发布于 2011-06-23 17:21:16

我推荐JODConverter,它利用了OpenOffice.org,它为当今可用的OpenDocument和Microsoft Office格式提供了最好的导入/导出过滤器。

JODConverter有很多文档、脚本和教程可以帮助您解决问题。

票数 7
EN

Stack Overflow用户

发布于 2008-10-22 20:31:18

在新的MS Word XML格式不可用的生产系统中,我成功地使用了以下方法:

派生一个进程,该进程执行类似以下操作:

http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html

您可能希望在程序启动时启动一次openoffice,并在程序运行期间多次调用python脚本(通过某种检查来确保ooffice进程始终在那里)。

另一个选项是在每次需要执行转换时生成以下类型的命令:

ooffice -headless“宏://<要转换的ooffice vb宏的路径,参数指向ooffice”

我已经多次使用了宏方法,并且运行良好(对不起,我没有可用的宏代码)。

虽然有一些机制可以通过MS Word来完成,但它们并不容易从Java中实现,并且确实需要其他支持程序来通过OLE来驱动MS Word。

我以前也用过abiword,它在很多文档中都工作得很好,但是会被更复杂的文档搞混(ooffice似乎可以处理我用过的所有东西)。Abiword的转换命令行界面比ooffice稍微简单一些。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/227236

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档