首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将abbyy XML转换为可读格式

将abbyy XML转换为可读格式
EN

Software Recommendation用户
提问于 2019-04-15 16:43:08
回答 1查看 413关注 0票数 1

我获得了一些XML文件形式的书籍。这个XML似乎是Abbyy程序的输出(大概是基于实际书籍的OCR )。

我正在寻找软件,这些文件被转换成某种可读的东西。我希望PDF输出,但HTML或电子书格式是可以的,如果它将允许阅读文本。

我不能使用任何专利或商业。它必须是一些在Linux上工作的OSS软件,最好是来自Ubuntu存储库。

网络搜索是无用的,因为它只是带来无穷无尽的结果,要么使用Abbyy商业软件,要么转换成XML,或者从PDF,或者做OCR。

EN

回答 1

Software Recommendation用户

发布于 2021-03-25 19:04:39

有一个关于GitHub的项目,它将abbyXML转换为hOCR。hOCR本身就是XHTML,这意味着您可以立即在浏览器中显示它,只需加载它。然而,您将需要一个XSL-T处理器来完成转换。现在推荐的版本是SaxonHE,它是撒克逊的开源版本。

将XML转换为PDF也是可能的,但这需要了解XSL-T和XSL-FO,以及编程您自己的XML管道。管道必须是:

abbyXML -> XSL-T -> XSL-FO -> FOP -> PDF

FOP是一个XML格式化对象处理器,ApacheFOP将是一个开放源码的解决方案.

最后是使用CSS样式XML是可能的。,然后在浏览器中加载它。然而,我想,为XML文件创建CSS,描述OCR,将是一项艰巨的工作。

票数 1
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/58301

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档