我获得了一些XML文件形式的书籍。这个XML似乎是Abbyy程序的输出(大概是基于实际书籍的OCR )。
我正在寻找软件,这些文件被转换成某种可读的东西。我希望PDF输出,但HTML或电子书格式是可以的,如果它将允许阅读文本。
我不能使用任何专利或商业。它必须是一些在Linux上工作的OSS软件,最好是来自Ubuntu存储库。
网络搜索是无用的,因为它只是带来无穷无尽的结果,要么使用Abbyy商业软件,要么转换成XML,或者从PDF,或者做OCR。
发布于 2021-03-25 19:04:39
有一个关于GitHub的项目,它将abbyXML转换为hOCR。hOCR本身就是XHTML,这意味着您可以立即在浏览器中显示它,只需加载它。然而,您将需要一个XSL-T处理器来完成转换。现在推荐的版本是SaxonHE,它是撒克逊的开源版本。
将XML转换为PDF也是可能的,但这需要了解XSL-T和XSL-FO,以及编程您自己的XML管道。管道必须是:
abbyXML -> XSL-T -> XSL-FO -> FOP -> PDF
FOP是一个XML格式化对象处理器,ApacheFOP将是一个开放源码的解决方案.
最后是使用CSS样式XML是可能的。,然后在浏览器中加载它。然而,我想,为XML文件创建CSS,描述OCR,将是一项艰巨的工作。
https://softwarerecs.stackexchange.com/questions/58301
复制相似问题