最强开源OCR！印刷体古籍文字识别超越著名商业软件ABBYY

文章来源：企鹅号 - 我爱计算机视觉

点击我爱计算机视觉标星，更快获取CVML新技术

52CV君曾经向大家推介过

开源OCR文字识别软件Calamari

，其使用了目前最先进的OCR技术，非常值得参考。

近日，该软件的作者即来自德国维尔茨堡大学的几位学者在投稿于DHd 2019的论文《State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines》中再次展现了其强大能力，在19世纪印刷体古籍文字识别任务中，基于此软件Calamari和新发明的一种训练方法训练出的新模型，不仅打败了目前主流的开源软件，甚至大大好于著名的OCR商业软件ABBYY。

作者信息：

该文没有讲任何算法，作者最重要的阐述是如何利用各种语料训练模型。

下面的表格很好的反映了其使用的数据和训练的顺序。

该文要解决的问题是识别19世纪的印刷体文字，其首先使用了跨越15-20世纪的最全的各种语料训练模型，得到作者认为鲁棒性较好的预训练模型（可以理解为能用的数据都用上了），然后使用合成数据继续训练（合成数据因为可以人为生成，所以往往各种情况都有，数据分布较平衡），再然后使用19世纪的所有真实语料数据训练（这是识别的目的数据库），由于目的数据库样本分布可能不平衡，作者最后在19世纪语料数据集中每本书最多抽样50行，进行最后的训练提精，避免过拟合。

该文要识别的文本图像示例：

作者将训练得到的模型和主流的开源软件Tesseracts、OCRopus和商业软件ABBYY进行了比较，作者使用的评估数据集不再赘述，直接看看这漂亮的结果：

在大多数情况下Calamari都取得了压倒性优势！即使Calamari表现不是最好的情况，也仅仅是比商业软件ABBYY稍逊一点点。

如果你想做OCR方便的开发，不妨学习下Calamari！

值得注意的是，作者并不是说Calamari全面超越了ABBYY，只是在特定领域使用Calamari可以达到超越ABBYY的效果。在ABBYY擅长的办公自动化OCR领域，作者并没有公布有没有实验、结果如何，如果各位读者感兴趣可以试试。

思考一下作者使用的训练方法，不难总结出一些原则：

1.先追求数据大而全，再使用特定任务数据；

2.先合成数据，再真实数据；

3.真实数据抽样，模型提精训练，避免过拟合。

重点来了！

Calamari开源地址：

https://github.com/Calamari-OCR/calamari

论文下载：

在“我爱计算机视觉”公众号对话界面回复“最强开源OCR”，即可收到该文百度云下载地址。

你觉得本文对你有帮助吗？欢迎留言。

【点赞与转发】就是一种鼓励

发表于: 2018-10-142018-10-14 12:39:35
原文链接：https://kuaibao.qq.com/s/20181014A0R7P200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

最强开源OCR！印刷体古籍文字识别超越著名商业软件ABBYY

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐