前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Github:深度学习文本检测识别(OCR)精选资源汇总

Github:深度学习文本检测识别(OCR)精选资源汇总

作者头像
CV君
发布2019-12-27 10:58:50
2.2K0
发布2019-12-27 10:58:50
举报

今天跟大家推荐一个Github项目,来自NAVER Clova AI Research的hwalsuklee同学汇总了近几年的基于深度学习进行文本检测、识别的论文、代码、数据集、教程资源,非常值得参考。

https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

该项目不是简单的网址罗列,作者还很用心的将各个算法在公认标准测试集上的精度也一并列出,方便一目了然进行算法比较。

作者首先统计了深度学习OCR方向的文献:

可见这个方向基于深度学习的技术是大势所趋。

按研究方向,在这些论文中,尤以文本检测的数量最多,占比达48.9%,其次是文本识别21.7%,端到端文本识别占比14.1%。

文本检测汇总

在下图表格中,IC3代表该算法在ICDAR2013数据集上的精度,IC15代表该算法在ICDAR2015数据集上的精度,PRJ代表项目主页,CAFFE/TF等代表使用深度学习框架Caffe/TensorFlow等实现的代码。

从中我们可以看出,在ICDAR2013和ICDAR2015数据集上均为来自CVPR 2018的论文《FOTS: Fast Oriented Text Spotting with a Unified Network》取得了最高的精度,分别是0.925和0.8984,这是商汤科技的工作,代码已经开源。

下面是作者用论文发表时间和相应精度制作的散点图,可见该领域算法精度几乎是以45度角直线上升式发展。

文本识别汇总

文本识别的精度是在四个数据集上比较的,如下图。

在四个数据集上,综合表现最好的当属《ASTER: An Attentional Scene Text Recognizer with Flexible Rectification》,这篇文章发表于PAMI2018,来自华中科技大学白翔老师组,代码也开源了。

下面是来自两个数据集的散点图,同样识别技术也几乎以45度角直线式发展。

端到端文本识别

即包含文本检测与识别的全流程的算法。

综合看,来自商汤科技的FOTS和来自华科的Mask TextSpotter都很优秀。

值得注意的是Mask TextSpotter算法也已经开源了(https://github.com/lvpengyuan/masktextspotter.caffe2),此处没有列出。

52CV曾经专门解读过这篇论文:

华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter

下图为端到端文本识别的精度-发表时间散点图,相比之下,近两年的提升并不是很明显。

文本识别相关的其他方向

包括数据集、文本检索、字体变换、文档版面分析等。

作者还列出了该领域其他人做的资源总结和相关教程资源。

最后附上来自商汤科技的FOTS算法的Demo视频,看看它到底多强大。

再发一下地址:

https://github.com/hwalsuklee/awesome-deep-text-detection-recognition

希望对你有帮助

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档