前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MORAN文本识别算法开源,刷新多个OCR数据集state-of-the-art

MORAN文本识别算法开源,刷新多个OCR数据集state-of-the-art

作者头像
CV君
发布2019-12-27 10:46:31
2.1K0
发布2019-12-27 10:46:31
举报
文章被收录于专栏:我爱计算机视觉

近日华南理工大学金连文老师组在文本识别领域又出牛文,提出一种基于像素级不规则文本纠正的识别新算法MORAN(Multi-Object Rectified Attention Network),刷新了多个OCR数据集的最高精度,并将其开源了!

MORAN文本识别算法由矫正子网络MORN和识别子网络ASRN组成,在MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正,大大降低了不规则文本的识别难度。

MORN与ASRN可端到端联合学习,训练过程不需要字符位置或像素级分割的监督信息,使得网络的训练大大简化。在常用的IIIT 5K、IC03、IC13、SVT、SVT-Perspective、CUTE80、IC15等7个OCR数据集上,取得了state-of-the-art的识别性能。

文本识别的难题——形状不规则

虽然目前文字识别的应用广泛,但自然场景文字识别仍然面临诸多挑战,其中影响识别率的重要因素就是文本形状的不规则。如下图:

文本形状的多样化上如依次为(a)水平规则文本;(b)倾斜文本;(c)弯曲文本。

普通的矫正方法——仿射变换

普通的矫正方法,使用仿射变换能够对图像做整体的变换,其对图像的纠正局限于缩放、旋转和平移。在深度学习网络中使用STN(Spatial transformer networks)网络可以做这样的纠正。

使用STN学习仿射变换系数

MORN形状矫正方法

该文作者基于分解的思想,提出了一种像素级预测的纠正模型,首先将文本图像分解为多块小图像,然后对每块小图像回归偏移量,并对偏移量进行平滑操作,再在原图像上进行采样,得到新的形状更加规则的水平文本。

整体网络结构

MORN网络结构

矫正的文本图像示例

然后作者设计了基于注意力机制下的识别算法ASNR。

ASRN网络结构

最终的MORAN算法在多个数据集上均超越了state-of-the-art。

实验结果

作者称论文投稿时达到多个数据集当时最高准确率。

最新改进

该文已被Pattern Recognition录用,近期升级的MORAN v2版又做了多项改进:

(1)增强了MORN网络的稳定性,降低了训练难度,实现了单步训练;

(2)使用ResNet替换VGG作为骨干网络;

(3)借鉴了白翔老师组PAMI2018论文中双向解码器思想。

更新后精度如下:

论文及代码地址

https://arxiv.org/abs/1901.03003

https://github.com/HCIILAB/MORAN_v2

https://github.com/Canjie-Luo/MORAN_v2

本文来自于MORAN论文及CSIG文档图像分析与识别专委会公众号:https://mp.weixin.qq.com/s/XbT_t_9C__KdyCCw8CGDVA

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档