06. OCR学习路径之CRNN文本识别

原创

Aalto

修改于 2020-01-02 11:21:17

3.3K0

文章被收录于专栏：晓说AI晓说AI

前言

在了解了如何检测到文本之后，我们需要识别出检测文本内的文字信息。在文本识别完成之后，整个OCR光学字符识别的过程才算基本完成。那么，本次课程主要讲述识别文本的算法。

一．算法简介

检测出的文本片段一般是一行文字，具有sequence-like属性，因此此类文本识别归属为image-based sequence recognition的问题。这就与常规的物体识别不同，它有一系列的标签，识别出的结果是序列化的字符，而不是单个标签，类序列对象的另一个特点是其长度不统一，标签也是长度变化的。因此，解决此类问题，就不能采用固定输入和输出的传统CNN模型了。

对于此类识别问题，目前比较流行的算法就是CRNN+CTC的方式，我们将展开来说。

一篇比较经典的文章：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition。

链接：https://arxiv.org/pdf/1507.05717.pdf

优点：不需要预处理（二值化、切割等）、可以直接从sequence的target上学习（label为语句）、不受序列长度约束。

架构包括三部分：

1) 卷积层，从输入图像中提取特征序列；

2) LSTM层，预测每一帧的标签分布，从卷积层获取的特征序列的标签（真实值）分布

3) 转译层，将每一帧的预测变为最终的标签序列。

CRNN借助了语音识别中解决不定长语音序列的思路。对于序列问题的解决，通常使用循环网络RNN，为了消除RNN网络常见的梯度爆炸问题，引出LSTM，这些算法在语音识别领域都已相当成熟，有很好的表现，现在就是设计特征，让图像特征可以有近似于语音的特征表达。

语音识别中的时间对应着图像的横向尺度W。

如何获取上述特征呢？

现在输入有个图像，为了将特征输入到Recurrent Layers，做如下处理：

l 首先会将图像缩放到 32×W×1 大小

l 然后经过CNN后变为 1×（W/4）× 512

l 接着针对LSTM，设置 T=(W/4) ， D=512 ，即可将特征输入LSTM。

l LSTM有256个隐藏节点，经过LSTM后变为长度为T × nclass的向量，再经过softmax处理，列向量每个元素代表对应的字符预测概率，最后再将这个T的预测结果去冗余合并成一个完整识别结果即可。

网络配置如下图，

其中，‘k’, ‘s’ 和‘p’ 代表 kernel size, stride 和padding size

以上都比较好理解，但是最后一步，经过LSTM后变为长度为T × nclass的向量，再经过softmax处理，列向量每个元素代表对应的字符预测概率，最后再将这个T的预测结果去冗余合并成一个完整识别结果即可。如何去冗余呢？这可是个技术活了。

当然，语音识别也早就做好了，文字识别在这里所做的一切都是为了吧图像特征与语音特征近似化，其他的工作都交给语音识别算法了。

二．CTC

详细的CTC推导过程网上已经有很多，说一下我的理解就是。由于输出的T=W/4是一个不定长的结果，而我们需要做的就是将该序列结果翻译成最终的识别结果。但是LSTM进行时序分类时的输出有一个特点，就是同一个字符被连续识别两次，因此需要一个去冗余机制，但是简单粗暴地去处冗余也不行，比如“--hh-e-l-ll-oo--”，直接去冗余就变成helo了，那就识别错误了。

因此CTC为了解决这种二义性，提出了插入blank机制，比如下图的以符号“-”代表blank。若标签为“aaa-aaaabb”则将被映射为“aab”，而“aaaaaaabb”将被映射为“ab”。引入blank机制，就可以很好地处理了重复字符的问题了。