AAAI 2018文档图像分析与识别相关论文选读

文章来源：企鹅号 - CSIG文档图像分析与识别专委会

Tie-QiangWang, Cheng-Lin Liu， Fully Convolutional Network Based Skeletonization for Handwritten Chinese Characters, AAAI 2018.

中文手写字符的骨架具有结构不变性，因而对文字的结构分析、笔迹重构、字符识别等具有积极意义。本文首次提出了一种基于深度学习的中文手写字符的“骨架化”方法。基于FCN网络架构，提出了一种回归密集的上采样卷积运算（rDUC）模块来解决传统骨架化方法中容易出现的断点问题；设计了Multi-rate Dilated Convolution（MDC）模块来充分融合不同尺度的上下文信息，最终取得了较好的手写汉字骨架化效果。

网络结构：

上图中每一个不同尺度的中间层经过Side-Output分支后，会进入两个不同的分支，分别产生与原图同样大小的预测图，并计算loss。其中一个左侧分支是不同尺度的中间层特征分别独立地经Side-Output后，再分别独立地经过rDUC产生与原图相同大小的预测结果，然后分别与ground-truth map计算loss;在另外一个右侧的分支中，各个不同尺度的中间层特征经过Side-Output后，经过learnable upsampling及slice & concat运算后，实现了不同层次、不同尺度的特征相互融合，然后分别产生融合后的feature map,并与ground-truth map分别计算loss。

作者在网络中提出并实现可学习的upsampling运算，作者提出了这个rDUC模块，文章中为了使读者理解rDUC模块，举了一个很形象的例子：假如输入feature maps是(channel, height, width) = (2, 2, 2),然后要预测的目标类别是2类，那么经过rDUC卷积后的feature maps的通道数目是原始channel的目标类别数倍，此处就是4 = 2 * 2通道，然后通过reshape运算，将相同位置的元素放到高分辨率feature map中等价的位置（注意下图中格子的颜色就对了）。如此就实现了“可学习”的upsampling运算。

Multi-Rate Dilated Fusion (MDF)也是本文的亮点之一，可以有效解决细化处理时笔画断裂等问题。

实验结果：

训练细化网络的实验数据为基于CASIA OLHWDB1.1（联机手写汉字）的合成数据，用ICDAR 2013联机手写汉字比赛数据的合成数据进行测试。

原文Figure12给出了本文提出的方法与目前一些主流方法的对比效果：

另外，本文还测试了细化方法对识别性能的影响。文中用完全合成的脱机手写汉字数据进行训练，然后用真实的ICDAR 2013 脱机手写汉字竞赛数据集进行测试，结果表明：利用本文方法对数据进行细化处理后作为CNN模型的输入，获得的识别效果明显优于别的方法。如Table 4所示：

Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai，PixelLink: Detecting Scene Text via Instance Segmentation， AAAI 2018.

本文提出了一种全新的基于实例分割（Instance Segmentation）的思路来检测任意方向的场景文本。其中，每一个文本区域的检测都是通过将属于同一文本实例的像素连接起来，通过相应的处理得到文本检测框。

算法框图如原文Figure 2所示：

算法大致流程介绍：

PixelLink在经过CNN提取特征后，进行如下操作来提取文本区域：

1、对每一个像素进行文本/非文本二分类，同时每个像素预测8个连接（link），因为每一个像素都有8个相邻的像素，所以会产生8种连接，每相邻两个像素之间可能有link，也可能没有link，这是一个二分类问题，并使用softmax计算概率（在生成每两个相邻像素之间Link的ground truth label信息时，若是两个相邻像素属于同一个文本实例，他们之间的Link的ground truth Label就被编码为1,否则为）。如果link的值有足够高的置信度（> 0.7或0.8），则认为他们之间属于同一文本实例。

2、在对每个pixel进行text/non-text分类预测之后，进行阈值化处理，置信度高于一定阈值的像素被认为是positive pixels,然后没个positive pixels被相应的Positive Links连接起来，形成一个个connected component，从而也就实现了instance segmentation（Positive Links起到一种对Positive Pixels聚类的作用）。

3、应用OpenCV中minAreaRect函数到上述的instance segmentation结果，提取每个文本实例的bounding box。

为了使网络训练收敛速度更快，同时提取的特征更加鲁棒，作者提出了Instance-Balanced Cross-Entropy Loss。在这个loss中降低大文本区域的每个pixel的loss权重，同时增大小文本区域每个pixel产生loss的权重，最终实现每个大文本区域贡献的loss和每个小文本区域贡献的loss具有近似等价的loss。

实验结果：

实验在使用很少的训练数据，不使用VGG16的预训练模型，相对较少的训练迭代，使用一定的data augmentation策略下，在ICDAR2013、ICDAR2015、MSRA-TD500等三个benchmarks上取得了接近state-of-the-art的效果。

Christian Bartz， Haojin Yang and Christoph Meinel，SEE: Towards Semi-Supervised End-to-End Scene Text Recognition， AAAI 2018.

本文提出了一种单步骤同时实现端到端场景文本检测及识别的新方法，只需提供场景图像中每个文本区域的文本语义label信息，不需要提供bounding box监督信息的算法框架，并在当前标准的benchmarks上取得与现有state-of-the-art算法具有comparable性能的实验效果。

整体算法框架图：

本文采用基于Spatial Transform Network（STN）模块的Localization Networks（有ResNet+LSTM组成）来生成一系列采样网格（Sampling Grids），基于采样网格进行文字区域的定位及提取，然后提取出的文本区域子图被输入到CNN+BLSTM的识别网络进行识别输出得到最终的识别结果。由于在训练文本检测阶段并未使用任何文本框的标注信息，仅仅靠的文字识别网络的预测误差来进行STN及整体网络的训练，因此本文方法是一种Semi-supervised的方法。

本文还提出了一种Ratation Dropout的模型正则化方法（随机drop掉仿射变换的参数），防止STN定位网络在预测仿射变换矩阵时出现过度拟合旋转角度的问题。

实验数据：

1、SVHN dataset；以及基于SVHN合成的数据（文本被放置在不同位置）

2、FSNS dataset: 一个法文街道名标识数据集

实验结果：

该论文公开了源代码及已训练好的模型：

源码下载：https://github.com/Bartzi/see

模型下载：https://bartzi.de/research/see

（点评：有点遗憾的是本文方法没有在比较主流的数据集如ICDAR 13/15上进行实验、也未与一些别的主流端到端方法进行对比。）

Sheng Zhang, Yuliang Liu, Lianwen Jin, Canjie Luo, Feature Enhancement Network A Refined Scene Text Detector, AAAI 2018.

本文主要针对场景文字检测中由于文本区域小、长宽比变化差异大的特点导致传统Pooling size设计不合理问题，提出了一种新的自适应加权的PSROI-Pooling方法；针对训练过程中容易出现正负样本不平衡问题，提出了Positives Mining方法来解决R-FCN框架下场景文字检测中的样本不平衡问题；论文还设计了一个新的特征提升主干网络，可以明显提升场景文本检测的Recall及Precision。在ICDAR2013、COCO-Text水平场景文本检测benchmarks上达到state-of-the-art实验结果。

网络结构：

主干网络：

主干网络由FE-RPN和Hyper Feature Generation组成。FE-RPN是在以往R-FCN框架的RPN模块中除了原有的3x3卷积外，额外添加了两分支：即与文本特性相关的1x3卷积，以及包含更多上下文信息的池化-反卷积运算（该分支可以解决以往反卷积中的“棋盘效应”问题），并使用了ResNet block模块进行不同尺度的特征融合；Hyper Feature Generation模块的灵感来自于HyperNe，所不同的是HyperNet中使用的中间层feature maps是来自于不同尺度的中间层feature maps，而该文章中的中间层feature maps是来自于ResNet-101中conv4 stage中众多同一尺度的feature maps，这样做的好处有三点：（1）在训练过程中，使网络末端的监督信息（loss）能够直接监督ResNet-101中间层的残差训练；（2）并行化网络中的残差学习而不是以往的串行化残差学习；（3）不需要以往HyperNe中的不同尺度的中间层特征融合时需要上（下）采样的复杂的计算，可以明显提高网络计算效率。

自适应加权PSROI-Pooling：

相对于通用目标检测而言，场景文本区域一般较小，并且尺寸、纵横比变化较大，针对此特点，本文提出了一种自适应加权PSROI-Pooling模块，提出先生成4种不同的Position-sensitive score maps，针对每一个文本区域，用4种不同的Pooling size （3×3, 7×7, 3×8, 3×11）进行池化，然后根据池化的结果，进行估算每一种池化的自适应权重，最后的池化结果是这四种池化的加权平均。如此，最适合的池化尺寸的自适应权重将会最大，对最后的检测结果的贡献也最大，能有效提高场景文本检测的精确度。

Positives Mining：

由于训练集中单张图像文本区域较小、且数目少，且往往一张图像中只有少量的小文本区域，如此在训练时，被覆盖的anchor数目较少，严重导致正负样本不平衡及train loss抖动，本文提出的Positives Mining策略可以缓解这一状况。具体做法是将前200个proposal中的前50个proposal进行缩放,缩放的scale是（0.7, 1.0, 1.3），并在测试阶段，添加每个proposal的（左，右，上，下）半部分proposal，由于一般的Positives都包含在前50个proposals中，所以叫Positives Mining。此策略可以解决样本不平衡问题，对最终的检测结果的性能也有一定提升。

实验结果：

本推文作者简介：张胜，华南理工大学在读博士生，主要研究方向为场景文字检测与识别、深度学习及其应用。

指导老师：金连文

（长按识别上图二维码加关注）

发表于: 2018-03-212018-03-21 20:38:33
原文链接：http://kuaibao.qq.com/s/20180321G1N2DP00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

AAAI 2018文档图像分析与识别相关论文选读

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐