专栏首页基于深度学习的图像增强Focusing Attention Network(FAN)自然图像文本识别 学习笔记

Focusing Attention Network(FAN)自然图像文本识别 学习笔记

介绍

对于一些复杂的或者质量低的图像,现有的基于注意力(attention-based)的方法识别效果很差,我们研究发现其中一个主要的原因是使用这种注意力模型评估的排列很容易损坏由于这些复杂或质量低的图像。换句话说,注意力模型(attention model)不能精确地联系特征向量与输入图像中对应的目标区域,这种现象称为attention drift。为了解决这个问题,本文提出了一种新的方法,称为FAN(Focusing Attention Network)来精确地识别自然图像中的文本。FAN主要由两个子网络组成:AN(attention Network)和现有方法一样,用于识别目标字符;FN(Focusing Network)通过检查AN的注意区域是非在图像中目标字符的正确位置,然后自动地调整这个注意点,下图直观地展示了这两个网络的功能。

本文的主要贡献: (1)提出了attention drift的概念,解释了使用现有的基于注意力的方法处理复杂、低质量的自然图像会得到很差效果的原因; (2)提出了一个新的模型FAN来解决上述问题,AN在很多现有方法已经存在,FN是新引入的,可以将注意点转移到目标区域上; (3)我们采用了一个强大的基于ResNet的卷积神经网络(CNN)以丰富场景文本图像的深度表征; (4)在不同的数据集上做了大量实验,我们的方法比现有的方法取得更好的效果。

FAN方法

FAN包含两部分:AN和FN,在AN部分,由目标标签和特征产生alignment factors,每个alignment factor对应输入图像中的注意力区域;FN部分先定位目标标签的注意力区域,对注意力区域进行密集的预测得到对应的glimpse vector他,通过这种方式,FN可以判断glimpse vector是否合理。总之,FN基于AN给出的glimpse vector,对输入图像的注意力区域产生密集的输出,AN根据FN的反馈来更新glimpse vectors。

AN

AN解码器使一个循环神经网络(RNN)直接从输入图像I产生目标序列(y1,…….yM)。在实验中,I通常用CNN-LSTM编码成一个特征向量序列,Encoder(I)=(h1, …, hT ),在第t步,解码器产生一个输出yt yt = Generate(st, gt) 其中st是在t时刻RNN的一个隐藏状态, st = RNN(yt−1, gt, st−1) 其中,gt是连续特征向量(h1,……hT)的权值和

其中,

是注意力向量的权重,也叫做alignment factors,αt由(h1,……hT)中每个元素的得分来评估,用下式对得分进行归一化:

其中,v,W,V,b都是可训练的参数。 这里,Generate函数和RNN函数分别表示一个反馈网络和LSTM循环网络。此外,解码器需要产生一个可变长度的序列,在目标集中添加 special end-of-sentence (EOS),因此解码器可以在EOS发散时完成字符的生成,注意力模型的损失函数定义为:

其中,yt^第t-th的真实字符,θ是一个结合了整个网络参数的向量。 AN模型有两个缺点:1)该模型很容易受到复杂或低质量的图像的影响,产生不精确的alignment factors,导致注意力区域与真实区域的偏差,这就是我们之前提到的attention drift现象;2)在数据很大时,这个模型很难训练。例如800-million的真实数据。在本文中,我们主要解决attention drift现象。

FN

为了解决attention drift现象,引入FN网络,focusing-mechanism如图:

主要包含两步:1)计算每个预测标签的中心注意点;2)通过生成注意力区域的概率分布来将注意力集中在目标区域 计算中心注意点:在卷积或池化操作中,我们定义输入为N × Di × Hi × W,输出为N × Do × Ho × W,其中N, D, H,W分别表示batch size,通道数,特征映射的高度和宽度,根据卷积策略中的kernel,stride,pad,我们可以有: Ho = (Hi + 2 × padH −kernelH)/strideH + 1 Wo= (Wi + 2 × padW − kernelW)/strideW + 1 在L层(x,y)位置处,我们计算L-1层的感受野为边界坐标r = (xmin, xmax, ymin, ymax),如下:

在第t步,输入图像的感受野hj循环使用上式计算得到,然后选择感受野的中心作为注意力的中心: c t,j = location(j) 其中,j为hj的下标;location函数用于评估感受野的中心,因此,输入图像中的目标yt的注意力中心可以用下式计算:

将注意力集中在目标区域:计算出目标yt的注意力中心后,我们可以从输入图像或者其中的一次卷积输出中得到一组特征映射 P(PH,PW ),如下:

其中,F为图像或者卷积特征映射,P是输入图像中真实区域的最大值。 有了剪裁后的特征映射,我们可以计算注意力区域的能力分布:

其中,R和S分别Wie可训练的参数,(i,j)代表第(i × PW + j)个特征向量。可能性概率可表示为:

其中,K为标签类别的数量。 然后,我们定义focusing的损失函数:

其中,ytˆ(i,j)是真实的像素标签,ω是结合整个FN中参数的向量。损失只对带有字符注解的图像子集会增加。

FAN Training

目标函数同时考虑target-generation 和attention-focusing,如下:

使用一个可调参数λ (0 6 λ < 1),用于衡量AN和FN的影响,这个网络使用标准的BP训练。

解码

基于注意力的解码器使为了产生输出字符序列,在无约束的字符识别中,我们直接选择可能性最大的字符;然而在有约束的识别中,依据不同大小的辞典,我们计算所有单词的条件概率分布,然后选择可能性最大的作为我们的输出结果。

实验评估

数据集

IIIT 5K-Words(IIIT5K) Street View Text (SVT) ICDAR 2003 (IC03) ICDAR 2013 (IC13) ICDAR 2015 (IC15)

具体设置

网络:32层ResNet-based CNN,如上表所示来获得更深层次的文本特征。 表1中残差网络块:{[kernel size, number of channels]×}、{stride, pad} = {0, 0} 其他卷积层:{kernelW ×kernelH, strideW × strideH, padW × padH, channels} 池化层: {kernelW × kerneH, strideW × strideH, padW ×padH} H和W分别为特征映射的高和宽。从CNN中提取的特征序列进入BLSTM (256 hidden units)网络中。对于字符生成任务,注意力设置成一个LSTM (256 memory blocks)和37个输出单元 (26 letters, 10 digits, and 1 EOS symbol)。对于FAN,我们从输入图像中裁剪特征映射且设置λ = 0.01。 模型训练:使用ADADELTA优化方法,训练我们的模型在8百万的合成数据没有pixel-wise标记和4百万带标签的,大约30%有pixel标签。设置batch size=32,图像大小25632。每秒90个样本,epochs=3,约5天后收敛。 *运行环境::CAFFE框架、CUDA GPU加速

实验结果

原文后续还有关于参数λ和Pixel Labeling的影响,可参考原文,这里不详述。

结论

在本文中我们给出了attention drift的概念解释了为什么现有的AN方法对复杂或低质量的图像识别效果很差,继而提出一种新的方法FAN来解决这个问题。不同于现有方法,FAN使用创新的focusing网络来改进AN模型处理复杂低质量图像的drifted attention ,大量的实验证明我们的方法比现有的方法效果好。

原文链接: https://arxiv.org/pdf/1709.02054.pdf

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于深度学习的图像增强综述

    图像增强的定义非常广泛,一般来说,图像增强是有目的地强调图像的整体或局部特性,例如改善图像的颜色、亮度和对比度等,将原来不清晰的图像变得清晰或强调某些感兴趣的特...

    Natalia_ljq
  • Self-supervised Image Enhancement Network Training with Low Light Images Only

    现有的图像增强数据集都是通过合成或者调整曝光时间得到的,但存在两个问题:①如何确保预先训练的网络可以用于不同设备、不同场景和不同照明条件下收集的图像,而不是构建...

    Natalia_ljq
  • 图像超分辨率及相关知识 简介

    图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点,分辨率的单位为PPI(Pixels Per Inch),通常叫做像素每英寸。一般情况下,图像分辨率...

    Natalia_ljq
  • Spring Cloud Gateway入坑记

    最近在做老系统的重构,重构完成后新系统中需要引入一个网关服务,作为新系统和老系统接口的适配和代理。之前,很多网关应用使用的是Spring-Cloud-Netfi...

    Throwable
  • 小程序搜索功能不容忽视,背后大有深意

    知晓君
  • 图像混合和图像叠加

    图像混合是把每一个像素给混合起来;图像叠加就是简单的给一幅图像加上另一幅图像。效果分别如下所示:

    zy010101
  • 微信团队分享:视频图像的超分辨率技术原理和应用场景

    图像和视频通常包含着大量的视觉信息,且视觉信息本身具有直观高效的描述能力,所以随着信息技术的高速发展,图像和视频的应用逐渐遍布人类社会的各个领域。近些年来,在计...

    JackJiang
  • 光场相机重聚焦之三——Matlab光场工具包使用、重聚焦及多视角效果展示

    这一小节说一下Matlab光场工具包的使用,展示重聚焦和多视角的效果。 从Lytro illum中导出的raw数据为.lfp格式的光场图像文件(约52M大小),...

    一棹烟波
  • 利用 Huginn 打造一站式信息阅读平台

    Huginn其实非常适合像我这样的RSS阅读重度“用户”。很多RSS阅读器因为赚不到钱逐渐被公司所抛弃——商人嘛,无利可图自然不可持久。同时,一些新闻资讯类的网...

    huginn 中文网
  • 2018年7月第一周实用工具型小程序排行榜top10推荐

    速成应用小程序小编了解到,微信小程序成为当下热门话题,下面从多个方面来谈谈微信有哪些实用小程序,实用工具型小程序一周排行榜top10。

    速成应用小程序开发平台

扫码关注云+社区

领取腾讯云代金券