专栏首页CVerCVPR 2020 | 眼见为虚:利用对抗文本图像攻击场景文本识别模型

CVPR 2020 | 眼见为虚:利用对抗文本图像攻击场景文本识别模型

本文转载自:CSIG文档图像分析与识别专委会

本文简要介绍CVPR2020录用论文“What Machines See Is Not What They Get: Fooling Scene Text Recognition Models with Adversarial Text Images”的主要工作。该论文针对目前主流的场景文字识别(STR)模型,提出了一种高效的基于优化的对抗攻击方法。这是对抗攻击在场景文本识别模型中的首次尝试和研究。实验证明,该方法在7个真实数据和2个生成数据上大大降低了STR模型的识别性能,并成功攻击了百度OCR的识别引擎。

http://openaccess.thecvf.com/content_CVPR_2020/html/Xu_What_Machines_See_Is_Not_What_They_Get_Fooling_Scene_CVPR_2020_paper.html

一、研究背景

目前,对抗样本的研究主要集中在非序列任务 [1, 2],比如目标检测、语义分割、人脸识别等。然而,对于STR这种序列任务,算法的安全性和可靠性也是非常重要的,比如银行卡、身份证以及驾驶证的识别。但是针对STR算法攻击的研究还很少。与一般分类模型的攻击相比, STR算法的攻击主要有三个难点:1)STR模型的输出是不定长的标签序列,而非序列任务的输出是单一标签。非序列任务常见的攻击策略仅涉及替换操作(改变Ground-truth)[3],但是STR模型中的标签序列需要同时考虑字符级别和单词级别的操作(包括插入、替换和删除)。2)STR模型的攻击样本需要遵从一定的语义信息,输出的序列要对齐,并不是无意义的字符串。3)STR模型的编码器往往利用RNN结构来提取文本图像的上下文序列特征,而不是非序列任务中常用的CNN。本文从目前主流的STR模型(CTC-based And Attention-based)出发,研究其对应的攻击方法。进一步,本文将攻击分为有目标攻击和无目标攻击,有目标攻击是指攻击目标模型使它不仅识别错误并且识别成指定的序列标签,无目标攻击是指识别结果错误即可。Figure 1展示了一些在这两种类型攻击前后的结果。

二、原理阐述

STR模型的对抗攻击目标可以定义为找到一个与普通样本非常相似(人眼几乎不能发现差异)但识别结果却差异很大的样本。因此该文章假定输入的场景文本图片为x,相应的Ground-truth为l={l0, l1,…, lT},T为序列的长度。目标是找到对抗样本x’=x+δ(δ为对抗扰动)来欺骗STR模型,使得其预测出错误的序列l’。其对应的优化问题可以被描述为:

根据解码器(CTC-based解码器和Attention-based解码器)以及攻击方式(有目标攻击和非目标攻击)的组合,该方法有四种不同的形式。

1) 攻击CTC-based STR模型

训练CTC-based识别模型 [4-6] 需要考虑所有有效对齐路径(π∈S(l))到ground-truth(l)的概率,对应的损失函数为:

a) 有目标攻击

有目标攻击要求模型预测出指定的目标序列。假设目标序列为l’={l1’, l2’, …, ltk’,…, lT’},其中有k个字符被改变{lt1’, lt2’, …, ltk’}。输入为x’,为了欺骗STR模型并预测出l’,有效对齐路径π’到{l1’, l2’, …, ltk’}的概率要为最大:

所以,最终的目标函数为:

b) 非目标攻击

非目标攻击只要求模型预测出不为l的序列,因此只要使有效路径到l概率最小即可:

2) 攻击Attention-based STR模型

Attention-based STR模型 [7, 8] 会根据t时刻之前(1, 2,…,t-1)的输出,预测出t时刻的输出,对应的损失函数为:

a) 有目标攻击

首先,假设只改变目标序列中的一个字符(lt’),对应的损失函数为

将这个应用到一般情况,改变目标序列中k个字符,则l’可以分为k+1个部分,即1个没有改变的字符组和k个改变的字符。因为上列公式中第一项是常数项,所以损失函数可以改写为:

攻击方法的最终目标函数为:

b) 非目标攻击

当l中任意位置上的预测字符获得比较低的概率时,该字符就会受到攻击,模型会输出和l不同的序列l’:

所以,最终的目标函数为:

通过求解上述四个目标函数,可以得到相应的攻击样本,具体的流程如下图所示:

三、实验结果

作者对五个STR模型进行了有目标攻击和非目标攻击,并在7个真实数据集和2个生成数据集上做了测试,结果如下:

从表格中可以得出,目前主流的几个STR模型是非常脆弱的,几乎无法正确识别对抗样本,该攻击方法的成功率(SR)接近100%。除此之外,该方法还在真实系统百度OCR上进行了评估。在真实数据上选取800张图片,并用CRNN [4] 和TRBA [8] 的模型产生对抗样本,然后让百度OCR进行识别。识别结果如下:

不管是有目标攻击还是非目标攻击,成功率都在20%以上,由此证明了该攻击方法对百度OCR模型的有效性。

四、总结

本文首次提出了一种通用有效的STR攻击方法,并在目前主流的CTC-based和Attention-based STR模型中得到了验证。作者在7个真实数据、2个生成数据和真实STR系统上对该方法进行测试。结果显示,该攻击方法几乎完全欺骗了5个SOTA的STR模型,同时在商业STR系统上也显示出较高的攻击性能。

参考文献

[1] Chaowei Xiao, Dawei Yang, Bo Li, Jia Deng, and Mingyan Liu. Meshadv: Adversarial meshes for visual recognition. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR, pages 6898–6907, 2019.

[2] Cihang Xie, Jianyu Wang, Zhishuai Zhang, Yuyin Zhou, Lingxi Xie, and Alan L. Yuille. Adversarial examples for semantic segmentation and object detection. In IEEE International Conference on Computer Vision, ICCV, pages 1378–1387, 2017.

[3] Xiaoyong Yuan, Pan He, and Xiaolin Andy Li. Adaptive adversarial attack on scene text recognition. CoRR, abs/1807.03326, 2018.

[4] Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. Pattern Anal. Mach. Intell., 39(11):2298–2304, 2017.

[5] Fedor Borisyuk, Albert Gordo, and Viswanath Sivakumar. Rosetta: Large scale system for text detection and recognition in images. In ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD, pages 71–79, 2018.

[6] Wei Liu, Chaofeng Chen, Kwan-Yee K.Wong, Zhizhong Su, and Junyu Han. Star-net: A spatial attention residue network for scene text recognition. In British Machine Vision Conference, BMVC, 2016.

[7] Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Robust scene text recognition with automatic rectification. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR, pages 4168–4176, 2016.

[8] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In IEEE International Conference on Computer Vision, pages 652–661, 2019.

原文作者:Xing Xu, Jiefu Chen, Jinhui Xiao, Lianli Gao, Fumin Shen, Heng Tao Shen

本文分享自微信公众号 - CVer(CVerNews)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 伊利诺伊大学和微软研究院提出:用于目标检测的 Anchor Box 优化

    前几天更了一篇超全的Anchor文章:目标检测最新方向:推翻固有设置,不再一成不变Anchor,但其中并没有包含本文分享的论文。

    Amusi
  • [计算机视觉论文速递] 2018-06-19 CVPR 2018专场

    这篇文章有4篇论文速递,都是CVPR 2018论文,包括zero-shot learning、图像合成和图像转换等方向。

    Amusi
  • ICLR2020|商汤提出新目标检测NAS方法:算力重分配(CRNAS)

    介绍一下我在商汤科技&悉尼大学AutoML组ICLR2020最新文章,文章也会分享一些我对NAS的一些浅显的个人看法,希望能够对大家有所启发。

    Amusi
  • NIPS 2018 | 南大周志华等人提出无组织恶意攻击检测算法UMA

    作者:Ming Pang、Wei Gao、Min Tao、Zhi-Hua Zhou

    机器之心
  • 特别企划 | 那些年你“听不懂”的安全名词

    也许你已经对网络钓鱼耳熟能详了,也许你也遇到过一些勒索软件或者病毒的攻击。但 catfishing 是什么?水坑攻击为什么叫水坑攻击?51% 攻击又是什么?边信...

    FB客服
  • 什么是CC攻击?CC攻击有哪些类型?

    CC攻击其实属于DDoS攻击的一种,这种攻击普遍都是流量不是很高,但是破坏性非常大,直接导致系统服务挂了无法正常服务。评长期处于防护状态经验的我来说可以分为以下...

    墨者盾
  • 了解针对“所有”版本Android的Cloak & Dagger攻击

    Cloak&Dagger攻击是一种利用权限不匹配问题来访问Android设备的攻击方法,版本在7.1.2及以下的Android设备都会受到这种攻击的影响。Clo...

    FB客服
  • 【每日一提】问题 1197: 发工资咯

    作为程序猿,最盼望的日子就是每月的9号了,因为这一天是发工资的日子,养家糊口就靠它了,呵呵 但是对于公司财务处的工作人员来说,这一天则是很忙碌的一天,财务处的...

    编程范 源代码公司
  • [每日一题]发工资咯

    题目描述 作为程序猿,最盼望的日子就是每月的9号了,因为这一天是发工资的日子,养家糊口就靠它了,呵呵 但是对于公司财务处的工作人员来说,这一天则是很忙碌的一...

    编程范 源代码公司
  • 土卫二或存在生命?NASA计划派机器人探查一番

    土星因为其美丽的行星环被称为太阳系的宝石,土卫二是土星的第六大卫星,它的南极有温暖的海洋和热液活动,从而被认为是太阳系除地球外最适宜生命的行星。据Futuris...

    机器人网

扫码关注云+社区

领取腾讯云代金券