专栏首页新智元比谷歌BiT效果高4.3倍!IBM华人研究员多角度分析鲁棒性,发现Transformer是永远的神

比谷歌BiT效果高4.3倍!IBM华人研究员多角度分析鲁棒性,发现Transformer是永远的神


新智元报道

来源:arxiv

编辑:LRS

【新智元导读】IBM华人研究院arxiv发文分析Transformer鲁棒性,比谷歌BiT高4.3倍!CNN将退出CV?

CNN在CV的地位逐渐被Transformer取代,IBM华人研究员arxiv发文分析其鲁棒性,在ImageNet-A数据上竟超越谷歌BiT 4.3倍!

Transformer不光在NLP的任务中取得了前所未有的成绩,在计算机视觉相关任务中也同样能达到SOTA效果。

但,为什么Transformer比CNN更有效?

IBM Research在arxiv上发布了他们的研究成果,通过对六个ImageNet数据集上的实验,通过分析,提供定量的指标来解释Transformer的有效性,代码也上传到GitHub以供复现。

本文的第一作者是Sayak Paul,目前就职于PyImageSearch。

本文的第二作者是Pin-Yu Chen,他是MIT-IBM人工智能实验室,IBM托马斯J.沃森研究中心,可信人工智能小组和PI的研究人员。最近的研究重点是对抗性机器学习和神经网络的鲁棒性,更广泛地说,使机器学习值得信赖。我的研究兴趣还包括图形学习、网络数据分析及其在数据挖掘、机器学习、信号处理和网络安全中的应用

Transformer是由多个self-attention层组成的模型,它能够适用于不同数据模式的一种通用学习模型,包括最近在计算机视觉方面取得的突破,以更好的参数效率实现了最先进的(SOTA)标准准确性。由于自我关注有助于模型系统地对输入数据中的不同组件进行排列,因此有理由研究在模型健壮性基准下的性能。

在这篇论文中,研究人员研究了Vision Transformer(ViT)的常见的模型变体,distribution shift和一些对抗样例,来检验模型鲁棒性。

文章使用六个不同的 ImageNet 数据集进行分类的鲁棒性实验,对所有ViT模型进行全面的性能比较型和 SOTA 卷积神经网络(CNNs) 。通过这一系列的实验,提供了定量和定性的指标的分析来解释为什么Transformer确实是更鲁棒的learner。

ImageNet-P有十个常见类型的绕动,例如几个像素的变化。在这种情况下,mFR和mT5D是是标准的方法去评估模型的鲁棒性。

ImageNet-R和ImageNet的标签类相同,只是在不同领域之间增加了semantic shift。

ImageNet-A 主要针对多标签分类问题下,类别标签误分类的问题。同时还包括一些纹理细节。

ImageNet-O 数据主要针对训练和测试标签不一致的情况下,是否模型预测有较低的置信度。

ImageNet-9 主要面向需要背景的视觉任务,而不只是关注前景。

和其他相似的模型相比,参数较少,在数据集和预训练组合类似的情况下,ViT 在 ImageNet-A 上的top-1准确率为28.10% ,比 BiT (Big Transfer)的模型变体高了4.3倍。通过对图像掩蔽、傅里叶光谱灵敏度和离散余弦能谱扩展的分析,展示了 ViT 的鲁棒性。

但Transformer真的能完全取代CNN吗?微软在今年早些时候也发过一篇论文,把Transformer和CNN结合起来,互相弥补,取得了更好的效果!

在计算机视觉技术发展中,CNN是其他复杂模型的基础。

CNN具备三个重要的特性:一定程度的旋转、缩放不变性;共享权值和局部感受野;层次化的结构,捕捉到的特征从细节到整体。

这些特性使得CNN非常适合计算机视觉任务,也使CNN成为深度学习时代计算机视觉领域的基石,但CNN的细节捕捉能力使它的全局建模能力较弱。

一种全新的基础网络Convolutional vision Transformers (CvT),既具备Transforms的动态注意力机制、全局建模能力,又具备CNN的局部捕捉能力,同时结合局部和全局的建模能力。

参考资料:

https://sayak.dev/

https://researcher.watson.ibm.com/researcher/view.php?person=ibm-Pin-Yu.Chen

https://arxiv.org/abs/2105.07581

本文分享自微信公众号 - 新智元(AI_era),作者:新智元

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-05-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 准确率至上已是过去式,这些趋势在2020年的AI领域更受关注

    人工智能不是将要改变世界,而是正在改变世界。在新年以及新的十年开启之际,VentureBeat 采访了人工智能领域最杰出的头脑,来回顾人工智能在 2019 年的...

    机器之心
  • 谷歌开源预训练新范式BiT,准确率提高近25%!网友评价:CV界的BERT

    BERT在NLP界无往不利,大大提高了自然语言模型的性能,那么,在计算机视觉领域,有没有可能一个CNN打天下?

    量子位
  • ICLR 2020 | 基于值函数的规划和强化学习的控制架构(视频直播)

    本文对 MIT 完成的,被ICLR 2020录用的论文《Harnessing Structures for Value-Based Planning and R...

    AI科技评论
  • 谷歌Transformer再升级——新模型实现性能、速度双提升,发展潜力巨大

    “数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待!

    数据猿
  • Hello Quantum!谷歌首次实现量子优越性,200秒=超算10000年,论文登上Nature

    尽管量子计算在上世纪80年代就被提出,但是其出现在人们视野里的时间并不长,普通大众对于量子物理的理解,似乎更类似一种“玄学”。

    大数据文摘
  • 对话清华NLP实验室刘知远:NLP搞事情少不了知识库与图神经网络

    在这一年中,清华大学副教授刘知远和他所在的清华自然语言处理实验室同样在这个领域做出了很多成果,他们关注如何结合深度神经网络与大型知识库,并期望构建更多鲁棒及可解...

    zenRRan
  • 2020年,那些「引爆」了ML社区的热门论文、库和基准

    不平凡的 2020 年终于过去了!这一年,由于新冠肺炎疫情的影响,CVPR、ICLR、NeurIPS 等各大学术会议都改为线上举行。但是,机器学习社区的研究者和...

    机器之心
  • ARK Invest最新报告 :AI训练成本下降了100倍,但训练最先进AI模型的成本惊人

    方舟投资(ARK Invest)近日发布了一篇分析报告显示,AI训练成本的提高速度是摩尔定律(Moore’s law)的50倍。摩尔定律是指计算机硬件性能每两年...

    新智元
  • MIT警告深度学习正在逼近计算极限,网友:放缓不失为一件好事

    深度学习需要大量数据和算力,这二者的发展是促进这一次人工智能浪潮的重要因素。但是,近期 MIT 的一项研究认为,深度学习正在逼近算力极限。

    机器之心

扫码关注云+社区

领取腾讯云代金券