前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >比谷歌BiT效果高4.3倍!IBM华人研究员多角度分析鲁棒性,发现Transformer是永远的神

比谷歌BiT效果高4.3倍!IBM华人研究员多角度分析鲁棒性,发现Transformer是永远的神

作者头像
新智元
发布2021-05-28 10:46:22
4040
发布2021-05-28 10:46:22
举报
文章被收录于专栏:新智元新智元新智元


新智元报道

来源:arxiv

编辑:LRS

【新智元导读】IBM华人研究院arxiv发文分析Transformer鲁棒性,比谷歌BiT高4.3倍!CNN将退出CV?

CNN在CV的地位逐渐被Transformer取代,IBM华人研究员arxiv发文分析其鲁棒性,在ImageNet-A数据上竟超越谷歌BiT 4.3倍!

Transformer不光在NLP的任务中取得了前所未有的成绩,在计算机视觉相关任务中也同样能达到SOTA效果。

但,为什么Transformer比CNN更有效?

IBM Research在arxiv上发布了他们的研究成果,通过对六个ImageNet数据集上的实验,通过分析,提供定量的指标来解释Transformer的有效性,代码也上传到GitHub以供复现。

本文的第一作者是Sayak Paul,目前就职于PyImageSearch。

本文的第二作者是Pin-Yu Chen,他是MIT-IBM人工智能实验室,IBM托马斯J.沃森研究中心,可信人工智能小组和PI的研究人员。最近的研究重点是对抗性机器学习和神经网络的鲁棒性,更广泛地说,使机器学习值得信赖。我的研究兴趣还包括图形学习、网络数据分析及其在数据挖掘、机器学习、信号处理和网络安全中的应用

Transformer是由多个self-attention层组成的模型,它能够适用于不同数据模式的一种通用学习模型,包括最近在计算机视觉方面取得的突破,以更好的参数效率实现了最先进的(SOTA)标准准确性。由于自我关注有助于模型系统地对输入数据中的不同组件进行排列,因此有理由研究在模型健壮性基准下的性能。

在这篇论文中,研究人员研究了Vision Transformer(ViT)的常见的模型变体,distribution shift和一些对抗样例,来检验模型鲁棒性。

文章使用六个不同的 ImageNet 数据集进行分类的鲁棒性实验,对所有ViT模型进行全面的性能比较型和 SOTA 卷积神经网络(CNNs) 。通过这一系列的实验,提供了定量和定性的指标的分析来解释为什么Transformer确实是更鲁棒的learner。

ImageNet-P有十个常见类型的绕动,例如几个像素的变化。在这种情况下,mFR和mT5D是是标准的方法去评估模型的鲁棒性。

ImageNet-R和ImageNet的标签类相同,只是在不同领域之间增加了semantic shift。

ImageNet-A 主要针对多标签分类问题下,类别标签误分类的问题。同时还包括一些纹理细节。

ImageNet-O 数据主要针对训练和测试标签不一致的情况下,是否模型预测有较低的置信度。

ImageNet-9 主要面向需要背景的视觉任务,而不只是关注前景。

和其他相似的模型相比,参数较少,在数据集和预训练组合类似的情况下,ViT 在 ImageNet-A 上的top-1准确率为28.10% ,比 BiT (Big Transfer)的模型变体高了4.3倍。通过对图像掩蔽、傅里叶光谱灵敏度和离散余弦能谱扩展的分析,展示了 ViT 的鲁棒性。

但Transformer真的能完全取代CNN吗?微软在今年早些时候也发过一篇论文,把Transformer和CNN结合起来,互相弥补,取得了更好的效果!

在计算机视觉技术发展中,CNN是其他复杂模型的基础。

CNN具备三个重要的特性:一定程度的旋转、缩放不变性;共享权值和局部感受野;层次化的结构,捕捉到的特征从细节到整体。

这些特性使得CNN非常适合计算机视觉任务,也使CNN成为深度学习时代计算机视觉领域的基石,但CNN的细节捕捉能力使它的全局建模能力较弱。

一种全新的基础网络Convolutional vision Transformers (CvT),既具备Transforms的动态注意力机制、全局建模能力,又具备CNN的局部捕捉能力,同时结合局部和全局的建模能力。

参考资料:

https://sayak.dev/

https://researcher.watson.ibm.com/researcher/view.php?person=ibm-Pin-Yu.Chen

https://arxiv.org/abs/2105.07581

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】IBM华人研究院arxiv发文分析Transformer鲁棒性,比谷歌BiT高4.3倍!CNN将退出CV?
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档