开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >比谷歌BiT效果高4.3倍！IBM华人研究员多角度分析鲁棒性，发现Transformer是永远的神

比谷歌BiT效果高4.3倍！IBM华人研究员多角度分析鲁棒性，发现Transformer是永远的神

新智元

发布于 2021-05-28 10:46:22

4300

发布于 2021-05-28 10:46:22

举报

文章被收录于专栏：新智元

新智元报道

来源：arxiv

编辑：LRS

【新智元导读】IBM华人研究院arxiv发文分析Transformer鲁棒性，比谷歌BiT高4.3倍！CNN将退出CV？

CNN在CV的地位逐渐被Transformer取代，IBM华人研究员arxiv发文分析其鲁棒性，在ImageNet-A数据上竟超越谷歌BiT 4.3倍！

Transformer不光在NLP的任务中取得了前所未有的成绩，在计算机视觉相关任务中也同样能达到SOTA效果。

但，为什么Transformer比CNN更有效？

IBM Research在arxiv上发布了他们的研究成果，通过对六个ImageNet数据集上的实验，通过分析，提供定量的指标来解释Transformer的有效性，代码也上传到GitHub以供复现。

本文的第一作者是Sayak Paul，目前就职于PyImageSearch。

本文的第二作者是Pin-Yu Chen，他是MIT-IBM人工智能实验室，IBM托马斯J.沃森研究中心，可信人工智能小组和PI的研究人员。最近的研究重点是对抗性机器学习和神经网络的鲁棒性，更广泛地说，使机器学习值得信赖。我的研究兴趣还包括图形学习、网络数据分析及其在数据挖掘、机器学习、信号处理和网络安全中的应用

Transformer是由多个self-attention层组成的模型，它能够适用于不同数据模式的一种通用学习模型，包括最近在计算机视觉方面取得的突破，以更好的参数效率实现了最先进的(SOTA)标准准确性。由于自我关注有助于模型系统地对输入数据中的不同组件进行排列，因此有理由研究在模型健壮性基准下的性能。

在这篇论文中，研究人员研究了Vision Transformer(ViT)的常见的模型变体，distribution shift和一些对抗样例，来检验模型鲁棒性。

文章使用六个不同的 ImageNet 数据集进行分类的鲁棒性实验，对所有ViT模型进行全面的性能比较型和 SOTA 卷积神经网络(CNNs) 。通过这一系列的实验，提供了定量和定性的指标的分析来解释为什么Transformer确实是更鲁棒的learner。

ImageNet-P有十个常见类型的绕动，例如几个像素的变化。在这种情况下，mFR和mT5D是是标准的方法去评估模型的鲁棒性。

ImageNet-R和ImageNet的标签类相同，只是在不同领域之间增加了semantic shift。

ImageNet-A 主要针对多标签分类问题下，类别标签误分类的问题。同时还包括一些纹理细节。

ImageNet-O 数据主要针对训练和测试标签不一致的情况下，是否模型预测有较低的置信度。

ImageNet-9 主要面向需要背景的视觉任务，而不只是关注前景。

和其他相似的模型相比，参数较少，在数据集和预训练组合类似的情况下，ViT 在 ImageNet-A 上的top-1准确率为28.10% ，比 BiT （Big Transfer）的模型变体高了4.3倍。通过对图像掩蔽、傅里叶光谱灵敏度和离散余弦能谱扩展的分析，展示了 ViT 的鲁棒性。

但Transformer真的能完全取代CNN吗？微软在今年早些时候也发过一篇论文，把Transformer和CNN结合起来，互相弥补，取得了更好的效果！

在计算机视觉技术发展中，CNN是其他复杂模型的基础。

CNN具备三个重要的特性：一定程度的旋转、缩放不变性；共享权值和局部感受野；层次化的结构，捕捉到的特征从细节到整体。

这些特性使得CNN非常适合计算机视觉任务，也使CNN成为深度学习时代计算机视觉领域的基石，但CNN的细节捕捉能力使它的全局建模能力较弱。

一种全新的基础网络Convolutional vision Transformers (CvT)，既具备Transforms的动态注意力机制、全局建模能力，又具备CNN的局部捕捉能力，同时结合局部和全局的建模能力。

参考资料：

https://sayak.dev/

https://researcher.watson.ibm.com/researcher/view.php?person=ibm-Pin-Yu.Chen

https://arxiv.org/abs/2105.07581

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-05-21，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

【新智元导读】IBM华人研究院arxiv发文分析Transformer鲁棒性，比谷歌BiT高4.3倍！CNN将退出CV？

相关产品与服务

图像处理

图像处理基于腾讯云深度学习等人工智能技术，提供综合性的图像优化处理服务，包括图像质量评估、图像清晰度增强、图像智能裁剪等。

产品介绍产品文档

精选特惠用云无忧