首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

手把手带你Transformer图像分类

使用Transformer来提升模型的性能 最近几年,Transformer体系结构已成为自然语言处理任务的实际标准, 但其在计算机视觉中的应用还受到限制。在视觉上,注意力要么与卷积网络结合使用, 要么用于替换卷积网络的某些组件,同时将其整体结构保持在适当的位置。2020年10月22日,谷歌人工智能研究院发表一篇题为“An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”的文章。文章将图像切割成一个个图像块,组成序列化的数据输入Transformer执行图像分类任务。当对大量数据进行预训练并将其传输到多个中型或小型图像识别数据集(如ImageNet、CIFAR-100、VTAB等)时,与目前的卷积网络相比,Vision Transformer(ViT)获得了出色的结果,同时所需的计算资源也大大减少。 这里我们以ViT我模型,实现对数据CiFar10的分类工作,模型性能得到进一步的提升。

01
领券