首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ViLT:基于transformer模型的计算机视觉与自然语言处理多模态模型

transformer模型刚开始使用在NLP自然语言处理的机器翻译实例上,但是随着注意力机制的算法越来越火,根据transformer模型的魔改模型也越来越多,首先便是Google自己发布的VIT模型,把transformer注意力机制应用到计算机视觉任务上。那么transformer模型是否也同样适用于多模态模型呢?本期我们就介绍一下基于transformer模型的文本与图片多模态模型--ViLT。

ViLT 是一种简单的视觉和语言模型架构,其框架使用transformer模型的encoder编码器来提取和处理视觉特征,而不是单独的计算机视觉模型来提取特征,比如CNN卷积等。模型第一次在不使用区域特征或深度卷积特征提取的情况下在视觉和语言任务上都取得了良好的表现。

可以从模型框图上,我们可以看到ViLT把文本使用word embedding进行数据的特征转换,并加上位置编码传递给transformer模型的encoder编码器进行特征提取,图片部分使用VIT模型的patch embedding,并添加位置编码,最后同样传递给transformer模型的encoder编码器进行注意力机制的计算。从运算速度来看,其模型在对比ViLBERT,UNITER等模型上大大提高了运行效率。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwWAXlA4TT-Qu1hOFZ8zvV0A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券