首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【一个深度学习模型解决所有问题】谷歌MultiModel通吃文本、图像、翻译

这些子网络被称为 “模式网”(modality net),因为它们分别对应具体的模式(比如图像、语音、文本),并决定了外部领域和统一表征之间的转变(transformation)。...由于模型是自回归的,modality net 需要先转变为输入进入统一的表征空间,之后再转变为输出。因此,作者表示,在设计上有两个关键的地方: 统一表征大小可变(variable-size)。...虽然大小固定的表征方便部署,但这样会造成瓶颈,妨碍模型发挥 相同领域的不同任务共享 modality net。...例如,不论语种,所有的翻译任务都使用同样的 modality net,这样便于泛化 MultiModel 由多个部分构成,比如不同的卷积层、注意力机制和混合专家层。...MultiModel 架构:MultiModel 架构由几个 modality net、1 个编码器,1 个 I/O mixer,以及 1 个自回归解码器构成。

1.1K60

自动化所研发全球首个图文音三模态预训练模型,让AI更接近人类想象力!

针对这些问题,自动化所此次提出的视觉-文本-语音三模态预训练模型采用分别基于词条级别(Token-level)、模态级别(Modality-level)以及样本级别(Sample-level)的多层次、...针对图文音三模态数据,自动化所提出三级预训练自监督学习方式:词条级别 (Token-level,Modality-level),模态级(Modality-level masking)以及样本级别(Sample-level...(2)模态级别(Modality-level)学习 包括文本重构和图像重构两个任务,分别学习重构输入文本和图像。...自动化所引入模态级别掩码(Modality-Level Masking)机制随机地掩盖一个模态信息,使得模型需要根据其他模态信息对当前模态进行重构,从而能够进行下游的跨模态生成任务。

54520
领券