最近DeepMind 开源了 Perceiver IO——一种通用的深度学习模型架构,可以处理许多不同类型的输入和输出。这种 Transformers 的“插入式”替代品足够强大,可以在不受领域知识限制的情况下超越基线模型。
arXiv 上的新预印本描述了 Perceiver IO,这是 AI 架构的更通用版本,可以从多个输入产生许多不同的输出。这意味着它适用于语言和视觉等现实领域以及星际争霸 II 等困难游戏。与 Perceiver 不同的是,Perceiver IO 是一种高级模型,它通过学习如何灵活地查询潜在空间,克服了只能产生非常简单的输出的局限性。
与 Transformers 相比,Perceiver IO 的效率更高。该模型可以在一个序列中处理多个输入,而不会产生随之而来的高计算和内存成本。它还允许任何所需的输出数据类型,这使得这个强大的工具灵活但由于其简单性而不是压倒性的。
深度学习模型是为特定类型的数据设计的;计算机视觉 (CV) 模型通常使用卷积神经网络,而自然语言处理 (NLP) 模型则依赖于序列学习。处理多模态输入数据的系统,例如 谷歌的组合视觉语言模型 ——处理视觉和语言输入——通常具有特定领域的架构来处理不同的输入类型,然后再使用附加模块将它们组合起来。许多计算机视觉问题可以使用 Transformer 架构来解决。然而,Transformer 所需的计算和内存资源随着输入序列长度的平方而增加,这使得它们对于视频文件或音频剪辑等一些高维数据类型不切实际。
Perceiver IO 架构使用交叉注意力将高维输入数组投影到低维。然后使用标准的 Transformer 自注意力结构处理潜在空间,以获得卓越的数据表示和处理精度。处理这个潜在空间的 Transformer 模块比直接处理大型阵列的模块高效得多。输入和输出之间的大小差异意味着可以使用更深的处理链,从而在检测具有相似特征的对象时实现更高的准确性。因此,通过应用具有所有所需数据元素的查询数组,将潜在表示转换为输出。
为了帮助广大研究人员和机器学习社区,Deepmind 现已开源其代码。