前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepMind 开源感知器 IO,一种通用深度学习模型架构,可处理广泛的数据和任务

DeepMind 开源感知器 IO,一种通用深度学习模型架构,可处理广泛的数据和任务

作者头像
代码医生工作室
发布2021-09-08 15:22:21
7940
发布2021-09-08 15:22:21
举报
文章被收录于专栏:相约机器人相约机器人

最近DeepMind 开源了 Perceiver IO——一种通用的深度学习模型架构,可以处理许多不同类型的输入和输出。这种 Transformers 的“插入式”替代品足够强大,可以在不受领域知识限制的情况下超越基线模型。

arXiv 上的新预印本描述了 Perceiver IO,这是 AI 架构的更通用版本,可以从多个输入产生许多不同的输出。这意味着它适用于语言和视觉等现实领域以及星际争霸 II 等困难游戏。与 Perceiver 不同的是,Perceiver IO 是一种高级模型,它通过学习如何灵活地查询潜在空间,克服了只能产生非常简单的输出的局限性。

与 Transformers 相比,Perceiver IO 的效率更高。该模型可以在一个序列中处理多个输入,而不会产生随之而来的高计算和内存成本。它还允许任何所需的输出数据类型,这使得这个强大的工具灵活但由于其简单性而不是压倒性的。

深度学习模型是为特定类型的数据设计的;计算机视觉 (CV) 模型通常使用卷积神经网络,而自然语言处理 (NLP) 模型则依赖于序列学习。处理多模态输入数据的系统,例如 谷歌的组合视觉语言模型 ——处理视觉和语言输入——通常具有特定领域的架构来处理不同的输入类型,然后再使用附加模块将它们组合起来。许多计算机视觉问题可以使用 Transformer 架构来解决。然而,Transformer 所需的计算和内存资源随着输入序列长度的平方而增加,这使得它们对于视频文件或音频剪辑等一些高维数据类型不切实际。

Perceiver IO 架构使用交叉注意力将高维输入数组投影到低维。然后使用标准的 Transformer 自注意力结构处理潜在空间,以获得卓越的数据表示和处理精度。处理这个潜在空间的 Transformer 模块比直接处理大型阵列的模块高效得多。输入和输出之间的大小差异意味着可以使用更深的处理链,从而在检测具有相似特征的对象时实现更高的准确性。因此,通过应用具有所有所需数据元素的查询数组,将潜在表示转换为输出。

为了帮助广大研究人员和机器学习社区,Deepmind 现已开源其代码。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档