首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布

7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布

作者头像
机器之心
发布2022-05-16 11:42:31
发布2022-05-16 11:42:31
5220
举报
文章被收录于专栏:机器之心机器之心

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周论文包括:受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点;计算机理论顶会 STOC2022 奖项公布。

目录

  1. A Generalist Agent 
  2. Language Models Can See: Plugging Visual Controls in Text Generation 
  3. The Optimal Error Resilience of Interactive Communication Over Binary Channels
  4. The Exact Complexity of Pseudorandom Functions and Tight Barriers to Lower Bound Proofs
  5. Locally Testable Codes with constant rate, distance, and locality
  6. GANimator: Neural Motion Synthesis from a Single Sequence 
  7. Translation between Molecules and Natural Language 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:A Generalist Agent

  • 作者:Scott Reed 、 Konrad Żołna 等
  • 论文链接:https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

摘要:假如使用单一序列模型就能解决所有任务,是再好不过的事情,因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性,此外,这种通用模型随着数据的扩充和模型的扩展,性能还会提高。从历史上看,更擅长利用计算的通用模型最终也会超过特定于专门领域的模型。

近日,受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。

Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。

与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。

Gato 的训练数据集应该尽量广泛,需要包括不同模态,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。为了能够处理这种多模态数据,Deepmind 将所有数据序列化为一个扁平的 token 序列。

在这种表示中,Gato 可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的 token 会根据上下文组合成对话响应、字幕、按钮按下或其他动作。

下图为 Gato 的训练流程。

推荐:DeepMind「通才」AI 智能体 Gato 来了,多模态、多任务,受大语言模型启发。

论文 2:Language Models Can See: Plugging Visual Controls in Text Generation

  • 作者:Yixuan Su 、 Tian Lan 等
  • 论文链接:https://arxiv.org/abs/2205.02655

摘要:来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的 MAGIC 框架。MAGIC 通过直接插入可控的图文匹配模型分数的方式,使得语言模型在解码过程中选择更接近图片信息的生成结果。这样,语言模型可以在不经过任何跨模态训练的情况下,高质量地解决跨模态生成任务,得到明显优于弱监督模型的文本生成质量。同时,与 ZeroCap 相比,MAGIC 还拥有接近 27 倍的推理速度提升。

为了适应特定跨模态任务的文本领域,该研究预先使用了跨模态训练数据集中的文本数据,采取无监督的方式更新语言模型的参数(仅需在 1 块 NVIDIA 1080Ti 上运行不到两个小时),从而使得语言模型更加熟悉该领域的文本分布。具体而言,本文使用 MLE 损失函数训练语言模型的参数:

此外,SimCTG[2] 的最新工作证明了通过引入对比损失来校准模型的语义空间,能够获得质量更高的语言模型。因此,本文也同时优化如下的对比损失:

其中 p 是用来校准生成模型表示空间的 margin 参数,s 用来计算 token 表示之间的余弦相似度。最终,本文将两个损失函数合并,以此来优化文本模态的 GPT-2 语言模型:

推荐:即插即用、无需训练:剑桥大学、腾讯 AI Lab 等提出免训练跨模态文本生成框架。

论文 3:The Optimal Error Resilience of Interactive Communication Over Binary Channels

  • 作者:Meghal Gupta、 Rachel Yun Zhang
  • 论文链接:https://arxiv.org/pdf/2110.15395.pdf

摘要:在交互式编码中,Alice 和 Bob 希望计算它们各自私有输入 x 和 y 的某个函数 f,并通过参与非自适应(固定顺序和固定长度)交互式协议进行联合计算 f(x, y) 。它们的目标是以一种容错方式做到,这样一来,即使对协议施加了部分对抗性破坏,双方仍可以学习 f(x, y)。

在这项工作中,研究者探究了这种协议在面对对抗性位翻转性或擦除时的最优抗误码能力。虽然这种协议在大型字母表上的最优抗误码能力是众所周知的,但在二进制字母表上的情况仍然未知。因此,研究者解决了在二进制信道上确定最优抗误码能力。

具体而言,研究者构建的协议能够在二进制位翻转信道上实现 1/6 抗误码和在二进制擦除信道上实现 1/2 抗误码,这两者的匹配上限都是已知的。他们还注意到,二进制位翻转协议的通信复杂度在输入大小上是多项式的,而二进制擦除协议的通信复杂度在最小无噪声协议计算 f 的大小上是线性的。

协议 1。

推荐:计算机理论顶会 STOC2022 最佳学生论文。

论文 4:The Exact Complexity of Pseudorandom Functions and Tight Barriers to Lower Bound Proofs

  • 作者:范致远、李嘉图、杨天祺
  • 论文链接:https://eccc.weizmann.ac.il/report/2021/125

摘要:密码学需要多少计算资源?这是一个既有理论意义又有实际意义的重要问题。本文研究了电路复杂性背景下的伪随机函数(pseudorandom functions,PRFs)问题。令人惊讶的是,该研究在各种电路模型中证明了极其严格的上限和下限。

  • 在一般的 B_2 电路中,假设存在 PRF,PRF 可以构建为 2n + o(n) 大小,这简化和改进了 Ishai 等人限制的 O(n)。该研究通过给出无条件的 2n - O(1) 下限来证明这种构造几乎是最优的;
  • 在对数深度电路(logarithmic depth circuits)中,假设存在 NC^1 PRF,PRF 可以同时构建为 2n + o(n) 大小和 (1 + ε)log n 深度;
  • 在恒定深度线性阈值电路中,假设存在 TC^0 PRF,PRF 可以用导线复杂度构建。该研究还给出了某个常数 c 的 线复杂度下限。

值得一提的是,这篇获奖论文的三位作者范致远(计科 91)、李嘉图(计科 92)、杨天祺(计科 92),他们都是清华姚班本科生。三个人均以保送方式进入清华大学, 杨天祺、李嘉图还曾荣获第 44 届 ICPC 国际大学生程序设计竞赛东亚大陆决赛金牌。

推荐:计算机理论顶会 STOC2022 最佳学生论文。

论文 5:Locally Testable Codes with constant rate, distance, and locality

  • 作者:Irit Dinur、 Shai Evra、 Ron Livne、 Alexander Lubotzky、 Shahar Mozes
  • 论文链接:https://arxiv.org/pdf/2111.04808.pdf

摘要:本地可测试代码(locally testable code, LTC)是具有属性测试器的纠错代码。测试者读取随机选择的 q 个比特,并以与它们和代码之间的距离成正比的概率拒绝单词。参数 q 为被称为测试者的位置。

LTC 最开始是作为 PCP 的重要组件进行研究的,此后便发展成为单独的主题了。高速率 LTC 在实践中可能非常有用:在尝试对接收到的字进行解码之前,我们首先可以通过快速测试它是否接近代码来节省时间。不过,一个尚未解决的问题在于是否存在「c^3-LTCs」,即具有恒定速率、恒定距离和恒定位置的 LTC。

在本文中,研究者基于一个新的二维复合体构建这样的代码,并称之为「左右 Cayley 复合体」。这本质上是一个图,除了点和边之外还有正方形。他们的代码可以被视为(一维)扩展器代码的二维版本,其中代码字是正方形而非边上的函数。

算法 1:迭代解码算法。

推荐:计算机理论顶会 STOC2022 最佳论文。

论文 6:GANimator: Neural Motion Synthesis from a Single Sequence

  • 作者:PEIZHUO LI 、KFIR ABERMAN 、 ZIHAN ZHANG 等
  • 论文链接:https://arxiv.org/pdf/2205.02625.pdf

摘要:近日,来自苏黎世联邦理工学院、谷歌、芝加哥大学等机构的研究者开发了一个框架 GANimator,该框架能够产生不同且逼真的动作,只使用一个单一的训练序列。这一框架大大简化了数据收集过程,同时允许创建逼真的动作变化,还可以准确地捕捉单独动作序列细节。该研究入选 SIGGRAPH 2022。

我们先来看如下效果图,左边输入的是单个动作序列,右边是生成结果:

群体动画。GANimator 框架训练了一个单一的螃蟹舞蹈序列,可以生成各种新颖的运动:

上述示例说明 GANimator 框架是生成新动作的有效工具,它可以仅使用短动作序列作为输入来合成较长、多样和高质量的动作序列。

动作表征:研究者通过一个𝑇姿势的时序集来表征动作序列,该时序集由足部关节位移 O ϵ R^𝑇×3 和关节旋转 R ϵ R^𝑇×𝐽𝑄组成,其中𝐽表示关节数,𝑄表示旋转特征数。为了减少常见的足部滑动伪影,研究者在表征中加入了足部接触标签。并且,为了简化注释,他们还将连接特征的度量空间表示成了 M_𝑇 ≡ R^𝑇×(𝐽 𝑄+𝐶+3)。

研究者提出的动作生成框架如下图 2 所示。该框架由𝑆个粗放到精细(coarse-to-fine)对抗生成网络组成,每个负责生成具有特定帧数 {𝑇_𝑖 }^𝑆_𝑖=1 的动作序列。

网络构建块:首先是生成器。研究者采用的生成器𝐺_𝑖包含一个全卷积神经网络𝑔_𝑖 (·),该网络由具有一些骨骼感知卷积层和其后的非线性层。由于该网络的主要作用是添加缺失的高频细节,因此他们使用残差结构,因此对于 2 ≤ 𝑖 ≤ 𝑆,得到如下公式(4)。

下图为 3 则为生成器架构概览。

其次是鉴别器。虽然经典 GAN 架构中的鉴别器输出单个标量,指示输入被分类为「真」或「假」。但对于训练数据中单个序列的情况,这种结构会导致模式崩溃,原因是生成器通常过拟合序列。最后是骨骼感知算子。研究者采用骨骼感知卷积作为框架基础构建块。骨骼感知算子需要一个由一组关节(顶点)和临接表(边)定义的固定骨骼拓扑。由于网络在单个序列上运行,他们调整该拓扑以匹配输入序列。这允许在任何骨骼拓扑上操作,并且不需要将输入动作重新定位到特定的骨骼结构。

推荐:ETH、谷歌用单个序列玩转神经动作合成,入选 SIGGRAPH。

论文 7:Translation between Molecules and Natural Language

  • 作者:Carl Edwards 、 Tuan Lai 等
  • 论文链接:http://blender.cs.illinois.edu/paper/molt5.pdf

摘要:来自伊利诺伊大学厄巴纳 - 香槟分校和 Google X 的研究者通过提出两项新任务来实现分子与自然语言转换的研究目标:1)为分子生成描述;2)在文本指导下从头生成分子。

如下图所示,文本指导分子生成任务是创建一个与给定自然语言描述相匹配的分子,这将有助于加速多个科学领域的研究。

在多模态模型领域,自然语言处理和计算机视觉 (V+L) 的交叉点已被广泛研究。通过自然语言实现对图像的语义级控制已取得一些进展,人们对多模态数据和模型越来越感兴趣。

该研究提出的分子 - 语言任务与 V+L 任务有一些相似之处,但也有几个特殊的难点:1)为分子创建注释需要大量的专业知识,2)因此,很难获得大量的分子 - 描述对,3) 同一个分子可以具有许多功能,需要多种不同的描述方式,这导致 4) 现有评估指标(例如 BLEU)无法充分评估这些任务。

为了解决数据稀缺的问题,该研究提出了一种新的自监督学习框架 MolT5(Molecular T5),其灵感来源于预训练多语言模型的最新进展(Devlin et al., 2019; Liu et al., 2020)。MolT5 首先使用简单的去噪目标在大量未标记的自然语言文本和分子字符串上预训练模型。之后,预训练模型在有限的黄金标准注释上进行微调。

此外,为了充分评估分子描述或生成模型,该研究提出了一个名为 Text2Mol 的新指标(Edwards et al., 2021)。Text2Mol 重新调整了检索模型的用途,以分别评估实际分子 / 描述和生成的描述 / 分子之间的相似性。

图 3 为 MolT5 架构图。该研究首先使用 T5.1.1(T5 的改进版本)的公共检查点(public checkpoints)之一初始化编码器 - 解码器 Transformer 模型。之后,他们使用「replace corrupted spans」目标对模型进行预训练。具体而言,在每个预训练 step 中,该研究都会采样一个包含自然语言序列和 SMILES 序列的 minibatch。对于每个序列来说,研究者将随机选择序列中的一些单词进行修改。每个连续 span 中的 corrupted token 都被一个 sentinel token 替换(如图 3 中的 [X] 和 [Y] 所示)。接下来的任务是预测 dropped-out span。

推荐:给几句话就能生成分子,看见分子也能生成描述,神秘的 Google X 把多模态 AI 做成了黑科技。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation.  (from Jiawei Han)

2. Multi-level Contrastive Learning for Cross-lingual Spoken Language Understanding.  (from Jian Pei)

3. KETOD: Knowledge-Enriched Task-Oriented Dialogue.  (from Bing Liu)

4. Identifying concept libraries from language about object structure.  (from Joshua B. Tenenbaum)

5. Structured, flexible, and robust: benchmarking and improving large language models towards more human-like behavior in out-of-distribution reasoning tasks.  (from Joshua B. Tenenbaum)

6. Richer Countries and Richer Representations.  (from Dan Jurafsky)

7. Problems with Cosine as a Measure of Embedding Similarity for High Frequency Words.  (from Dan Jurafsky)

8. Building Machine Translation Systems for the Next Thousand Languages.  (from Zhifeng Chen, Yonghui Wu)

9. FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue.  (from Lise Getoor)

10. Empowering parameter-efficient transfer learning by recognizing the kernel structure in self-attention.  (from Yang Liu, Dilek Hakkani-Tur)

本周 10 篇 CV 精选论文是:

1. Fingerprint Template Invertibility: Minutiae vs. Deep Templates.  (from Anil K. Jain)

2. Learning to Answer Visual Questions from Web Videos.  (from Josef Sivic, Ivan Laptev, Cordelia Schmid)

3. Weakly-supervised segmentation of referring expressions.  (from Ivan Laptev, Cordelia Schmid)

4. Cross-domain Few-shot Meta-learning Using Stacking.  (from Eibe Frank, Bernhard Pfahringer)

5. Unsupervised Discovery and Composition of Object Light Fields.  (from Fredo Durand, Joshua B. Tenenbaum)

6. RISP: Rendering-Invariant State Predictor with Differentiable Simulation and Rendering for Cross-Domain Parameter Estimation.  (from Joshua B. Tenenbaum, Wojciech Matusik)

7. Bi-level Alignment for Cross-Domain Crowd Counting.  (from Jian Yang, Bernt Schiele)

8. Towards Racially Unbiased Skin Tone Estimation via Scene Disambiguation.  (from Michael J. Black)

9. Localized Vision-Language Matching for Open-vocabulary Object Detection.  (from Thomas Brox)

10. Group R-CNN for Weakly Semi-supervised Object Detection with Points.  (from Kai Chen)

本周 10 篇 ML 精选论文是:

1. PinnerFormer: Sequence Modeling for User Representation at Pinterest.  (from Jure Leskovec)

2. Neural operator learning of heterogeneous mechanobiological insults contributing to aortic aneurysms.  (from George Em Karniadakis)

3. Surreal-GAN:Semi-Supervised Representation Learning via GAN for uncovering heterogeneous disease-related imaging patterns.  (from Christos Davatzikos)

4. Subspace Learning Machine (SLM): Methodology and Performance.  (from C.-C. Jay Kuo)

5. Symphony: Learning Realistic and Diverse Agents for Autonomous Driving Simulation.  (from Dragomir Anguelov)

6. Deep Federated Anomaly Detection for Multivariate Time Series Data.  (from Jiebo Luo)

7. Graph Spectral Embedding using the Geodesic Betweeness Centrality.  (from Stefano Soatto)

8. DADApy: Distance-based Analysis of DAta-manifolds in Python.  (from Alessandro Laio)

9. Investigating Generalization by Controlling Normalized Margin.  (from Yang Liu)

10. Results of the NeurIPS'21 Challenge on Billion-Scale Approximate Nearest Neighbor Search.  (from Matthijs Douze, Jingdong Wang)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档