前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞;斯坦福CS博士新作:BERT单节点训练最快

7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞;斯坦福CS博士新作:BERT单节点训练最快

作者头像
机器之心
发布2022-06-20 18:10:51
4490
发布2022-06-20 18:10:51
举报
文章被收录于专栏:机器之心机器之心

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周重要论文包括:斯坦福大学提出一种快速、内存高效的注意力算法,被命名为 FlashAttention,通过减少 GPU 内存读取 / 写入,FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍,所需内存减少 5-20 倍;来自 MIT CSAIL 的学者们介绍了一种可禁用苹果 M1 芯片指针身份验证机制的新型硬件攻击,名为「PACMAN」,这种攻击能够阻止 M1 芯片检测到软件漏洞攻击。

目录:

  1. Emergent Abilities of Large Language Models 
  2. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 
  3. Towards artificial general intelligence via a multimodal foundation model
  4. Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
  5.  PACMAN: Attacking ARM Pointer Authentication with Speculative Execution
  6. Multi-Game Decision Transformers 
  7. End-to-end Generative Pretraining for Multimodal Video Captioning 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Emergent Abilities of Large Language Models

  • 作者:Jason Wei 、 Percy Liang 、 Jeff Dean 等
  • 论文地址:https://arxiv.org/pdf/2206.07682.pdf

摘要:包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of Large Language Models 》,他们讨论了大模型不可预测现象,并称之为大型语言模型的突现能力( emergent abilities)。所谓的突现,即有些现象不存在于较小的模型中但存在于较大的模型中,他们认为模型的这种能力是突现的。

本文探讨了模型规模的突现,通过训练计算和模型参数来衡量。具体而言,本文将大型语言模型的突现能力定义为在小规模模型中不存在、但在大规模模型中存在的能力;因此,大型模型不能通过简单地推断小规模模型的性能改进来进行预测。该研究调查了在一系列先前工作中观察到的模型突现能力,并将它们进行分类:小样本提示和增强提示等设置。

本文首先讨论了提示范式中的突现能力。例如在 GPT-3 提示中,给出预训练语言模型任务提示,模型无需进一步训练或对参数进行梯度更新即可完成响应。此外,Brown 等人提出了小样本提示,他们将模型上下文(输入)中的一些输入输出示例作为提示(preamble),然后要求模型执行未见过的推理任务。图 1 为一个提示示例。

当模型具有随机性能且具有一定规模时,通过小样本提示就可以执行任务,这时突现能力就会出现,之后模型性能远远高于随机性能。下图展示了 5 个语言模型系列(LaMDA、GPT-3、Gopher、Chinchilla 以及 PaLM )的 8 种突现能力。

BIG-Bench:图 2A-D 描述了来自 BIG-Bench 的四个突现小样本提示任务,BIG-Bench 是一个由 200 多个语言模型评估基准的套件。图 2A 显示了一个算术基准,它测试了 3 位数字的加减法,以及 2 位数字的乘法。表 1 给出了 BIG-Bench 更多突现能力。

图 3D 显示这些模型也可以泛化到域外 9 位加法,它出现在 ∼1.3 · 10^20 个训练 FLOPs(100M 参数)。

推荐:Jeff Dean 等人新作:换个角度审视语言模型,规模不够发现不了。

论文 2:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

  • 作者:Tri Dao 、 Daniel Y. Fu 等
  • 论文地址:https://arxiv.org/pdf/2205.14135.pdf

摘要:一种快速、内存高效的注意力算法来了,被命名为 FlashAttention。通过减少 GPU 内存读取 / 写入,FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍,所需内存减少 5-20 倍。

这项研究由斯坦福大学、纽约州立大学布法罗分校的研究者共同完成。共同一作是两位斯坦福计算机博士生 Tri Dao 和 Dan Fu。

在本文中,该研究认为应该让注意力算法具有 IO 感知——即考虑显存级间的读写。现代 GPU 计算速度超过了内存速度,transformer 中的大多数操作都被内存访问所阻塞。IO 感知算法对于类似的内存绑定操作至关重要,这种重要性体现在当读写数据占据很大运行时——例如数据库连接、图像处理、数值线性代数等。然而,用于深度学习的常见 Python 接口,如 PyTorch 和 Tensorflow,不允许对内存访问进行细粒度控制。

该研究提出了一种新的注意力算法 FlashAttention,它可以使用更少的内存访问来计算精确的注意力。FlashAttention 旨在避免从 HBM(High Bandwidth Memory)中读取和写入注意力矩阵。这需要做到:(i) 在不访问整个输入的情况下计算 softmax reduction;(ii) 在后向传播中不能存储中间注意力矩阵。

该研究在 CUDA 中实现 FlashAttention ,以达到对内存访问的细粒度控制,并将所有注意力操作融合到一个 GPU 内核中。即使由于重新计算导致 FLOPs 增加,但其运行速度更快(在 GPT-2 上高达 7.6 倍,图 1 右图)并且使用更少的内存(序列长度线性),主要是因为大大减少了 HBM 访问量。

该研究分析了 FlashAttention 的 IO 复杂度,证明它需要𝑂(𝑁^2𝑑^2^𝑀−1)HBM 访问,其中𝑑是 head 维度,𝑀是 SRAM 的大小,而标准的注意力需要Ω(𝑁𝑑 + 𝑁^2 )HBM 访问。对于𝑑 和 𝑀 的典型值,与标准注意力相比,FlashAttention 需要的 HBM 访问次数要少很多(最多减少 9 倍,如图 2 所示)。

该研究还表明,FlashAttention 可以作为一种原语(primitive),通过克服内存访问开销问题来实现近似注意力算法。作为概念证明,该研究实现了块稀疏 FlashAttention,这是一种稀疏注意力算法,比 FlashAttention 快 2-4 倍,可扩展到 64k 的序列长度。该研究证明了块稀疏 FlashAttention 比 FlashAttention 具有更好的 IO 复杂度。

推荐:斯坦福大学 CS 博士新作:新型 Attention 提速 2-4 倍,BERT 单节点训练最快。

论文 3:Towards artificial general intelligence via a multimodal foundation model

  • 作者:卢志武、孙浩、文继荣等
  • 论文地址:https://www.nature.com/articles/s41467-022-30761-2

摘要:最近,中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授作为共同通讯作者在国际综合期刊《自然 · 通讯》(英文名:Nature Communications,简称 Nat Commun)上发表题为「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究论文,文章第一作者为博士生费楠益。该工作尝试利用多模态基础模型迈向通用人工智能,并将对各种 AI + 领域(如神经科学和医疗健康)产生广泛的影响。

该研究开发了一个大规模多模态基础模型在海量的多模态数据上进行自监督训练,并把它取名为 BriVL(Bridging-Vision-and-Language)。

具体来说,为了对图文对的弱相关性进行建模,并学习一个统一的语义空间,该研究基于单模态对比学习方法 MoCo 设计了一个跨模态对比学习算法。如图 2 所示,该研究的 BriVL 模型使用了 momentum 机制,用来在不同的训练批次中动态维护负样本队列。通过这种方式,该研究会有一个比较大的负样本数量(对对比学习至关重要),同时使用一个相对较小的 batch 大小以减少 GPU 的内存占用(即 GPU 资源节约)。 

图 2:用于大规模多模态预训练的 BriVL 模型示意图。

推荐:人大高瓴人工智能学院 Nature 子刊:尝试利用多模态基础模型迈向通用人工智能。

论文 4:Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

  • 作者:Aarohi Srivastava、Abhinav Rastogi 等
  • 论文地址:https://arxiv.org/abs/2206.04615

摘要:在 Jeff Dean 等人 Pathways 架构的首个模型 PaLM 中,研究人员在一个名为 BIG-Bench 的大模型专用基准上与其他算法进行了多项任务测试。近日,谷歌终于将 BIG-Bench 的论文和 GitHub 公开出来。

研究人员表示,该工作历经两年努力完成,论文长达 100 页,作者有 442 人,目前 benchmark 包含的任务已经从 PaLM 论文时期的 150 个增加到超过 200 个。

BIG-bench 目前由 204 个任务组成,获得了来自 132 个研究机构的 442 位作者贡献。该基准的任务主题多种多样,涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。BIG-bench 专注于被认为超出当前语言模型能力的任务。谷歌在 BIG-bench 上评估了 OpenAI 的 GPT 系列模型、谷歌内部的密集 transformer 架构和 Switch 式稀疏 transformer 的行为,模型规模跨越数百万到数千亿个参数。

BIG-bench 目前由 204 个任务组成,获得了来自 132 个研究机构的 442 位作者贡献。该基准的任务主题多种多样,涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。BIG-bench 专注于被认为超出当前语言模型能力的任务。谷歌在 BIG-bench 上评估了 OpenAI 的 GPT 系列模型、谷歌内部的密集 transformer 架构和 Switch 式稀疏 transformer 的行为,模型规模跨越数百万到数千亿个参数。

图 1:在 BIG-bench 上,很多模型总体性能随着体量的增加而提高。但目前看来,所有模型在绝对值(absolute term)方面都表现一般。

图 2:现有基准测试的范围很窄,并且表现出快速饱和的性能。

图 4:每个 BIG-bench Lite 任务上的最佳(蓝色)和平均(灰色)人类得分,以及最佳模型配置(栗色)的 BIG-bench Lite 性能。多项选择任务的随机性能由影线标记表示。

推荐:送给大模型的「高考」卷:442 人联名论文给大模型提出 204 个任务,谷歌领衔。

论文 5:PACMAN: Attacking ARM Pointer Authentication with Speculative Execution

  • 作者:Joseph Ravichandran 、 Weon Taek Na 、 Jay Lang 等
  • 论文地址:http://pacmanattack.com/paper.pdf

摘要:近日,来自 MIT CSAIL 的学者们重点介绍了一种可禁用苹果 M1 芯片指针身份验证机制的新型硬件攻击,名为「PACMAN」,这种攻击能够阻止 M1 芯片检测到软件漏洞攻击。

该研究团队由 MIT 电气工程与计算机科学系助理教授 Mengjia Yan 领导,成员包括 Joseph Ravichandran、Weon Taek Na、Jay Lang。他们将在本月即将举行的计算机体系结构顶会 ISCA 2022 会议上重点介绍「PACMAN」。

「PACMAN」能够削弱 PAC 防御能力的攻击模式,从而使得计算机操作系统变得易受攻击。由于 PAC 可能会集成到未来基于 64 位 Arm 架构构建的处理器中,因此该漏洞可能会变得更加普遍。团队表示,他们尚未对新发布的同样支持指针身份验证的 M2 芯片进行测试。

对于越来越多采用苹果设备的企业而言,这一漏洞值得重视。据调查,美国企业中约有 23% 的用户目前使用 Mac 设备。「如果不能缓解这种情况,我们的攻击将影响到大多数移动设备,甚至可能在未来几年影响到桌面设备。」论文中写道。

在 MIT 这项研究中,团队探索了内存损坏漏洞和微架构边信道漏洞之间的协同作用,展示了如何使用硬件攻击来协助软件攻击,以绕过强大的安全防御机制。

这个名为 「PACMAN」 的漏洞,会假设计算机上已经存在一个软件错误,可以读取和写入不同的内存地址。然后,它利用 M1 硬件架构的一个细节,赋予漏洞执行代码并可能接管操作系统的能力。

推荐:MIT 爆出苹果 M1 芯片重大漏洞:硬件级安全机制被攻破,补丁无法修复。

论文 6:Multi-Game Decision Transformers

  • 作者:Kuang-Huei Lee 、 Ofir Nachum 等
  • 论文地址:https://arxiv.org/pdf/2205.15241.pdf

摘要:在自然语言处理、计算机视觉和二者的交叉领域中,通过训练大量与任务无关的数据集,建立大规模的通用模型来解决许多任务,已经成为主流方法。这些模型可以适应新的任务 (例如翻译) ,利用不相关的数据 (例如使用高资源语言来改进低资源语言的翻译) ,甚至可以通过将图像投影到语言空间来纳入新的模式。这些方法的成功很大程度上来自于可扩展模型架构、大量未标注的任务无关数据以及高性能计算基础设施的不断改进。至关重要的是,标度律表明,规模带来的性能提升尚未达到饱和点。

在最近的一项工作中,谷歌研究院的成员们提出,类似的进展在强化学习领域是可能发生的,并且他们采取可扩展的方法的初步步骤,生成了表现优越的通才型智能体。与视觉和语言领域相反,强化学习通常倡导使用更小的模型,模型也通常用于解决单一任务,或在同一环境中的多个任务。重要的是,跨越多种环境的训练的研究数量并不多,很少有人研究横跨不同动力学、奖励、视觉效果和智能体实施方式的东西。

具体地说,研究者调研了是否可以从大量的专家和非专家经验中训练一个单一的模型(具有单一的一组参数)在多种环境中行动。他们在一组 41 个 Atari 游戏上进行训练,用来满足多样性方面的要求,并提出了一个问题:「模型能从玩很多视频游戏的过程中学到一些通用的东西吗?」

为了训练这个模型,研究者只使用了先前从 Agarwal et al. [1] 中收集到的轨迹,但是交互式地评估了本研究的智能体。研究者表示,他们并不是在追求特定游戏智能体所能达到的精通程度或效率,因为这项研究仍处于早期阶段。相反,他们要探索的是,在语言和视觉领域观察到的相同趋势,是否也适用于大规模的通才型强化学习?

研究发现,在对离线专家数据集和非专家数据集进行训练之后,智能体可以在所有游戏中同时达到人类级别性能的 126%,如图 1 所示。此外,研究者还发现了与语言和视觉领域相似的趋势:用很少的数据快速适应从未见过的游戏 (第 4.5 节) ,性能和模型大小之间的幂律关系 (第 4.4 节) ,以及为更大的模型提供更快的训练进度。

推荐:Gato 之后,谷歌也推出「通才型」智能体 Multi-Game Decision Transformers。

论文 7:End-to-end Generative Pretraining for Multimodal Video Captioning

  • 作者:Paul Hongsuck Seo 、 Arsha Nagrani 等
  • 论文地址:https://arxiv.org/pdf/2201.08264.pdf

摘要:在 CVPR 2022 大会上发表的论文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人员为多模态视频字幕引入了一种全新的预训练框架,被称为多模态视频生成预训练或 MV-GPT,它从未标记的视频中联合训练多模态视频编码器和句子解码器,以输出未来语句文本,制定新的双向生成任务作为目标。

实验证明 MV-GPT 的能力可以有效地转移到多模态视频字幕上,在各种基准测试中取得了 SOTA 结果。此外,多模态视频编码器在多种视频理解任务方面具有竞争力,例如 VideoQA、文本视频检索和动作识别。

MV-GPT 中的双向生成损失允许对编码器和解码器进行训练以处理基于视觉的文本。

MV-GPT 中的双向生成,已训练两代损失。在前向生成中,模型在给定帧和当前话语(红色框)的情况下生成未来话语(蓝色框),而现在是从后向生成中的未来话语生成的。两个特殊的句首标记([BOS-F] 和 [BOS-B])为解码器启动前向和后向生成。

MV-GPT 在 YouCook2 上不同预训练损失的四个指标(Bleu-4、Cider、Meteor 和 Rouge-L)。「预训练部分」表示模型的哪些部分是预训练的 —— 仅编码器或编码器和解码器。作者重新实现了现有方法的损失函数,但使用新模型和训练策略进行公平比较。

推荐:谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现 SOTA。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. DIRECTOR: Generator-Classifiers For Supervised Language Modeling.  (from Jason Weston)

2. FETILDA: An Effective Framework For Fin-tuned Embeddings For Long Financial Text Documents.  (from Mohammed J. Zaki)

3. Fine-tuning Pre-trained Language Models with Noise Stability Regularization.  (from Jiebo Luo)

4. MPI: Evaluating and Inducing Personality in Pre-trained Language Models.  (from Song-Chun Zhu)

5. Enhanced Knowledge Selection for Grounded Dialogues via Document Semantic Graphs.  (from Yang Liu, Dilek Hakkani-Tur)

6. Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization.  (from Brian Kingsbury)

7. A Simple Yet Efficient Method for Adversarial Word-Substitute Attack.  (from Yi Yang)

8. The Case for a Single Model that can Both Generate Continuations and Fill in the Blank.  (from Chris Callison-Burch)

9. Improving the Adversarial Robustness of NLP Models by Information Bottleneck.  (from Kai-Wei Chang, Cho-Jui Hsieh)

10. Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems.  (from Dilek Hakkani-Tur)

本周 10 篇 CV 精选论文是:

1. Zero-Shot Video Question Answering via Frozen Bidirectional Language Models.  (from Josef Sivic, Ivan Laptev, Cordelia Schmid)

2. AVATAR: Unconstrained Audiovisual Speech Recognition.  (from Cordelia Schmid)

3. Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022.  (from Trevor Darrell)

4. Object Scene Representation Transformer.  (from Leonidas J. Guibas)

5. Disentangling visual and written concepts in CLIP.  (from Antonio Torralba)

6. Virtual Correspondence: Humans as a Cue for Extreme-View Geometry.  (from Raquel Urtasun, Antonio Torralba)

7. Multimodal Event Graphs: Towards Event Centric Understanding of Multimodal World.  (from Shih-Fu Chang)

8. A Simple Data Mixing Prior for Improving Self-Supervised Learning.  (from Alan Yuille)

9. SP-ViT: Learning 2D Spatial Priors for Vision Transformers.  (from Lei Zhang, Xiansheng Hua)

10. APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking.  (from Dacheng Tao)

本周 10 篇 ML 精选论文是:

1. SGD Noise and Implicit Low-Rank Bias in Deep Neural Networks.  (from Tomaso Poggio)

2. Communication-Efficient Robust Federated Learning with Noisy Labels.  (from Jian Pei, Heng Huang)

3. Weighted Ensembles for Active Learning with Adaptivity.  (from Georgios B. Giannakis)

4. Diffeomorphic Counterfactuals with Generative Models.  (from Klaus-Robert Müller)

5. Contrastive Learning as Goal-Conditioned Reinforcement Learning.  (from Ruslan Salakhutdinov, Sergey Levine)

6. Learning to Accelerate Partial Differential Equations via Latent Global Evolution.  (from Jure Leskovec)

7. Learning Large-scale Subsurface Simulations with a Hybrid Graph Network Simulator.  (from Jure Leskovec)

8. Towards Understanding How Machines Can Learn Causal Overhypotheses.  (from John Canny)

9. Feature Overcorrelation in Deep Graph Neural Networks: A New Perspective.  (from Charu Aggarwal, Jiliang Tang)

10. Lessons learned from the NeurIPS 2021 MetaDL challenge: Backbone fine-tuning without episodic meta-learning dominates for few-shot learning image classification.  (from Frank Hutter, Isabelle Guyon)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档