前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google的 Pathways(理想)与 PaLM(现实)

Google的 Pathways(理想)与 PaLM(现实)

作者头像
beyondGuo
发布2022-11-30 15:20:41
5130
发布2022-11-30 15:20:41
举报
文章被收录于专栏:SimpleAISimpleAI

Pathways构想

Google 在2021年提出了Pathways的构想:

当前模型的主要问题:

  • 基本都是一个模型做一个任务;
  • 在一个通用的模型上继续fine-tune,会遗忘很多其他知识;
  • 基本都是单模态;
  • 基本都是 dense 模型,在完成一个任务时(不管难易程度),网络的所有参数都被激活和使用;

Pathways 的愿景 —— 一个跟接近人脑的框架:

  • 一个模型,可以做多任务,多模态
  • sparse model,在做任务时,只是 sparsely activated,只使用一部分的参数

Pathways 系统

2022年3月,Google发布了Pathways系统,用于更高效地训练大型模型:

这个太工程的东西我也看不懂,所以就不评论了。

PaLM: Lanugage Modeling with Pathways

2022年4月,Google发布了一个鸿篇巨制——PaLM:

说实话,在看完Jeff Dean介绍Pathways愿景博客之后,再看这篇文章前本来是充满期待的,比较牛皮已经吹了一年了,论文一开打一屏幕的作者,文83页(比GPT-3的paper都长),结果浏览一遍,满脑子都是”就这???“

Anyway,还是介绍一下:

一句话介绍:

PaLM 是第一款基于 Google Pathways 系统训练的超大规模的语言模型(但依然是经典结构:a dense, decoder-only, full-attention Transformer model),再次展现了“大力出奇迹”还有很大空间。但是离Google的Pathways愿景还有很大距离。

Key Points:

  • Efficient scaling:在Pathways系统的加持下,PaLM的训练效率比之前的方法有了显著提高;
  • Few-shot SOTA:在众多任务上取得了 few-shot 的 SOTA;
  • Breakthrough capabilities:在很多推理(reasoning)任务上,PaLM在few-shot的情况就可以超越很多之前需要fine-tune的方法;
  • Discontinuous improvements:随着模型规模的提高,边际效益可能会有质的提升(在25%的任务上,观察到了“量变产生质变”的现象);
  • Multilingual understanding:多语言能力大幅提高。

Model:

  • A dense, decoder-only, full-attention Transformer model
  • 使用 SwiGLU Activation,Parallel Layers,Multi-Query Attention 等提升计算效率的机制
  • 完全无损、可逆的vocabulary:空格保留、OOV切分成UTF8 bytes、数值切分成单个token
  • 只训练一个epoch——防止overfitting,减轻memorization现象

Training Dataset:

Results:

Few-shot 实验:

Finetune实验:

比最好的encoder-decoder模型效果要差一点,但是显著高于之前的decoder-only的模型。

Big-Bench:

PaLM自己的总结:

虽然文章没有给人惊喜,但是论文自己的总结也还是挺中肯的:

PaLM只是构建Pathways这个愿景迈出的第一步,PaLM的意义在于进一步扩展了大模型的能力边界(尤其是few-shot),说明了传统的模型架构和训练方法依然有很大的提升空间。另一方面,PaLM验证了Pathways训练系统的有效性,为下一代的模型架构研发做了经验积累。


Other Related Work

其实在这个PaLM之前,Google探索过很多基于MoE(Mixture-of-experts)的大型sparse model,包括 GShard,Switch-Transformer,GLaM。这些模型,通过MoE的形式,实现了一个大模型中包含很多子网络,且针对不同的token自动选择不同的子网络(experts)进行推理的能力。其实看了PaLM之后,我觉得MoE这条线才更接近与Jeff Dean所说的Pathways的愿景,但我也猜测可能一个超大的类MoE模型正在Pathways系统上训练呢(我赌一根钟薛高hhh)......


参考链接:

  • Jeff Dean关于Pathways愿景的介绍:https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
  • PaLM Blog:https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
  • PaLM paper:https://arxiv.org/pdf/2204.02311.pdf
  • Pathways ML system paper:https://arxiv.org/pdf/2203.12533.pdf

写作不易 如果觉得有所收获的话

大家就点一个吧 :)

2022年的第11/52篇原创笔记 和我一起挖掘有趣的AI研究吧!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SimpleAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Pathways构想
  • Pathways 系统
  • PaLM: Lanugage Modeling with Pathways
  • Other Related Work
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档