前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >马斯克的AI第一枪,被华人科学家大将打响!xAI首个研究成果:训练无限深度神经网络

马斯克的AI第一枪,被华人科学家大将打响!xAI首个研究成果:训练无限深度神经网络

作者头像
大数据文摘
发布2023-10-28 11:05:48
2980
发布2023-10-28 11:05:48
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘受权转载自头部科技

文 | Congerry

几个月前,马斯克通过 Twitter 宣布自己的人工智能公司xAI正式成立:成立一家 xAI 公司去了解宇宙的真实本质。

当时,xAI官宣了11名AI领域的顶尖科学家和工程师。

其中之一就是Greg Yang(杨格),他在官宣加入xAI时表示,大型神经网络的“万物理论”是人工智能的关键,也是揭示数学宇宙奥秘的途径。

近日,杨格也发表了一篇关于神经网络架构的新作——Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks。

这篇文章是杨格之前开发的一种用来描述神经网络结构的编程语言Tensor Programs系列论文的第六篇,主要研究无限深度神经网络中特征学习的问题——残差网络(resnets)的深度参数化方法,而Tensor Programs相关成果在GPT-4中已有应用。

如何训练一个无限深度神经网络

残差网络是一种深度学习的模型,它可以通过在每个块中添加一个跳跃连接(skip connection),使得网络的输出可以直接加上输入,从而避免了深度增加时,网络性能下降的问题。

但是,残差网络并不是完美的,它仍然有一些挑战和困难:

  • 当网络加深时,每个块的输出(也就是特征)会变得越来越大,这会导致网络的计算量和内存消耗增加,同时也会影响网络的稳定性和泛化能力。
  • 当网络加深时,原来的超参数(比如学习率、权重衰减等)可能不再适用,需要重新调整。这会增加训练的时间和难度,也会影响最终的结果。

因此,训练一个好的深度残差网络仍然是一件不容易的事情,需要考虑很多因素和细节。

论文作者通过分析无限宽度然后无限深度的极限情况,对不同的深度参数化方法进行了分类。

然后,论文作者发现了一种独特的最优参数化方法,叫做Depth-μP,它是之前提出的μP方法的扩展,可以保证在无限深度的极限下,网络的特征学习和特征多样性都达到最大。

论文作者表示,深度 μP 极限更像是神经 SDE,因为相邻层仅弱相关,并且 xᵐ 仅在 (m/L) 中保持 Holder 连续,指数 ≈1/2。我们也将此 Holder 指数称为 resnet 的“特征多样性指数”。但从数学上讲,它比典型的 SDE 更疯狂,因为在每一层添加的噪声“了解”更深的层(由于训练;这很重要,因为否则此计算没有用!)

为什么深度 μP有帮助?论文作者表示,作为反例,考虑 φ=id(奇数)的线性模型。然后简单计算发现,当 L 很大时,相邻的 Wᵐ 和 Wᵐ⁺¹ 本质上是相同的。

另一方面,偶数 Φ 意味着奇数 Φ'。在 Depth-μP 中,Wᵐ 在 m 上仅弱相关,因此相邻层的 φ'(Wᵐxᵐ)) 几乎没有相关性。因为 Wᵐ 的梯度乘法取决于 φ'(Wᵐxᵐ)),所以这会去相关这些梯度。

但当残差块深度≥2时,还是会出现超参数迁移失败和训练性能下降的问题。

论文作者指出,目前还没有一种可靠的深度缩放方法可以适用于Transformer,因为Transformer的结构比较复杂,每个块都有多层,并且有自注意力机制(self-attention)和残差连接(residual connections)等。

论文作者表示,可能我们没有考虑到一些重要的超参数,导致我们无法找到最优的深度缩放方法。

因此,作者提出了一个重要的未来方向,就是识别出这些重要的超参数,并且设计出一种适用于Transformer的深度缩放方法。

关于杨格

杨格出生于湖南,北京读完小学后赴美,进入哈佛数学系。大二时,杨格休学一年半追音乐梦,后认识到数学是自己的真爱,重新回到哈佛。

之后他再次休学两年,快速学习数学、计算机科学和人工智能等前沿知识。回哈佛后,杨格师从丘成桐教授,2017年获得数学和计算机双学位,并获得摩根奖荣誉提名。

毕业时丘成桐建议杨格不要去谷歌,而是加入微软研究院。杨格进入微软后表现优异,尤其是在GPT研发中做出重要贡献。他在微软期间持续开发Tensor Programs框架,用GPT-3验证所提超参数迁移方法,相关成果发表于顶会。

今年7月,马斯克宣布成立新公司xAI,杨格离开微软,加入xAI创始团队,研究方向是“Math for AI”和“AI for Math”。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档