首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

活动报名|LeCun学生分享,Transformer无需归一化也能高效稳定训练

报告主题:Transformer无需归一化也能高效稳定训练

报告日期:04月02日(周三)10:30-11:30

报告要点:

近年来,归一化层在神经网络中得到了广泛应用,被认为是提高收敛速度和稳定性的重要组成部分。然而,本文提出了一种新的方法,表明即使在不使用归一化层的情况下,Transformer 依然能够实现相同或更优的性能。研究团队提出了一种名为 Dynamic Tanh (DyT) 的方法用于取代传统的归一化层。DyT 在保持模型稳定性和加速收敛的同时,实验结果显示,采用 DyT 的 Transformer 在视觉识别、语言建模和自监督学习等多项任务中的表现与传统归一化方法相当,挑战了深度学习中“归一化层不可或缺”的固有观念。

报告嘉宾:

朱家晨目前是纽约大学计算机系的博士生,师从 Yann LeCun 教授。他的研究目标是通过创新的自监督学习方法和神经网络架构,推动人工智能在视觉理解的发展。

他的研究兴趣主要包括视觉表示学习、视觉语言模型、自监督学习以及神经网络架构的优化。更多信息请访问他的个人主页:https://jiachenzhu.github.io。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O6mxUJx0MxkF5NvsUu20heWA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券