前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >何恺明团队新突破:没有归一化的Transformer为何更高效?

何恺明团队新突破:没有归一化的Transformer为何更高效?

作者头像
VyrnSynx
发布2025-03-20 22:49:13
发布2025-03-20 22:49:13
500
举报
概述
论文提出了一种革命性方法——动态Tanh(DyT),通过简单的逐元素操作(tanh(αx))替代传统Transformer中的归一化层。研究发现,归一化层的核心功能并非依赖统计量计算,而是通过非线性压缩抑制极端值。DyT仅需动态缩放参数α和tanh函数即可实现等效效果,在LLaMA 7B等模型中推理速度提升52.4%,训练效率提高42.2%。该方法在视觉、语言等多模态任务中均保持或超越原模型性能。
文章被收录于专栏:AI前沿趋势AI前沿趋势

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 什么是归一化层
  • 归一化层并非必要?
  • 如何理解归一化通用公式
  • DyT机制
  • 实验结果
  • 关键思路
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档