VyrnSynx
何恺明团队新突破:没有归一化的Transformer为何更高效?
原创
关注作者
前往小程序,Get
更优
阅读体验!
立即前往
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
圈层
工具
返回腾讯云官网
VyrnSynx
首页
学习
活动
专区
圈层
工具
返回腾讯云官网
社区首页
>
专栏
>
何恺明团队新突破:没有归一化的Transformer为何更高效?
何恺明团队新突破:没有归一化的Transformer为何更高效?
VyrnSynx
关注
发布于 2025-03-20 22:49:13
发布于 2025-03-20 22:49:13
50
0
举报
概述
论文提出了一种革命性方法——动态Tanh(DyT),通过简单的逐元素操作(tanh(αx))替代传统Transformer中的归一化层。研究发现,归一化层的核心功能并非依赖统计量计算,而是通过非线性压缩抑制极端值。DyT仅需动态缩放参数α和tanh函数即可实现等效效果,在LLaMA 7B等模型中推理速度提升52.4%,训练效率提高42.2%。该方法在视觉、语言等多模态任务中均保持或超越原模型性能。
文章被收录于专栏:
AI前沿趋势
AI前沿趋势
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
腾讯技术创作特训营S12#AI进化论
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
腾讯技术创作特训营S12#AI进化论
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
目录
引言
什么是归一化层
归一化层并非必要?
如何理解归一化通用公式
DyT机制
实验结果
关键思路
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐