前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PaLM中使用的激活函数:SwiGLU

PaLM中使用的激活函数:SwiGLU

作者头像
西西嘛呦
发布2023-02-16 13:26:42
4K0
发布2023-02-16 13:26:42
举报

relu激活函数:

ReLU(x)=max(0, x)

GeLU激活函数:

GeLU=x\Phi(x)=x\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^{2}}{2}}dt=x\cdot \frac{1}{2}[1+erf(\frac{x}{\sqrt{2}})]

其中erf为误差函数。 Swish激活函数:

Swish=x\cdot sigmoid(\beta x)

我们不难发现,激活函数就是对x乘以一些数,以对某些值进行约束。 GLU(Gated Linear Unit),其一般形式为:

GLU(x)=\sigma (Wx+b) \otimes (Vx+c)

这里的\sigma 可以是sigmoid 函数,也可以是其它的一些激活函数,其相关变体如下:

在PaLM论文中使用了SwiGLU激活函数。 在FFN中,即FC-激活函数-FC中,一般定义如下:

在T5论文中没有使用偏置项,也就是:

同理可得:

结合激活函数+未使用偏置项+GLU就得到:

这就是PaLM中的激活函数了,效果也是不错的:

GLU Variants Improve Transformer Pathways: Asynchronous Distributed Dataflow for ML

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-02-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档