前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习: 参数初始化

深度学习: 参数初始化

作者头像
JNingWei
发布2018-09-27 16:15:13
1.5K0
发布2018-09-27 16:15:13
举报
文章被收录于专栏:JNing的专栏JNing的专栏

Introduction

好的开始是成功的一半。 为了让你的模型跑赢在起跑线 ε=ε=ε=(~ ̄▽ ̄)~ ,请慎重对待参数初始化。

API

TensorFlow中自带关于参数初始化的API,具体使用见 tensorflow: variable初始化

全零初始化 (Zero Initialization)

将网络中 所有参数 初始化为 0 。

如果所有的参数都是0,那么所有神经元的输出都将是相同的,那在back propagation的时候,gradient相同,weight update也相同。同一层内所有神经元的行为也是相同的。

这显然不可接受。

随机初始化 (Random Initialization)

将参数值(通过高斯分布或均匀分布)随机初始化为 接近0的 一个很小的随机数(有正有负),从而使对称失效。

代码语言:javascript
复制
W = tf.Variable(np.random.randn(node_in, node_out)) * 0.001

Note

  • node_innode_out 表示 输入神经元个数输出神经元个数
  • 其中,np.random.randn(node_in, node_out) 输出 服从标准正态分布node_in × node_out矩阵;
  • 控制因子:0.001 ,保证参数期望接近0;
  • 一旦随机分布选择不当,就会导致网络优化陷入困境。
这里写图片描述
这里写图片描述

Xavier初始化 (Xavier Initialization)

代码语言:javascript
复制
W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in) ) * 0.001
这里写图片描述
这里写图片描述

Note

  • 加上了 方差规范化/ np.sqrt(node_in) ,维持了 输入、输出数据分布方差一致性,从而更快地收敛。

He初始化 (He Initialization)

代码语言:javascript
复制
W = ( tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in/2) ) * 0.001
这里写图片描述
这里写图片描述

Note

  • 考虑到 非线性映射 (relu) 函数 的影响, 将 方差规范化分母 修改为 / np.sqrt(node_in/2) ,能让Relu网络更快地收敛。

迁移学习初始化 (Pre-train Initialization)

预训练模型的参数 作为新任务上的初始化参数。

数据敏感初始化

根据自身任务数据集而特别定制的参数初始化方法。


[1] 聊一聊深度学习的weight initialization [2] 深度学习之参数初始化策略

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年12月18日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Introduction
  • API
  • 全零初始化 (Zero Initialization)
  • 随机初始化 (Random Initialization)
  • Xavier初始化 (Xavier Initialization)
  • He初始化 (He Initialization)
  • 迁移学习初始化 (Pre-train Initialization)
  • 数据敏感初始化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档