前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >同步Batch Normalization(syncbn)作用

同步Batch Normalization(syncbn)作用

作者头像
狼啸风云
修改2022-09-03 19:10:50
3K0
修改2022-09-03 19:10:50
举报

1、BN训练与测试过程

BN层有4个参数,gamma、beta、moving mean、moving variance。其中gamma、beta为学习参数,moving mean、moving variance为数据集统计均值与方差,不可学习。在训练过程中:

在这里插入图片描述 y为BN层输出,此时归一化的均值与方差为当前mini-batch的均值与方差。同时也记录moving mean、moving variance的值,每训练一个batch,moving mean、moving variance就更新一次。注意此参数更新过程不是学习过程,而是纯粹的计算train-set在当前BN数据分布过程,因此不能将算作是学习过程。decay为一个接近于1的值,比如0.9997。在测试过程中:

2、prototxt示例

代码语言:javascript
复制
layer {
   name: "conv3_3_3x3/bn"
   type: "SyncBN"
   bottom: "conv3_3_3x3"
   top: "conv3_3_3x3/bn"
   param {
     lr_mult: 1
     decay_mult: 0
   }
   param {
     lr_mult: 1
     decay_mult: 0
   }
   param {
     lr_mult: 0
     decay_mult: 0
   }
   param {
     lr_mult: 0
     decay_mult: 0
   }
   bn_param {
     slope_filler {
       type: "constant"
       value: 1
     }
     bias_filler {
       type: "constant"
       value: 0
     }
     frozen: false
     momentum: 0.9997
   }
 }

momentum为decay,slope_filler与bias_filler分别为gamma与beta的初始化参数。frozen为是否禁止更新参数标识,该示例为train.prototxt,因此为false,在测试过程中应改为true。

3、为什么要同步BN

目前网络的训练多为多卡训练,大型网络结构以及复杂任务会使得每张卡负责的batch-size小于等于1,若不进行同步BN,moving mean、moving variance参数会产生较大影响,造成BN层失效。具体参考《MegDet:A Large Mini-Batch Object Detector》 4、融合BN操作

为简化inference过程,以及商业代码保密,通常进行BN融合操作。即把BN参数融合至conv层

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-01-17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、BN训练与测试过程
  • 2、prototxt示例
  • 3、为什么要同步BN
相关产品与服务
批量计算
批量计算(BatchCompute,Batch)是为有大数据计算业务的企业、科研单位等提供高性价比且易用的计算服务。批量计算 Batch 可以根据用户提供的批处理规模,智能地管理作业和调动其所需的最佳资源。有了 Batch 的帮助,您可以将精力集中在如何分析和处理数据结果上。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档