当对新数据集进行微调时，如果精调示例具有与原始培训数据集中的示例不同的特性，则批处理统计信息可能会非常不同。因此，如果未冻结批处理规范化，网络将学习新的批规范化参数(分批规范化纸中的γ和beta )，这些参数与其他网络参数在最初的培训中所优化的参数不同。在微调期间，重新学习所有其他网络参数通常是不可取的，这要么是由于所需的培训时间，要么是微调数据集的大小较小。冻结批规范化可避免此问题。

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63016740

复制

相似问题

问为什么在微调时必须冻结批处理归一化层的所有内部状态？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么在微调时必须冻结批处理归一化层的所有内部状态？EN