我不完全确定两个梯度裁剪操作符clip_by_average_norm和clip_by_norm之间的区别。从文档中可以看出,clip_by_norm使用的是l2norm而不是l2norm_avg。
clip_by_average_norm
clip_by_norm
l2norm
l2norm_avg
我明白梯度的L2-范数是什么,但是“平均L2-范数”也对应什么?
文献参考
发布于 2016-12-05 20:02:55
文档有点模棱两可,从测试和实施来看,avg_norm是norm/len(vector)
avg_norm
norm/len(vector)
def testClipByAverageNormClipped(self): # Norm clipping when average clip_norm < 0.83333333 with self.test_session(): x = tf.constant([-3.0, 0.0, 0.0, 4.0, 0.0, 0.0], shape=[2, 3]) # Average norm of x = sqrt(3^2 + 4^2) / 6 = 0.83333333
https://stackoverflow.com/questions/40966850
相似问题