A trap of parameter 'size_average' in pytorch

老潘

修改于 2018-06-22 09:53:43

1.1K0

修改于 2018-06-22 09:53:43

pytorch的入门教程中有这样的一句：

loss = torch.nn.MSELoss(size_average=True)
input = Variable(torch.ones(2,2), requires_grad=True)
target = Variable(torch.Tensor([[3,3],[3,3]]))
output = loss(input, target)
output.backward()

上面的程序很简单，设定一个loss函数，然后设定一个input和target进行loss计算，然后再backward。

这里我们不看反向过程，只看output的值是多少：

Variable containing:
 4
[torch.FloatTensor of size 1]

这个4是output的值，可以看到这个值是一个scalar而并不是一个向量。

我们再来看一段程序：

loss = torch.nn.MSELoss(size_average=False)
input = Variable(torch.ones(2,2), requires_grad=True)
target = Variable(torch.Tensor([[3,3],[3,3]]))
output = loss(input, target)
output.backward()
output

Out[11]: 
Variable containing:
 16
[torch.FloatTensor of size 1]

同样一段程序，怎么就变成16了，原因是在设置loss函数中我们把参数size_average设为了False。

当size_average为Ture的时候，我们得到4，反之我们得到16，结合size_average参数的官方解释：

size_average (bool, optional): By default, the losses are averaged over
    observations for each minibatch. However, if the field size_average
    is set to False, the losses are instead summed for each minibatch.

也就是说True的loss除以了loss的数量(此处n=4)，False的时候loss为summed的也就是全部loss的总和。

size_average参数默认为True，也就是说我们平时计算的时候得到的loss是平均loss。

这样会出现怎么问题呢：

这个参数默认是True，我们平时的训练集都是规整的，也就是说训练集中的每个类数量几乎差不多的训练集，然后我们算出了损失，比如这个损失是个[10]的Tensor，这里的10就是你之前说的N 也就是分类的数量，这个参数设为True则在得出的所有loss中除以N 如果为Flase则不处理直接把所有类的loss直接加起来给你。这个平时加起来和除以N在实际计算中影响不大，但是如果是别的任务比如RNN 这时候分类loss就需要权重了。每个分类的loss的权重系数应该不一样，或者说训练集中某些类的数据没有另一类多，得出的损失有可能也有缺陷也需要参数，这时在pytorch中我们就无能为力了，因为其只能输出平均或者总和的loss 不能输出a batch of losses 也就是一个类一个损失，这种输出后期我们可以自由处理。所以说这个是pytorch的一个缺陷，在github中的issue中有人提出来了。pytorch的编写人员回复说正在修改底层。

更新：在pytorch0.3中部分损失函数已经得到修改！

另外几个问题：

如何自定义不同权重loss：https://github.com/pytorch/pytorch/issues/563

loss中奇怪的问题：https://discuss.pytorch.org/t/the-default-value-of-size-average-true-in-loss-function-is-a-trap/4251

How to combine multiple criterions to a loss function? Get loss for individual samples losses per-batch-element：https://github.com/pytorch/pytorch/issues/264

此文由腾讯云爬虫爬取，文章来源于Oldpan博客

欢迎关注Oldpan博客公众号，持续酝酿深度学习质量文：

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017年12月1日，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

A trap of parameter 'size_average' in pytorch

A trap of parameter 'size_average' in pytorch

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐