一次 PyTorch 的踩坑经历,以及如何避免梯度成为NaN

本文首发于知乎答主小磊在「PyTorch有哪些坑/bug?」下的回答,AI 研习社获原作者授权转载。

分享一下我最近的踩坑经历吧。

这几天在实现一个语义分割的 loss(链接:http://ieeexplore.ieee.org/document/7801846/)

该loss考虑了边缘,结果一致性等因素,如图

loss最复杂的部分

由于公式较为复杂, 决定用风格和numpy相似的pytorch来实现。

再由于torch是动态图,而且 Python的for循环很慢, 所以打算全用Tensor操作。

想着应该和numpy差不多,难度中等,加上熟悉API的时间 一天足够了。

开工前,准备了一组(image, ground truth, 及假装是分割网络结果的概率矩阵prob) 作为测试用例, 然后,正式开工!

image, ground truth 及假装是分割网络结果的prob

写着写着,发现处理后的图片根本不对,可视化一下,发现 ground truth转化成`FloatTensor`后 就成了这个鬼样子:

查明原因是: 对`torch.FloatTensor`传一个bool的numpy array , 即`torch.FloatTensor(Bool_Ndarray)` 就会成为上面这样的乱码。

得先转化为float32 即 `torch.FloatTensor(np.float32(labels))`。

继续写,咦 torch不支持[::-1]和flip?那自己写一个flip。

又继续写,全Tensor操作,遇到复杂公式, 就意味着超多维度的select, index, 纬度变换,纬度匹配,若出了bug 分析起来特别麻烦

比如:

otherSideEdgeLossMap = -th.log(((probnb*gtind).sum(-3)*gtdf).sum(-3)/gtdf.sum(-3))

这么黑灯瞎火地写下去,调试又复杂又慢。

工欲善其事, 必先利其器

于是,我便先去改之前只支持numpy可视化的工具代码 yllab (链接:https://github.com/DIYer22/yllab),增加其对torch的支持。

配合`Ipython@Spyder` 调试效率提高不少,比`print xx.shape,xx.mean()` 不知高到哪里去了。

最后, loss总算写出来了, 而且可视化出来的 loss map 符合预想效果,还很好看!

左图:crossEntropyMap 右图: edgeLossMap

最后一到工序,将概率矩阵prob变成Variable 测试一下反向传播,我天真得以为工作马上就要被完成了。改成Variable(prob)后, loss.backward()一下。啥?Error?Variable 竟然不能和 Tensor 运算 ! 不用记录grad的Variable和Tensor有啥区别?无语, 那全改为Variable吧。

Tensor和Variable部分api竟然不一样!比如(`.type`)。

行, 为了兼容性 函数都加上判断是否为Variable, 并转化为Variable.data。

继续吐槽一下torch的类型系统 `Tensor/Variable * 8个数据类型` * `cuda/cpu` 共 `2*8*2=32` 类啊!而且8个数据类型不支持类型自动转换,所以 这32个类型的数据都是两两互斥。

不同类型间的操作前都得转化, 可怕的是转换操作还有许多像上文提到的那种坑!

改好代码, 反向传播通了 赶忙可视化一下 prob.grad。

毛线!全是白的 分析一下grad中99.97%的是nan, 人家loss都好人一个 你梯度怎么就成了nan! 数学上不成立啊!

可视化分析 loga(grad)的结果

遂开始了漫长的DEBUG之路。终于,再不断地拆开loss。

分别Backpropagation后,将凶手精准定位了导致nan的loss。

进一步分析,果然是pyTroch的BUG。整理好BUG后,

就提交到了pytorch 的 GitHub上了。

x.grad should be 0 but get NaN after x/0 · Issue #4132 · pytorch/pytorch

(链接:https://github.com/pytorch/pytorch/issues/4132)

BUG如下:

Reproduction BUG code

x = Variable(torch.FloatTensor([1.,1]), requires_grad=True)
div = Variable(torch.FloatTensor([0.,1]))
y = x/div # => y is [inf, 1]
mask = (div!=0) # => mask is [0, 1]
loss = y[mask]
loss.backward()
print(x.grad) # grad is [nan, 1], but expected [0, 1]

由于被`mask`阻挡,`x[0]`根本就没在计算图中,所以`x[0]`梯度应该为0,却返回了`nan`

我还给出了BUG的解决方案:

Your code should't generat any inf in forward, which often produce by torch.log(0) and x/[0, ] That means 0 should be filtered before do torch.log(x) and x/div

为避免这个BUG,代码变得更复杂了。

variables

└─ /: 4
├── gtind: torch.Size([1, 2, 300, 400]) torch.cuda.FloatTensor
├── edge: torch.Size([1, 300, 400]) torch.cuda.ByteTensor
├── probnb: torch.Size([1, 8, 2, 300, 400]) torch.cuda.FloatTensor
└── gtdf: torch.Size([1, 8, 300, 400]) torch.cuda.FloatTensor
th = torch
tots = lambda x:x.data

code(before)

otherSideEdgeLossMap = -th.log(((probnb*gtind).sum(-3)*gtdf).sum(-3)/gtdf.sum(-3))
otherSideEdgeLossMap[~tots(edge)] = 0

code(after)

numerator = ((probnb*gtind).sum(-3)*gtdf).sum(-3)
numerator[tots(edge)] /= gtdf.sum(-3)[tots(edge)]
numerator[tots(edge)] = -th.log(numerator[tots(edge)])
otherSideEdgeLossMap = (numerator)
otherSideEdgeLossMap[~tots(edge)] = 0

最后,把代码适配成多batch版本加上分割网络后,顺利跑通了 。 回想着一路下来,还好用的是动态图的pyTorch, 调试灵活,可视化方便,若是静态图,恐怕会调试得吐血,曾经就为了提取一个mxnet的featrue 麻烦得要死。

不过,换成静态图的话 可能就不会顾着效率,用那么多矩阵操作了,直接for循环定义网络结构,更简单直接 。

所有loss 反向传播后,prob 的 grad

写于 2017.12 torch version : 0.3

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-12-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户2442861的专栏

买卖股票最多K次

给定一个大小为n的数组,数组的元素a[i]代表第i天的股票价格。 设计一个算法,计算在最多允许买卖k次(一买一卖记为一次)的条件下的最大收益。 需要注意的...

16930
来自专栏PPV课数据科学社区

电商评论情感分析

? 随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文...

1K70
来自专栏CDA数据分析师

3个步骤彻底学透Excel

本文为简书作者数据充电宝原创,CDA数据分析师已获得授权 目录 Excel函数学习常见的误区和问题及解决办法 ● 苦恼 ● 原因 ● 解决办法 学习3步法 (重...

22380
来自专栏数据科学与人工智能

【知识】使用Python来学习数据科学的完整教程

编者按:Python学习和实践数据科学,Python和Python库能够方便地完成数据获取,数据探索,数据处理,数据建模和模型应用与部署的工作,对于数据科学工作...

58170
来自专栏携程技术中心

个性化推荐沙龙 | 饿了么推荐系统的从0到1(含视频)

本文来自陈一村在携程个性化推荐与人工智能Meetup上的分享。 陈一村 ,饿了么数据运营部资深算法工程师。2016年加入饿了么,现从事大数据挖掘和算法相关工作,...

46780
来自专栏小石不识月

用粒子群优化算法求解旅行商问题

粒子群优化算法采用一种人工智能的形式来解决问题。这种算法对于求解那些使用了多个连续变化的值的函数来说,尤为有效。这篇文章将会介绍如何修改粒子群算法,以使用离散固...

49880
来自专栏CDA数据分析师

案例 | 5步掌握Python数据分析挖掘基础应用

许许多多的人都非常容易爱上Python这门语言。自从1991年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一,尤其进入21世纪以来,Python在...

26890
来自专栏深度学习与数据挖掘实战

干货|社区发现算法FastUnfolding的GraphX实现

现实生活中存在各种各样的网络,诸如人际关系网、交易网、运输网等等。对这些网络进行社区发现具有极大的意义,如在人际关系网中,可以发现出具有不同兴趣、背景的社会团体...

38030
来自专栏深度学习与数据挖掘实战

社区发现算法FastUnfolding的GraphX实现

现实生活中存在各种各样的网络,诸如人际关系网、交易网、运输网等等。对这些网络进行社区发现具有极大的意义,如在人际关系网中,可以发现出具有不同兴趣、背景的社会团体...

25310
来自专栏生信技能树

如何通过Google来使用ggplot2可视化

今天是大年初二,这篇文章我只想传达一点: 没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的,如果有,请换个关键词继续Google! 第一...

34480

扫码关注云+社区

领取腾讯云代金券