TensorFlow的Debugger调试实例

之前有翻译整理过关于TensofFlow的Debugger的简单教程,具体内容见这里(https://www.jianshu.com/p/9fd237c7fda3)。这次用自己实际的例子,来简要的做个使用介绍。

首先是代码遇到了问题,训练过程中的loss不是为nan,就是为负数,让我觉得很奇怪,但是自己去检查代码又找不到问题出在哪里,这时候就想到了TensorFlow自带的Debugger。之前也有使用过,如果在没出问题的情况下,Debugger还是比较给力的。

01 用Debugger封装需要调试的Session

首先在代码的开头需要import对应的debugger模块(官方教程喜欢import debug as tf_debug,我这里就简写了,为了省事,看个人习惯吧)

from tensorflow.python import debug as tfdbg

然后在创建完Session的对象后,用调试器的Session进行封装

# 没有调试器之前的写法

with tf.Session(config=config) as sess:

# 加入调试器需要加入以下这行 sess = tfdbg.LocalCLIDebugWrapperSession(sess)

# 需要调试nan值,因此加上nan的过滤器 sess.add_tensor_filter("has_inf_or_nan", tfdbg.has_nan_or_inf)

02 调试过程

在用调试器封装好Session对象之后,就可以启动代码,运行后会看到如下界面:

图1 启动调试器

这是可以输入运行的指令(如果不清楚TensorFlow Debugger的指令,可以查看之前的教程https://www.jianshu.com/p/9fd237c7fda3)

r -f has_inf_or_nan

这样运行就会在有过滤器的情况下运行,并会捕获出现了过滤器指定数值的Tensor,我们这里指定的是出现了inf或者nan值的Tensor。运行后,结果如下图所示:

图2 捕获inf或nan值的Tensor

按照图中顺序,出现nan值的第一个Tensor是d_loss/Log:0,那么这个时候可以用下列指令直接查看这个Tensor的值。

pt d_loss/Log:0 -a

很显然,你会在打印的数值中找到nan或者inf值,但是调试的本意并不是查看这些nan值,而是需要知道来源,因此,我们需要知道这个Tensor数据的来源,可以使用下列指令:

ni d_loss/Log:0

上述指令运行后如下图:

图3 找到nan值的来源Tensor

从结果中可以看到,这个张量有一个输入的张量Discrim/add_2,这个时候用指令pt查看下Discrim/add_2的数值,发现在调用tf.log计算前(就是输入到d_loss/Log:0节点前)的数值为-1.11897061e-05,然后调用tf.log就出现了nan,因为log计算定义域为正数。

查看数值只会知道原因,要查找来源,需要使用指令定位这个来源的数据在源码中的位置:

ni -t Discrim/add_2

命令输出的结果是一个堆栈的内容,最终可以定位到代码"D_output3 = tf.matmul(D_output2, dWeights3) + dbiases3"这行,于是发现由于输出D_output3的时候,是直接输出的,没有加sigmoid激活函数,导致输出值为负,然后在输出之前添加sigmoid激活函数,将数值映射到(0,1)区间,代码即可正确运行了。

03 总结

使用TensorFlow的Debugger并不困难,大致总结起来有这么几个流程:

1.import要使用的TensorFlow的调试模块

from tensorflow.python import debug as tfdbg

2.使用调试模块的会话对象包装原有的Session对象

with tf.Session(config=config) as sess: sess = tfdbg.LocalCLIDebugWrapperSession(sess)

3.加入异常值对应的过滤器

sess.add_tensor_filter("has_inf_or_nan", tfdbg.has_nan_or_inf)

4.运行代码,并在带过滤器的情况下运行

r -f has_inf_or_nan

5.跟踪异常值产生的节点,并找到异常值来源在源码中的位置(这个比较灵活,有些可能需要回溯几个节点,有些直接可查)

ni -t Discrim/add_2

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2018-01-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据小魔方

Julia语言初体验

最近MIT发布的julia 1.0.0版,据传整合了C、Python、R等诸多语言特色,是数据科学领域又一把顶级利器。

1412
来自专栏jojo的技术小屋

原 荐 CSS3 transform 引起z

1684
来自专栏生信宝典

R语言学习 - 热图绘制 (heatmap)

热图绘制 热图是做分析时常用的展示方式,简单、直观、清晰。可以用来显示基因在不同样品中表达的高低、表观修饰水平的高低等。任何一个数值矩阵都可以通过合适的方式用热...

3328
来自专栏沈唁志

PHP使用递归算法查找子集获取无限极分类等实操

递归函数是我们常用到的一类函数,最基本的特点是在函数或子过程的内部,直接或者间接地调用自己的算法,但必须在调用自身前有条件判断,否则无限调用下去,也就是所谓的死...

813
来自专栏蜉蝣禅修之道

C++简单实现八皇后问题

952
来自专栏人工智能LeadAI

TensorFlow的Debugger调试实例

之前有翻译整理过关于TensofFlow的Debugger的简单教程,具体内容见这里。这次用自己实际的例子,来简要的做个使用介绍。 首先是代码遇到了问题,训练过...

3236
来自专栏大数据智能实战

tensorflow.models.rnn.rnn_cell.linear在tensorflow1.0版本之后找不到(附tensorflow1.0 API新变化)

由于版本更新关系,从原来的tensorflow低版本到升级到tensorflow1.0以上时,发现有很多API函数变化是很正常的事情,大多碰到的如: 如其中tf...

2437
来自专栏liuchengxu

Spark GraphX 对图进行可视化

Spark 和 GraphX 对并不提供对数据可视化的支持, 它们所关注的是数据处理. 但是, 一图胜千言, 尤其是在数据分析时. 接下来, 我们构建一个可视化...

701
来自专栏深度学习之tensorflow实战篇

R语言函数的含义与用法,实现过程解读

R的源起 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S...

33412
来自专栏HansBug's Lab

关于一般的并查集求根操作的一组对照研究

说道并查集,大家一定对于以多叉树状结构为基础的并查集并不陌生,最常见的两种写法如下 1 function getfat(x:longint):longint; ...

3449

扫描关注云+社区