TensorFlow架构与设计:变量初始化

作者:刘光聪 原文:http://www.jianshu.com/p/bebcdfb74fb1?utm_campaign=hugo&utm_medium=reader_share&utm_content=note&utm_source=weixin-friends

Variable是一个特殊的OP,它拥有状态(Stateful)。本文通过阐述Variable初始化模型,深入理解变量初始化的过程。

线性模型

以一个简单的线性模型为例(为了简化问题,此处省略了训练子图)。首先,使用tf.placeholder定义模型的输入,然后定义了两个全局变量,同时它们都是训练参数,最后定义学习模型。

x  = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784,10]), name='W')
b = tf.Variable(tf.zeros([10]), name='b') 
y = tf.matmul(x, W) + b

在使用变量之前,必须对变量进行初始化。按照习惯用法,使用tf.global_variables_initializer()将所有全局变量的初始化器汇总,并对其进行初始化。

init = tf.global_variables_initializer()with tf.Session() as sess:
  sess.run(init)

按照既有经验,其计算图大致如下图所示。

线性模型

事实上,正如下图所示,实际的计算图要复杂得多,让我们从头说起。

线性模型

初始化模型

Variable是一个特殊的OP,它拥有状态(Stateful)。如果从实现技术探究,Variable的Kernel实现直接持有一个Tensor实例,其生命周期与变量一致。相对于普通的Tensor实例,其生命周期仅对本次迭代(Step)有效;而Variable对多个迭代都有效,甚至可以存储到文件系统,或从文件系统中恢复。

此外,存在几个操作Variable的特殊OP,例如Assign, AssignAdd等。变量所持有的Tensor以引用的方式输入到Assign中,Assign根据初始值,就地修改Tensor内部的值,最后以引用的方式输出该Tensor。

一般地,在使用变量之前,必须对变量进行初始化。事实上,TensorFlow设计了一个精巧的变量初始化模型。Variable根据初始值(Initial Value)进行类型推演,并确定Tensor的形状(Shape)。另外,通过初始化器(Initializer)在初始化期间,将初始化值赋予Variable内部所持有Tensor,完成Variable的就地修改。

例如,变量W的定义如下。tf.zeros([784,10])常称为初始值,它通过初始化器Assign,将W内部持有的Tensor以引用的形式就地修改为该初始值。

W = tf.Variable(tf.zeros([784,10]), name='W')

如果要读取变量的值,则通过Identity恒等变化,直接输出变量所持有的Tensor。但时,Identity去除了Variable的引用标识,同时也避免了内存拷贝。

变量初始化模型

初始化过程

然后,通过调用tf.global_variables_initializer()将变量的所有初始化器进行汇总,然后启动Session运行该OP。

init = tf.global_variables_initializer()

事实上,搜集所有全局变量的初始化器的OP是一个NoOp,即不存在输入,也不存在输出。所有变量的初始化器通过控制依赖边与该NoOp相连,保证所有的全局变量被初始化。

初始化过程

同位关系

同位关系是一种特殊的设备约束关系。显而易见,Assign, Identity这两个OP与Variable关系极其紧密,分别实现了变量的修改与读取功能。因此,它们必须与Variable在同一个设备上执行。

这样的关系,常称为同位关系(Colocation)。可以在Assign/Identity节点上指定_class属性值:[s: "loc:@W"],它表示这两个OP与W放在同一个设备上运行。

例如,以W/read节点为例,该节点增加了_class属性,指示与W的同位关系。

node {
  name: "W/read"
  op: "Identity"
  input: "W"
  attr {
    key: "T"
    value {
      type: DT_FLOAT
    }
  }
  attr {
    key: "_class"
    value {
      list {
        s: "loc:@W"
      }
    }
  }
}

初始化依赖

如果一个变量初始化需要依赖于另外一个变量的初始值,则需要特殊地处理。例如,变量V的初始值依赖于W的初始值,可以通过W.initialized_value()指定。

W = tf.Variable(tf.zeros([784,10]), name='W')
V = tf.Variable(W.initialized_value(), name='V')

事实上,两者通过Identity衔接,并显式地添加了依赖控制边,保证WV之前初始化。此处,存在两个Identity的OP,但职责不一样,它们分别完成初始化依赖和变量读取。

初始化依赖

同样地,可以通过调用tf.global_variables_initializer()将变量的所有初始化器进行汇总,然后启动Session完成所有变量的初始化。

init = tf.global_variables_initializer()

按照依赖关系,因为增加了W/AssignIdentity之间的控制依赖边,从而巧妙地实现了WV之前完成初始化,并通过W当前的初始化值,最终完成V的初始化。

初始化过程

本文分享自微信公众号 - 人工智能头条(AI_Thinker)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

P1801 黑匣子_NOI导刊2010提高(06)

题目描述 Black Box是一种原始的数据库。它可以储存一个整数数组,还有一个特别的变量i。最开始的时候Black Box是空的.而i等于0。这个Black ...

34560
来自专栏蓝天

snprintf和strncpy对比

有关snprintf返回值更多信息,请参考:http://bbs.hadoopor.com/thread-1185-1-1.html

14220
来自专栏开发与安全

从零开始学C++之虚继承和虚函数对C++对象内存模型造成的影响(类/对象的大小)

首先重新回顾一下关于类/对象大小的计算原则: 类大小计算遵循结构体对齐原则 第一个数据成员放在offset为0的位置 其它成员对齐至min(sizeof(me...

25000
来自专栏闻道于事

Java异常处理中的恢复模型

31340
来自专栏xingoo, 一个梦想做发明家的程序员

圆排列问题-回溯法

问题描述:     给定n个大小不等的圆 c1 c2 c3 c4 要将n个圆排进一个矩形框中,且要求底边相切。找出有最小长度的圆排列。     例如:当n=3,...

28990
来自专栏大闲人柴毛毛

Redis源码分析(三)——Redis数据结构-字典

1. 数据结构 ? 1.1 哈希表 typedef struct dictht{ dictEntry **table; unsigned long s...

32050
来自专栏机器学习算法与Python学习

Python:numpy总结(4)

31、chr函数,获取指定的字符 例子: #获取指定的字符for i in range(65,70): print str(chr(i))...

41590
来自专栏从流域到海域

《笨办法学Python》 第41课手记

《笨办法学Python》 第41课手记 本节课的代码有168行,但是冗长不代表困难,只是print里面的游戏说明内容太多,整体来说是很容易的,你要锻炼自己的耐心...

39470
来自专栏小樱的经验随笔

Codeforces Round #411 (Div. 2)(A,B,C,D 四水题)

A. Fake NP time limit per test:1 second memory limit per test:256 megabytes inpu...

33160
来自专栏mathor

LeetCode329. 矩阵中的最长递增路径

 dfs,主函数中枚举起点,然后dfs函数中枚举四个方向进行移动,但是光dfs还不够,因为我们发现存在很多冗余,所以这是一道dfs+dp的问题,resul...

19410

扫码关注云+社区

领取腾讯云代金券