《白话深度学习与Tensorflow》学习笔记（1）

微风、掠过

发布于 2018-04-10 14:45:39

9730

发布于 2018-04-10 14:45:39

刚入手一本《白话深度学习与Tensorflow》，哈哈，一直看深度学习很火，其实自己一知半解，都没有对这个领域进行一点系统的学习，现在准备看看这本书，开始入门。毕竟深度学习是大趋势，个个都说是个坑，个个都往里跳。。。趁着有时间，了解了解也无妨。

初步感觉这本书比周志华老师的《机器学习》稍微好懂一点，讲实例和大比方居多，当然也有公式支撑。整体还不错，讲了基本神经网络、CNN、RNN、LSTM、HMM、Deep Residual Network（深度残差网络）这些耳熟能详的模型。

所以，一边看，一边做做笔记，也比较随意。

首先，相信很多人都还不知道tensor是什么，百度翻译出来的是张量，张肌，其实，这里的tensor就是向量的意思，tensorflow就是向量流、数据流的意思。tensorflow是谷歌的深度学习开源框架，用于训练神经网络的。

几个深度学习框架的比较如下：

Theano、Torch是两个最具有扩展性的深度学习框架，无论在支持的各种网络层种类数量上，或者是在支持的各种库上。symbolic differentiation是Theano中对于非标准深度网络架构（non-standard deep architecture）提供的最有用的特性。

Torch正在补上这个空缺，可以参考这个博客：

https://blog.twitter.com/2015/autograd-for-torch在CPU上training以及deploy，对于任何的网络模型，Torch的性能都最优，其次是Theano，Neon的在CPU上的性能最差在GPU上deploy已经训练好的卷积和全连接网络（也就是前向传播过程），Torch也是最适合的，其次是Theano在GPU上training卷积和全连接网络，Theano在小网络模型（LeNet）的表现最好，在大网络模型（AlexNet）上，Torch性能最佳。Neon在大网络模型上也非常有优势Torch受益于它众多的扩展库及文档（这个确实，Torch的文档阅读性很强，Theano也不错），还有Torch的错误调试工具也很有优势。

TensorFlow是非常具有扩展性的一个深度学习框架，尤其是在不同情况的各种设备上，进行深度学习框架部署时，更方便稳定。但是在单机上，它的表现就不具有那么强的竞争力了。

Tensor Flow：

TensorFlow是一款开源的数学计算软件，使用数据流图（Data Flow Graph）的形式进行计算。图中的节点代表数学运算，而图中的线条表示多维数据数组（tensor）之间的交互。TensorFlow灵活的架构可以部署在一个或多个CPU、GPU的台式以及服务器中，或者使用单一的API应用在移动设备中。TensorFlow最初是由研究人员和Google Brain团队针对机器学习和深度神经网络进行研究所开发的，目前开源之后可以在几乎各种领域适用。

Data Flow Graph:使用有向图的节点和边共同描述数学计算。graph中的nodes代表数学操作，也可以表示数据输入输出的端点。边表示节点之间的关系，传递操作之间互相使用的多位数组（tensors），tensor在graph中流动——这也就是TensorFlow名字的由来。一旦节点相连的边传来了数据流，节点就被分配到计算设备上异步的（节点间）、并行的（节点内）执行。

机动性: TensorFlow并不只是一个规则的neural network库，事实上如果你可以将你的计算表示成data flow graph的形式，就可以使用TensorFlow。用户构建graph，写内层循环代码驱动计算，TensorFlow可以帮助装配子图。定义新的操作只需要写一个Python函数，如果缺少底层的数据操作，需要写一些C++代码定义操作。

可适性强:可以应用在不同设备上，cpus，gpu，移动设备，云平台等

自动差分:TensorFlow的自动差分能力对很多基于Graph的机器学习算法有益

多种编程语言可选:TensorFlow很容易使用，有python接口和C++接口。其他语言可以使用SWIG工具使用接口。（SWIG—Simplified Wrapper and Interface Generator，是一个非常优秀的开源工具，支持将C/C++代码与任何主流脚本语言相集成。）

最优化表现:充分利用硬件资源，TensorFlow可以将graph的不同计算单元分配到不同设备执行，使用TensorFlow处理副本。

（其他几大框架介绍见：

https://www.leiphone.com/news/201608/5kCJ4Vim3wMjpBPU.html）

下面正式来谈本书的内容：

一、牛顿法解方程：

在函数上随机取一个点（x0,f(x0)）作这个点的切线，得到与x轴的交点，,得到一次近似点x1，然后在函数上找到对应的（x1,f(x1））同样作切线，得到二次近似点x2，这样就不断逼近方程的解。

二、梯度下降法：

这里主要就一个x的更新公式：