TensorFlow从0到1丨 第五篇:TensorFlow轻松搞定线性回归

上一篇 第一个机器学习问题 其实是一个线性回归问题(line regression),呈现了用数据来训练模型的具体方式。本篇从平行世界返回,利用TensorFlow,重新解决一遍该问题。

TensorFlow的API有低级和高级之分。

底层的API基于TensorFlow内核,它主要用于研究或需要对模型进行完全控制的场合。如果你想使用TF来辅助实现某个特定算法、呈现和控制算法的每个细节,那么就该使用低级的API。

高级API基于TensorFlow内核构建,屏蔽了繁杂的细节,适合大多数场景下使用。如果你有一个想法要验证并快速获得结果,那么TF的高级API就是高效的构建工具。

本篇使用TF的低级API来呈现线性回归的每一个步骤。

图一:线性回归

第一个机器学习的TF实现

TensorFlow的计算分为两个阶段:

  • 构建计算图
  • 执行计算图

先给出“平行世界”版本,(a, b)初始值为(-1, 50),第二次尝试(-1, 40)

程序输出:

上面的python代码利用了在2 TensorFlow内核基础 介绍的基本API实现了“第一个机器学习问题”。代码通过一步步构造计算图,最后得到了loss节点。loss即4 第一个机器学习问题中定义过的损失函数,这里再次给出其定义:

B-P-F-1 损失函数

构建好计算图,接下来开始执行。执行loss节点(同时提供基于tf.placeholder的训练数据),得到loss的值为50。然后开始第二次训练,修改基于tf.Variable的a和b的值,再次执行loss节点,loss的值为0,降到了最低。此时的a和b就是最佳的模型参数了。

还记得那个神秘力量吗?到底是什么让机器在第二次训练中将模型参数(a, b)的值从初始的随机值(-1, 50)迁移到最优的(-1, 40)?如果不靠运气的话,机器如何能自动的找到最优解呢?

梯度下降算法

在此之前,或许你已经想到了随机穷举的办法,因为机器不怕累。这的确是个办法,但面临的挑战也不可接受:不可控。因为即便是只有2个参数的模型训练,其枚举域也是无限大的,这和靠运气没有分别。运气差的话,等个几百年也说不定。

不绕圈子,那个神秘力量就是:梯度下降算法(gradient descent)。虽然它也是让机器一小步一小步的去尝试不同的(a, b)的组合,但是它能指导每次前进的方向,使得每尝试一组新的值,loss就能变小一点点,直到趋于稳定。

而这一切TF已经把它封装好了。 本篇先把它当个黑盒子使用。

tf.train API

代码几乎和TensorFlow Get Started官方代码一致,主要区别在于训练数据不同,以及初始值不同。

  • TF官方的训练数据是x_train = [1, 2, 3, 4],y_train = [0, -1, -2, -3],而我们的训练数据是“平行世界”的观察记录x_train = [22, 25, 28, 30],y_train = [18, 15, 12, 10]。
  • TF官方的(a, b)初始值是(.3, -.3), 我们的是(-1., 50.)。
  • 或许你还发现在官方版本的loss函数末尾没有/ 8,是因为我使用均方差的缘故,8由4x2得到(4个训练数据)。

重点说下tf.train API。tf.train.GradientDescentOptimizer即封装了梯度下降算法。梯度下降在数学上属于最优化领域,从其名字Optimizater也可体现出。其参数就是“学习率”(learning rate),先记住这个名词,暂不展开,其基本的效用是决定待调整参数的调整幅度。学习率越大,调整幅度越大,学习的越快。反之亦然。可也并不是越大越好,是相对来说的。先取0.01。

另一个需要输入给梯度下降算法的就是loss,它是求最优化解的主体,通过optimizer.minimize(loss)传入,并返回train节点。接下来在循环中执行train节点即可,循环的次数,即训练的步数。

执行计算图,程序输出:

这个结果令人崩溃,仅仅换了下TF官方get started中例子中模型的训练数据和初始值,它就不工作了。

先来看看问题在哪。一个调试的小技巧就是打印每次训练的情况,并调整loop的次数。

程序输出:

TF实际是工作的,并没有撂挑子。只是它训练时每次调整(a, b)都幅度很大,接下来又矫枉过正且幅度越来越大,导致最终承载a和b的tf.float32溢出而产生了nan。这不是TF的一个bug,而是算法本身、训练数据、学习率、训练次数共同导致的(它们有个共同的名字:超参数。)。可见,训练是一门艺术

直觉上,初始值或许有优劣之分,或许是离最优值越近的初始值越容易找到。可是训练数据则应该是无差别的吧?实则不然。但是现在我还不打算把它解释清楚,等后面分析完梯度下降算法后再回来看这个问题。

遇到该问题的也不再少数,Stack Overflow上已经很好的回答了。我们先通过调整学习率和训练次数来得到一个完美的Ending。

把学习率从0.01调制0.0028,然后将训练次数从1000调整至70000。

程序输出:

最终代码如下:

TensorBoard

TF的另一个强大之处就是可视化算法的TensorBoard,把构造的计算图显示出来。图中显示,每一个基本运算都被独立成了一个节点。除了图中我标注的Rank节点、range节点,start节点、delta节点外,其他节点都是由所写代码构建出来的。

TensorBoard

词汇表

  • derivative; 导数;
  • estimator: 估计;
  • gradient descent: 梯度下降;
  • inference: 推理;
  • line regression:线性回归;
  • loss function: 损失函数;
  • magnitude: 量;
  • optimal: 最优的;
  • optimizers: 优化器;

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-08-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 微软开源MMdnn:实现多个框架之间的模型转换

选自GitHub 作者:Kit CHEN等 机器之心编译 参与:路雪、思源 近日,微软开源 MMdnn,可用于转换、可视化和诊断深度神经网络模型的全面、跨框架解...

3756
来自专栏机器人网

人脸识别,一行代码就能搞定?

什么,只要一行代码就能搞定人脸识别?当然是假的啦。 虽然不能一行就搞定,依靠python强大的人脸识别包,只要十多行代码完全可以实现人脸识别的功能。这就叫站在巨...

3745
来自专栏Python中文社区

基于RNN自动生成古诗

專 欄 ❈ 作者:yonggege,Python中文社区专栏作者 GitHub地址:https://github.com/wzyonggege ❈ 0. ch...

2865
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 5 - TensorFlow轻松搞定线性回归

上一篇 第一个机器学习问题 其实是一个线性回归问题(Linear Regression),呈现了用数据来训练模型的具体方式。本篇从平行世界返回,利用Tenso...

3968
来自专栏ATYUN订阅号

基于计算机视觉和OpenCV:创建一个能够计算道路交通流量的应用

本文将介绍如何在不需要大量的深度学习算法的情况下,基于计算机视觉来计算道路交通流量。本教程只使用Python和OpenCV,在背景差分算法的帮助下,实现非常简单...

3036
来自专栏深度学习入门与实践

【深度学习系列】PaddlePaddle可视化之VisualDL

  上篇文章我们讲了如何对模型进行可视化,用的keras手动绘图输出CNN训练的中途结果,本篇文章将讲述如何用PaddlePaddle新开源的VisualDL来...

4309
来自专栏AI科技大本营的专栏

TensorSpace:一套用于构建神经网络3D可视化应用的框架

今天要为大家推荐一套超酷炫的,用于构建神经网络 3D 可视化应用的框架——TensorSpace。

1191
来自专栏木子昭的博客

sklearn数据集的获取与划分

获取sklearn本地的数据集 from sklearn.datasets import load_iris li = load_iris() print("...

4619
来自专栏机器学习算法与理论

调用Dlib库进行人脸关键点标记

       昨天调试了人脸识别(classifier_webcam)这个程序,效果不错,响应速度也挺快。按照http://blog.csdn.net/u011...

4679
来自专栏深度学习之tensorflow实战篇

关于决策树ID3算法,熵,信息增益率的权威解释,稍后奉上python代码

决策树分类算法概述 决策树算法是从数据的属性(或者特征)出发,以属性作为基础,划分不同的类。 看了本书,叫知识发现,内容很好,果断扫描 这里...

3604

扫码关注云+社区

领取腾讯云代金券