专栏首页SimpleAI【DL笔记1】Logistic Regression:最基础的神经网络

【DL笔记1】Logistic Regression:最基础的神经网络

从【DL笔记1】到【DL笔记N】,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总结而来。从基本的概念、原理、公式,到用生动形象的例子去理解,到动手做实验去感知,到著名案例的学习,到用所学来实现自己的小而有趣的想法......我相信,一路看下来,我们可以感受到深度学习的无穷的乐趣,并有兴趣和激情继续钻研学习。 正所谓 Learning by teaching,写下一篇篇笔记的同时,我也收获了更多深刻的体会,希望大家可以和我一同进步,共同享受AI无穷的乐趣。


个人认为理解并掌握这个logistic regression是学习神经网络和深度学习最重要的部分,也是最基础的部分,学完这个再去看浅层神经网络、深层神经网络,会发现后者就是logistic重复了若干次(当然一些细节会有不同,但是原理上一模一样)。

一、什么是logictic regression

下面的图是Andrew Ng提供的一个用logistic regression来识别主子的图片的算法结构示意图:

左边x0到x12287是输入(input),我们称之为特征(feather),常常用列向量x(i)来表示(这里的i代表第i个训练样本,下面在只讨论一个样本的时候,就暂时省略这个标记,免得看晕了-_-|||),在图片识别中,特征通常是图片的像素值,把所有的像素值排成一个序列就是输入特征,每一个特征都有自己的一个权重(weight),就是图中连线上的w0到w12287,通常我们也把左右的权重组合成一个列向量W

中间的圆圈,我们可以叫它一个神经元,它接收来自左边的输入并乘以相应的权重,再加上一个偏置项b(一个实数),所以最终接收的总输入为:

x0w0+x1w1+…+x12287w12287+b=WTx+b

但是这个并不是最后的输出,就跟神经元一样,会有一个激活函数(activation function)来对输入进行处理,来决定是否输出或者输出多少。Logistic Regression的激活函数是sigmoid函数,介于0和1之间,中间的斜率比较大,两边的斜率很小并在远处趋于零。长这样(记住函数表达式):

我们用y’来表示该神经元的输出,σ()函数代表sigmoid,则可知:

y’ = σ(WTx+b)

这个y’可以看做是我们这个小模型根据输入做出的一个预测,在最开始的图对应的案例中,就是根据图片的像素在预测图片是不是猫。 与y’对应的,每一个样本x都有自己的一个真实标签y,y=1代表图片是猫,y=0代表不是猫。我们希望模型输出的y’可以尽可能的接近真实标签y,这样,这个模型就可以用来预测一个新图片是不是猫了。所以,我们的任务就是要找出一组W,b,使得我们的模型y’ = σ(WTx+b)可以根据给定的x,正确地预测y。在此处,我们可以认为,只要算出的y’大于0.5,那么y’就更接近1,于是可以预测为“是猫”,反之则“不是猫”。

以上就是Logistic Regression的基本结构说明。

二、怎么学习W和b

前面其实提到过了,我们需要学习到的W和b可以让模型的预测值y’与真实标签y尽可能地接近,也就是y’和y的差距尽量地缩小。因此,我们可以定义一个损失函数(Loss function),来衡量y’和y的差距:

L(y’,y) = -[y·log(y’)+(1-y)·log(1-y’)]

可以暂时忽略后面这个看似复杂其实不复杂的表达式,只记住损失函数是L(y’,y)就行了。 如何说明这个式子适合当损失函数呢?且看:

  • 当y=1时,L(y’,y)=-log(y’),要使L最小,则y’要最大,则y’=1;
  • 当y=0时,L(y’,y)=-log(1-y’),要使L最小,则y’要最小,则y’=0.

如此,便知L(y’,y)符合我们对损失函数的期望,因此适合作为损失函数。

我们知道,x代表一组输入,相当于是一个样本的特征。但是我们训练一个模型会有很多很多的训练样本,也就是有很多很多的x,就是会有x(1),x(2),…,x(m) 共m个样本,它们可以写成一个大X 行向量X = (x(1),x(2),…,x(m) ) 对应的样本的真实标签Y(也是行向量): Y = (y(1),y(2),…,y(m) ) 通过我们的模型计算出的y’们也可以组成一个行向量: Y’ = (y’(1),y’(2),…,y’(m) )

前面讲的损失函数L,对每个x都有,因此在学习模型的时候,我们需要看所有x的平均损失,因此定义一个代价函数(Cost function)J(W,b) = 1/m·Σmi=1L(y’(i),y(i)) 代表所有训练样本的平均损失。

因此,我们的学习任务就可以用一句话来表述:

Find W,b that minimize J(W,b)

Minimize。。。说起来简单做起来难,好在我们有计算机,可以帮我们进行大量重复地运算,于是在神经网络中,我们一般使用梯度下降法(Gradient Decent)

这个方法通俗一点就是,先随机在曲线上找一个点,然后求出该点的斜率,也称为梯度,然后顺着这个梯度的方向往下走一步,到达一个新的点之后,重复以上步骤,直到到达最低点(或达到我们满足的某个条件)。 如,对w进行梯度下降,则就是重复一下步骤(重复一次称为一个迭代):

w := w - α(dJ/dw)

其中:=代表“用后面的值更新”,α代表“学习率(learning rate)”,dJ/dw就是J对w求偏导。

回到我们的Logistic Regression问题,就是要初始化(initializing)一组W和b,并给定一个学习率,指定要迭代的次数(就是你想让点往下面走多少步),然后每次迭代中求出w和b的梯度,并更新w和b。最终的W和b就是我们学习到的W和b,把W和b放进我们的模型y’ = σ(WTx+b)中,就是我们学习到的模型,就可以用来进行预测了!

总结一下:

  • Logistic Regression模型:y’ = σ(WTx+b),记住使用的激活函数是sigmoid函数。
  • 损失函数:L(y’,y) = -[y·log(y’)+(1-y)·log(1-y’)]衡量预测值y’与真实值y的差距,越小越好。
  • 代价函数:损失均值,J(W,b) = 1/m·Σmi=1L(y’(i),y(i)),是W和b的函数,学习的过程就是寻找W和b使得J(W,b)最小化的过程。求最小值的方法是用梯度下降法。
  • 训练模型的步骤
    1. 初始化W和b
    2. 指定learning rate和迭代次数
    3. 每次迭代,根据当前W和b计算对应的梯度(J对W,b的偏导数),然后更新W和b
    4. 迭代结束,学得W和b,带入模型进行预测,分别测试在训练集合测试集上的准确率,从而评价模型

就这么明明白白<(▰˘◡˘▰)

理解Logistic regression的基本思想,对学习神经网络以及深度学习至关重要,尤其是怎么通过损失函数来更新参数,从而得到预测模型这个过程。后面我们会亲自动手用代码实现一个Logistic regression。 有任何疑问,欢迎留言交流!


本文分享自微信公众号 - SimpleAI(SimpleAI_1),作者:Beyond

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【DL碎片1】神经网络参数初始化的学问

    从【DL笔记1】到【DL笔记N】,以及【DL碎片】系列,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总...

    beyondGuo
  • 【DL碎片3】神经网络中的激活(Activation)函数及其对比

    从【DL笔记1】到【DL笔记N】以及【DL碎片】系列,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总结...

    beyondGuo
  • Hello NLP(2)——关于word2vec你想知道的一切

    一个寒假没有学习,回来之后发现word2vec的很多细节都忘记了……原来脑子真的跟铁一样,长期不用会锈的!于是回来这两天,重读word2vec相关论文,把各个细...

    beyondGuo
  • 三分钟学 Go 语言——函数深度解析(中)

    上回函数深度解析给大家聊了一些函数的基本知识,不知道还有没有人记得,不记得赶紧回去复习!

    机智的程序员小熊
  • 开发者福音!面向Web场景的云开发服务正式开放!

    【导语】继支持小程序开发之后,云开发也支持Web使用啦!开发者们可以使用云开发提供的云端能力,直接开发网站应用,如PC端网页、公众号中的网页等。由此开发者可以在...

    腾讯云开发TCB
  • 深度学习算法(第36期)----强化学习之时间差分学习与近似Q学习

    上期我们一起学习了强化学习中的马尔科夫决策过程的相关知识, 深度学习算法(第35期)----强化学习之马尔科夫决策过程 今天我们学习强化学习中的时间差分学习与Q...

    智能算法
  • slim.l2_regularizer()

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。

    于小勇
  • 元学习

    人工智能的一个基本问题是它无法像人类一样高效地学习。许多深度学习分类器显示了超人的表现,但需要数百万个训练样本。知识不共享,并且每个任务都独立于其他任务进行训练...

    磐创AI
  • 2017年云计算的回顾与总结

    如果回溯到2016年,很多大型企业的数据中心工作负载正计划向云端迁移。而2017年则是企业的业务向云端迁移的一年,这种迁移在整个数据中心行业引起了很大的反响,为...

    BestSDK
  • JavaScript 函数

    JavaScript解析过程分为两个阶段,先是编译阶段,然后执行阶段,在编译阶段会将function定义的函数提前,并且将var定义的变量声明提前,将它赋值为u...

    Devops海洋的渔夫

扫码关注云+社区

领取腾讯云代金券