首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用Numpy搭建神经网络第二期:梯度下降法的实现

用Numpy搭建神经网络第二期:梯度下降法的实现

作者头像
大数据文摘
发布2019-05-30 18:17:17
5300
发布2019-05-30 18:17:17
举报
文章被收录于专栏:大数据文摘大数据文摘

梯度下降:迭代求解模型参数值

最简单的神经网络包含三个要素,输入层,隐藏层以及输出层。关于其工作机理其完全可以类比成一个元函数:Y=W*X+b。即输入数据X,得到输出Y。

如何评估一个函数的好坏,专业一点就是拟合度怎么样?最简单的方法是衡量真实值和输出值之间的差距,两者的差距约小代表函数的表达能力越强。

这个差距的衡量也叫损失函数。显然,损失函数取值越小,原函数表达能力越强。

那么参数取何值时函数有最小值?一般求导能够得到局部最小值(在极值点处取)。而梯度下降就是求函数有最小值的参数的一种方法。

梯度下降数学表达式

比如对于线性回归,假设函数表示为hθ(x1,x2…xn)=θ0+θ1x1+..+θnxn,其中wi(i=0,1,2...n)为模型参数,xi(i=0,1,2...n)为每个样本的n个特征值。这个表示可以简化,我们增加一个特征x0=1,这样h(xo,x1,.…xn)=θ0x0+θ1x1+..+θnxn。同样是线性回归,对应于上面的假设函数,损失函数为(此处在损失函数之前加上1/2m,主要是为了修正SSE让计算公式结果更加美观,实际上损失函数取MSE或SSE均可,二者对于一个给定样本而言只相差一个固定数值):

算法相关参数初始化:主要是初始化θ0,θ1..,θn,我们比较倾向于将所有的初始化为0,将步长初始化为1。在调优的时候再进行优化。

对θi的梯度表达公式如下:

用步长(学习率)乘以损失函数的梯度,得到当前位置下降的距离,即:

梯度下降法的矩阵方式描述

对应上面的线性函数,其矩阵表达式为:

损失函数表达式为:

其中Y为样本的输出向量。

梯度表达公式为:

还是用线性回归的例子来描述具体的算法过程。损失函数对于向量的偏导数计算如下:

迭代:

两个矩阵求导公式为:

用Python实现梯度下降

import pandas as pdimport numpy as np

导入两个必要的包。

def regularize(xMat):     inMat=xMat. copy()     inMeans=np. mean(inMat, axis=0)     invar=np. std(inMat, axis=0)     inMat=(inMat-inMeans)/invar      return inMat

定义标准化函数,不让过大或者过小的数值影响求解。

定义梯度下降函数:

def BGD_LR(data alpha=0.001, maxcycles=500):       xMat=np. mat(dataset)        yMat=np. mat(dataset).T        xMat=regularize(xMat)        m,n=xMat.shape        weights=np. zeros((n,1))        for i in range(maxcycles):                grad=xMat.T*(xMat * weights-yMat)/m                weights=weights -alpha* grad                return weights

其中,dataset代表输入的数据,alpha是学习率,maxcycles是最大的迭代次数。

即返回的权重就是说求值。np.zeros 是初始化函数。grad的求取是根据梯度下降的矩阵求解公式。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档