关于线性回归相信各位都不会陌生,当我们有一组数据(譬如房价和面积),我们输入到excel,spss等软件,我们很快就会得到一个拟合函数:
但我们有没有去想过,这个函数是如何得到的? 如果数学底子还不错的同学应该知道,当维数不多的时候,是可以通过正规方程法求得的,但如果维数过多的话,像图像识别/自然语言处理等领域,正规方程法就没法满足需求了,这时候便需要梯度下降法来实现了。
首先我们需要知道一个概念
损失函数是用来测量你的预测值
与实际值之间的不一致程度,我们需要做的就是找到一组
使得
最小,这组
便叫做全局最优解。
图1
我们需要定义一个损失函数,在线性回归问题中我们一般选择平方误差代价函数:
我们的目标是
如果不好理解的话我们通过图形来理解:
图2
假设上图是我们的
,那我们需要找到的就是左边箭头指向的那个点,这个点对应的
便是我们找的全局最优解,当然对于其他模型可能会存在局部最优解,譬如右边箭头指向的点,但是对于线性模型,只会存在全局最优解,真正的图像模型如下图所示,是个碗状的,我们要做的是找到碗底,这样是不是很好理解了。
图3
那么如何到达最底呢,我们再看一张图。
图四
我们需要从绿点到达红点,我们需要确定的有两件事情
第一个问题,我们需要回忆下高中的数学知识——导数,在二维空间里面,导数是能代表函数上升下降快慢及方向的,这个各位在脑子里面想一个就明白,函数上升,导数为正,上升越快,导数越大,下降反之。扩展到多维空间,便是偏导数(
)。 第二个问题,走多远或者说步长,这里便需要我们自己定义,在梯度下降法中叫做学习率
。 接下来放公式:
这边就不推导了,偏导数自己也快忘记的差不多了,直接放结果:
接下来迭代去更新
直至收敛就好了。
我们通过
生成一些随机点,注意
并不是我们的最优解:
# 以y= 2x+1为原型生成一个散点图
# 此时最优解并不是y = 2x+1
X0 = np.ones((100, 1))
X1 = np.random.random(100).reshape(100,1)
X = np.hstack((X0,X1))
y = np.zeros(100).reshape(100,1)
for i , x in enumerate(X1):
val = x*2+1+random.uniform(-0.2,0.2)
y[i] = val
plt.figure(figsize=(8,6))
plt.scatter(X1,y,color='g')
plt.plot(X1,X1*2+1,color='r',linewidth=2.5,linestyle='-')
plt.show()
out
图5
迭代部分:
# 梯度下降法求最优解
def gradientDescent(X,Y,times = 1000, alpha=0.01):
'''
alpha:学习率,默认0.01
times:迭代次数,默认1000次
'''
m = len(y)
theta = np.array([1,1]).reshape(2, 1)
loss = {}
for i in range(times):
diff = np.dot(X,theta)- y
cost = (diff**2).sum()/(2.0*m)
loss[i] = cost
theta = theta - alpha*(np.dot(np.transpose(X), diff)/m)
plt.figure(figsize=(8,6))
plt.scatter(loss.keys(),loss.values(),color='r')
plt.show()
return theta
theta = gradientDescent(X,Y)
默认设置的迭代1000次,学习率为0.01,最后结果如下:
loss function
= 1.03229637, 1.95156735
我不是图5?
网上介绍梯度下降法的文章很多,但很多的都是一脸懵逼?的点进去,然后一脸懵逼?的退出来,相比于那些copy来copy去的文章,我还是尽量的加入了自己的理解,还是希望能各位带来点帮助?????? 还有尼玛数学公式真难打❗️❗️❗️