深度学习数学基础一--最小二乘法

之前总是先上手一些比较高级的神经网络算法,CNN,RNN等。可是总觉得有些知识原理总是羁绊着我进一步理解。这才意识到基础的重要性。所以,就一点一点的从基础数学最小二乘法开始。这里用到的就是咱们小学或初中学到的知识。我们也都知道深度学习就是矩阵的各种计算。所以这里我们将那些知识和大学的线性代数进行简单结合。

我们先了解向量之间的投影

比如这张图

已知:这是2维空间,A[3, 1], B[1, 3], 求B到A最短距离的点(也就是B到A的投影P的向量)。

我们可以先用A来表示P:P = A*x = [3, 1].T * x (x 是 A的线性组合的系数,是个变量,就是我们要求的实数)

若使BP距离最短,则使||P - B||^2最小就行,即 使||A*x - B||^2最小。

化解:

||A*x - B||^2 = (A*x)^2 - 2AB*x + B^2

对之求导并使之等于0,求最小值x

得:

2A^2x - 2AB = 0

A^2x = AB

因为这是矩阵运算,左成A^2的逆

则写成x = (A^2)^(-1) * AB

则P = A * x = A * (A^2)^(-1) * AB

代码实现

注意区别点乘和叉乘

import numpy as np
from matplotlib import pyplot as plt
A = np.array([[3], [1]])
B = np.array([[1], [3]])
P = A * np.linalg.inv(A.T.dot(A)) * (A.T.dot(B))
# print(P)
plt.plot(A[0], A[1], 'k-o')
plt.plot(B[0], B[1], 'r-o')
plt.plot(P[0], P[1], 'r-o')
plt.plot([B[0], P[0]], [B[1], P[1]], 'y-o')
plt.plot([0, A[0]], [0, A[1]], 'k-')
plt.ylim(0, 3)
plt.xlim(0, 3.5)
plt.text(A[0]+0.1, A[1], 'A')
plt.text(B[0], B[1]-0.1, 'B')
plt.text(P[0]+0.1, P[1]+0.1, 'P')
plt.show()

给定一堆点,求一条线来拟合这些点

比如有n个点(X1, Y1), ..., (Xn, Yn)

我们选取特征函数 y = ax^2 + bx + c

(

特征函数的选取可以任意函数,根据经验选取特征函数,比如也可以是y = ax^2 + bx + csinx+ de^2 + f等

)

那我们就有以下矩阵表示:

代码实现:

import numpy as np
from matplotlib import pyplot as plt
x = np.linspace(-1, 1, 100)
y = 2.3*x*x + 3.5*x + 0.04
y_ = y + np.random.rand(len(x)) - 0.5
A = []
times = 2
for i in range(times+1):
    A.append(x**(times-i))
A = np.array(A).T
B = y_.reshape(y_.shape[0], 1)
w = np.linalg.inv(A.T.dot(A)).dot(A.T).dot(B)
pred_y = A.dot(w)
print(w)
plt.scatter(x, y_)
plt.plot(x, y, 'k-')
plt.plot(x, pred_y, 'r-')
plt.show()

结果系数输出:

[[ 2.28283947]
 [ 3.46918764]
 [ 0.05473155]]

黑线为理想曲线,红色为拟合曲线。

这样看,效果还是可以的。

原文发布于微信公众号 - 深度学习自然语言处理(zenRRan)

原文发表时间:2017-08-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏重庆的技术分享区

1吴恩达Meachine-Learing之监督学习和非监督学习

1163
来自专栏磐创AI技术团队的专栏

一个完整的机器学习项目在Python中演练(四)

1425
来自专栏AI研习社

这5种计算机视觉技术,刷新你的世界观

计算机视觉是目前深度学习领域最热门的研究领域之一。它位于许多学术科目的交汇点,如计算机科学(图形学,算法,理论,系统,建筑),数学(信息检索,机器学习),工程学...

803
来自专栏机器之心

ICLR 2018 | 斯坦福大学论文通过对抗训练实现可保证的分布式鲁棒性

30612
来自专栏数据分析

[机器学习]-[数据预处理]-中心化 缩放 KNN(一)

据预处理是总称,涵盖了数据分析师使用它将数据转处理成想要的数据的一系列操作。例如,对某个网站进行分析的时候,可能会去掉 html 标签,空格,缩进以及提取相关关...

4415
来自专栏计算机视觉战队

期待已久的—YOLO V3

好久不见各位研友(研究好友,不是考研的小伙伴,嘿嘿)!最近,因为题主学校事情比较繁忙,没有花更多的时间在我们的平台,希望关注支持我们的您,原谅我们更新的速度,希...

57416
来自专栏CSDN技术头条

深度学习性能提升的诀窍

克服过拟合和提高泛化能力的20条技巧和诀窍 你是如何提升深度学习模型的效果? 这是我经常被问到的一个问题。 有时候也会换一种问法: 我该如何提高模型的准...

3758
来自专栏SIGAI学习与实践平台

三维深度学习中的目标分类与语义分割

在过去的几年中,基于RGB的深度学习已经在目标分类与语义分割方面取得了非常好的效果,也促进了很多技术的发展,深度学习在现实生活中的应用也越来越多。但是在很多实际...

2514
来自专栏量子位

刷剧不忘学CNN:TF+Keras识别辛普森一家人物 | 教程+代码+数据集

王小新 编译自 Medium 量子位 出品 | 公众号 QbitAI Alexandre Attia是《辛普森一家》的狂热粉丝。他看了一系列辛普森剧集,想建立一...

3235
来自专栏数据分析

[机器学习]-[数据预处理]-中心化 缩放 KNN(一)

数据预处理是总称,涵盖了数据分析师使用它将数据转处理成想要的数据的一系列操作。例如,对某个网站进行分析的时候,可能会去掉 html 标签,空格,缩进以及提取相关...

2927

扫码关注云+社区