博客 | 机器学习中的数学基础（线性代数）

AI研习社

发布于 2018-12-27 14:55:07

8280

发布于 2018-12-27 14:55:07

本文原载于知乎专栏“AI的怎怎，歪歪不喜欢”，AI研习社经授权转载发布。欢迎关注 邹佳敏 的知乎专栏及 AI研习社博客专栏（文末可识别社区名片直达）。

一、线性代数初步：

正确理解“线性代数”应该将其拆分成2部分：“线性”体现向量，它是静态的研究对象，而“代数”则是施加在向量上的数学结构，代表的是数学运算，具体就是数乘和加法，即映射。因此，线性代数研究的就是向量集合上的各种运算，包括线性空间和线性变换，而矩阵就是将两者联系起来的纽带。

向量和基，在所有N维向量集合中施加满足交换律和结合律的加法和数乘运算，一个线性空间就诞生了。但我们不能直接就说该线性空间是N维的，因为线性空间的维数取决于该集合中基的个数，基就是该向量集合中的最大无关组，集合中的任意一个向量都可以用基来线性表示，所以基可以看成是该线性空间上的坐标轴，而向量就是在此坐标轴上的坐标。拿二维线性空间来说，X轴和Y轴可以用(1,0)和(0,1)来表示，所以X和Y就是二维线性空间上的一组基，特别的，这就是笛卡尔坐标系，最终，平面上的任意一点都可以由X和Y来线性表示。但是，请注意二维线性平面中不平行不共线的任意两个向量都可以看作是一组基，因此基的选择也要视具体需要解决的问题而定，这就引出了正交基，正交规范基等等。

线性映射和矩阵，线性映射是线性空间中的运动，表示线性空间中的某点跃迁到另外一点，矩阵就决定了向量运动的轨迹，任何一个矩阵M都能分解为缩放、旋转和平移分量，使向量最终变换至任意的地方。同时，由于任何一个向量都可以由其空间中的基线性表示，因此对向量的变换可以转化为对基的变换，一组基可以唯一的确定一个变换矩阵，不同的基使得变换矩阵也各有不同。既然说到基，就不得不谈到坐标系，对于

有2种视角可以解释它：1，在当前坐标系下，使用矩阵M将定义坐标系中的

点转移至

点；2，转换坐标系，使得在不同坐标系下矩阵M对向量

的变换与矩阵E对向量

的变换指向同一位置点。

由此可知，线性映射和矩阵适用于一切线性逼近的问题。例如斐波拉契数列和线性回归，传统意义上的斐波拉契数列通常使用递归来描述f(1)=1, f(2)=1, f(n+2)=f(n)+f(n+1)。因为自相关特性，后面的元素可以由前面的元素线性表示，看到线性就应该想到建立线性模型使用矩阵求解，因此再递推一项f(n+1)=0·f(n)+1·f(n+1)，就可以得到一个自相关的线性映射

。

二、线性代数进阶：

在一个线性空间中，对于线性变换T，若取定一组基

，一定能找到矩阵M来描述这组基的运动轨迹。同时，若取另一组基

，则可以用矩阵N来表示。那在什么条件下矩阵M和N描述同一个线性变换T呢？这就引出了相似矩阵：若存在这样一个矩阵P，使得

，我们就称这两个矩阵互为相似矩阵，两者描述的是同一个线性变换T在不同基下的表达形式，同时

。当我们研究线性变换的时候，只需将原矩阵转化为它的相似矩阵，然后研究它在相似变换下的不变性质即可，毕竟原矩阵和相似矩阵描述的是同一个线性变换。

相似变换下的不变性质包括行列式，迹和秩等。从线性空间的几何角度看，若C是线性空间V中的立方体，T是V中的某个线性变换，在基

下对应的变换矩阵为A，则Volume(T(C))=|A|·Volume(C)，特别的，对线性映射T(C)=exp(C)，|A|=exp(tr(C))。同时，秩rank(C)与线性空间的维数相同，即rank(C)=dim(V)。另外，特征值是最重要的相似不变量，后续相似变换都是围绕对特征值的研究而展开的。

如果对称方阵

，那么这2个矩阵就互为相合矩阵。从代数角度理解，相合矩阵为N元2次方程组的系数矩阵，几何角度上看，相合矩阵度量线性空间一组基间的内积关系。类似相似矩阵表示同一线性变换在不同基下的表现形式，相合矩阵表示的是同一内积结构在不同基下的表现。

对称矩阵

对任意

均存在

>0都成立，则称A为正定矩阵。正定矩阵的所有特征值均大于0。若

和

互为相似矩阵，则它们之间的正定性、正负特征值个数和对称性均保持不变，即为相合不变量。

若将相似变换和相合变换结合起来，同时保持矩阵的相似和相合不变量，则将该变换称作正交相似变换，其中

，

。值得注意的是，任意一个对称矩阵A，总存在一个正交矩阵P，使得

，其中D为一个对角矩阵。从代数计算的角度来看，对角矩阵D为A矩阵的特征值，P是对应于某一特征值下的特征向量。

正交相似变换最直接的应用有2种，包括对称方阵的PCA变换和长方形矩阵的SVD。

PCA变换：当我们拿到包含大量特征维度的海量样本时，切忌急急忙忙导入内存开始训练。而应该思考这么多特征维度是否相关，是否存在大量冗余，是否与样本标签毫无关系？那么我们有没有办法从原始特征中挑选彼此间不相关的特征，或者将原始特征映射到一个新的维度挑选能包含最大信息量的特征？前者在某种程度上属于线性回归中要解决的多重共线性问题，而后者是我们现在要讨论的PCA。首要问题是如何衡量信息量，一般认为，样本间的方差衡量样本间的信息，信息量越大则样本间的方差越大，PCA变换的一个角度就是找到某一个正交映射，使得样本在新的特征维度上拥有的方差最大，简称最大方差解释。

首先，将已知样本矩阵在特征维中心化和标准化；其次，求解预处理后的样本矩阵在方向向量u上的投影