(L^p) norm 定义如右: (||x||_p=(\sum_i|x_i|^p)^{\frac{1}{p}}) for (p∈R,p≥1).
任何满足如下条件的函数都可视为norm:
最常用的是二范式,即(L^2) norm,也称为Euclidean norm(欧几里得范数)。因为在机器学习中常用到求导,二范式求导之后只与输入数据本身有关,所以比较实用。
但是二范式在零点附近增长很慢,而且有的机器学习应用需要在零点和非零点之间进行区分,此时二范式显得力不从心,所以我们可以选择一范式,即(L^1) norm,其表达式为:(||x||_1=\sum_i|x_i|).
0范式表示矢量中非0的元素的个数。其实0范式这个说法是不严谨的,因为它不满足第三个条件,but whatever~
无穷大范式,也叫max norm,它表示矢量中所有元素绝对值的最大值,即
[||x||_∞=max |x_i|]
F norm全称是Frobenius Norm,其表达式如下:
[||A||_F=\sqrt{\sum_{i,j}A_{i,j}^2} ]
定义: a matrix (D) is diagonal if and only if (D_{i,j}=0) for all (i≠j).
仔细看定义!!!这里并没有说必须是squre matrix(方阵),所以对角矩阵不一定是方阵,rectangle matrix也有可能是对角矩阵(只要对角线上不为0,其余部分都为0)。
定义: 若(A^TA=AA^T=I),那么n阶实矩阵A则为正交矩阵。
注意矩阵A必须为方阵,另外有定义可知 (A^{-1}=A^T)
定义: 满足正交矩阵的要求,且为x和y均为unit vector(单位矢量)。
很多数学概念其实都可以分解成很小的组成部分,然后通过观察这些组成进而找出它们可能存在的通用的性质。例如对于一个整数12,我们会试着把它分解成12=2×2×3,由这个表达式我们可以得到一些有用的结论,例如12不能被5整除,任何数乘以12后都能被3整除等等。
很自然地,对于矩阵,我们也想看看他是否也能被拆分呢,所以就引入了特征分解的概念,通过特征分解我们会得到矩阵(A)的(一组)eigenvector(特征向量): (v) 和 eigenvalue(特征值): (λ),它们满足如下等式:
[Av=λv]
(特征向量当然也可以在右边,但是通常更习惯于放在右边。)
假设矩阵(A)有n个线性独立的特征向量({v^{(1)}, ..., v^{(n)}})以及对应的特征值({ λ_1, ...,λ_n })。记
(V=v^{(1)}, ..., v^{(n)},λ=λ_1, ...,λ_n ),则矩阵A的特征分解如下:
[A=Vdiag(λ)V^{-1}]
另外实对称矩阵的特征分解用得比较多,表达式为(A=Q\Lambda Q^{-1}),(Q)表示由特征向量组成的正交矩阵,(\Lambda)表示对角矩阵,注意(Q)和(\Lambda)的值是一一对应的。
Singular Value Decomposition (SVD) 可以把一个矩阵分解得到 singular vectors和singular values。SVD可以像特征值分解一样帮助我们对一个矩阵进行分析,并且SVD适用性更广。每个实矩阵都能做SVD,但是不一定能做特征值分解。比如说如果一个矩阵不是方阵,那么就不能做特征分解,但是我们可以做SVD。
SVD分解后的矩阵表达式如下:
[A=UDV^T]
假设A是一个m×n矩阵,那么U定义为m×m矩阵,D是m×n矩阵,V是n×n矩阵。
除此以外
讲这么多,肯定对SVD还没有一个直观的理解,下面一节会介绍SVD的应用。
我们在求一个矩阵的逆(matrix inverse)的时候,一般都需要规定这个矩阵是方阵。
假设有一个线性方程(Ax=y),为了解出这个方程,我们很直观地希望能够造出一个left-inverse矩阵B和A相乘,从而求出x,即(x=By)。
如果A是一个非方阵的矩阵,当它的row大于column时,很有可能此时无解;而当row小于column时,可能有多解。
Moore-Penrose Pseudoinverse就是为了解决这个问题的,矩阵A的伪逆定义如下:
[A^+=lim_{α\searrow{0}}(A^TA+αI)^{-1}A^T]。
上面的公式实际很少用,一般都是使用SVD的公式,即
[A^+=VD^+U^T]
U,D,V是上节中提到的矩阵A的奇异分解。(D^+)是矩阵D的伪逆,它是首先将D的非零元素取倒数得到一个矩阵,然后将这个矩阵转置之后就得到了(D^+)。
当矩阵A的row比column少时,使用伪逆可以得到很多解。但是,(x=A^+y)这个解是所有解中有最小Euclidean norm((||x||_2))的。
当矩阵A的row比column多时,可能无解。但是使用伪逆求得的解x ,能使得(Ax)尽可能的接近(y),也就是说能使得(||Ax-y||_2)最小。
trace运算符是将矩阵对角线上的所有元素求和,即(Tr(A)=\sum_iA_{i,i})