人的悲欢并不相通,我只觉得他们吵闹——鲁迅
写这篇文章之前,脑海里鬼使神差般的浮出这句话,于是决定把它加在开篇之前。
不知道你记得不记得凌晨杂货店门前卸货的年轻人,或者傍晚地铁口赶着公交上车的归家人。不,你不记得。因为他们对你来说并不重要。
那么你我,在芸芸众生之中交织存活的意义是什么?
因为我们想在彼此生命场的交织中,获得重要的地位。
前提之一,就是我们需要将信息传达给别人。
但是对一个不在乎你的人来说,你传递的仅仅是数据而已。因为信息的实际意义,是未被过滤掉的有用的数据。就像你无视身边争吵的人群却无法过滤掉儿子的笑脸一样,那些能够触动你的数据才会被潜意识保存下来,成为有用的信息。
在机器学习与模式识别的诸多方法中,有一个方法叫主成分分析(PCA——Principal components analysis)。PCA运算是以协方差矩阵为数据基础的,而协方差矩阵代表了事物之间的关联程度。PCA运算的目标,恰恰就是抽取部分数据,同时保留事物之间最大关联。也就是说,代表事物之间最大关联的数据,将被留存下来。
为了达到这一目标,我们将从协方差矩阵的特征值分析出发,保留矩阵中重要的信息。
而特征值的意义又是什么
特征值的概念:对于给定矩阵A,寻找一个常数λ(可以为复数)和非零向量x,并且满足Av=λv。
回忆这个白开水式的概念就是当初我们大学课本上所展示的。除非你是努力并聪慧的同学,做了课后练习题并从中悟出特征值的真实含义,否则我们无法从这个没有感情的概念里理解什么是特征值。
下面我们再看看维基百科关于有此概念的阐述:
在数学上,特别是线性代数中,对于一个给定的方阵,它的特征向量(eigenvector,也译固有向量或本征向量) 经过这个线性变换之后,得到的新向量仍然与原来的特征向量保持在同一条直线上,但其长度或方向也许会改变。即:
为标量(这个标量符号我上传不了,就是兰姆达),即特征向量的长度在该线性变换下缩放的比例,称 为其特征值(eigenvalue,也译本征值)。
至此,我们似乎觉得特征值有点几何意义上的感觉。
下面,请允许我再讲一个故事。
贾府里那个含玉而生的公子哥,生来是家里的‘混世魔王’。‘混世魔王’在别人眼里就那么一回事,像千万纨绔子弟一样,有他的圈子和在圈子里表现出来的特征,一个矩阵A:顽劣异常,不喜读书,最喜在内帏厮混。
公子哥不在乎别人对他的评价,他们是普通向量v,而他遇到这些“污浊”的男人时,他们的关系是这样的
这时来了林黛玉v,年轻的心第一次感知到了跳动的方向Av。
Av与v方向重合。妹妹就是方向,两者结合时,总在妹妹方向的上。妹妹v,就是魔王A的特征向量。
从此,魔王喜妹妹之喜,忧妹妹之忧。魔王对妹妹说:你死了,我就去做和尚。妹妹莞尔一笑:从此我就数着你做和尚的回数吧。
原来大观园内百花齐放,魔王跟妹妹v1在一起时,想着妹妹Av1,跟姐姐v2一起时,想着姐姐Av2,跟饶舌的湘云v3在一起时,想着那美丽的膀子Av3.......
有一天,妹妹香消玉殒,大观园凋零一片。魔王幡然醒悟,原来他什么都不是,只是一块无力补天的顽石,姐姐妹妹们就是他生命的全部。那些花儿,各有各的美好,而他就是为追随这些美好而生。
……
矩阵A,遇到它生命的全部——特征矩阵
V=(v1,v2,v3……)
它真心爱着赏着每个人,愿意跟随她们,直至灰飞烟灭。
于是他写下了金陵12钗、金陵副12钗、金陵又副12钗……
总共108个女子,各有风格。
但是才情兼备的林妹妹怎可和风骚浪荡的多姑娘相提并论,一个是灵魂知己,一个百花丛中一点,可以忽略不计
于是,曹公倾注了最多的深情给最大特征值所映射的林妹妹以及次大特征值所映射的宝姐姐。取名《金玉良缘》。
故事讲完了。
我们似乎知道,每个认真活着的人,就像一个原本的矩阵A,生活或命运的交织使他追随的许多方向或人
这些方向构成了A的特征空间V。一个说不清道不明的人A,在他的特征空间上,方向分明。
而特征值,就标志着这些方向的重要程度。那些不重要的,可以被我们筛选或过滤下去,而不会影响我们的本质。
而PCA算法的实现,就是要抽取出关联特征中重要者,忽略不重要的信息,而使信息压缩降维,方便进一步分析运算。
下一篇,将讲解PCA的具体原理和步骤