理解主成分分析这个模型前,可能需要一定的线性代数的知识,当然若没有基本也能看下去,只是可能比较困弄清楚,但这篇短文会尽可能给你的写得浅显易懂,不涉及太多公式推导,先让我们关注一下我们可能面对的问题,若在数据收集过程中有许多的字段...如果两两去看,那得有几百个相关关系了,另外我们还会遇到这样的问题:
1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余...4、 这个与第二个有点类似,假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。...,这两个特征是不是有很大的相关性啊.其中的每一个点代表一个人.如果我们按照X轴也就是身高来区分这几个人,其实可以区分,但是当数据量比较集中时也就是方差较小时,根本没办法区分,大家身高都差不多吗,体重也是...,当然原理我只介绍了一个,下篇我将会介绍另一个,并在R中实现主成分分析.欢迎继续阅读.
未
完
待
续