前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【算法系列】主成分分析的推导过程

【算法系列】主成分分析的推导过程

作者头像
统计学家
发布2019-04-10 09:23:37
1.3K0
发布2019-04-10 09:23:37
举报
文章被收录于专栏:机器学习与统计学

主成分的推导

利用拉格朗日乘子,可得拉格朗日函数为:

它是a1的二次函数和λ的线性函数,分别对向量a1和λ微分,并令其为0,得:

由前面第一个方程,可得:

因此,λ必须是协差阵∑的一个特征根,而a1则是与此特征根相对应的特征向量。

如果只用第一主成分可能丧失的信息太多,这样往往还需要计算p个原始指标的第二主成分y2。

在计算第二主成分时,除去类似于计算第一主成分的约束条件以外,还必须附上第二主成分与第一主成分不相关这一条件,即还须有约束条件:

即x1,x2,…,xp的主成分就是以∑的特征向量为系数的线性组合,它们互不相关,其方差为∑特征根。

在实际问题中,不同的变量往往有不同的量纲,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的办法。 标准化后的变量的协差阵就是原变量的相关阵,所以标准化原始变量的主成分可以根据相关阵来求出。

假设市场上肉类x1、鸡蛋x2、水果x3三种商品价格的月份资料的协方差矩阵为:

试求三种商品月份价格的所有主成分。

⑴根据上述协方差矩阵,可写出其特征多项式为:

令此特征多项式等于0,则得特征方程,解此特征方程,从而得∑的特征值为:

λ1=10 λ2=λ3=1

⑵将这些特征根分别代入特征方程,然后求解就可得到相应的各个特征向量,将这些特征向量单位化,就得到相应于上述三个特征根的三个单位特征向量分别为:

⑶于是,三种商品价格的三个主成分分别为:

⑷三个主成分的方差分别为:

第一个主成分的方差占了原始指标的总方差的绝大部分,所以第一主成分综合反映了三种商品价格的绝大部分变动。

PS:在实际问题中,不同的变量往往有不同的量纲,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的办法。 标准化后的变量的协差阵就是原变量的相关阵,所以标准化原始变量的主成分可以根据相关阵来求出。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档