前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >典型关联分析 CCA

典型关联分析 CCA

原创
作者头像
yangzelong
修改2019-03-27 10:35:24
1.3K0
修改2019-03-27 10:35:24
举报
文章被收录于专栏:YzlWHUYzlWHU

典型关联分析(Canonical Correlation Analysis,CCA)是常用的挖掘数据关联关系的方法之一。在展开之前,我们首先回忆一下数理统计中相关系数的概念。

相关系数默认是指线性相关,通常用变量之间的协方差来描述。假设我们有两组一维数据X和Y,相关系数p的计算公式为:

相关系数计算公式
相关系数计算公式

公式中cov(X,Y)是X和Y的协方差,D(X)和D(Y)分别是X和Y的方差。协方差的计算公式如下,E代表数据的期望。

协方差计算公式
协方差计算公式

因而直观上看,

  • 协方差是一个无量纲的数
  • 协方差表示两个变量的总体误差期望。如果两个变量的变化趋势一致(同大于或同小于期望),则变量之间的协方差就是正值,不一致则方差就是负值。
  • 如果X和Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量E[X,Y]=E[X]E[Y]。
  • 如果X与Y的协方差为0,只能说明二者非线性相关,但是二者不一定是统计独立的(参见https://cloud.tencent.com/developer/article/1406760

虽然相关系数可以很好的帮我们分析一维数组的相关性,但是对于高维数组就无法直接使用了。举例说明,如果X和Y分别包含了若干属性分量,例如X为人的身体条件,包括体重、身高、性别,记为(x1,x2,x3),而Y为人的体质,包括长跑成绩、跳远成绩、跳高成绩,记为(y1,y2,y3)。传统的协相关系数就无从下手,但是CCA提供给我们一种可能的度量方法。

CCA的基本思想是将多维/高维的数组用线性变换降维到一维的数组,然后再使用相关系数来检验数组的相关性,其中降维方法和参数的选取目标是使两个数组的相关性最大。常用的降维方法包括主成分分析(PCA)、线性判别分析(LDA)等。CCA示例及具体的算法流程可参见https://cloud.tencent.com/developer/article/1085170

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档