典型关联分析(Canonical Correlation Analysis,CCA)是常用的挖掘数据关联关系的方法之一。在展开之前,我们首先回忆一下数理统计中相关系数的概念。
相关系数默认是指线性相关,通常用变量之间的协方差来描述。假设我们有两组一维数据X和Y,相关系数p的计算公式为:
公式中cov(X,Y)是X和Y的协方差,D(X)和D(Y)分别是X和Y的方差。协方差的计算公式如下,E代表数据的期望。
因而直观上看,
虽然相关系数可以很好的帮我们分析一维数组的相关性,但是对于高维数组就无法直接使用了。举例说明,如果X和Y分别包含了若干属性分量,例如X为人的身体条件,包括体重、身高、性别,记为(x1,x2,x3),而Y为人的体质,包括长跑成绩、跳远成绩、跳高成绩,记为(y1,y2,y3)。传统的协相关系数就无从下手,但是CCA提供给我们一种可能的度量方法。
CCA的基本思想是将多维/高维的数组用线性变换降维到一维的数组,然后再使用相关系数来检验数组的相关性,其中降维方法和参数的选取目标是使两个数组的相关性最大。常用的降维方法包括主成分分析(PCA)、线性判别分析(LDA)等。CCA示例及具体的算法流程可参见https://cloud.tencent.com/developer/article/1085170
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。