专栏首页YzlWHU典型关联分析 CCA
原创

典型关联分析 CCA

典型关联分析(Canonical Correlation Analysis,CCA)是常用的挖掘数据关联关系的方法之一。在展开之前,我们首先回忆一下数理统计中相关系数的概念。

相关系数默认是指线性相关,通常用变量之间的协方差来描述。假设我们有两组一维数据X和Y,相关系数p的计算公式为:

相关系数计算公式

公式中cov(X,Y)是X和Y的协方差,D(X)和D(Y)分别是X和Y的方差。协方差的计算公式如下,E代表数据的期望。

协方差计算公式

因而直观上看,

  • 协方差是一个无量纲的数
  • 协方差表示两个变量的总体误差期望。如果两个变量的变化趋势一致(同大于或同小于期望),则变量之间的协方差就是正值,不一致则方差就是负值。
  • 如果X和Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量E[X,Y]=E[X]E[Y]。
  • 如果X与Y的协方差为0,只能说明二者非线性相关,但是二者不一定是统计独立的(参见https://cloud.tencent.com/developer/article/1406760

虽然相关系数可以很好的帮我们分析一维数组的相关性,但是对于高维数组就无法直接使用了。举例说明,如果X和Y分别包含了若干属性分量,例如X为人的身体条件,包括体重、身高、性别,记为(x1,x2,x3),而Y为人的体质,包括长跑成绩、跳远成绩、跳高成绩,记为(y1,y2,y3)。传统的协相关系数就无从下手,但是CCA提供给我们一种可能的度量方法。

CCA的基本思想是将多维/高维的数组用线性变换降维到一维的数组,然后再使用相关系数来检验数组的相关性,其中降维方法和参数的选取目标是使两个数组的相关性最大。常用的降维方法包括主成分分析(PCA)、线性判别分析(LDA)等。CCA示例及具体的算法流程可参见https://cloud.tencent.com/developer/article/1085170

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 方差、标准差、协方差

    方差(Variance)是各个数据与平均数之差的平方的平均数,用来度量随机变量与其数学期望之间的偏离程度。

    yangzelong
  • 随机变量的相关性与独立性

    语义上来讲,独立是指变量之间完全没有关系,但是不相关则仅要求变量之间没有线性关系,因而独立的要求更高,独立的变量一定是不相关的,但是不相关的不一定是独立的,即独...

    yangzelong
  • 稀疏编码 Sparse Coding

    稀疏编码是一种无监督的学习方法,通过寻找一组“超完备”的基向量来高效的表示样本数据。算法的目的就是找到一组基向量,使得输入向量能够表示为这组基底的线性组合。

    yangzelong
  • 深入理解C语言指针

    要知道指针的概念,要先了解变量在内存中如何存储的。在存储时,内存被分为一块一块的。每一块都有一个特有的编号。而这个编号可以暂时理解为指针,就像酒店的门牌号一样。

    用户4962466
  • C语言之多维数组

    如果,数组的维数不止一个,我们通常称为多维数组。例如,下面的声明。

    zy010101
  • 一道关于组合的js算法题目

    有一个数组,如果有3个值:[3,2,6]。交叉组合后返回:3-2,3-6,2-6,3-2-6

    挥刀北上
  • 数据挖掘|R-相关性分析及检验

    相关系数可以用来描述定量变量之间的关系。结果的正负号分别表明正相关或负相关,数值的大小则表示相关关系的强弱程度。

    西游东行
  • 2018最新付费搜索行业标准

    你知道效果绝佳的adwords推广是什么样的吗?Adthea 2018付费搜索行业标准报告是一份有效的英国、美国及澳大利亚付费搜索生态图的汇总,它从广告花费和效...

    iCDO互联网数据官
  • PHP中的Iterator迭代对象属性详解

    foreach用法和之前的数组遍历是一样的,只不过这里遍历的key是属性名,value是属性值。在类外部遍历时,只能遍历到public属性的,因为其它的都是受保...

    砸漏
  • LeetCode刷题DAY 28:移动零

    给定一个数组nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。如:输入[0,1,0,3,12]返回[1,3,12,0,0],注意其...

    三猫

扫码关注云+社区

领取腾讯云代金券