Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >机器学习(32)之典型相关性分析(CCA)详解 【文末有福利......】

机器学习(32)之典型相关性分析(CCA)详解 【文末有福利......】

作者头像
昱良
发布于 2018-04-04 07:52:55
发布于 2018-04-04 07:52:55
7.4K0
举报

关键字全网搜索最新排名

机器学习算法】:排名第一

【机器学习】:排名第一

Python】:排名第三

【算法】:排名第四

人工智能与Python公开课

限时免费

文末领取

前言

典型关联分析(Canonical Correlation Analysis,简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢?CCA可以帮助我们分析这个问题。

CCA概述

在数理统计里面,都知道相关系数这个概念。假设有两组一维的数据集X和Y,则相关系数ρ的定义为:

其中cov(X,Y)是X和Y的协方差,而D(X),D(Y)分别是X和Y的方差。相关系数ρ的取值为[-1,1], ρ的绝对值越接近于1,则X和Y的线性相关性越高。越接近于0,则X和Y的线性相关性越低。

虽然相关系数可以很好的帮我们分析一维数据的相关性,但是对于高维数据就不能直接使用了。如上所述,如果X是包括人身高和体重两个维度的数据,而Y是包括跑步能力和跳远能力两个维度的数据,就不能直接使用相关系数的方法。那我们能不能变通一下呢?CCA给了我们变通的方法。

CCA使用的方法是将多维的X和Y都用线性变换为1维的X'和Y',然后再使用相关系数来看X'和Y'的相关性。将数据从多维变到1位,也可以理解为CCA是在进行降维,将高维数据降到1维,然后再用相关系数进行相关性的分析。

CCA算法思想

上面提到CCA是将高维的两组数据分别降维到1维,然后用相关系数分析相关性。但是有一个问题是,降维的标准是如何选择的呢?回想下主成分分析PCA,降维的原则是投影方差最大;再回想下线性判别分析LDA,降维的原则是同类的投影方差小,异类间的投影方差大。对于我们的CCA,它选择的投影标准是降维到1维后,两组数据的相关系数最大。

假设数据集是X和Y,X为n1×m的样本矩阵,Y为n2×m的样本矩阵.其中m为样本个数,而n1,n2分别为X和Y的特征维度。对于X矩阵,将其投影到1维,对应的投影向量为a, 对于Y矩阵,将其投影到1维,对应的投影向量为b, 这样X ,Y投影后得到的一维向量分别为X',Y'。我们有

CCA的优化目标是最大化ρ(X′,Y′),得到对应的投影向量a,b,即

在投影前,一般会把原始数据进行标准化,得到均值为0而方差为1的数据X和Y。这样我们有:

由于X,Y的均值均为0,则

令SXY=cov(X,Y),则优化目标可以转化为:

由于分子分母增大相同的倍数,优化目标结果不变,我们可以采用和SVM类似的优化方法,固定分母,优化分子,具体的转化为

进而CCA算法的目标最终转化为一个凸优化过程,只要求出了这个优化目标的最大值,就是前面提到的多维X和Y的相关性度量,而对应的a,b则为降维时的投影向量。

这个函数优化一般有两种方法,第一种是奇异值分解SVD,第二种是特征分解,两者得到的结果一样。

SVD求解CCA

对于上面的优化目标,可以做一次矩阵标准化后在使用SVD来求解。

首先令

进而

优化目标变成下式:

可以看出,SVD的求解方式非常简洁方便。但如果不熟悉SVD的话,也可以用传统的拉格朗日函数加上特征分解来完成这个函数的优化。

特征值分解求CCA

特征分解方式比较传统,利用拉格朗日函数,优化目标转化为最大化下式:

分别对a,b求导并令结果为0得:

进而

现在拉格朗日系数就是我们要优化的目标。继续将上面的两个式子做整理得:

将上面第二个式子带入第一个式子得到

要求最大的相关系数λ,只需要对上面的矩阵做特征分解,找出最大的特征值取平方根即可,此时最大特征值对应的特征向量即为X的线性系数a。同样的办法,可以找到最大特征值对应的特征向量即为Y的线性系数b。

可以看出特征分解的方法要比SVD复杂,但是两者求得的结果其实是等价的,只要利用SVD和特征分解之间的关系就很容易发现两者最后的结果相同。

CCA算法流程

对CCA算法流程做一个归纳,以SVD方法为例:

输入:各为m个的样本X和Y,X和Y的维度都大于1

输出:X,Y的相关系数ρ,X和Y的线性系数向量a和b

流程

1)计算X的方差SXX, Y的方差SYY,X和Y的协方差SXY

2) 计算矩阵

3)对矩阵M进行奇异值分解,得到最大的奇异值ρ,和最大奇异值对应的左右奇异向量

4) 计算X和Y的线性系数向量a和b,

总结

CCA算法广泛的应用于数据相关度的分析,同时还是偏最小二乘法的基础。但是由于它依赖于数据的线性表示,当我们的数据无法线性表示时,CCA就无法使用,此时我们可以利用核函数的思想,将数据映射到高维后,再利用CCA的思想降维到1维,求对应的相关系数和线性关系,这个算法一般称为KCCA。此外,在算法里只找了相关度最大的奇异值或者特征值,作为数据的相关系数,实际上我们也可以像PCA一样找出第二大奇异值,第三大奇异值,。。。得到第二相关系数和第三相关系数。然后对数据做进一步的相关性分析。但是一般的应用来说,找出第一相关系数就可以了。

欢迎分享给他人让更多的人受益

参考:

  1. 周志华《机器学习》
  2. Neural Networks and Deep Learning by By Michael Nielsen
  3. 博客园 http://www.cnblogs.com/pinard/p/6288716.html
  4. 李航《统计学习方法》
  5. Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习算法与Python学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【机器学习-无监督学习】降维与主成分分析
  在上一篇文章聚类中,我们介绍了无监督学习的重要问题之一:聚类问题,并主要讲解了k均值算法。结尾处我们提到,在解决复杂聚类问题时,第一步通常不会直接使用k均值算法,而是会先用其他手段提取数据的有用特征。对于高维复杂数据来说,其不同维度代表的特征可能存在关联,还有可能存在无意义的噪声干扰。因此,无论后续任务是有监督学习还是无监督学习,我们都希望能先从中提取出具有代表性、能最大限度保留数据本身信息的几个特征,从而降低数据维度,简化之后的分析和计算。这一过程通常称为数据降维(dimensionality reduction),同样是无监督学习中的重要问题。本文就来介绍数据降维中最经典的算法——主成分分析(principal component analysis,PCA)。
Francek Chen
2025/01/22
1340
【机器学习-无监督学习】降维与主成分分析
机器学习(27)【降维】之主成分分析(PCA)详解
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。 PCA基本思想 PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。具体的,假如我们的数据集是n维的,共有
昱良
2018/04/04
2.3K0
机器学习(27)【降维】之主成分分析(PCA)详解
MADlib——基于SQL的数据挖掘解决方案(10)——数据探索之主成分分析
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/79160959
用户1148526
2019/05/25
1.1K0
原创 | 一文读懂主成分分析
文:王佳鑫审校:陈之炎 本文约6000字,建议阅读10+分钟本文带你了解PCA的基本数学原理及工作原理。 概述 主成分分析PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 本文用直观和易懂的方式叙述PCA的基本数学原理,不会引入严格的数学推导。希望读者在看完这篇文章后能更好地明白PCA的工作原理。 一、降维概述 1.1 数组和序列(Series)的维度
数据派THU
2022/09/01
9570
原创 |  一文读懂主成分分析
干货 | 机器学习算法大总结(ML岗面试常考)
键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 下面是在找机器学习岗位工作时,总结的常见机器学习算法(主要是一些
昱良
2018/04/08
1.1K0
干货 | 机器学习算法大总结(ML岗面试常考)
机器学习之PCA算法
PCA,即主成分分析(Principal Component Analysis),是一种常用的降维技术,用于从高维数据中提取最重要的特征。
叶茂林
2023/07/30
1K0
机器学习之PCA算法
典型关联分析(CCA)原理总结
    典型关联分析(Canonical Correlation Analysis,以下简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据,第一组是人身高和体重的数据,第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢?CCA可以帮助我们分析这个问题。
刘建平Pinard
2018/08/14
1.2K0
机器学习:无监督学习
Tips:如果出现某个聚类中心没有分配到点的情况,一般是直接将这个中心去掉,如果规定必须要刚好
Here_SDUT
2022/09/19
6800
机器学习:无监督学习
机器学习算法之PCA算法
在机器学习中降维是我们经常需要用到的算法,在降维的众多方法中PCA无疑是最经典的机器学习算法之一,最近准备撸一个人脸识别算法,也会频繁用到PCA,本文就带着大家一起来学习PCA算法。
BBuf
2019/12/04
1.2K0
机器学习算法之PCA算法
特征工程
特征工程本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。一般来说包含以下几个方面的内容:
爱编程的小明
2022/09/06
1.1K0
特征工程
机器学习(8) -- 降维
Content 10. Dimensionality Reduction   10.1 Motivation     10.1.1 Motivation one: Data Compression     10.2.2 Motivation two: Visualization   10.2 Principal Component Analysis     10.2.1 Problem formulation     10.2.2 Principal Component Analysis Algorith
昱良
2018/04/04
9540
机器学习(8) -- 降维
Rethinking batch effect removing methods—CCA
CCA 因为 seurat 的广泛使用,所以基本是目前最流行的数据整合方法,但是之前读原来的文章的时候觉得有点奇怪,感觉和传统的CCA不太一样,当时和同学讨论了一下也没有想通,最近实验室同学又提起觉得 CCA 有点问题,就又给了我一个机会来重新理解一下原来的 CCA anchor,这次比较快就想明白了,原来 CCA anchor 的本质其实不是 CCA 而是 paired PCA,或者说是另类的 MDS,私以为和 MDS 的关系比 CCA 更近。
生信技能树jimmy
2022/01/10
5400
Rethinking batch effect removing methods—CCA
机器学习数学基础:从奇异值分解 SVD 看 PCA 的主成分
今天我们来看一个在数据分析和机器学习领域中常用的降维方法,即主成分分析(PCA)。它是探索性数据分析(EDA)和机器学习算法对数据的基本处理方法。
统计学家
2020/12/08
6290
机器学习数学基础:从奇异值分解 SVD 看 PCA 的主成分
「Workshop」第十一期:降维
前言:主要是从理解降维和用R实现降维这两个层面上来阐述,具体的算法还需要感兴趣的小伙伴另外了解。
王诗翔呀
2020/08/10
1.3K0
「Workshop」第十一期:降维
机器学习(20)——数据降维为什么要降维?PCA原理LDA比较:
前言:正所谓每一个结果的出现都是一系列的原因导致的,当构建机器学习模型时候,有时候数据特征异常复杂,这就需要经常用到数据降维技术,下面主要介绍一些降维的主要原理 为什么要降维? 在实际的机器学习项目中,特征选择/降维是必须进行的,因为在数据中存在以下几个 方面的问题: 数据的多重共线性:特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定, 从而导致模型的泛化能力弱; 高纬空间样本具有稀疏性,导致模型比较难找到数据特征; 过多的变量会妨碍模型查找规律; 仅仅考虑单个变量对于目标属性的影响可能忽略变
DC童生
2018/04/27
19.2K0
机器学习(20)——数据降维为什么要降维?PCA原理LDA比较:
机器学习中的数学(6)-强大的矩阵奇异值分解(SVD)及其应用
上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。 特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,
机器学习AI算法工程
2018/03/12
1.4K0
机器学习中的数学(6)-强大的矩阵奇异值分解(SVD)及其应用
机器学习降维算法汇总!
最近看了一些关于降维算法的东西,本文首先给出了七种算法的一个信息表,归纳了关于每个算法可以调节的(超)参数、算法主要目的等等,然后介绍了降维的一些基本概念,包括降维是什么、为什么要降维、降维可以解决维数灾难等,然后分析可以从什么样的角度来降维,接着整理了这些算法的具体流程。
算法进阶
2023/10/23
5760
机器学习降维算法汇总!
三个主要降维技术对比介绍:PCA, LCA,SVD
随着数据集的规模和复杂性的增长,特征或维度的数量往往变得难以处理,导致计算需求增加,潜在的过拟合和模型可解释性降低。降维技术提供了一种补救方法,它捕获数据中的基本信息,同时丢弃冗余或信息较少的特征。这个过程不仅简化了计算任务,还有助于可视化数据趋势,减轻维度诅咒的风险,并提高机器学习模型的泛化性能。降维在各个领域都有应用,从图像和语音处理到金融和生物信息学,在这些领域,从大量数据集中提取有意义的模式对于做出明智的决策和建立有效的预测模型至关重要。
deephub
2023/10/09
1.3K0
三个主要降维技术对比介绍:PCA, LCA,SVD
机器学习(29)之奇异值分解SVD原理与应用详解
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 奇异值分解(Singular Value Decomposition,简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。 特征值与特征向量 首先回顾下特征值和特征向量的定义如下: Ax=λx 其中A是
昱良
2018/04/04
2K0
机器学习(29)之奇异值分解SVD原理与应用详解
机器学习(33)之局部线性嵌入(LLE)【降维】总结
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 局部线性嵌入(Locally Linear Embedding,简称LLE)也是非常重要的降维方法。和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。 什么是流形学习 LLE属于流形学习(Manifold Learning)的一种。因此我们首先看看什
昱良
2018/04/04
1.9K0
机器学习(33)之局部线性嵌入(LLE)【降维】总结
相关推荐
【机器学习-无监督学习】降维与主成分分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文