PCA模型加先验

大清牛人曰:ML派坐落美利坚合众山中,百年来武学奇才辈出,隐然成江湖第一大名门正派,门内有三套入门武功,曰:图模型加圈,神经网加层,优化目标加正则。有童谣为证:熟练 ML 入门功,不会作文也会诌。今天就介绍一个 PCA 加先验的工作。

1. 主成分分析 ( PCA )

PCA是常用的数据降唯模型。PCA 处理的数据中心点为零点

,如果数据中心点不是零点,需要预处理数据yyi=yyi−1n∑ni=1yyiyyi=yyi−1n∑i=1nyyi使得中心点为零点。PCA 降唯的思路:1)找到mm个相互正交并且使得投影方差最大的方向(专业一点的说法是找到一组使得方差最大的基),2) 将 k 维的数据投影到这m个方向上,得到m维数据。因为m会小于k,数据的维度下降了。这里最难理解的部分就是“使得投影方差最大”了。

什么是“使得投影方差最大”?数据 \pmb{y} 在 \pmb{c} 方向的投影(标投影)为 \pmb{y}^T\pmb{c} ,其中方向为单位向量 |\pmb{c}|_2^2=1 。一堆数据 \pmb{y}_1,\pmb{y}_2,....,\pmb{y}_n 在 \pmb{c} 方向的投影为一堆数:\pmb{y}_1^T\pmb{c},\pmb{y}_2^T\pmb{c},....,\pmb{y}_n^T\pmb{c} 。“ 使得投影方差最大 ” 是使得这堆数的方差最大。当然啦,PCA 是找到 m 个方向,因此 “使得投影方差最大” 应该是使得 m 堆数的方差之和最大。

为什么要“使得投影方差最大”呢?我们看下图,如果要把图中的数据压缩到一维,我们是选择右上方向还是左上方向呢?我们当然应该选右上方向! 因为右上方向上数据点散得比较开,压缩之后不同的数据点也好区分;而左上方向上数据点比较密集,不同数据压缩之后变相同的概率比较大。在中心点为零点的情况下,“ 散得开不开 ” 可以用这个方向上的投影方差刻画。方差比较大,“散得比较开”;方差比较少,“挤得密集”。因此我们需要“使得投影方差最大”。同时,这也是为什么 PCA 需要预处理数据使得中心点为零点。

让\pmb{Y}表示预处理之后的数据,其中每一行代表一条 k 维度的数据;\pmb{C} 表示 PCA 要找的方向,其中每一列代表一个方向。数据在不同方向的投影方差和等于||\pmb{Y}\pmb{C}||_F^2,也就是等于 Tr(\pmb{C}^T\pmb{Y}^T\pmb{Y}\pmb{C})。因此 PCA 需要求解如下优化问题。

*** QuickLaTeX cannot compile formula:
\begin{eqnarray*}
& max_{\pmb{C}}& Tr(\pmb{C}^T\pmb{Y}^T\pmb{Y}\pmb{C}) \nonumber \
& subject:&  \pmb{C}^T\pmb{C} = \pmb{I} \nonumber \
\end{eqnarray*}

*** Error message:
Extra alignment tab has been changed to \cr.
leading text: & subject:&

上面的优化问题利用了 \pmb{Y}^T\pmb{Y} 。中心点为零点的情况下,\pmb{Y}^T\pmb{Y} 为不同变量的协方差矩阵。PCA 模型也可以基于协方差矩阵来解释,这里就不介绍了,有兴趣的同学可以看参考文献一。求解上面的优化问题蛮简单的,因为 \pmb{Y}^T\pmb{Y} 前 m 个特征向量就是答案!!!一旦求得\pmb{C},压缩之后的数据为 \pmb{Y}\pmb{C}。

2. 海量多标记分类

介绍完 PCA 的基本知识,再来介绍一个 PCA 加先验的工作。这个工作都应用在海量多标记分类任务上。在多标记分类问题,一个实例同时拥有多个类别( 标记 )。比如一篇关注全球变暖的新闻报道既属于科学类别,也属于环境类别。有些任务中标记数量特别巨大,我们称之为海量多标记分类。比如多标记分类可以应用于标签推荐任务中,标签数量成千上万。用 \pmb{Y} 表示已经去中心化之后的标记矩阵,其中每一行代表一个实例的标记情况;用 \pmb{X} 表示实例,其中每一行代表一个实例的特征。

我们自然会想着把标记向量降维到一个低维向量,然后学习一个从实例到低维向量的模型,最后从低维向量还原出标记来(妈蛋!!什么叫自然!!!09 年才有人这么做好吧!!!)。作为最常用的数据降维方法,自然有人将PCA应用在这个问题上。但只用 PCA 是有缺陷的。PCA 只会考虑怎么有效地将标记向量压缩成低维向量,但低维向量是否适合学习就不管了。压缩得到的低维向量和实例特征有可能没有一点相关性,导致很难学习到一个从实例到低维向量的模型。这时候我们就应该往 PCA 模型加点“容易学习”的先验了。

我们介绍的工作—— Chen et al (2012) 假设实例到低维向量的模型是线性模型\pmb{W},这时“容易学习”的先验知识可以表示为

(2)

根据最小二乘法,我们得\pmb{W} = \pmb{X}^{+}\pmb{Y}\pmb{C}。

将这个“容易学习”的先验加入PCA,我们能够得到

求解上面的优化问题就可以将“容易学习”的先验加入 PCA,使之适用于海量多标记分类任务。而且求解上面的问题也是蛮简单的,只要求解\pmb{Y}^T \pmb{X}\pmb{X}^{+} \pmb{Y} 前 m 个特征向量即可。

参考文献

http://www.cse.psu.edu/~rtc12/CSE586Spring2010/lectures/pcaLectureShort_6pp.pdf

Chen, Yao-Nan, and Hsuan-Tien Lin. “Feature-aware label space dimension reduction for multi-label classification.” Advances in Neural Information Processing Systems. 2012.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量化投资与机器学习

【Python机器学习】数据预处理——图像压缩与线性代数

现在有一张朱迪的照片,这张照片有500多列的像素点构成,但是大部分地方都是白色的,相互没有什么差别,也就是说图像中有很多列都是相互线性相关的,这些列向量对我们接...

27970
来自专栏云飞学编程

想知道怎么学人工智能嘛?都在这里!

1、声学模型 2、Deep Neural Networks 3、Hidden Markov Model等

9540
来自专栏AI研习社

强化学习实验里到底需要多少个随机种子的严格证明

AI 研习社按:在机器学习和深度强化学习研究中,可重复性成为了最近最为热门、最常被人诟病的话题之一。复现一篇基于强化学习的文章远比想象的难,具体分析可参照《le...

13220
来自专栏自然语言处理

一起走进条件随机场1(NLP重点理论)

线性链的条件随机场跟线性链的隐马尔科夫模型一样,一般推断用的都是维特比算法。这个算法是一个最简单的动态规划。

10010
来自专栏机器学习之旅

Kaggle&TianChi分类问题相关纯算法理论剖析导读Bias-Variance-TradeofGBDT 理论剖析GBDT 实战剖析

17/12/30-update :很多朋友私密我想要代码,甚至利用金钱诱惑我,好吧,我沦陷了。因为原始代码涉及到公司的特征工程及一些利益trick,所以我构造了...

11030
来自专栏AI科技评论

强化学习实验里到底需要多少个随机种子的严格证明

AI 科技评论按:在机器学习和深度强化学习研究中,可重复性成为了最近最为热门、最常被人诟病的话题之一。复现一篇基于强化学习的文章远比想象的难,具体分析可参照《l...

13630
来自专栏AILearning

【Scikit-Learn 中文文档】高斯混合模型 - 无监督学习 - 用户指南 | ApacheCN

2.1. 高斯混合模型 sklearn.mixture 是一个应用高斯混合模型进行非监督学习的包,支持 diagonal,spherical,tied,ful...

59660
来自专栏小小挖掘机

推荐系统遇上深度学习(七)--NFM模型理论和实践

在CTR预估中,为了解决稀疏特征的问题,学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系,无法建模两个特征之间深层次...

21830
来自专栏来自地球男人的部落格

L2正则化(L2 Regularization)

正则化其实就是给目标函数增加一个惩罚项,使得模型更倾向于使用更加简单的模型,以防止过拟合。 1. L2L_2正则化项的导出 正则化是机器学习中一个防止过拟...

59060
来自专栏AI研习社

CNN到底认为哪个投影方向是重要的?——SVDNet for Pedestrian Retrieval

近年来,行人再识别问题(Person-reID)研究热度逐渐上升。与人脸识别相比,它在采集图像时不需要行人主动配合,在安防等领域具有极大的应用潜力。基于深度学习...

47880

扫码关注云+社区

领取腾讯云代金券