首页
学习
活动
专区
工具
TVP
发布

将高维数据压缩到低维——降维利器“PCA”

在这一篇,我们正式进入到非监督学习的第一个算法——主成分分析(Principal Component Analysis,PCA)。

PCA算法将原来数据的高维特征压缩为你所需的低维的新特征,我们一般称之为主成分。

具体来说,算法会寻找方差最大的方向来作为第一个主成分,然后寻找与这个主成分垂直的方向,作为第二个主成分,以此类推,最终会找到与原来特征数相同的主成分个数。

以下是付费内容

但如果我们仅仅保留个别主成分,那么就实现了降维的需求。

下面我们举个实例来观察PCA的应用。

PCA实战

我们还是用之前的乳腺癌数据集为例

然后,将数据集进行标准化处理

看下此时的特征数

在未压缩之前,特征数还是原来的30个。

接下来,我们就要加载PCA了

这里我们将主成分的数量设为3,如果不设置的话,默认是全部特征的数量。

然后对数据集进行拟合

最后对数据进行实际的降维变换

我们来看看变换后的维度

可以看到,由原来的30个特征压缩到了现在的3个主成分

我们还可以查看这些主成分

其中,每一行代表一个主成分,每一列代表原始数据的特征。可以看出,主成分就是由原来的特征构造而成的。

PCA重要参数

PCA其实需要调整的就是n_components参数,它决定了你降维后将会得到的主成分的个数。

PCA优缺点

PCA因为只观察数据之间的相关性,因此其在分类上的表现很好;但它的缺点是主成分的可解释性较差。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190906A0EKOW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券