专栏首页绿巨人专栏机器学习实战 - 读书笔记(13) - 利用PCA来简化数据

机器学习实战 - 读书笔记(13) - 利用PCA来简化数据

前言

最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第13章 - 利用PCA来简化数据。 这里介绍,机器学习中的降维技术,可简化样品数据。

降维技术的用途

  • 使得数据集更易使用;
  • 降低很多算法的计算开销;
  • 去除噪声;
  • 使得结果易懂。

基本概念

  • 降维(dimensionality reduction)。 如果样本数据的特征维度很大,会使得难以分析和理解。我们可以通过降维技术减少维度。 降维技术并不是将影响少的特征去掉,而是将样本数据集转换成一个低维度的数据集。
  • 协方差(covariance) 协方差用于衡量两个变量的总体误差.
  • 协方差矩阵(covariance matrix) 对于一个N维的样品数据,X=[x_1, x_2, ..., x_n]^T,其协方差矩阵是一个n * n的matrix, 元素C_{ij}x_ix_j的协方差。
  • 协方差矩阵的特征值(Eigenvalues)和特征向量(eigenvectors) 特征值:表示特征向量对应列的权重,越大说明特征向量对应列的影响越大。 特征向量:是一个n * n 的matrix,n是样本数据的特征数。用于降维转换。 降维转换过程: 在特征向量中,选出特征值最大的m列,形成一个m * n的降维向量矩阵。 对(去除平均值的)样本数据的每行数据,和降维矩阵相乘,得到一个m维的**降维数据**。 重构的数据 = **降维数据** * **降维矩阵的转置** + 平均值

核心算法解释

主成分分析(Principal Component Analysis,PCA)

  • 基本原理 线性代数的理论:
    • 对一个n维的样本数据,通过其协方差矩阵,可以计算出特征值和特征向量。
    • 选择特征值最大的前m项,可以将样本数据和特征向量进行计算,得到一个m维的降维数据集。
  • 输入
    • 数据集
    • 应用的Feature数
  • 输出
    • 降维数据集
    • 重构的数据集(可用于与原数据集比较)
  • 逻辑过程 对数据集的每个Feature的数据,减去Feature的平均值。 计算协方差矩阵 计算协方差矩阵的特征值和特征向量 将特征值从大到小排序 保留最上面的N个特征向量 使用前面提到的降维转换过程,转换数据集为降维数据集和重构的数据集

核心公式

协方差(covariance)

协方差用于衡量两个变量的总体误差. \begin{align} cov(X, Y) & = E[(X-E(X))(Y-E(Y))] \\ & = E[XY] - E[X]E[Y] \end{align} \\ where \\ \qquad E(X): mean(X)

Matrix乘法运算

a * b = [a_{11}b_{11} + a_{12}b_{21} + ... + a_{1n}b_{n1}, ..., a_{11}b_{1m} + a_{12}b_{2m} + ... + a_{1n}b_{nm}] \\ a * b^T = [a_{11}b_{11} + a_{12}b_{12} + ... + a_{1n}b_{1n}, ..., a_{11}b_{1m} + a_{12}b_{2m} + ... + a_{1n}b_{nm}] \\ where \\ \qquad \text{a: a is a n-dimensions vector.} \\ \qquad \text{b: b is a m * n of matrix).}

参考

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习实战 - 读书笔记(14) - 利用SVD简化数据

    绿巨人
  • 强化学习读书笔记 - 10 - on-policy控制的近似方法

    绿巨人
  • 设置npm源的几种方式

    绿巨人
  • PCA算法流程及个人理解

    PCA,即主成分分析,是一种数据降维的方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低数据维数,从而实现提升数据处理速度的目的。

    CristianoC
  • 【AI不惑境】数据压榨有多狠,人工智能就有多成功

    大家好,今天开始就进入了专栏《AI不惑境》的更新了,这是第一篇文章,讲述数据如何驱动深度学习。

    用户1508658
  • 【干货】监督学习与无监督学习简介

    【导读】本文是一篇入门级的概念介绍文章,主要带大家了解一下监督学习和无监督学习,理解这两类机器学习算法的不同,以及偏差和方差详细阐述。这两类方法是机器学习领域中...

    WZEARW
  • 最全机器学习种类讲解:监督、无监督、在线和批量学习都讲明白了

    这些标准之间互相并不排斥,你可以以你喜欢的方式将其任意组合。例如,现在最先进的垃圾邮件过滤器可能是使用深度神经网络模型对垃圾邮件和常规邮件进行训练,完成动态学习...

    华章科技
  • Scikit-Learn 与 TensorFlow 机器学习实用指南学习笔记1 — 机器学习基础知识简介

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/...

    红色石头
  • 深度学习的时间序列模型评价

    技术总言: 这次主要说最近发展的无监督特征学习和深入学习,其对于时间序列模型问题的评价。这些技术已经展现了希望对于建模静态数据,如计算机视觉,把它们应用到时间...

    计算机视觉研究院
  • 英特尔院士概述深度学习愿景与优化,Caffe for Xeon Phi成亮点

    用户1737318

扫码关注云+社区

领取腾讯云代金券