# 第16章 主成分分析

PCA（principal components analysis）即主成分分析技术旨在利用降维的思想，把多指标转化为少数几个综合指标。

```import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
```
```data = loadmat('data/ex7data1.mat')
# data
```
```X = data['X']

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(X[:, 0], X[:, 1])
plt.show()
```

PCA的算法相当简单。在确保数据被归一化之后，输出仅仅是原始数据的协方差矩阵的奇异值分解。

```def pca(X):
# normalize the features
X = (X - X.mean()) / X.std()

# compute the covariance matrix
X = np.matrix(X)
cov = (X.T * X) / X.shape[0]

# perform SVD
U, S, V = np.linalg.svd(cov)

return U, S, V
```
```U, S, V = pca(X)
U, S, V
```
```(matrix([[-0.79241747, -0.60997914],
[-0.60997914,  0.79241747]]),
array([1.43584536, 0.56415464]),
matrix([[-0.79241747, -0.60997914],
[-0.60997914,  0.79241747]]))
```

```def project_data(X, U, k):
U_reduced = U[:,:k]
return np.dot(X, U_reduced)
```
```Z = project_data(X, U, 1)
Z
```
```matrix([[-4.74689738],
[-7.15889408],
[-4.79563345],
[-4.45754509],
[-4.80263579],
[-7.04081342],
[-4.97025076],
[-8.75934561],
[-6.2232703 ],
[-7.04497331],
[-6.91702866],
[-6.79543508],
[-6.3438312 ],
[-6.99891495],
[-4.54558119],
[-8.31574426],
[-7.16920841],
[-5.08083842],
[-8.54077427],
[-6.94102769],
[-8.5978815 ],
[-5.76620067],
[-8.2020797 ],
[-6.23890078],
[-4.37943868],
[-5.56947441],
[-7.53865023],
[-7.70645413],
[-5.17158343],
[-6.19268884],
[-6.24385246],
[-8.02715303],
[-4.81235176],
[-7.07993347],
[-5.45953289],
[-7.60014707],
[-4.39612191],
[-7.82288033],
[-3.40498213],
[-6.54290343],
[-7.17879573],
[-5.22572421],
[-4.83081168],
[-7.23907851],
[-4.36164051],
[-6.44590096],
[-2.69118076],
[-4.61386195],
[-5.88236227],
[-7.76732508]])
```

```def recover_data(Z, U, k):
U_reduced = U[:,:k]
return np.dot(Z, U_reduced.T)
```
```X_recovered = recover_data(Z, U, 1)
X_recovered
```
```matrix([[3.76152442, 2.89550838],
[5.67283275, 4.36677606],
[3.80014373, 2.92523637],
[3.53223661, 2.71900952],
[3.80569251, 2.92950765],
[5.57926356, 4.29474931],
[3.93851354, 3.03174929],
[6.94105849, 5.3430181 ],
[4.93142811, 3.79606507],
[5.58255993, 4.29728676],
[5.48117436, 4.21924319],
[5.38482148, 4.14507365],
[5.02696267, 3.8696047 ],
[5.54606249, 4.26919213],
[3.60199795, 2.77270971],
[6.58954104, 5.07243054],
[5.681006  , 4.37306758],
[4.02614513, 3.09920545],
[6.76785875, 5.20969415],
[5.50019161, 4.2338821 ],
[6.81311151, 5.24452836],
[4.56923815, 3.51726213],
[6.49947125, 5.00309752],
[4.94381398, 3.80559934],
[3.47034372, 2.67136624],
[4.41334883, 3.39726321],
[5.97375815, 4.59841938],
[6.10672889, 4.70077626],
[4.09805306, 3.15455801],
[4.90719483, 3.77741101],
[4.94773778, 3.80861976],
[6.36085631, 4.8963959 ],
[3.81339161, 2.93543419],
[5.61026298, 4.31861173],
[4.32622924, 3.33020118],
[6.02248932, 4.63593118],
[3.48356381, 2.68154267],
[6.19898705, 4.77179382],
[2.69816733, 2.07696807],
[5.18471099, 3.99103461],
[5.68860316, 4.37891565],
[4.14095516, 3.18758276],
[3.82801958, 2.94669436],
[5.73637229, 4.41568689],
[3.45624014, 2.66050973],
[5.10784454, 3.93186513],
[2.13253865, 1.64156413],
[3.65610482, 2.81435955],
[4.66128664, 3.58811828],
[6.1549641 , 4.73790627]])
```
```fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(list(X_recovered[:, 0]), list(X_recovered[:, 1]))
plt.show()
```

https://github.com/fengdu78/lihang-code

## 参考资料：

[1] 《统计学习方法》: https://baike.baidu.com/item/统计学习方法/10430179

[2] 黄海广: https://github.com/fengdu78

[3] github: https://github.com/fengdu78/lihang-code

[4] wzyonggege: https://github.com/wzyonggege/statistical-learning-method

[5] WenDesi: https://github.com/WenDesi/lihang_book_algorithm

[6] 火烫火烫的: https://blog.csdn.net/tudaodiaozhale

[7] hktxt: https://github.com/hktxt/Learn-Statistical-Learning-Method

0 条评论

• ### 注册不到两年半Github标星39k+，吴恩达、李航老师的作品的笔记和代码实现

吴恩达老师的机器学习课程个人笔记、翻译的字幕（含视频）、复现的 python 代码等，同时笔记的 word 和 markdown 文件也开源了。

• ### 复现经典：《统计学习方法》第13章 无监督学习概论

无监督学习是指从无标注数据中学习模型的机器学习问题。无标注数据是自然得到的数据，模型表示数据的类别、转换或概率无监督学习的本质是学习数据中的统计规律或潜在结构，...

• ### 【深度学习】上海交大发布 MedMNIST 医学图像分析数据集 & 新基准

内容概要：医学图像分析是一个非常复杂的跨学科领域，近日上海交通大学发布了 MedMNIST 数据集，有望促进医学图像分析的发展。

• ### 可能会用到的R语言包~2

现在好像内置52种声音，我自己都试了一遍。最开始想直接写循环，R直接自己退出了。接下来想到能不能在循环的时候设置时间间隔？暂时还不知道如何实现。遂单条命令一个一...

• ### 51 个深度学习目标检测模型汇总，论文、源码一应俱全！

目标检测（Object Detection）是深度学习 CV 领域的一个核心研究领域和重要分支。纵观 2013 年到 2019 年，从最早的 R-CNN、Fas...

• ### 51 个深度学习目标检测模型汇总，论文、源码一应俱全！

目标检测（Object Detection）是深度学习 CV 领域的一个核心研究领域和重要分支。纵观 2013 年到 2019 年，从最早的 R-CNN、Fas...

• ### 2018年的四大热门VueJs项目

从我个人主观的讲课与开发体验来讲，我更喜欢VueJs，因为相对于ReactJs来比较，vue的许多开发细节都更简练，更贴近业务逻辑，下面是github上的十个比...

• ### 二次元少女生成器、会开车的神经网络...2019年最好的17个机器学习项目！

为了挑选出2019年最好的开源项目，最近某位Medium网友整理了2019年Reddit机器学习板块热门高赞项目资源汇总，一起来看看都有哪些项目上榜：

• ### vue前端UI框架，一点都不圆润，盘它！

VUX（读音 [v’ju:z]，同 views）是基于WeUI和Vue(2.x)开发的移动端UI组件库，主要服务于微信页面。

• ### GitHub 上有哪些好用的爬虫？

在开发实际项目的时候，你经常没有足够多的数据，需要自己去想办法获取，这个时候常常需要用到爬虫。然而找来找去，很可能找了很久都找不到既免费又好用的爬虫，今天就从好...