利用PCA来降维

用户6021899

发布于 2019-10-09 16:47:20

4380

发布于 2019-10-09 16:47:20

想象这样一种场景：我们通过电视直播观看足球比赛，电视屏幕大概有200万像素，假设我们关注的是任意时刻足球的位置。在这一场景中，人们实时地将屏幕上的百万级像素转换成了三维坐标。这个过程就是一种降维(dimensionnality reduction)。

降维是机器学习中很重要的一种思想。在机器学习中经常会碰到一些高维的数据集，而在高维数据情形下会出现数据样本稀疏，距离计算等困难，这类问题是所有机器学习方法共同面临的严重问题，称之为“ 维度灾难 ”。另外在高维特征中容易出现特征之间的线性相关，这也就意味着有的特征是冗余存在的。基于这些问题，降维思想就出现了。

降维通常有以下原因：

去除冗余数据，使数据集更易于使用
去除噪音
降低计算开销
使得结果直观易懂

在已标注与未标注的数据上均可以应用降维技术。常见的降维算法有：

主成分分析（Principle Component Analysis， PCA)。在PCA中，数据从原来的坐标系转换到了新坐标系，新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原来数据中方差最大的方向，第二个坐标轴选择与第一坐标轴正交且具有最大方差的方向。该过程一直重复，我们会发现，大部分方差都包含在最前面的几个新坐标轴中。所以，我们可以忽略余下的坐标轴，即对数据进行了降维处理。

因子分析（Factor Analysis）。在因子分析中，我们假设在原始数据中存在一些隐变量（latent variable）。假设原始数据是这些隐变量和某些噪声的线性组合，那么隐变量的数量可能比原始数据的特征数要少，也就是说通过找到隐变量就可以实现数据的降维。
独立成分分析（Independent Component Analysis，ICA）。ICA假设数据是从N个数据源生成的，这一点和因子分析有些类似。假设数据为多个数据源的混合观察结果，这些数据源之间在统计上是相互独立的，而在PCA中只假设数据是不相关的。同因子分析一样，如果数据源的数目少于观察数据的数目，则可以实现降维过程。

在上述3种降维算法中，PCA 的应用最为广泛。本篇仅介绍PCA技术，PCA 算法的伪代码如下：

去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值从大到小排序
保留最上面的N个特征向量
将数据转换到上述N个特征向量构建的新空间中。示例代码基于如下的数据集来展示PCA算法：

from numpy import *
from matplotlib import pyplot as plt
def loadDataSet(fileName, delim='\t'):
    fr = open(fileName)
    stringArr = [line.strip().split(delim) for line in fr.readlines()]
    datArr = [list(map(float,line)) for line in stringArr]
    return mat(datArr)
    
def pca(dataMat, topNfeat=9999999):
    meanVals = mean(dataMat, axis=0)
    meanRemoved = dataMat - meanVals #remove mean
    covMat = cov(meanRemoved, rowvar=0)
    eigVals,eigVects = linalg.eig(mat(covMat))
    eigValInd = argsort(eigVals)            #sort, sort goes smallest to largest
    eigValInd = eigValInd[:-(topNfeat+1):-1]  #cut off unwanted dimensions
    redEigVects = eigVects[:,eigValInd]       #reorganize eig vects largest to smallest
    
    #降维后新坐标系的数据
    lowDDataMat = meanRemoved * redEigVects#transform data into new dimensions
    
    #降维后的在原始坐标系下的数据
    reconMat = (lowDDataMat * redEigVects.T) + meanVals
    return lowDDataMat, reconMat
    
def replaceNanWithMean():
    datMat = loadDataSet('secom.data', ' ')
    numFeat = shape(datMat)[1]
    for i in range(numFeat):
        meanVal = mean(datMat[nonzero(~isnan(datMat[:,i].A))[0],i]) #values that are not NaN (a number)
        datMat[nonzero(isnan(datMat[:,i].A))[0],i] = meanVal  #set NaN values to mean
    return datMat

dataMat = loadDataSet("testSet3.txt")
fig = plt.figure()
plt.title("PCA")
ax = fig.add_subplot(2,1,1)
ax.scatter(array(dataMat[:,0]), array(dataMat[:,1]), s=20, color="b")
lowDMat, reconMat = pca(dataMat, 1)
print(shape(lowDMat))
ax.scatter(reconMat[:,0].flatten().A[0], reconMat[:,1].flatten().A[0], marker='o', s = 15, c='r')
ax = fig.add_subplot(2,1,2)
ax.scatter(lowDMat.flatten().A[0], zeros(lowDMat.shape[0]), s=15, c="g")
plt.show()