数据集链接[1] 提取码:l552
1.对数据进行处理,包括对nan进行处理。要注意,这里的文件是以.data形式给出,对.data文件的处理详见PCA系列第二篇文章。2.浏览本文前请先熟知PCA的基本原理及大致过程,详见PCA系列第一篇文章。3.根据PCA理论:构建样本矩阵X、协方差矩阵S、中心矩阵H。4.对S进行特征值分解,并取前K个特征值最大的特征向量(降成K维)。5.X与上述新构建的特征向量矩阵相乘,得到最终答案。
完整代码:
import pandas as pd
import numpy as np
from numpy import linalg
def load_file():
data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
data = np.array(data)
for i in range(data.shape[1]):
temp = np.array(data)[:, i].tolist()
mean = np.nanmean(temp)
data[np.argwhere(np.isnan(data[:, i].T)), i] = mean
return data
def pca(K):
X = load_file()
N = X.shape[0]
En = np.eye(N)
In = np.ones((N, 1), float)
H = En - (1/N)*np.dot(In, In.T) #定义中心矩阵
S = (1/N)*np.dot(np.dot(X.T, H), X) #定义协方差矩阵
val, vec = linalg.eig(S) #求解特征值与特征向量
sorted_indices = np.argsort(-val) #从大到小排序
#取前K个最大的特征值的特征向量
final = np.zeros((K, vec.shape[1]), float)
for i in range(K):
final[i, :] = vec[sorted_indices[i], :]
final_data = np.dot(X, final.T) #降为K为后的矩阵
return final_data
if __name__ == '__main__':
K = 250
print(pca(K))
[1]
数据集链接: https://pan.baidu.com/s/1gOgOSa4wMPVW9DPYucBolg