在数据挖掘的很多领域,数据内容往往以.data形式给出,因此读取.data文件到矩阵中并对异常值进行处理就变得很重要了。
一个.data文件的截图:
该文件为一个1567 X 590的矩阵,每一行代表一个样本。
1.先直接pd.read_csv(),然后通过输出了解到数据一共有多少列。
data = pd.read_csv('manifold/secom.data', sep=' ')
print(data.shape[1])
输出590,于是我们知道了一共590列。但是这种读法默认会把第一行当成列索引。
2.完整读取数据
data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
data = np.array(data)
这样数据就变成了一个矩阵。
1.思路:求得每一列除nan以外数据的平均值,填充到这一列中是nan的地方。2.求取除nan以外数据的平均值,我的思路是先把这一列转成list,然后利用np.nanmean(list)函数,跳过nan求平均值。
temp = np.array(data)[:, i].tolist() #第i列转成list
mean = np.nanmean(temp) #跳过nan求mean
3.填充
data[np.argwhere(np.isnan(data[:, i].T)), i] = mean
#argwhere用于查找满足nan的位置
完整代码:
import pandas as pd
import numpy as np
from numpy import linalg
def load_file():
data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
data = np.array(data)
for i in range(data.shape[1]):
temp = np.array(data)[:, i].tolist()
mean = np.nanmean(temp)
data[np.argwhere(np.isnan(data[:, i].T)), i] = mean
return data
def pca(K):
X = load_file()
N = X.shape[0]
En = np.eye(N)
In = np.ones((N, 1), float)
H = En - (1/N)*np.dot(In, In.T) #定义中心矩阵
S = (1/N)*np.dot(np.dot(X.T, H), X) #定义协方差矩阵
val, vec = linalg.eig(S) #求解特征值与特征向量
sorted_indices = np.argsort(-val) #从大到小排序
#取前K个最大的特征值的特征向量
final = np.zeros((K, vec.shape[1]), float)
for i in range(K):
final[i, :] = vec[sorted_indices[i], :]
final_data = np.dot(X, final.T) #降为K为后的矩阵
return final_data
if __name__ == '__main__':
K = 250
print(pca(K))