PCA系列（三）：对半导体制造数据（secom.data）进行降维

Cyril-KI

发布于 2022-07-29 19:52:43

6150

发布于 2022-07-29 19:52:43

文章被收录于专栏：KI的算法杂记

数据集链接[1] 提取码：l552

1.对数据进行处理，包括对nan进行处理。要注意，这里的文件是以.data形式给出，对.data文件的处理详见PCA系列第二篇文章。2.浏览本文前请先熟知PCA的基本原理及大致过程，详见PCA系列第一篇文章。3.根据PCA理论：构建样本矩阵X、协方差矩阵S、中心矩阵H。4.对S进行特征值分解，并取前K个特征值最大的特征向量（降成K维）。5.X与上述新构建的特征向量矩阵相乘，得到最终答案。

完整代码：

import pandas as pd
import numpy as np
from numpy import linalg

def load_file():
   data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
   data = np.array(data)

   for i in range(data.shape[1]):
       temp = np.array(data)[:, i].tolist()
       mean = np.nanmean(temp)
       data[np.argwhere(np.isnan(data[:, i].T)), i] = mean

   return data


def pca(K):
    X = load_file()
    N = X.shape[0]
    En = np.eye(N)
    In = np.ones((N, 1), float)

    H = En - (1/N)*np.dot(In, In.T)  #定义中心矩阵
    S = (1/N)*np.dot(np.dot(X.T, H), X)  #定义协方差矩阵

    val, vec = linalg.eig(S)   #求解特征值与特征向量
    sorted_indices = np.argsort(-val)   #从大到小排序
    #取前K个最大的特征值的特征向量
    final = np.zeros((K, vec.shape[1]), float)
    for i in range(K):
        final[i, :] = vec[sorted_indices[i], :]

    final_data = np.dot(X, final.T)  #降为K为后的矩阵
    return final_data


if __name__ == '__main__':
    K = 250
    print(pca(K))

References

[1] 数据集链接: https://pan.baidu.com/s/1gOgOSa4wMPVW9DPYucBolg

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-11-10，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

本文分享自 KI的算法杂记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据分析

登录后参与评论

0 条评论

热度

PCA系列（三）：对半导体制造数据（secom.data）进行降维

PCA系列（三）：对半导体制造数据（secom.data）进行降维

References

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐