我有一个包含300个变量的数据集,其中包含超过300K的观测值。有些列有很多空值(某些变量的空值高达90% )。我希望最终在数据集上运行聚类算法,但我需要首先减少维度的数量。我计划使用SVD或PCA。在运行SVD或PCA时,空值是否会阻止我获得正确的结果?那么,有什么建议我应该怎么做呢?是省略还是推算数据?
此外,变量的范围也有很大的变化。我是否应该通过将值转换为与列平均值的标准差来标准化数据?
谢谢你,埃里克
发布于 2015-02-07 22:56:20
PCA为O(n*d^3)。假设d只有300,n只有300k,你应该不会有任何问题。你真的试过了吗?
https://stackoverflow.com/questions/28384621
复制