我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756。现在,在这种规模下,所有的scikit算法都不起作用。
我想我会应用PCA,但即使这样也不能扩展到这个数据集。
有什么方法可以减少我的训练数据集中的冗余数据吗?我可以通过应用PCA来降维,但如果我可以应用PCA。
由于我正在进行文档分类,因此通过减小单词向量大小,我将数据集重新采样为244768*5672。即使是这个数据集,PCA也不能应用。
我可以通过这种方法来应用PCA吗?假设我的矩阵是A-X=A。T*A pca (X ) (X变成5672 x 5672矩阵),这会给我错误的答案吗?
另外,当我应用逻辑回归时,我是否可以增量地训练模型,.ie
如果A= 10000 x 500,我是否可以取logistic.fit(A),然后对其他行执行相同的操作?这种训练是错误的吗?
发布于 2017-08-19 20:57:03
你可以在几个模型上分割你的数据,这些模型的输出将被输入到下一个模型,它将给你提供结果。基本上是它的RNN架构。由于内存的限制,将如此海量的数据放在一个网络中是不可能的。
https://stackoverflow.com/questions/29422093
复制相似问题