首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >具有大数据集的机器学习-Issues

具有大数据集的机器学习-Issues
EN

Stack Overflow用户
提问于 2015-04-03 04:42:11
回答 1查看 99关注 0票数 1

我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756。现在,在这种规模下,所有的scikit算法都不起作用。

我想我会应用PCA,但即使这样也不能扩展到这个数据集。

有什么方法可以减少我的训练数据集中的冗余数据吗?我可以通过应用PCA来降维,但如果我可以应用PCA。

由于我正在进行文档分类,因此通过减小单词向量大小,我将数据集重新采样为244768*5672。即使是这个数据集,PCA也不能应用。

我可以通过这种方法来应用PCA吗?假设我的矩阵是A-X=A。T*A pca (X ) (X变成5672 x 5672矩阵),这会给我错误的答案吗?

另外,当我应用逻辑回归时,我是否可以增量地训练模型,.ie

如果A= 10000 x 500,我是否可以取logistic.fit(A),然后对其他行执行相同的操作?这种训练是错误的吗?

EN

回答 1

Stack Overflow用户

发布于 2017-08-20 04:57:03

你可以在几个模型上分割你的数据,这些模型的输出将被输入到下一个模型,它将给你提供结果。基本上是它的RNN架构。由于内存的限制,将如此海量的数据放在一个网络中是不可能的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29422093

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档