首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >具有大数据集的机器学习-Issues

具有大数据集的机器学习-Issues
EN

Stack Overflow用户
提问于 2015-04-02 20:42:11
回答 1查看 99关注 0票数 1

我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756。现在,在这种规模下,所有的scikit算法都不起作用。

我想我会应用PCA,但即使这样也不能扩展到这个数据集。

有什么方法可以减少我的训练数据集中的冗余数据吗?我可以通过应用PCA来降维,但如果我可以应用PCA。

由于我正在进行文档分类,因此通过减小单词向量大小,我将数据集重新采样为244768*5672。即使是这个数据集,PCA也不能应用。

我可以通过这种方法来应用PCA吗?假设我的矩阵是A-X=A。T*A pca (X ) (X变成5672 x 5672矩阵),这会给我错误的答案吗?

另外,当我应用逻辑回归时,我是否可以增量地训练模型,.ie

如果A= 10000 x 500,我是否可以取logistic.fit(A),然后对其他行执行相同的操作?这种训练是错误的吗?

EN

回答 1

Stack Overflow用户

发布于 2017-08-19 20:57:03

你可以在几个模型上分割你的数据,这些模型的输出将被输入到下一个模型,它将给你提供结果。基本上是它的RNN架构。由于内存的限制,将如此海量的数据放在一个网络中是不可能的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29422093

复制
相关文章
机器学习的十大图像分类数据集
为了帮助构建对象识别模型,场景识别模型等,编制了最佳图像分类数据集的列表。这些数据集的范围和大小各不相同,可以适应各种用例。此外数据集已分为以下几类:医学成像,农业和场景识别等。
代码医生工作室
2019/12/20
9K0
机器学习的十大图像分类数据集
机器学习:大数据集下的机器学习
如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。但是大数据集意味着计算量的加大,以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的误差的平方和,当数据集达到上百万甚至上亿的规模时,就很难一次性使用全部的数据集进行训练了,因为内存中放不下那么多的数据,并且计算性能也达不到要求。
Here_SDUT
2022/09/19
5030
机器学习:大数据集下的机器学习
【数据集】机器学习数据集汇总(附下载地址)
(Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/
zenRRan
2020/02/18
5.7K0
机器学习经典开源数据集
"数据为王,使用相同机器学习算法,不同质量的数据能训练出不同效果的模型。本文将分享数据科学领域中经典的几个开源数据集。
木东居士
2018/05/25
2.5K8
机器学习笔记——数据集分割
在模型训练之前,要首先划分训练集与测试集,如何对原始数据集进行训练集与测试集的划分?训练集与测试集的比例各占多少?如何保证各自内部标签分布平衡都会影响模型训练的最终效果。
数据小磨坊
2018/10/23
2K0
资源 | 机器学习高质量数据集大合辑
在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。
磐创AI
2018/11/23
6620
资源 | 机器学习高质量数据集大合辑
在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。
大数据文摘
2018/11/23
7720
机器学习数据集的基本概念
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
里克贝斯
2021/05/21
2.1K0
机器学习数据集的基本概念
机器学习数据集的获取和测试集的构建方法
上一篇机器学习入门系列(2)--如何构建一个完整的机器学习项目(一)介绍了开始一个机器学习项目需要明确的问题,比如当前任务属于有监督还是无监督学习问题,然后性能指标需要选择什么,常用的分类和回归损失函数有哪些,以及实际开发中需要明确系统的输入输出接口问题。
kbsc13
2019/08/16
2.5K0
Mercari数据集——机器学习&深度学习视角
我很高兴与大家分享我的机器学习和深度学习经验,同时我们将在一个Kaggle竞赛得到解决方案。学习过程的分析也是非常直观,具有娱乐性和挑战性。希望这个博客最终能给读者一些有用的学习帮助。
磐创AI
2020/09/07
1.3K0
机器学习经典开源数据集盘点
在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。
数据STUDIO
2022/04/11
8420
机器学习经典开源数据集盘点
机器学习经典开源数据集盘点
在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。
abs_zero
2022/04/19
7230
机器学习经典开源数据集盘点
秘籍 | 机器学习数据集网址大全
要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。
AI科技大本营
2019/05/06
7670
秘籍 | 机器学习数据集网址大全
[转载] 机器学习数据集统计系列一
作者:宋天龙 链接:https://www.zhihu.com/question/63383992/answer/222718972 来源:知乎
marsggbo
2018/12/12
1.2K0
【干货指南】机器学习必须需要大量数据?小数据集也能有大价值!
深度学习往往需要大量数据,不然就会出现过度拟合,本文作者提出了一些在文本数据量不够大的时候可用的一些实用方法,从而赋予小数据集以价值。
新智元
2018/12/14
1.3K0
网络上最大的机器学习数据集列表
包含CV、NLP、Self-driving、QA、Audio、Medical等,随机列出10个数据集供预览。
代码医生工作室
2019/10/21
2.2K0
网络上最大的机器学习数据集列表
30个最大的机器学习TensorFlow数据集
TensorFlow由Google Brain的研究人员创建,是用于机器学习和数据科学的最大的开源数据库之一。它是完整的初学者和经验丰富的数据科学家的端到端平台。TensorFlow库包括工具,预先训练的模型,机器学习指南以及一系列开放数据集。为了帮助找到所需的训练数据,本文将简要介绍一些用于机器学习的最大TensorFlow数据集。将以下列表分为图像,视频,音频和文本数据集。
代码医生工作室
2020/07/13
1.4K0
清单管理?面向机器学习中的数据集
毋庸置疑的是,数据在机器学习中起着至关重要的作用。每个机器学习模型实例都是使用静态数据集的形式进行训练和评估,这些数据集的特性从根本上影响了模型的行为: 如果一个模型的部署环境与它的训练或评估数据集不匹配,或者这些数据集存在不必要的误差和偏见,那么它就不可能有良好的表现。当机器学习模型应用于高风险领域时,如招聘和金融等领域时,这种不匹配会产生特别严重的后果。即使在其他领域,不匹配也可能导致收益的损失。
半吊子全栈工匠
2021/12/13
6160
清单管理?面向机器学习中的数据集
打破机器学习中的小数据集诅咒
最近深度学习技术实现方面取得的突破表明,顶级算法和复杂的结构可以将类人的能力传授给执行特定任务的机器。但我们也会发现,大量的训练数据对深度学习模型的成功起着至关重要的作用。就拿Resnet来说,这种图像分类结构在2015年的ILSVRC分类竞赛中获得了第一名,比先前的技术水平提高了约50%。
统计学家
2019/06/28
7230
打破机器学习中的小数据集诅咒
点击加载更多

相似问题

具有许多离散特征的机器学习数据集

10

医学机器学习数据集

31

此数据集的机器学习还是深度学习?

21

机器学习中数据集的标注

11

机器学习分类数据集的建立

16
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文