首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >对于如何将数据集划分为训练集和验证集,是否有经验法则?

对于如何将数据集划分为训练集和验证集,是否有经验法则?
EN

Stack Overflow用户
提问于 2012-11-28 16:42:51
回答 3查看 213.2K关注 0票数 237

对于如何最好地将数据划分为训练集和验证集,是否有经验法则?平均50/50的比例可取吗?或者,相对于验证数据,拥有更多的训练数据是否有明显的优势(反之亦然)?或者这种选择在很大程度上依赖于应用程序?

我主要分别使用80% / 20%的训练和验证数据,但我没有任何原则性的原因选择了这种划分。有没有在机器学习方面更有经验的人可以给我建议?

EN

回答 3

Stack Overflow用户

发布于 2017-09-06 07:31:26

好吧,你应该再考虑一件事。

如果你有一个非常大的数据集,比如1,000,000个例子,那么将80/10/10拆分可能是不必要的,因为10% = 100,000个例子可能太多了,仅仅说模型工作得很好。

也许99/0.5/0.5就足够了,因为5,000个示例可以表示数据中的大多数方差,并且您可以很容易地根据测试和开发中的这5,000个示例来判断模型工作良好。

不要因为你听说80/20是可以的就使用它。想一想测试集的目的。

票数 19
EN

Stack Overflow用户

发布于 2017-06-10 20:59:51

这完全取决于手头的数据。如果你有大量的数据,那么80/20是一个很好的选择,如上所述。但是,如果你不这样做,50/50的交叉验证可能会对你有更多的帮助,并防止你创建的模型过度拟合你的训练数据。

票数 1
EN

Stack Overflow用户

发布于 2018-11-12 08:53:29

假设你有较少的数据,我建议尝试70%,80%和90%,并测试哪个能提供更好的结果。在90%的情况下,对于10%的测试,您有可能获得较差的准确性。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13610074

复制
相关文章
数据集的划分--训练集、验证集和测试集
        在机器学习中,经常提到训练集和测试集,验证集似有似无。感觉挺好奇的,就仔细查找了文献。以下谈谈训练集、验证集和测试集。
Flaneur
2020/03/25
5.4K0
将mat格式中加标签的数据分为:训练集、验证集、测试集
<span style="font-size:18px;">分出来的三个集合可能存在交集。</span> %%将一部分MontData 放入到OhmData里面 clear all;close all;clc; load Mont_data; kk1=randperm(size(train,1),2000); kk2=randperm(size(train,1),4000); kk3=randperm(size(train,1),5000); TempMontData1=train(kk1); TempMo
MachineLP
2022/05/09
8940
训练集、验证集、测试集以及交验验证的理解
在人工智能机器学习中,很容易将“验证集”与“测试集”,“交叉验证”混淆。
全栈程序员站长
2022/08/27
20.2K0
训练集、验证集、测试集以及交验验证的理解
PASCAL VOC数据集训练集、验证集、测试集的划分和提取
参考:https://www.cnblogs.com/sdu20112013/p/10801383.html
狼啸风云
2019/12/10
4.2K0
训练集、验证集、测试集(附:分割方法+交叉验证)
在《一文看懂机器学习》里我们介绍了机器学习的7个步骤,训练集(Training Dataset)主要在训练阶段使用。
easyAI
2019/12/24
32.9K0
小白学PyTorch | 2 浅谈训练集验证集和测试集
关键词:训练集(train set)、验证集(valid set)、测试集(test set) 。
机器学习炼丹术
2020/09/03
1.9K0
【猫狗数据集】划分验证集并边训练边验证
链接:https://pan.baidu.com/s/1l1AnBgkAAEhh0vI5_loWKw 提取码:2xq4
西西嘛呦
2020/08/26
1.2K0
【猫狗数据集】划分验证集并边训练边验证
训练集(train set) 验证集(validation set) 测试集(test set)
training set是用来训练模型或确定模型参数的,如ANN中权值等; validation set是用来做模型选择(model selection),即做模型的最终优化及确定的,如ANN的结构;而 test set则纯粹是为了测试已经训练好的模型的推广能力。当然,test set这并不能保证模型的正确性,他只是说相似的数据用此模型会得出相似的结果。样本少的时候,上面的划分就不合适了。常用的是留少部分做测试集。然后对其余N个样本采用K折交叉验证法。就是将样本打乱,然后均匀分成K份,轮流选择其中K-1份训练,剩余的一份做验证,计算预测误差平方和,最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N,就是留一法(leave one out)。在应用中,一般只将数据集分成两类,即training set 和test set,大多数文章并不涉及validation set。
狼啸风云
2019/01/18
10.1K0
不同的batch_size对训练集和验证集的影响
我们知道,不同的batch_size对我们的训练集和验证集得出结果的精度和loss都会产生影响,是设置batch_size越大我们得到的精度越好,loss越好。还是batch_size越小我们得到的精度越好,loss越好呢?
算法与编程之美
2023/08/22
6110
不同的batch_size对训练集和验证集的影响
dataset数据集有哪些_数据集类型
​ sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:
全栈程序员站长
2022/08/03
1.9K0
dataset数据集有哪些_数据集类型
使用 numpy 切分训练集和测试集
在机器学习的任务中,时常需要将一个完整的数据集切分为训练集和测试集。此处我们使用 numpy 完成这个任务。iris 数据集中有 150 条数据,我们将 120 条数据整合为训练集,将 30 条数据整合为测试集。
演化计算与人工智能
2020/08/14
2.9K0
测试数据集与验证数据集之间有什么区别呢?
验证数据集(Validation Datasets)是训练模型时所保留的数据样本,我们在调整模型超参数时,需要根据它来对模型的能力进行评估。
StoneDemo
2018/02/02
5.9K0
测试数据集与验证数据集之间有什么区别呢?
【猫狗数据集】pytorch训练猫狗数据集之创建数据集
链接:https://pan.baidu.com/s/1l1AnBgkAAEhh0vI5_loWKw 提取码:2xq4
西西嘛呦
2020/08/26
1.1K0
【猫狗数据集】pytorch训练猫狗数据集之创建数据集
9 | 过拟合欠拟合、训练集验证集、关闭自动求导
我们在日常的工作中,训练好的模型往往是要去评价它的准确率的,通过此来判断我们的模型是否符合我的要求。 几个可能的方案是,对我们训练使用的数据再输入到训练好的模型中,查看输出的结果是否跟预期的结果是一致的,当然这个在我们的线性模型上跟训练过程没有区别。另外一个比较靠谱的方案是把一部分在训练的时候没有用过的数据放进模型里,看预测结果是否和预期结果一致。
机器学习之禅
2022/07/11
5600
9 | 过拟合欠拟合、训练集验证集、关闭自动求导
mask rcnn训练自己的数据集_fasterrcnn训练自己的数据集
这篇博客是 基于 Google Colab 的 mask rcnn 训练自己的数据集(以实例分割为例)文章中 数据集的制作 这部分的一些补充
全栈程序员站长
2022/09/23
8390
mask rcnn训练自己的数据集_fasterrcnn训练自己的数据集
模型训练和部署-Iris数据集
在前面的文章Fayson介绍了关于《CDSW1.4的新功能》、《Hadoop之上的模型训练 - CDSW1.4新功能模块》、《CDSW1.4的Experiments功能使用》、《Hadoop之上的模型部署 - CDSW1.4新功能模块》及《CDSW1.4的Models功能-创建和部署模型(QuickStart)》。本篇文章Fayson会使用CDSW内置的Python模板项目来引导完成端到端的实操示例,即包含从模型创建,训练到部署或投产。我们使用CDSW的实验模块来开发和训练模型,然后使用模型模块的功能来进行部署。
Fayson
2018/08/17
8750
模型训练和部署-Iris数据集
深度学习: 验证集 & 测试集 区别
区别 类别 验证集 测试集 是否被训练到 否 否 作用 纯粹用于调超参数 纯粹为了加试以验证泛化性能 使用次数 多次使用,以不断调参 仅仅一次使用 缺陷 模型在一次次重新手动调参并继续训练后所逼近的验证集,可能只代表一部分非训练集,导致最终训练好的模型泛化性能不够 测试集为了具有泛化代表性,往往数据量比较大,测试一轮要很久,所以往往只取测试集的其中一小部分作为训练过程中的验证集 互相转化 验证集具有足够泛化性(一般来说,如果验证集足够大到包括大部分非训练集时,也等于具有足够泛化性了) 验证集具有足够泛
JNingWei
2018/09/28
2.1K0
训练集准确率很高,验证集准确率低问题
训练集在训练过程中,loss稳步下降,准确率上升,最后能达到97% 验证集准确率没有升高,一直维持在50%左右(二分类问题,随机概率) 测试集准确率57% 在网上搜索可能打的原因: 1.learning rate太小,陷入局部最优
全栈程序员站长
2022/11/04
3.7K0
训练集准确率很高,验证集准确率低问题
点击加载更多

相似问题

对于如何将数据集划分为训练集和验证集,是否有经验法则?

71

如何将数据集拆分为训练集和验证集

10

如何将此数据集划分为训练集和验证集?

10

如何将此数据集拆分为训练集、验证集和测试集?

122

如何将数据集拆分为训练集、测试集和交叉验证集?

20
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档