文章/答案/技术大牛

发布

在CNN中，5折交叉验证的准确性存在很大差异的可能原因是什么？

在CNN（卷积神经网络）模型评估中，5折交叉验证的准确性存在很大差异的可能原因主要包括数据集的特性、模型的不稳定性、数据划分的方式以及其他实验设置因素。下面是对这些原因的详细解释，以及相应的解决方法。

5折交叉验证准确性差异的可能原因

数据集特性：数据量较小可能导致数据分布受偶然因素、特殊事件或噪声数据的影响较大。
模型不稳定性：模型可能在训练集上表现良好，但在验证集上表现不佳，显示出不稳定性。
数据划分方式：如果没有正确地进行数据shuffle和分层抽样，可能导致每折的数据分布不同，从而影响验证准确性。
实验设置因素：包括初始化权重、学习率等超参数的不同选择，以及训练集和验证集的随机划分等。

解决方法

数据扩充：如果条件允许，扩充数据集可以有效改善数据分布不均的问题。
增加折数：增加交叉验证的折数可以减少单次划分带来的随机性，提高模型评估的稳定性。
使用StratifiedKFold：确保每折数据中类别的比例与原始数据集一致，避免类别不平衡导致的评估偏差。
统一实验设置：确保所有实验使用相同的模型初始化参数和超参数设置，以减少实验间的差异。

通过上述方法，可以有效减少5折交叉验证中准确性差异，提高模型评估的稳定性和可靠性。

在CNN中，5折交叉验证的准确性存在很大差异的可能原因是什么？

、、、、

我是一个神经网络的新手。我刚刚开始了一个使用CNN的项目，这个项目使用了一个包含200万个案例的数据集，该数据集是从相同的协方差矩阵生成的。当我尝试5折交叉验证时，.9报告了4次验证的准确性。然而，一项验证只报告了.1的准确性。我不明白为什么会这样。我认为因为所有数据都是从相同的协方差矩阵生成的，所以所有<em

浏览 224提问于2020-09-19得票数 0

1回答

如何在TensorFlow中提高CNN的预测能力？

、、、

我在TensorFlow中使用具有两个卷积层的CNN，一个完全连接的层和一个线性层来预测对象的大小。标签是大小，特征是图像。两种方法的准确率都有所提高，但交叉验证准确率的提高速度较慢。考虑到精度上

浏览 3提问于2018-09-07得票数 0

1回答

K折叠交叉验证混淆？

、、、

我正在使用K倍交叉验证来测试我训练过的模型，但惊讶的是，每一个K倍的准确性是不同的。例如，如果我使用5K折叠，每个折叠有一个不同的准确性。那么，我应该用哪一种折叠？平均所有5个折叠是最好的选择吗？第二，为什么数据集分割率(70/30)在5倍交叉验证和10倍交叉验证中存在差异<

浏览 0提问于2017-05-23得票数 2

3回答

训练CNN似乎效果不错，但测试时效果不佳

、、

我有一项图像分类任务，我正在使用Keras作为一个带有CNN层的网络，在培训中似乎取得了很好的效果，因此在测试方面表现很差。在培训中，我很快看到准确性和验证准确性都提高到了以下水平： 4678/4678 [==============================] - 2s 427us/step - loss: 0.0607- acc: 0.9795 - val_loss:

浏览 0提问于2018-08-22得票数 1

1回答

scikit中的参数oob_score_ -学习等于准确性还是误差？

、、、

我从Python实现了随机森林分类器(RF) --用于ML问题的学习包。在第一阶段，我使用交叉验证来抽查其他算法，RF现在是我的选择。学科学的医生告诉我：是否使用包外样本来估计泛化误差.由于

浏览 9提问于2015-07-15得票数 6

回答已采纳

4回答

什么是更重要的--训练的准确性还是交叉验证的准确性？

、

我优化了一个knn算法在滑雪板上的网格搜索。然而，我对训练数据的准确性下降了1%，交叉验证的准确率提高了0.7%。在网格搜索之后，模型更好吗？

浏览 0提问于2022-08-14得票数 1

1回答

交叉验证和测试性能的差异

、

我使用的是交叉验证(5倍)的学习技巧。交叉验证。，我得到我的数据集，并使用它在5倍交叉验证。返回的分数(全部5个)在.80到.85的范围内。直接训练，如果我使用相同的数据集与火车测试分割(0.2测试部分)，并直接拟合和预测，我得到了.70的准确性。(召回和中华民国也较少)。因此，在交叉<em

浏览 3提问于2017-09-09得票数 0

回答已采纳

1回答

验证和测试的准确性差别很大

、、、、

我目前正在处理kaggle中的一个数据集。在训练了训练数据的模型后，我在验证数据上对其进行了测试，得到了0.49左右的准确率。那么，发生这种情况的可能原因是什么，以及如何开始检查和纠正这些问题？

浏览 3提问于2018-02-10得票数 10

回答已采纳

2回答

如何在postgresql中找到已死的元组大小？

如何在postgresql中找到已死的元组大小？我已经使用pg_dump创建了数据库的备份，并将其恢复到其他服务器上。我发现两个数据库中的数据库大小存在差异(5 GB)。我已经验证了表的活元组和死元组。由于在当前数据库中添加了新数据，因此存在行数差异。然而，在恢复的数据库大小上有很大的差异。它的</em

浏览 0提问于2021-03-17得票数 0

1回答

迭代捕获和改进机器学习模型的工作流

我的训练数据大小大约是80k记录，我的测试数据集大约是30k记录。我从10k记录开始训练我的每一个模型，因为我工作的系统核心非常有限(并且运行在不同大陆的VM上)，所以我不能简单地开始一个培训课程，然后离开几个小时。随着培训规模的增加，我期望我的训练验证分数(RMSE，MAPE)在完整的训练数据集上会减少，而我的测试验证分数将会增加。，为了对这些机器学习模型的复杂

浏览 0提问于2019-08-30得票数 2

2回答

处理过度拟合:数据扩展、交叉验证、旋转增强

、、

目前，我只是在探索tflearn (VGG.Net、GoogLeNet、ResNet等)提供的网络，并将它们应用到我的数据集(128*128单通道图像、925张图像--增强前、5058张图像--增强后、问题:训练准确率(~100%)与验证精度(~70%)相差很大。 ( 1)这

浏览 1提问于2016-12-23得票数 3

2回答

在lstm预测模型中理解时代性、批量大小、精度和性能增益

、、、、

我是机器学习和lstm的新手。我指的是多变量输入部分的编码器-解码器LSTM模型的这个链接。 return model以下是我的问题：

浏览 0提问于2019-04-20得票数 0

回答已采纳

3回答

BigQuery中的谷歌广告印象计数与谷歌广告报告中的不同

我正在使用谷歌广告的BigQuery数据传输服务，在通过查询来验证传输的数据时，我注意到我在谷歌广告报告中看到的数据与传输到BigQuery的数据之间存在差异。虽然点击量和费用数据还可以，但印象数据却有很大的不同。有没有办法让BigQuery中的印象数据接近谷歌广告报告中的印象数据？出现差异的

浏览 35提问于2020-11-16得票数 1

1回答

我很难理解哪些数据集需要用于模型选择阶段和最终的模型测试阶段:培训、验证和测试。我试图在下面详细解释它，同时在底部张贴可重复的代码。谢谢您的建议和建议！，我们首先从原始的数据集led中划分一个训练和测试集led_train和led_test。接下来，我们用y= Life expectancy和x= GDP建立了一个具有led_train =数据的线性模型，并对随机森林模型和knn模型进行了同样的处理，使用的是使用Ca

浏览 0提问于2020-07-29得票数 0

1回答

增加训练数据并不能减少CNN中的过度拟合

、、、、

我的CNN网络有3-4个卷积层，每个卷积层都有最大容量池，外加一个完全连接的层。但学习曲线显示，训练和验证损失之间存在很大差距，这表明存在严重的过拟合。我能得到的最好的验证准确率总是在75%到80%之间。这里的是我的学习曲线之一。黑色和蓝色分别表示训练精度和损失。另外两个用于验证准确性和损失。即使训练损失为0

浏览 20提问于2016-06-29得票数 1

1回答

为什么不使用三个以上的隐藏层进行MNIST分类？

、

为了提高准确度，其他技术(辍学，ReLU.等)已被使用，但没有增加隐藏层的数量。是否有理由不使用三个以上的隐藏层？例如，过度适应？

浏览 0提问于2017-08-11得票数 5

1回答

如何通过谷歌广告的Bigquery数据传输服务修复从谷歌广告到谷歌BigQuery的转换中的数据差异

、

我正在使用谷歌广告的BigQuery数据传输服务，我看到我们的一个客户的转换存在数据差异。这些转换在转换和浏览转换方面都与我在Google广告中获得的转换有所不同。最初，我认为这可能是最近30天的数据没有被刷新，但当我在4月份回顾时，我仍然看到一些差异，即使5月份匹配。奇怪的是，谷歌BigQuery的转化率比谷歌广告中<

浏览 1提问于2019-07-10得票数 0

2回答

关于通过将random_state值设置为整数来生成最佳决策树的困惑？

、、

根据此处的讨论，confused about random_state in decision tree of scikit learn 由于我将random_state设置为1，因此我确实具有一致的指标，因为我每次都生成相同的树。但是，当random_state设置为default -- > none时，每次生成的不同树都有不同的性能指标，有些比另一些好，有些则更差。那么我们如何获得可能的最佳度量，或者换句话说，如何找出为随机状态设置的int值

浏览 88提问于2019-12-20得票数 0

1回答

为什么每一个k次交叉验证的准确性有很大的不同？我该怎么改进呢？

、、、

我有一个有91个Obervsation和700个特性的数据集。我使用PCA降低了数据的维数。然后，我将数据集分成训练和ratio= 70/30测试。在此基础上，对训练数据集进行了10次交叉验证，并计算了每一次训练数据的精度。我怀疑它有很多不同之处。Male Female 这就是每一次折叠的准确性？= 0.14fold9 = 0.33这样<em

浏览 1提问于2020-12-05得票数 0

1回答

毕火炬:从一个高的损失值开始，但损失集中在最后。我不知道这个模型是否会以亏损> 100开始。帮助!

、、、、

我一直在尝试用转移学习的方法来检测植物病害。我首先选择了ResNet50。我还做了一个基线模型，也就是CNN模型。在resnet50中，我使用了交叉熵损失，并对模型进行了30个历元的训练。但是，在最后一个时期，验证损失为2.1660，验证损失为1.8905，验证精度为0.995。模型的总体精度为98.8%，模型似乎也不过分适合。在训练模型之前，我进行了超参数优化，

浏览 0提问于2021-05-22得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在CNN中，5折交叉验证的准确性存在很大差异的可能原因是什么？

5折交叉验证准确性差异的可能原因

解决方法

相关·内容

在CNN中，5折交叉验证的准确性存在很大差异的可能原因是什么？

如何在TensorFlow中提高CNN的预测能力？

K折叠交叉验证混淆？

训练CNN似乎效果不错，但测试时效果不佳

scikit中的参数oob_score_ -学习等于准确性还是误差？

什么是更重要的--训练的准确性还是交叉验证的准确性？

交叉验证和测试性能的差异

验证和测试的准确性差别很大

如何在postgresql中找到已死的元组大小？

迭代捕获和改进机器学习模型的工作流

处理过度拟合:数据扩展、交叉验证、旋转增强

在lstm预测模型中理解时代性、批量大小、精度和性能增益

BigQuery中的谷歌广告印象计数与谷歌广告报告中的不同

如何使用交叉验证来使用培训、验证和测试集确定最终模型

增加训练数据并不能减少CNN中的过度拟合

为什么不使用三个以上的隐藏层进行MNIST分类？

如何通过谷歌广告的Bigquery数据传输服务修复从谷歌广告到谷歌BigQuery的转换中的数据差异

关于通过将random_state值设置为整数来生成最佳决策树的困惑？

为什么每一个k次交叉验证的准确性有很大的不同？我该怎么改进呢？

毕火炬:从一个高的损失值开始，但损失集中在最后。我不知道这个模型是否会以亏损> 100开始。帮助!

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐