腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对
训练
数据
进行
过
拟合
,
同时
对
验证
数据
进行
改进
、
、
我正在用R中的XGBoost
拟合
一个二进制分类模型。我的
数据
集有300k个观察值,有3个连续的预报器和1个具有90个水平的单热编码因子变量。因变量y为True或False。min_child_weight gbtree binary:logistic 8 0.7708479 0.2861735 0.5338721 1 接下来,我在下面的XGBoost模型
拟合
中使用了这些超参数设置我的结论是,模型在
训练
数据
上过度
拟合
,因为AUC在200次迭代后
浏览 23
提问于2021-10-06
得票数 0
回答已采纳
1
回答
Keras回调,可
同时
监控
验证
和
训练
精度
、
、
但它只能监控
验证
准确性或
训练
Acc。当
验证
精度达到最大时,它可以节省最佳模型权重。但该模型可能与
验证
数据
过度
拟合
。因此,我觉得也有必要监控
训练
的准确性。我想保存
验证
精度最高且
训练
精度也很好的模型。
浏览 0
提问于2018-08-17
得票数 0
1
回答
我的理解是: CV.GLMNET是如何选择最优的λ的?
、
、
、
、
我没有分成
训练
/测试
数据
(以及进一步减少
训练
数据
),而是选择拉索,通过交叉
验证
选择lambda,作为最小化过度
拟合
的手段。在使用cv.glmnet
对
模型
进行
训练
之后,我在相同的
数据
集上测试了它的分类精度(引导x 10000作为错误间隔)。我
对
评论员(和我一样是一位医生)解释cv.glmnet是如何做到这一点的: 在每一步10次交叉
验证
中,将
数据
随机分为
浏览 0
提问于2017-12-21
得票数 1
1
回答
多项式回归中的正则化系数
、
多项式回归中的
过
拟合
,比较
训练
集的均方误差和
验证
集的均方误差。 我不太理解这张图。在
训练
模型以学习参数时,我们必须设置λ=0,因为已经选择了λ的值并继续
进行
培训是没有意义的。,那么,随着λ值的变化,
训练
错误是如何变化的呢?将
数据
集划分为有效
数据
集和
训练
数据
集,在
训练
集中
对
模型
进行
训练
,并通过有效集
验证
浏览 3
提问于2021-12-25
得票数 1
回答已采纳
1
回答
要部署的最终模型的预处理
、
、
、
、
通常,对于ML工作流,我们导入
数据
(X和y),将X和y划分为train、valid和test,
对
train、valid和test的
数据
进行
预处理(缩放、编码、计算nan值等),执行HP调优,在得到最佳HP模型后,将最终模型
拟合
到整个
数据
集(即X和y)。因此,当在X和y上
拟合
最终模型时,我们将得到一个错误,因为我们还没有
对
X和y
进行
编码(并执行其他预处理步骤)。那么我们应该如何在整个
数据
集上
训练
最终的
浏览 0
提问于2021-11-29
得票数 1
回答已采纳
1
回答
是否可以使用经过
验证
的模型
对
整个
数据
集
进行
预测?
、
、
、
、
我们已经在大约15k行的
数据
集上运行了'gbm‘模型。我们已经直接实现了10折交叉
验证
,以提出一个交叉
验证
模型,我们正在使用该模型在同一
数据
集上再次
进行
预测。这导致了可能
过
拟合
的模型约为0.99
训练
AUC和0.92cv AUC。预测AUC也很高,约为0.99。 审查者要求我们使用坚持
数据
集来
验证
模型。我们假设我们会将
数据
分成坚持
数据
和
训练
数据</
浏览 1
提问于2018-04-18
得票数 2
2
回答
keras
验证
之字形原因
、
我正在
训练
一个神经网络,并得到关于损失和
验证
损失的结果: 这些是200个时期,批量大小为16,500个
训练
样本和200个
验证
样本。正如你所看到的,在大约20个时期之后,
验证
损失开始做一个非常夸张的Z字形。我试图增加
验证
样本的数量,但这只会增加之字形,并使其更加夸张。此外,我向优化器添加了衰减值,但损失和
验证
损失看起来并不是很好。 你知道哪个是“之字形”的原因吗?我怎样才能最小化它?
浏览 0
提问于2019-07-29
得票数 1
1
回答
如何在python/sklearn中交叉
验证
来自随机森林的预测?
、
、
请有人告诉我,如果这是正确的方法,计算交叉
验证
的精度我的分类器?我将我的
数据
集划分为
训练
数据
的xtrain和ytrain,以及测试集的xtest & ytest。构建模型:适合于
训练
集的:,这是我不确定的部分: scorescross_val_score(RFC, xtest, ytest, cv = 10, scoring='precisio
浏览 8
提问于2015-07-04
得票数 3
2
回答
我怎样才能自动使我的模型适合于文本分类?
、
、
我想展示一个模型的例子,该模型过度
拟合
了测试集,并且不能很好地
对
未来的
数据
进行
泛化。我将新闻
数据
集分成3组:test set length: 5500我正在使用一个文本
数据
集并构建一个CountVectorizer我正在创建一个网格搜索(没有交叉
验证
),每个循环都会测试向量化器上的一些参数('min_df','max_df')和我的
浏览 0
提问于2018-03-14
得票数 1
1
回答
是否应该将确定性模型分成
训练
和测试
数据
集
进行
训练
?
、
、
、
我听说,对于随机模型,我们应该分成
训练
和测试两部分,以避免过度
拟合
,这一事实在确定性模型中不会发生,因为它们使用线性规划来寻找最佳参数。我的观点是这是真的。确定性模型只是求解方程,它根本不应该对
数据
进行
过
拟合
,而且它不同于基于随机性的随机模型来
进行
预测。 但我发现每个课程都说要拆分每个
数据
集,独立于其确定性或非确定性。
浏览 19
提问于2021-09-22
得票数 1
2
回答
使用
验证
、培训和测试集之间的顺序
、
、
第一种方法 对于每个多项式度,只在
验证
集上使用交叉
验证
来
浏览 1
提问于2019-01-10
得票数 1
回答已采纳
2
回答
基础:为ML准备简单
数据
的正确顺序是什么?
、
、
我只是想知道用以下步骤组织
数据
以避免冗余的最佳方法是什么:
数据
缺口的核算(估算)将
数据
拆分为培训和
验证
集 然后
对
模型
进行
拟合
和预测。我的主要问题是,在对
数据
进行
编码之前,是否最好先
进行
拆分,还是只在完成编码后才
进行
拆分?
浏览 0
提问于2018-08-09
得票数 0
1
回答
yolov5培训的
验证
集是什么,是否有必要?
、
、
、
我正在
训练
一个yolov5模型,我有一个
数据
集,但是我无法理解
验证
和测试
数据
之间的区别。我应该分割我的
数据
集来
训练
/测试/val还是仅仅是
训练
/测试?
浏览 11
提问于2022-02-13
得票数 1
回答已采纳
1
回答
如何使用
验证
数据
优化超参数
、
、
我正在
训练
一个神经网络机器学习模型,
对
如何调整超参数感到有点困惑。我认为培训过程如下: 有人告诉我,
验证
数据
也被用来调优超参数。我不明白如何做到这一点,因为您在之后使用了
验证
数据
,您已经构建了模型并
对</em
浏览 2
提问于2016-08-02
得票数 2
回答已采纳
2
回答
神经网络如何学习函数而不是记忆它们?
、
、
对于一个类项目,我设计了一个神经网络来近似sin(x),但最终得到的神经网络只是记住了我给出的
数据
点上的函数。我的神经网络接受批处理大小为200的x值。问题是,我的神经网络完美地“近似”了sin(x),损失为0,但我知道它不会推广到其他
数据
点。 我在设计这个神经网络时做错了什么,我如何避免记忆,而是设计我的神经网络来“学习”我的
数据
中的模式?
浏览 3
提问于2018-05-10
得票数 1
2
回答
特征选择和交叉
验证
、
、
、
、
我想
训练
一个回归模型,为了做到这一点,我使用随机森林模型。然而,我也需要
进行
特征选择,因为我的
数据
集中有太多的特征,我担心如果我使用了所有的特征,我就会过度
拟合
。为了评估我的模型的性能,我还执行了5折交叉
验证
,我
对
以下两种方法的问题是正确的,为什么?1-如果我将
数据
分成两半,在前半部分
进行
特征选择,并使用这些选择的特征在剩余的一半上
进行
5折叠交叉
验证
( CV ) (在这种情况下,5 CV将使用完全相同的选择特征)。2
浏览 1
提问于2013-10-29
得票数 5
1
回答
与实际输出相比,测试精度较高。如何提高实际输出精度?
、
、
、
我的logistic预测模型的
训练
准确率为80%,测试准确率为79%。
训练
模型准确率:0.8039535210772422测试模型准确率:0.7937496044721021使用超参数调整和打印我的分类报告:0.77 0.74 0.76 189620当我将结果与实际
数据
进行
比较时,我只在40%的
数据
匹配上测试了预测模型。
浏览 20
提问于2020-02-18
得票数 0
1
回答
过度采样只会平衡培训集,那么测试集呢?
、
、
在
数据
分类不平衡的情况下,我知道我们只是
过
采样了培训集(以防止
数据
从培训到测试子集的泄漏),但是如果我的测试集中没有正
数据
点怎么办?测试集仍然非常偏斜,只有我的阳性类的1%。我使用XGBoost、随机森林、Logistic回归和KNN
进行
分类任务。
同时
,我也尝试过使用SMOTE、SMOTE和Class_weight来
对
我的
训练
集
进行
过
采样.为了增加获得更多
数据
的机会,我将10倍改为5倍交叉
验
浏览 0
提问于2019-08-20
得票数 2
回答已采纳
1
回答
如果在相同的
数据
上
训练
嵌套模型,是否会过度
拟合
如果我建立一个机器学习模型,它使用来自另一个机器学习模型的输出,而两个模型都是在相同的
数据
上
训练
的,是否会过度
拟合
?基本上,我想知道是否可以使用KNN预测结果作为深度神经网络模型的输入,而这两个模型都是在完全相同的
数据
上
训练
的。
浏览 0
提问于2018-11-06
得票数 0
1
回答
交叉
验证
训练
集,其中类变量具有与实际总体不同的分布
、
、
我的
训练
集具有与实际人口不同的类分布,但我的测试集是代表性的,并且像实际人口一样分布。我已经考虑
过
对
浏览 0
提问于2015-01-09
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何对大数据进行抓取
go使用kafka对网页浏览数据进行统计
Python对QQ音乐进行爬取并进行数据分析
如何用DataFocus对Excel表中数据进行分析?
怎么对MySQL数据库进行备份与恢复
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券