腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9389)
视频
沙龙
1
回答
测试
特征
分布
信息
泄漏
有
什么问题
?
、
为什么当我们标准化整个数据集,然后只拆分成
测试
集和训练集时,情况会如此糟糕? 我得到了我们的模型从归一化数据中提取整个
分布
信息
,但我不明白它(
分布
知识)如何导致
测试
数据记忆。
浏览 17
提问于2020-02-01
得票数 0
回答已采纳
1
回答
转换是如何工作的?
、
我看了一下MinMaxScaler的源代码。我知道,当您将预处理类安装到dataset时,它会接收数据并为转换做准备。 比方说,我把MinMaxScaler装到了X_train上,并把它改造了。但是,当我使用另一个数据集(比如X_test )时,转换是如何工作的呢?当您调用transform()时,它是否替换了使用中的数据集?
浏览 0
提问于2021-05-04
得票数 1
2
回答
在特性缩放和
特征
选择之前还是之后,我应该将数据分成训练/验证/
测试
吗?
、
、
、
、
我正在做一个项目,我完成了数据预处理,我找到了一篇文章,其中说
特征
缩放和
特征
选择应该在分割数据之后进行,还有一些文章说应该在此之前完成。我还找到了一篇文章,建议先拆分数据,然后再对其进行预处理。
浏览 0
提问于2022-10-17
得票数 0
2
回答
特征
标度的均值和方差
、
、
、
、
许多人使用训练集的均值和方差来规范
测试
集,而不是计算
测试
集的均值和方差并使用它们。这么做不危险吗?如果没有,为什么?
浏览 0
提问于2018-02-03
得票数 3
2
回答
为什么不对全部数据使用Scaler.fit_transform呢?
在sklearn中,我正在使用MinMaxScaler对数据进行规范化。下面的例子是使用scaler = MinMaxScaler() X_test_scaled = scaler.transform(X_test) 现在我想知道为
浏览 0
提问于2018-05-04
得票数 2
回答已采纳
2
回答
是否应该在列车
测试
拆分之前或之后进行
特征
选择?
、
、
事实上,
有
两个事实是矛盾的,这两个事实是这个问题的可能答案: 传统的答案是在拆分后进行,因为如果在
测试
集之前进行,则可能会出现
信息
泄漏
。矛盾的回答是,如果只使用从整个数据集中选择的训练集进行
特征
选择,那么
特征
选择或
特征
重要性评分顺序可能会随着random_state的Train_Test_Split的变化而动态变化。如果任何特定工作的
特征
选择发生变化,那么就无法进行
特征
重要性的泛化,这是不可取的。其次,如果只使用训练集进行
浏览 0
提问于2019-05-25
得票数 21
2
回答
机器学习学习如何在未来的数据
分布
上做好工作?
、
目前使用的许多机器学习模型(SVMs、G灌树、DNN)都是在以下假设下工作的:培训、验证和
测试
数据集共享相同的
分布
。在某种程度上,如果
分布
不同,但不存在很大差异,它们就可以工作。在这里,“可以工作”意味着它们的工作是次最优的(即,如果
分布
相同,它们可以更好地工作),而不是说它们背后的理论应该处理w/ /
分布
的差异,并且可以像“钉住它”那样处理它们。因此,我的问题是:是否
有
基于数据集实际上正在经历一系列
分布
变化的假设进行预测的工作?一个疯狂的想法是观察
浏览 0
提问于2017-04-25
得票数 2
回答已采纳
2
回答
堆叠:使用对训练或
测试
的预测来创建一级分类器的特性。
、
、
、
在叠加中,0级模型的预测被用作训练1级模型的
特征
。这个推理正确吗?
浏览 0
提问于2022-09-26
得票数 2
回答已采纳
1
回答
或者为什么简历和
测试
集之间会出现差异?
、
更确切地说,我
有
大约两百万的观测数据,
有
100个变量(n>>p)。我把数据随机分成80/20列车和
测试
。然后,我在训练集上用5倍交叉验证来拟合一个模型(即XGboost),估计的错误率很低。-- 这里(请原谅我也发了同样的问题这里。)编辑:我得到了“交叉验证中的达西德”的一个有趣的推荐。他说, 有时,在特性工程中,您必须小心避免培训和
测试</
浏览 0
提问于2017-03-01
得票数 9
2
回答
测试
数据显示100%准确率
、
、
9304 Accuracy: 1.0 尽管train_test_split随机划分训练和
测试
数据,除此之外,我还使用了sklearn.utils shuffle,但我仍然可以100%准确地处理
测试
数据。
浏览 48
提问于2020-01-17
得票数 0
2
回答
更新列车/val/
测试
集
、
、
、
最好的做法是在数据科学/机器学习项目开始时将数据分割成一个训练和
测试
集(然后将您的训练集进一步划分为一个用于超参数优化的验证集)。如果发现您的火车集中的
分布
与您的
测试
集不一样,那么可能有一个组完全缺少
测试
集,或者一个组在
测试
集中被过度表示--例如,您做什么?这是一个问题,在了解到在两个集合中的
分布
是不同的,以重新计算您的培训和
测试
集?实际上,这必须是可以的,而且您并不总是预先知道集合中的
分布
是
有
代表性的。然而,这是一种数据<
浏览 0
提问于2021-12-17
得票数 1
1
回答
文本增强应该在拆分数据集之前还是之后进行?
、
、
、
我
有
一个包含20000个样本的文本数据集(这还不够)。在将整个数据集分割为训练和
测试
数据集之前,我就这样做了。我应该只为训练数据集这样做吗?根据所给出的答案,我
有
一个后续问题:仅在列车数据集上执行增强操作文本编码模型拟合数据我想我的问题是关于第三步,它是否正确地按上述顺序排列?
浏览 0
提问于2021-12-29
得票数 1
回答已采纳
1
回答
连续变量的x-平方
、
、
当我选择
特征
来训练一个
有
监督的ML模型时,我使用气平方来确定
特征
的重要性。我为特性/目标创建了一个应急表,并将这个应急表输入到scipy.stats.chi2_contingency模块中。具体来说,我相当肯定,一个持续的
特征
,年龄,是相关的目标,在一定程度上的意义。通过绘制直方图和KDEs,我知道(target = 0)
特征
的概率
分布
与目标( 1)的概率
分布
有
很大不同。然而,当我将年龄
特征
放入2-7个垃圾箱中时,x-平方<
浏览 0
提问于2018-06-04
得票数 0
回答已采纳
1
回答
我可以在整个数据集上使用StandardScaler()吗,或者我应该在列车和
测试
集上分别计算吗?
、
、
、
、
我正在为大约100个连续的
特征
和一个连续的标签开发一个SVR。scaler.fit_transform(features) features.columns = df_columnsX_train, X_test, y_train, y_test = train_test_split(scaled_df, target,但我注意到,其他人并不适合将Sta
浏览 16
提问于2021-03-05
得票数 0
回答已采纳
1
回答
测试
和列车组中的
特征
工程(组合数据或列车和
测试
分开)
、
、
背景:作为预测分析的一部分,我得到了一个训练和
测试
数据集。训练数据和
测试
数据都有数值和分类预测变量,另外,训练数据有一个数值目标变量。目的是在
测试
中预测目标。问题:在组合数据集train+test上生成特性更好,还是在训练数据集和
测试
数据集中单独生成特性更好? 当一个分类变量的
分布
在火车和
测试
中不同时,会有什么影响?当它们相似时会发生什么?
浏览 0
提问于2018-06-05
得票数 1
2
回答
用独立t检验分析非正态
分布
的A/B检验结果。
、
、
我
有
一组A/B
测试
的结果(一个对照组,一个
特征
组),这些结果不符合正态
分布
。事实上,这种
分布
更接近于兰道
分布
。我认为独立的t检验要求样本至少近似正态
分布
,这使我不敢使用t检验作为一种有效的显着性检验方法。 但我的问题是:在什么时候才能说t检验不是一种很好的显着性
测试
方法?或者换句话说,如果只给出数据集,如何才能确定t检验的p值
有
多可靠?
浏览 0
提问于2014-08-04
得票数 15
回答已采纳
1
回答
特征
选择的卡方
分布
、
、
在一个关于ML的论文中,我看到卡方
分布
被用来减少特性的数量。在那篇论文中,
特征
是词。这篇论文是关于情感分析的,所以我们
有
“积极”、“否定”和“中性”的范畴。例如,如何处理“好”这个词作为一个功能?从
特征
集合中排除某些
特征
意味着什么,因为在这篇文章中,我们提到了其中的n个与顶部的奇方。
浏览 0
提问于2018-03-04
得票数 1
回答已采纳
1
回答
如何使用功能工具防止数据
泄漏
、
、
我喜欢特性工具,但是我很难把它应用到我的数据科学工作流程中,因为我担心数据
泄漏
。我认为防止这种情况的方法是对训练集进行深度的
特征
综合,然后将适当的值加入到
测试
集中,并且只对训练集中不存在的类别组计算特性。 是否
有
更合适的方法来处理
泄漏
?
浏览 0
提问于2018-04-07
得票数 1
回答已采纳
1
回答
Catboost和随机森林等分类算法如何解析
测试
数据?
、
、
、
我的具体问题是,假设我
有
一个具有一定
分布
的高信号连续
特征
,并根据一些训练数据训练一个模型,它为该
特征
找到最佳的分割点。当我在
测试
数据上使用该模型时,它会根据特定的数字或
分布
来拆分吗?当涉及到
测试
数据时,它会根据百分位数或数字10进行拆分吗?我希望这是明确的。
浏览 0
提问于2021-03-17
得票数 0
1
回答
logistic回归中的
特征
取值范围
、
、
、
、
我们知道这是一种
有
监督的方法,需要在训练和
测试
数据中计算
特征
值。
有
六个特性。尽管函数产生的这些
特征
的值是不同的,并且它们的最大值可以是1,但有四个
特征
(在训练和
测试
数据中)的值非常低。因此,这些
特征
的值彼此非常接近。其他
特征
呈正态
分布
(范围在0到0.9之间)。因此,这两种
特征
之间的差异很大,我认为这给logistic回归的学习过程带来了麻烦。我说的对吗?!
浏览 0
提问于2016-02-06
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券