腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
是否可以为GridSearchCv设置
拆分
策略?
scikit-learn
、
hyperparameters
、
gridsearchcv
因为我所处理的
数据
是非常
不平衡
的,所以我需要“选择”算法分割训练/测试
集
的方式,以确保在这两个集合中都存在代表不足的点。通过阅读scikit的文档,我认为为GridSearch设置
拆分
策略是可能的,但我不确定是如何实现的,也不确定是否如此。 如果有人能帮我做这件事,我将非常感激。
浏览 19
提问于2021-12-08
得票数 0
1
回答
指定在
使用
sklearn中的train_test_split时类中的最大项目数
python
、
scikit-learn
、
scipy
我正在处理高度
不平衡
的
数据
集
,并
使用
来自
sklearn.model_selection
的train_test_split 我在这个
数据
集中有10000个项目,类的比率大约是10/2/2/1,我要寻找的是一种平衡train
拆分
的方法,当最大的类达到最大数量时,我希望停止向其添加元素。有没有可能限制项目的数量,我知道
拆分
后可以删除多余的项目,但我想知道是否有这样的选项?
浏览 1
提问于2018-09-05
得票数 0
1
回答
使用
sklearn.model_selection
拆分
不平衡
数据
集
python
、
machine-learning
、
scikit-learn
、
dataset
我
使用
以下代码将我的
数据
集
分割为训练/val/测试
集
。from
sklearn.model_selection
import train_test_split train_test_splitX_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5, random_state=42) 问题是我的<e
浏览 11
提问于2019-05-07
得票数 0
回答已采纳
2
回答
是什么使验证集成为测试
集
的良好代表?
python
、
scikit-learn
、
cross-validation
、
class-imbalance
我正在开发一个
使用
不平衡
数据
集
的分类模型。我试图
使用
不同的抽样技术来提高模型的性能。我从以前的一个问题中了解到,
数据
从训练
集
泄漏到验证
集
,在
拆分
数据
之前对
数据
进行过采样可能会导致这种情况。但还有其他明显的原因吗?有些分类问题可能在目标类的分布上表现
浏览 0
提问于2020-09-29
得票数 0
回答已采纳
1
回答
在Keras中,
使用
validation_split (在"fit“方法中)和model.evaluate函数之间的最佳选择是什么?
python
、
tensorflow
、
keras
在Keras中,有两种方法(至少)来分割
数据
和显示丢失/准确性: 在Keras函数中,有一个validation_split选项,允许将
数据
集
拆分
为训练和测试
集
,并在培训期间显示丢失/准确性值。
拆分
数据
的另一种方法是在代码开始时将其
拆分
(例如
使用
train_test_split函数),
使用
培训
集
对
数据
进行培训,然后
使用
model.evalu
浏览 0
提问于2021-02-08
得票数 0
回答已采纳
3
回答
对于分类问题,对
数据
集
进行分割的正确步骤是什么?
python
、
machine-learning
、
lstm
、
train-test-split
我有一个大小为(302, 100, 5)的
数据
集
,(95,100,5)属于class 1.我想
使用
LSTM执行分类(从,序列
数据
) 由于这些类没有相同的分布
集
,我如何分割用于培训的
数据
集
?选项2 :将两个类
数据
集
平分[(95,100,5) - class 0 & (95,100,5) - class 1],对其进行洗牌,train_test_split,继续训练。For refere
浏览 0
提问于2019-07-22
得票数 0
回答已采纳
1
回答
不平衡
数据
集
分类的步骤是什么?
python
、
machine-learning
、
classification
我想
使用
SVM、随机森林和深度神经网络(DNN)对两个不同的
数据
集
进行分类。我的一个
数据
集
是平衡的,另一个
数据
是高度
不平衡
的。下面是我的
数据
集
的图像,它对于分类是
不平衡
的。 ? 我想要比较用于这两个
数据
的所有机器学习的分类结果。哪个
数据
集
产生更好的分类结果。对于平衡
数据
集
,我没有问题,因为可以正常处理它,但对于
不平
浏览 20
提问于2019-04-12
得票数 0
1
回答
scikit学习的训练-测试分离导致在训练
数据
中只有一个唯一值的特征
pandas
、
scikit-learn
、
linear-regression
、
train-test-split
我有一个名为'main‘的
数据
集
。该
数据
集中类别变量很少。我简化了分类变量。假设虚拟后得到的列是A、B、C、D等。现在,当我试图在这个主
数据
集
上运行训练测试
拆分
时,这样获得的训练
数据
集
在其中一列中只有0值。我怎样才能克服这个问题。我
使用
的代码是: 对于训练-测试
拆分
: from
sklearn.model_selection
import train_test_split np.rand
浏览 7
提问于2019-01-24
得票数 1
2
回答
train_test_split在分层
数据
上未按预期工作
python
、
machine-learning
、
scikit-learn
我试图以分层的方式
拆分
我的
数据
。我认为来自sklearn的train_test_split在
不平衡
的
数据
集
上不能以预期的方式工作。下面是一个示例: from
sklearn.model_selection
import train_test_split y = [7我是不是缺少了一些东西来正确地进行这种
拆分
?
浏览 12
提问于2019-04-05
得票数 1
1
回答
分层训练/测试
拆分
,保证包含强
不平衡
数据
集
上的小类
python
、
scikit-learn
、
train-test-split
我正在处理大规模的、
不平衡
的
数据
集
,其中我需要选择一个分层的训练
集
。然而,即使
数据
集
是严重
不平衡
的,我仍然需要确保至少每个标签类至少包括在训练集中一次。下面是一个示例: import numpy as np [48 49]
浏览 32
提问于2021-01-09
得票数 0
3
回答
不平衡
数据
集
拆分
validation
、
machine-learning
、
classification
什么是
不平衡
dataset的最佳技术?如何
拆分
dataset以进行测试(在技术之前或之后)?
浏览 0
提问于2018-07-15
得票数 0
1
回答
关于
不平衡
类的辅助权值
class-imbalance
、
weighted-data
考虑一个将被
拆分
为训练和测试的
数据
集
。该模型将
使用
火车组学习,并
使用
未见测试
集
进行评估。现在,
数据
集
是
不平衡
的--它包含了更多属于特定类的示例。在这种情况下,平衡它的方法之一(除了这里提到的方法:
不平衡
数据
集
分类的训练、测试分割)是根据样本分配权重。分配权重的正确方法是什么?我是否应该在整个
数据
集
上分配权重,然后分割成训练和测试?
浏览 0
提问于2019-11-24
得票数 1
回答已采纳
1
回答
高度
不平衡
的分类步骤。我应该上采样和下采样
数据
,还是只上采样
不平衡
的类
python-3.x
、
imbalanced-data
、
smote
我有一个高度
不平衡
的二进制(是/否)分类
数据
集
。
数据
集
当前有appx 0.008% 'yes‘。我遇到了两种方法来处理这种
不平衡
。undersample)]x_scaled_s, y_s = pipeline.fit_resample(X_scaled, y) 这导致
数据
集
的
浏览 3
提问于2020-05-14
得票数 0
1
回答
如何
使用
自定义类层来学习kFold?
python
、
scikit-learn
、
cross-validation
、
k-fold
我正在阅读这篇关于如何对非常
不平衡
的
数据
集
执行适当的KFold的article。在最后一个示例中,它展示了如何将
数据
集
拆分
为2折,50/50训练/测试。这一切都很酷也很有趣。然而,我想知道如何进行
拆分
,同时还可以控制每个文件夹中的类分布,例如50/50 class0/class1 (也称为欠采样/过采样)。=8, 1=8, 有没有什么方法可以用
sklearn.model_selection
方法实现这一
浏览 9
提问于2020-04-16
得票数 0
1
回答
分列列车/准确行数测试
python
、
dataframe
、
scikit-learn
有大约6,000,000行的
数据
集
。我
使用
以下代码将
数据
集
拆分
为火车
集
和测试
集
:train, test = train_test_split(df, test_size=0.3, random_state=42) 我想要的是将测试
集
精确地
拆分
到一定数量的行上,例如,测试
集
的5
浏览 3
提问于2021-02-09
得票数 4
回答已采纳
1
回答
不平衡
数据
的首选方法
classification
、
class-imbalance
、
smote
、
imbalanced-learn
我正在建立一个目标变量
不平衡
的二进制分类模型(13%的1级和87%的0级)。我正在考虑以下三种方法来处理
数据
不平衡
Option1:创建一个平衡的训练
数据
集
,其中目标变量的分割率为50% / 50%。备选方案2:将
数据
集
采样为-is(即87% / 13%
拆分
),并
使用
过采样方法(例如SMOTE)将目标变量平衡为50% / 50%
拆分
。选项3:
使用
具有适当超参数的学习方法
浏览 0
提问于2020-04-14
得票数 1
1
回答
scikit学习CV出错
python
、
scikit-learn
、
cross-validation
当我尝试在Python中执行以下操作时但是当我尝试定义KFold时 kf=KFold(33,10, shuffle=
浏览 0
提问于2017-08-10
得票数 0
1
回答
当
使用
过抽样和简历对模型进行培训时,我是否需要
使用
AUPRC报告
不平衡
数据
集
的分类结果?
machine-learning
、
classification
、
class-imbalance
、
performance
、
imbalanced-learn
我正在研究一个二进制分类问题,其中
数据
集
有大约5%的正类样本。我
拆分
了
数据
集
,70%用于培训,30%用于测试。我只
使用
了一次测试
数据
来报告模型的性能。由于这种
不平衡
,我在培训
数据
集中
使用
了SMOTE对少数族裔类进行重采样。此外,我还根据如何提升样本、简历和网格搜索的建议,
使用
CV和网格搜索来优化模型性能,以避免
数据
泄漏。假设我正确地处理了培训过程,我想知道如何在测试
数据</
浏览 0
提问于2022-08-17
得票数 0
2
回答
不平衡
数据
集
上的GridSearch
machine-learning
、
scikit-learn
、
hyperparameter-tuning
、
imbalance
我试图
使用
网格搜索为我的模型找到最佳参数。在进行交叉验证时,我知道必须执行Nearmise欠采样方法,在
使用
交叉验证之前,我是否应该将网格搜索与我的低采样
数据
集
(无论在抽样技术下是哪种
数据
集
)或我的整个培训
数据
集
(整个
数据
集
)进行匹配?
浏览 0
提问于2021-02-16
得票数 0
1
回答
具有阈值的多输出图像分类的分割
数据
集
python
、
scikit-learn
、
split
我
使用
sklearn.model_selection
中的StratifiedShuffleSplit来
拆分
数据
集
。但它只适用于1个标签。那么,如何对两个标签进行分层
拆分
,并为每个标签中每个类别中的样本数量添加阈值?对不起,我的英语不好。from
sklearn.model_selection
import StratifiedShuffleSplit split = StratifiedShuffleSplit(n_splits=1,
浏览 0
提问于2021-10-12
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
样本不平衡数据集防坑骗指南
使用Python解析MNIST数据集
数据集进行拆分到底什么样数据算是数据标签什么样的数据算数据样本
如何在TensorFlow中高效使用数据集
使用TensorFlow对象检测接口标注数据集
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券