腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
应用
欠
采样
数据
均衡
,
设置
参数
?
、
我正在使用H2O库,我想
应用
欠
采样
数据
平衡,
设置
参数
0.8。我该怎么做呢?H2OGradientBoostingEstimator cov_gbm = H2OGradientBoostingEstimator(balance_classes = True) 但是balance_classes = True使用了一个随机
参数
我想把这个
参数
设为0.8。 如果有任何帮助,我将不胜感激。谢谢。
浏览 14
提问于2020-07-12
得票数 0
1
回答
为图表选择代表性样本的算法
、
示例:计算每10个样本的平均值的朴素算法不能很好地反映图表中的峰值。
浏览 5
提问于2012-03-18
得票数 4
回答已采纳
1
回答
应用
欠
采样
技术训练和测试
数据
、
假设您对培训
数据
应用
了有针对性的
欠
采样
技术(如TomekLinks ),以使模型能够更好地识别\单独的类。问题:如果要使用该模型对测试集进行预测,是否也对测试集执行相同的
欠
采样
技术,还是仅在培训集上使用
欠
采样
来帮助模型澄清类边界。然后将经过训练的模型
应用
于完整的测试集.
浏览 0
提问于2021-11-04
得票数 1
回答已采纳
1
回答
如何
保存随机
欠
采样
的
数据
?
、
、
我试图通过使用多数类的随机
欠
采样
来平衡
数据
帧。它已经成功了,但是,我也想将从
数据
帧(
欠
采样
)中删除的
数据
保存到一个新的
数据
帧中。我该
如何
做到这一点?这是我用来对
数据
帧进行
欠
采样
的代码 from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler(sampling_strategy
浏览 29
提问于2021-08-09
得票数 0
回答已采纳
1
回答
产生相同输出的Keras模型
、
、
我正在尝试将Keras中的一个神经网络与一个具有22个输入特性的
数据
集相匹配,以便进行二进制分类。问题是我只有195份训练样本。我知道这是一个小
数据
集,但我不知道是否有可能以合理的精度来拟合一个模型(我的目标是达到95%以上的准确性)。我遇到的问题是,我的模型只输出1并获得75%的准确性,因为我的
数据
集是75%的正案例。下面是
数据
集的链接:
浏览 2
提问于2019-09-23
得票数 0
回答已采纳
1
回答
如何
使用Python中的"imblearn“库为每个类指定精确的
欠
采样
/过
采样
数量?
、
、
、
、
我正在使用"imblearn“库进行
欠
采样
。我的
数据
集中有四个类,每个类有20、30、40和50个样本
数据
(因为它是一个不平衡的类)。选择这些样本数是为了方便地描述问题,这些样本数在实际
应用
中并不是有效的数量。 我想对每个有10个样本
数据
的类进行
欠
采样
。有没有可能我可以用"imblearn“来做呢?目前,我正在使用以下代码对每个类进行
欠
采样
,使其达到我的少数类的数量(20个样本
数据</em
浏览 28
提问于2020-06-01
得票数 1
回答已采纳
3
回答
应该在平衡
数据
集之前还是之后缩放
数据
?
、
我有3个
数据
集,每个
数据
集分成3个不同的类( 买入/持有/出售 )。我随机抽取每个
数据
集中每个类的频率到每个
数据
点10000个
数据
点。 我的问题是,在我做随机抽样之前还是之后,我应该对训练集进行缩放?我为我提供了一个平衡每个
数据
集的函数,请注意,此时
数据
已经被缩放了。
浏览 0
提问于2020-03-31
得票数 3
1
回答
在smote之后调整预测概率
、
、
、
我有一个不平衡的
数据
集,我使用smote对少数类进行过
采样
,而对多数类进行
欠
采样
。现在,我想使用模型的predict_proba检查测试AUC。2.我
如何
校正它(
欠
采样
和过
采样
的组合!)
浏览 40
提问于2019-11-22
得票数 0
1
回答
列车试验分裂后不平衡
数据
的
欠
采样
、
、
我是机器学习的新手,目前正在从事一个
数据
不平衡的项目。我想用随机抽样来平衡
数据
。我很困惑是应该在测试列车分裂后进行
欠
采样
,还是应该先进行
欠
采样
,然后再进行列车测试分割?2.将X_train和y_train合并为一个
数据
集,进行
欠
采样
。3.在
欠
采样
后,进行了基于F1评分的交叉验证和模型选择,并利用X_test、Y_test进行了预测。 我的方法正确吗?
浏览 1
提问于2020-05-22
得票数 5
1
回答
使用pytorch python的
欠
采样
和过
采样
的不平衡分类
、
、
、
我想一起使用过
采样
和
欠
采样
技术我有6个类,样本数如下:类0 250000类1 48000类2 40000类3 38000类4 35000类5 7000我想使用smot来使所有类平衡且大小相等类0 40000类1 40000类2 40000类3 40000类4 40000类5 40000我知道
如何
对所有
数据
进行过
采样
或
欠
采样
,但
如何
将它们与多类分类一起使用
浏览 124
提问于2021-08-24
得票数 0
2
回答
不平衡
数据
集上的GridSearch
、
、
、
我试图使用网格搜索为我的模型找到最佳
参数
。在进行交叉验证时,我知道必须执行Nearmise
欠
采样
方法,在使用交叉验证之前,我是否应该将网格搜索与我的低
采样
数据
集(无论在抽样技术下是哪种
数据
集)或我的整个培训
数据
集(整个
数据
集)进行匹配?
浏览 0
提问于2021-02-16
得票数 0
3
回答
Smote无法进行过
采样
我刚刚使用DMwR包中包含的Smote在我的
数据
集中进行了过
采样
。newData <- SMOTE(Score ~ ., data, k=3, perc.over = 400,perc.under=150)例如,样本号24显示为24.1、24.2和
浏览 5
提问于2014-06-08
得票数 2
3
回答
不平衡类问题
、
我有一个包含4个类的
数据
集,其实例数如下:第1类: 82第3类: 121
欠
采样
: CondensedNearestNeighbour,EditedNearestNeighbours,NeighbourhoodCleaningRule,RandomUnderSampler过度取样: SMOTE,ADASYN Class_weight:
浏览 0
提问于2017-05-04
得票数 2
1
回答
在python中使用图像
数据
进行
欠
采样
、
、
、
欠
采样
的主要思想是随机删除具有足够观察值的类别,以便两个类别的比较比率在我们的
数据
中具有显着意义。那么,
如何
在python中对图像
数据
进行
欠
采样
呢?请帮帮我:(我希望每个班级在第四个班级之后
浏览 4
提问于2020-01-11
得票数 0
3
回答
Xgboost处理不平衡分类
数据
、
我有一个大约20000个训练样本的
数据
集,我想对其进行二进制分类。问题是
数据
集严重不平衡,只有大约1000个属于正类。我正在尝试使用xgboost (in R)来做我的预测。我尝试过过
采样
和
欠
采样
,无论我做什么,不知何故,预测总是导致将所有东西归类为多数类。如果任何人对调整xgboost的学
浏览 2
提问于2016-12-05
得票数 8
回答已采纳
1
回答
在RandomUnderSampler中使用SMV 'ovo‘
、
、
、
、
我在用不平衡的
数据
集进行分类。据我所知,sklearn的SVM确实有一个decision_function_shape超
参数
,可以将其
设置
为'one兑one‘(虽然SVM默认会执行'ovo' )。由于我选择做一个低
采样
的'ovo',我感兴趣的是对'ovo'参与班级中的多数类进行下
采样
,到少数类的大小,然后再对每个'ovo'模型进行拟合。因此,在每个'ovo'模型中,多数类的
欠
<e
浏览 8
提问于2022-06-21
得票数 0
2
回答
处理多数类丢失的
数据
、
、
、
我正在使用一个不平衡(10:1)的
数据
集进行分类。我还在某些列中丢失了一些
数据
。如果我把它们全部丢弃,我仍然有5:1的比率,所以我想我有能力抛弃它们?丢弃缺少值的行,因为
数据
集已经不平衡。使用其余行进行
欠
采样
。 很抱歉问你这个问题,低年级学生。
浏览 0
提问于2021-12-18
得票数 1
1
回答
如何
使用过
采样
和
欠
采样
的组合?使用不平衡学习
、
、
、
、
我想重新
采样
一些大
数据
(类大小: 8mio vs 2700),我希望通过过
采样
类2和
欠
采样
类1来获得每个样本的50.000个样本。imblearn似乎提供了过
采样
和
欠
采样
的组合,但我不明白它是
如何
工作的。random_state=1) X_resamp, y_resamp = smt.fit_resample(data_all[29000:30000], labels_all[29000:30000]) 在
数据
看起来
浏览 27
提问于2019-10-12
得票数 1
回答已采纳
1
回答
欠
采样
条件下高度不平衡
数据
的交叉验证
、
、
、
、
在我的问题中,我处理的是一个高度不平衡的
数据
集,比如每一个正面类都有10000个负值。一种正常的训练模型的方法是对
数据
进行
欠
采样
。在这一过程中,对我们的模型进行低
采样
数据
的训练,并检查模型对保留的评估(从原始
数据
-不
欠
采样
)是非常重要的。 现在同性恋来了。交叉验证实际上将
欠
采样
的列车组分割成K段,并将其中一个折叠作为测试集(现在是
欠
采样
的测试集)。我认为对于模型评
浏览 0
提问于2019-02-04
得票数 12
回答已采纳
2
回答
科学中的平衡随机森林-学习(巨蟒)
、
、
在
数据
不平衡的情况下使用BRF。它的工作原理是正常的RF,但是对于每次引导迭代,它通过
欠
采样
来平衡流行类。例如,给定两个类N0 = 100和N1 =30个实例,在每个随机抽样时,它从第一类抽取30个实例(用替换),从第二类抽取相同数量的实例,即在平衡
数据
集上训练一棵树。有关更多信息,。RandomForestClassifier()确实具有'class_weight=‘
参数
,该
参数
可能被
设置
为'balanced',但我不确定它是否与引导训练
浏览 6
提问于2016-11-12
得票数 13
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券