腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
不平衡的
数据
:
过
采样
还是
过
采样
?
、
、
、
、
作为处理不平衡
数据
的一种策略,我选择了抽样技术。但我不知道该怎么做:低估我的多数阶级,
或
过度抽样代表较少的阶层。如果有人有建议?附注:我
使用
滑雪板上的随机森林算法。
浏览 2
提问于2017-05-29
得票数 1
回答已采纳
1
回答
使用
Weka
对
数据
集
进行
欠
采样
或
过
采样
您好,我正在
使用
Weka
框架来执行
数据
挖掘任务。我的
数据
集
高度不平衡。Once类由1463个标签组成,其他类由104个标签组成。如果我在样本下,较高的类数变为104,变量总数将变为208。在这种情况下,最适合
使用
的选项是什么。 ?
浏览 81
提问于2019-05-26
得票数 0
1
回答
在smote之后调整预测概率
、
、
、
我有一个不平衡的
数据
集
,我
使用
smote
对
少数类
进行
过
采样
,而对多数类
进行
欠
采样
。现在,我想
使用
模型的predict_proba检查测试AUC。2.我如何校正它(
欠
采样
和
过
采样
的组合!)
浏览 40
提问于2019-11-22
得票数 0
1
回答
weka
上烟尘与
欠
采样
的组合
、
、
根据chawla等人(2002)撰写的论文,平衡
数据
的最佳效果是将
欠
采样
与平滑相结合。在
weka
有重
采样
,以减少多数阶级。在重
采样
的biasToUniformClass中有一个属性--是否
对
一个统一的类
使用
偏向。值0使类分布保持原样,值1确保类分布在输出
浏览 4
提问于2015-01-14
得票数 2
2
回答
用smote和OSS解决多类不平衡分类问题
、
、
为此,我
使用
SMOTE表示
过
采样
,而OSS用于
过
采样
.但我有一个疑问,因为我正在研究多类,所以我必须把它转换成二进制分类。所以我们可以用OVA/OAA来转换它。那么,如何
使用
OVA/OAA同时
对
同一
数据
集
进行
过
采样
和
欠
采样
?
浏览 0
提问于2019-01-28
得票数 2
1
回答
有没有办法在sci-kit学习交叉验证中定义我想要的每个标签的分数?
、
、
我已经编写了一个简单的Python脚本,它
使用
sklearn.neural_network.MLPClassifier和sklearn.model_selection.GridSearchCV
对
二进制分类
数据
进行
预测,每个点都被标记为0
或
1。我
对
训练
数据
的交叉验证得分是85-90%,但当我在测试集中运行代码时,得分低于40%。我想过的一个解决办法是,我可以尝试设置GridSearchCV来拆分
数据
,以便每个训练/验证
集
具有与
浏览 15
提问于2020-05-28
得票数 0
回答已采纳
3
回答
200多个类中高度不平衡的
数据
集
、
、
、
我有一个文本
数据
集
,在这里,我需要训练一个分类器来将标题分类。
数据
集
形状超过575000。这里有256个目标类。问题是
数据
集
是高度不平衡的。为了处理不平衡的
数据
集
,
对
多类(比如3类)
进行
过
采样
和
欠
采样
。但在我的例子中,有256个类。如何在这种情况下对
数据
集
进行
采样
?如何以一种
浏览 0
提问于2019-09-28
得票数 2
1
回答
使用
pytorch python的
欠
采样
和
过
采样
的不平衡分类
、
、
、
我想一起
使用
过
采样
和
欠
采样
技术我有6个类,样本数如下:类0 250000类1 48000类2 40000类3 38000类4 35000类5 7000我想
使用
smot来使所有类平衡且大小相等类0 40000类1 40000类2 40000类3 40000类4 40000类5 40000我知道如何
对
所有
数据
进行
过
采样
或
欠
采样
,但如何将它们与多类分类一起
使用<
浏览 124
提问于2021-08-24
得票数 0
1
回答
应用
欠
采样
技术训练和测试
数据
、
我知道,如果您执行某种转换,并且
使用
fit(),那么您必须同时转换()训练
集
和测试
集
。 假设您对培训
数据
应用了有针对性的
欠
采样
技术(如TomekLinks ),以使模型能够更好地识别\单独的类。问题:如果要
使用
该模型
对
测试
集
进行
预测,是否也
对
测试
集
执行相同的
欠
采样
技术,还是仅在培训
集
上
使用
欠
<
浏览 0
提问于2021-11-04
得票数 1
回答已采纳
2
回答
列车/测试分割前后信用卡欺诈检测的
欠
采样
、
、
我有一个信用卡
数据
集
,98%的交易是非欺诈,2%是欺诈.我的问题是: 我是否应该在分裂成训练和测试之前少
采样
,这会不会扰乱
数据
集
的分布,而不是真实世界的代表?还是上述逻辑
浏览 0
提问于2021-02-09
得票数 2
回答已采纳
1
回答
列车/试验劈开前后的
欠
采样
、
、
、
我有一个信用卡
数据
集
,98%的交易是非欺诈,2%是欺诈.我的问题是: 我是否应该在分裂成训练和测试之前少
采样
,这会不会扰乱
数据
集
的分布,而不是真实世界的代表?还是上述逻辑
浏览 3
提问于2021-02-09
得票数 2
回答已采纳
2
回答
不平衡分类问题的k-折叠CV估计测试AUC
、
、
、
、
我首先将
数据
划分为训练
集
(
数据
集
A)和测试
集
(
数据
集
B)。我已经在
数据
集
C和计算训
浏览 0
提问于2018-04-04
得票数 1
2
回答
重新
采样
查询
、
、
在
使用
sklearn.utils resample时,我有点困惑。
使用
不平衡的
数据
集
,我试图随机
对
多数类
进行
下
采样
。
浏览 28
提问于2019-12-14
得票数 1
3
回答
在
数据
集
上应用随机
过
采样
的时间
、
、
、
、
然而,当该人
进行
过度抽样时,他会在整个
数据
集
上
进行
。我知道
过
采样
只能应用于训练
数据
集
。weighted avg 0.86 0.75 0.78 1208 因此,我想知道我是否正确地将
浏览 0
提问于2022-09-05
得票数 4
1
回答
对于不平衡的
数据
集
,
使用
过
采样
技术还是
欠
采样
技术更好?
、
、
、
我有一个
数据
集
不平衡的二进制分类问题,我不知道在
欠
采样
和
过
采样
之间
使用
什么!!
浏览 16
提问于2019-10-18
得票数 0
1
回答
python中MLP分类器中的不平衡
数据
集
、
、
、
我正在处理不平衡的
数据
集
,我试图建立一个
使用
MLP分类器的预测模型。不幸的是,该算法将所有观察值从测试
集
分类到"1“类,因此分类报告中的f1评分和回忆值为0。有人知道怎么处理吗?
浏览 0
提问于2017-06-18
得票数 8
回答已采纳
1
回答
随机森林模型的训练误差小于测试误差
、
、
我正在
使用
随机森林来预测
使用
高度不平衡的
数据
集
进行
转换的倾向。目标变量的类平衡如下所示。0 0.0 1,021,095我训练的两个模型是
使用
UpSampling,然后
使用
欠
采样
。下面是我用于上
采样
和
欠
采样
的代码 train_initial, test = new_data.randomSplit([0.7, 0.3], seed = 20
浏览 3
提问于2018-11-22
得票数 1
1
回答
不平衡的学习问题-样本外与验证
、
我能够
使用
欠
采样
/
过
采样
技术来训练模型,以获得67%的验证准确率,这对于我的目的来说已经相当不错了。问题是这种性能只存在于平衡的验证
数据
上,一旦我用不平衡的
数据
对
样本外
进行
测试,它似乎就偏向于甚至类预测。我也尝试过
使用
加权损失函数,但在样本之外也没有什么乐趣。有没有好的方法来确保验证性能的转换?我曾尝试
使用
auroc成功验证模型,但同样,强大的性能仅存在于平衡验证
数据
中。
浏览 6
提问于2019-07-10
得票数 0
2
回答
不平衡
数据
集
上的GridSearch
、
、
、
我试图
使用
网格搜索为我的模型找到最佳参数。在
进行
交叉验证时,我知道必须执行Nearmise
欠
采样
方法,在
使用
交叉验证之前,我是否应该将网格搜索与我的低
采样
数据
集
(无论在抽样技术下是哪种
数据
集
)
或
我的整个培训
数据
集
(整个
数据
集
)
进行
匹配?
浏览 0
提问于2021-02-16
得票数 0
1
回答
列车试验分裂后不平衡
数据
的
欠
采样
、
、
我是机器学习的新手,目前正在从事一个
数据
不平衡的项目。我想用随机抽样来平衡
数据
。我很困惑是应该在测试列车分裂后
进行
欠
采样
,还是应该先
进行
欠
采样
,然后再
进行
列车测试分割?2.将X_train和y_train合并为一个
数据
集
,
进行
欠
采样
。3.在
欠
采样
后,
进行
了基于F1评分的交叉验证和模型选择,并利
浏览 1
提问于2020-05-22
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
过采样与欠采样技术原理图解:基于二维数据的常见方法效果对比
机器学习中的数据不平衡解决方案大全
处理不平衡数据的技巧总结
机器学习中样本不平衡处理办法
处理不平衡数据的技巧总结!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券