腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
用
smote
和OSS解决
多
类
不平衡分类问题
、
、
我试图解决一个
多
类
不平衡
的
分类问题。为此,我使用
SMOTE
表示
过
采样
,而OSS
用于
过
采样
.但我有一个疑问,因为我正在研究
多
类
,所以我必须把它转换成二进制分类。所以我们可以用OVA/OAA来转换它。那么,如何使用OVA/OAA同时对同一
数据
集
进行
过
采样
和欠
采样
?
浏览 0
提问于2019-01-28
得票数 2
0
回答
用于
过
采样
多
类
数据
集
的
Smote
我试图使chawla等人2002年描述
的
Smote
技术在下面的链接中描述到一个只有一个级别
类
的
数据
集
,这是不可能
的
,因此,我认为将我
的
数据
集
分割为
用于
过
采样
的
数据
集
,称为Dataover,包含所有要
过
采样
的
类
,并创建一个称为dataunde
浏览 2
提问于2017-12-06
得票数 0
1
回答
在Scikit-learn中使用
Smote
和Gridsearchcv
、
、
、
、
我正在处理一个不平衡
的
数据
集
,并希望使用scikit
的
gridsearchcv进行网格搜索来调整模型
的
参数。为了对
数据
进行
过
采样
,我想使用
SMOTE
,我知道我可以将其作为管道
的
一个阶段,并将其传递给gridsearchcv。我担心
的
是,我认为
smote
将同时应
用于
训练和验证折叠,这不是你应该做
的
。不应对验证
集
进行
过</e
浏览 0
提问于2018-05-09
得票数 27
回答已采纳
1
回答
not NC无助于对我
的
混合连续/分类
数据
集
进行
过
采样
。
、
、
当我使用
SMOTE
对四
类
分类问题中
的
三
类
进行
过
采样
时,针对少数
类
的
Prec、Recall和F1度量仍然很低(~3%)。我
的
数据
集中有32个分类变量和30个连续变量。此外,在进行
过
采样
处理之前,我将使用Iterativeimputer计算所有缺失
的
值。 关于分类器,我使用
的
是logistic回归,随机森林和XGboost。能告诉我你对这个
的
浏览 0
提问于2019-08-09
得票数 0
3
回答
Smote
无法进行
过
采样
我刚刚使用DMwR包中包含
的
Smote
在我
的
数据
集中进行了
过
采样
。例如,样本号24显示为24.1、24.2和24
浏览 5
提问于2014-06-08
得票数 2
2
回答
如何在文本分类中应用
SMOTE
?
、
、
合成少数群体
过
采样
技术(
SMOTE
)是一种
用于
非平衡
数据
集
问题
的
过
采样
技术。到目前为止,我已经知道如何将其应
用于
一般
的
结构化
数据
。但是,它能应
用于
文本分类问题吗?您需要对哪些部分
的
数据
进行
过
采样
?
浏览 0
提问于2018-02-10
得票数 25
1
回答
Scikit学习具有预定义
类
数
的
拟合估计器
、
、
、
因此,我需要使用scikit learn中
的
一些估计器,即LogisticRegression和SVM,但我有一个问题,我有一个非常不平衡
的
数据
集
,需要运行Kfold交叉验证。问题是,有时我要拟合
的
折叠层只能有一个可用
的
目标
类
。无论如何,感谢您
的
宝贵时间。 编辑: StratifiedF
浏览 2
提问于2017-02-22
得票数 0
1
回答
在
smote
之后调整预测概率
、
、
、
我有一个不平衡
的
数据
集
,我使用
smote
对少数
类
进行
过
采样
,而对多数
类
进行欠
采样
。现在,我想使用模型
的
predict_proba检查测试AUC。2.我如何校正它(欠
采样
和
过
采样
的
组合!)
浏览 40
提问于2019-11-22
得票数 0
1
回答
过度
采样
只会平衡培训
集
,那么测试
集
呢?
、
、
在
数据
分类不平衡
的
情况下,我知道我们只是
过
采样
了培训
集
(以防止
数据
从培训到测试子集
的
泄漏),但是如果我
的
测试集中没有正
数据
点怎么办?测试
集
仍然非常偏斜,只有我
的
阳性
类
的
1%。同时,我也尝试过使用
SMOTE
、
SMOTE
和Class_weight来对我
的
训练
集
进行
过
采样<
浏览 0
提问于2019-08-20
得票数 2
回答已采纳
1
回答
针对具有分类和数值
数据
的
二进制分类器
的
SMOTE
vs
SMOTE
-NC
、
、
、
、
我
的
y是0或1(真或假)。我有分类和数字
的
特点,所以理论上,我需要使用
SMOTE
-NC而不是
SMOTE
。然而,我得到了更好
的
结果与打击。我复制了我
的
示例代码(x和y在清理之后,包括BinaryEncoder)。_train, X_val, y_train, y_val = train_test
浏览 0
提问于2019-09-24
得票数 6
回答已采纳
1
回答
如果我随机抽样培训
数据
,我应该如何取样我
的
验证
集
?
、
我有: 在每个时代,我随机抽样,没有替换10k
数据
点进行训练,因为我摆脱了Mem错误。随机抽样验证
集
,为10k
的
x%,并在每个时代使用相同
的
集
。 随机抽样验证
集
,每一时期为10k
的
x%。
浏览 0
提问于2020-11-11
得票数 0
1
回答
SMOTE
如何处理仅包含范畴变量
的
数据
集
?
、
、
、
、
我有一个977行
的
小
数据
集
,类比例为77:23。我
的
输入变量本质上是绝对
的
。下面是我试过
的
。假设我们没有age和salary信息( b)分成火车
浏览 0
提问于2022-02-20
得票数 6
回答已采纳
2
回答
如何在不膨胀
的
情况下正确地使用过
采样
?
、
、
、
、
我使用
的
是一个小型
的
私有
数据
集
(超过192个样本)和4个
类
。为了进行任何分类,预处理步骤都是微不足道
的
。在特征选择和提取技术中,我决定采用过
采样
(
SMOTE
)。以下是我所做
的
:使用
SMOTE
为每个
类
创建合成样本,因此我总共得到500个每个
类
的
样本(总计2000)。我对这个程序有很大
浏览 0
提问于2021-04-07
得票数 1
2
回答
如何在机器学习
数据
集中打击不平衡
的
类
、
、
我想用深度学习算法对5个不同
的
对象进行分类。我计划使用迁移学习。对于两个
类
,我有超过2000个
数据
集
,并且可以收集更多。然而,对于另外3个班级,我每个班级总共只有300个。例如,假设我们有一个二进制
类
“非欺诈”和“欺诈”
类
。绝大多数交易将属于“非欺诈”类别,极少数交易将属于“欺诈”类别。 PS。如果我可以使用其中一个大小
的
数据
集
作为一个
类
,而其余
的
作为另一个
类
,那么这个问题就可以变
浏览 28
提问于2019-09-09
得票数 1
2
回答
SMOTE
过
采样
和交叉验证
、
、
我正在Weka中解决一个二进制分类问题,
数据
集
高度不平衡(一个类别90%,另一个类别10% )。我首先将
SMOTE
()应
用于
整个
数据
集
,以平衡类别,然后对新获得
的
数据
执行10倍交叉验证。乐观
的
结果,F1在90%左右。 这是由于
过
采样
造成
的
吗?对应用了
SMOTE
的
数据
执行交叉验证是不是不好
的
做法?有什么办法可以
浏览 2
提问于2015-08-06
得票数 5
1
回答
PySpark流水线中
的
交叉验证
过
采样
、
、
、
、
我正在一个PySpark二进制分类管道上工作,我想在其中使用过
采样
阶段执行CrossValidation (我
的
数据
集
不平衡)。问题是
过
采样
阶段也是在测试
数据
集
上执行
的
。管道:
smote
是我希望在转换测试
数据
集
时跳过<em
浏览 1
提问于2019-11-16
得票数 1
5
回答
scikit学习
的
不平衡
、
问题是我
的
数据
集
存在严重
的
不平衡问题。 有没有人熟悉scikit-learn或python中不平衡
的
解决方案?在Java中有
SMOTE
机制。在python中有类似的东西吗?
浏览 1
提问于2013-02-25
得票数 40
1
回答
非图像
数据
的
测试
集
可以扩充吗?
、
、
我已经了解到,图像
数据
的
测试
集
可以通过一种名为Test Time Augmentation
的
方法进行扩充提前谢谢你
浏览 1
提问于2019-07-01
得票数 0
2
回答
利用Pandas DataFrame进行不平衡学习
、
、
、
、
我
的
数据
集
非常不平衡。两个少数
类
各包含多数
类
中
的
一半样本。我
的
RNN模型无法了解人口最少
的
类
。sm =
SMOTE
(random_state=42, n_jobs=-1, k_neighbors=10) X_train, y_train = sm.fit_resample(train.drop(['label], axis=1), train[
浏览 0
提问于2019-09-02
得票数 4
回答已采纳
2
回答
如何在交叉验证中使用过
采样
的
数据
?
、
、
、
我有一个不平衡
的
数据
集
。我正在使用
SMOTE
(合成少数人抽样技术)来执行
过
采样
。在执行二进制分类时,我在这个
过
采样
的
数据
集
上使用10倍交叉验证。然而,我最近研究了这篇文章;提到在交叉验证期间使用过
采样
数据
集
是不正确
的
,因为它会导致性能评估过于乐观。 我要验证正确
的
方法/过程,即在交叉验证中使用过<e
浏览 2
提问于2018-03-27
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
处理不平衡数据的过采样技术对比总结
过采样与欠采样技术原理图解:基于二维数据的常见方法效果对比
机器学习:处理不平衡数据的5个重要技术
当训练样本不平衡时还怎么学习
不平衡数据下的机器学习(上)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券