腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
通
过过
采样
来
解决
时间
序列
数据
中
的
类
不平衡
问题
?
python
、
pandas
、
classification
、
oversampling
我有一个每小时频率
的
时间
序列
和每天
的
标签。我想通
过过
采样
来
修复
类
的
不平衡
,同时保留每一天
的
序列
。理想情况下,我可以使用ADASYN或其他比随机过
采样
更好
的
方法。下面是
数据
的
样子: import pandas as pdfrom datetime import dateti
浏览 46
提问于2019-02-02
得票数 1
3
回答
Xgboost处理
不平衡
分类
数据
r
、
xgboost
我有一个大约20000个训练样本
的
数据
集,我想对其进行二进制分类。
问题
是
数据
集严重
不平衡
,只有大约1000个属于正
类
。我正在尝试使用xgboost (in R)
来
做我
的
预测。我尝试
过过
采样
和欠
采样
,无论我做什么,不知何故,预测总是导致将所有东西归类为多数
类
。 我试着阅读了这篇关于
如何
在xgboost
中
调优参数
的
文章。但它只提到了
浏览 2
提问于2016-12-05
得票数 8
回答已采纳
1
回答
如何
解释用非常好到完美的结果替换过
采样
?
machine-learning
、
resampling
、
precision-recall
我有非常
不平衡
的
数据
(100:1),其中1部分是我感兴趣
的
(少数)
类
。我听说
过过
采样
(在其他技术
中
)是一种“处理”
不平衡
数据
的
方法。因此,我所做
的
是通过以一定
的
比率(例如,2:1)替换重
采样
来
对少数
类
进行过
采样
。然后我将这个新形成
的
(重新)样本分成训练集和测试集,性能大大提高
浏览 2
提问于2016-03-01
得票数 0
3
回答
在Auto-Sklearn
中
处理多
类
分类
的
不平衡
数据
集
的
最佳方法
python
、
machine-learning
、
scikit-learn
、
multiclass-classification
我正在使用Auto-Sklearn,并且有一个包含42个严重
不平衡
的
类
的
数据
集。处理这种
不平衡
的
最好方法是什么?据我所知,在机器学习
中
存在两种处理
不平衡
数据
的
方法。要么使用重
采样
机制,如过
采样
或欠
采样
(或两者
的
组合),要么在算法级别上通过选择需要深入了解Auto-Sklearn中使用
的
算法
的
归
浏览 2
提问于2020-02-21
得票数 2
2
回答
再论Logistic回归
classification
、
logistic-regression
我正在开发一个
数据
集,它有一个二元变量,但包含98%
的
0's和2%
的
1's,我试图用Logistic回归来预测产品
的
购买。但由于0's人数众多,模型预测效果不佳,得到了大量
的
假阳性结果。请建议我
如何
处理这件事。
浏览 0
提问于2018-03-12
得票数 0
回答已采纳
2
回答
具有子类
的
过
采样
数据
machine-learning
、
classification
、
training
、
class-imbalance
过度
采样
代表不足
的
数据
是消除阶级
不平衡
的
一种方法。例如,如果我们有一个由A
类
100个
数据
点和B
类
1000个
数据
点组成
的
训练
数据
集,我们可以对100 A
数据
进行过
采样
(可能采用一些复杂
的
过
采样
方法)来生成1000 A
数据
,以缓解
数据
的
不平衡
。现在,假设我们有1
浏览 0
提问于2019-04-01
得票数 2
2
回答
不超过(/under)
采样
不平衡
的
数据
集会引起
问题
吗?
classification
、
class-imbalance
、
imbalanced-data
我阅读了很多关于
如何
专门为
不平衡
的
数据
集使用不同
的
度量(例如,存在两个
类
,但80%
的
数据
是一个
类
),以及
如何
处理
不平衡
数据
集
的
问题
。一个技巧是过
采样
,因此获取更多(甚至重复一些)属于未充分表示
的
类
的
数据
。我尝试过这一点,并取得了更好
的
结果(
浏览 0
提问于2021-04-29
得票数 5
回答已采纳
2
回答
用smote和OSS
解决
多
类
不平衡
分类
问题
multiclass-classification
、
class-imbalance
、
smote
我试图
解决
一个多
类
不平衡
的
分类
问题
。为此,我使用SMOTE表示过
采样
,而OSS用于过
采样
.但我有一个疑问,因为我正在研究多
类
,所以我必须把它转换成二进制分类。所以我们可以用OVA/OAA
来
转换它。那么,
如何
使用OVA/OAA同时对同一
数据
集进行过
采样
和欠
采样
?
浏览 0
提问于2019-01-28
得票数 2
1
回答
PySpark流水线
中
的
交叉验证过
采样
python
、
pyspark
、
cross-validation
、
oversampling
、
smote
我正在一个PySpark二进制分类管道上工作,我想在其中使用过
采样
阶段执行CrossValidation (我
的
数据
集
不平衡
)。
问题
是过
采样
阶段也是在测试
数据
集上执行
的
。我查看了spark文档和源代码,没有办法跳过PipelineModel
中
的
一个阶段。我
的
解决
方案是覆盖原始
类
的
_transform方法,以便跳过卵子
采样
阶段。当
浏览 1
提问于2019-11-16
得票数 1
3
回答
200多个
类
中高度
不平衡
的
数据
集
machine-learning
、
multiclass-classification
、
class-imbalance
、
sampling
我有一个文本
数据
集,在这里,我需要训练一个分类器
来
将标题分类。
数据
集形状超过575000。这里有256个目标
类
。
问题
是
数据
集是高度
不平衡
的
。考虑目标值计数是按递减顺序排列
的
。 为了处理
不平衡
的
数据
集,对多
类
(比如3
类
)进行过
采样
和欠
采样
。但在我
的
例子
中
,有256个
类<
浏览 0
提问于2019-09-28
得票数 2
1
回答
支持向量机SVC:
不平衡
数据
参数优化
的
度量
classification
、
svm
、
class-imbalance
、
libsvm
我在一个向下
采样
(因此也是平衡
的
)
数据
集上训练了一个带有RBF核
的
多
类
SVC。现在我想执行网格搜索,以找到最佳
的
成本和伽马。我有一个高度
不平衡
的
测试集。不同类
的
实例数之间可能存在超过100
的
因素。我是分类
的
3D点(汽车,外观,人类)-所以我认为一个人可以分配同等
的
重量,所有的类别。
浏览 0
提问于2020-02-22
得票数 0
回答已采纳
1
回答
对于XGBoost来说,处理
不平衡
数据
的
最佳方法是什么?
classification
、
r
、
xgboost
、
multilabel-classification
、
class-imbalance
处理
类
不平衡
数据
的
方法有很多,如过
采样
、过
采样
、改变成本函数等。machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ 这是关于他们所有人
的
帖子我正在处理一个
不平衡
的
多
类
分类
问题
,并试图用XGBoost算法
来
解决</
浏览 0
提问于2018-02-25
得票数 5
1
回答
模型由于
数据
不平衡
而倾斜
machine-learning
、
data
在生活
中
,一些事件是罕见
的
,大多数情况是正常
的
。因此,我想知道,为了发现罕见
的
案例,我们是否应该使用一个
不平衡
的
数据
集,其中包含更多
的
历史罕见案例?使用这个原始
数据
集,我假设模型将倾向于更好地识别正常情况(因为
数据
中有更多
的
正常情况)。如果使用一个平衡
的
数据
集,即好信用
的
数量等于坏信用
的
浏览 0
提问于2020-11-06
得票数 0
回答已采纳
1
回答
非常低
的
val_accuracy与准确性-文本分类(多
类
)
python
、
pandas
、
tensorflow
、
machine-learning
、
keras
我已经为一个bug分类项目工作了一段
时间
了。我
的
目标是:“给定一个新
的
bug,我想预测哪个‘最终所有者组’它将被分配给(6个标签作为目标)”自由textdescription texthas_errors下面是我
如何
制作模型
的
代码:embedding_dim = 16trunc_type='post' padding_type='
浏览 6
提问于2021-07-23
得票数 1
2
回答
列车/测试分割前后信用卡欺诈检测
的
欠
采样
classification
、
class-imbalance
、
sampling
我有一个信用卡
数据
集,98%
的
交易是非欺诈,2%是欺诈.我
的
问题
是: 我是否应该在分裂成训练和测试之前少
采样
,这会不会扰乱
数据
集
的
分布,而不是真实世界
的
代表?还是上述逻辑仅适用于过
浏览 0
提问于2021-02-09
得票数 2
回答已采纳
1
回答
如何
下载\向上
的
样本文本?
text-classification
、
text
我有5566个样本
的
数据
集--一列是食谱描述
的
文本,另一列是什么税种。我
的
数据
有很大
的
不平衡
:在处理这类
数据
时,有什么好方法呢?
如何
降低样本或上
采样
?据我所知,SMOT是行不通
的
。
浏览 0
提问于2022-03-27
得票数 1
1
回答
当使用过抽样和简历对模型进行培训时,我是否需要使用AUPRC报告
不平衡
数据
集
的
分类结果?
machine-learning
、
classification
、
class-imbalance
、
performance
、
imbalanced-learn
我正在研究一个二进制分类
问题
,其中
数据
集有大约5%
的
正
类
样本。我拆分了
数据
集,70%用于培训,30%用于测试。我只使用了一次测试
数据
来
报告模型
的
性能。由于这种
不平衡
,我在培训
数据
集中使用了SMOTE对少数族裔
类
进行重
采样
。此外,我还根据
如何
提升样本、简历和网格搜索
的
建议,使用CV和网格搜索
来
优化模型性能,以避免
数据</e
浏览 0
提问于2022-08-17
得票数 0
1
回答
使用传感器
的
时间
序列
预测故障
的
最佳模型
python
、
classification
、
lstm
、
recurrent-neural-network
、
prediction
我正在与一家公司合作一个项目,开发用于预测性维护
的
ML模型。我们拥有的
数据
是日志文件
的
集合。在每个日志文件
中
,我们都有来自传感器(温度、压力、MototSpeed等)
的
时间
序列
。和一个变量,我们在其中记录发生
的
故障。这里
的
目标是构建一个模型,该模型将使用日志文件作为其输入(
时间
序列
)并预测是否会出现故障。为此,我有一些
问题
: 1)能够做到这一点
的
最佳模型是什么?2
浏览 4
提问于2020-06-02
得票数 0
3
回答
平衡列车组预测
不平衡
预测集
classification
、
predictive-modeling
、
class-imbalance
对
不平衡
集进行分类预测分析
的
方法之一是对多数
类
进行欠
采样
(其他方法包括:对多数
类
进行欠
采样
,合成新
的
少数
类
.)。 下面假设我们使用这些
解决
方案
中
的
任何一个,然后用新生成
的
数据
集
来
训练算法。这个经过训练
的
算法是否有助于预测来自这个系统
的
进一步
数据
,而这个系统通常是
不平衡
浏览 0
提问于2016-09-01
得票数 6
1
回答
传统大型多
类
分类
问题
的
最佳神经网络体系结构
deep-learning
、
neural-network
、
architecture
我对深度学习很陌生(我刚刚读完了用pytorch进行深度学习
的
文章),我想知道我
的
案例中最好
的
神经网络体系结构是什么。我有一个大
的
多
类
分类
问题
(用户识别
问题
),大约有1000个
类
,其中每个
类
都是一个用户。经过一次热编码和清洗后,我为每个用户提供了大约2000项功能.
数据
是高度
不平衡
的
,但我总是可以使用过
采样
/下
采样
技术。 我想知道为我<
浏览 1
提问于2021-08-11
得票数 0
点击加载更多
相关
资讯
处理不平衡数据的过采样技术对比总结
方法总结:教你处理机器学习中不平衡类问题
深度学习任务面临非平衡数据问题?试试这个简单方法
深度学习任务如何解决非平衡数据问题
深度学习训练数据不平衡问题,怎么解决?
热门
标签
更多标签
云服务器
ICP备案
即时通信 IM
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券