腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果
我
使用
“
保持
”
重
采样
,
如何
访问
列车
集
的
度量
(
例如
:“
classif.acc
”
或
其他
度量
)?
r
、
mlr3
我
正在学习R中用于机器学习
的
mlr3包。
我
使用
“
保持
”
重
采样
将数据分成训练
集
和测试
集
,
我
如何
才能获得训练
集
的
度量
?即使
我
将"predict_set“指定为"train”,它似乎也只给出了测试
集
的
度量
。INFO [12:28:49.941] Applyin
浏览 30
提问于2020-10-22
得票数 1
1
回答
关于
如何
处理不平衡数据
的
主要选项
xgboost
、
cross-validation
、
class-imbalance
、
smote
、
auc
对于每一个折叠分别在“训练”和“测试”
集
上应用一种
重
采样
技术(上
采样
、下
采样
或
两者
的
组合)。
使用
“传统”
的
评价标准:
例如
,ROC曲线
的
AUC (TP率对FP率)。
使用
“替代”
度量
来评估:
例如
,精确召回曲线
的
AUC
或
类似F分数(精确和回忆
的
调和平均值)之类
的
指标。
我<
浏览 0
提问于2020-06-07
得票数 2
2
回答
多分类模型中
的
抽样大小是否重要?
predictive-modeling
、
multiclass-classification
、
class-imbalance
、
performance
、
sampling
我
正在研究一个多类分类模型,其中很少有类与
其他
类相比拥有更少
的
数据。
我
使用
随机抽样技术从人口中创建一个样本,使每个类别的比例与人口
的
比例相等。
例如
,A类在总体中有400条记录,B类在总体中有100条记录,然后在进行随机抽样时,
我
正在创建一个样本,其中A类和B类
的
记录比例为4:1。
我
观察到
的
趋势是通过改变某一类
的
样本大小(
保持
类间比例不变),导致模型性能(准确性、精
浏览 0
提问于2019-11-27
得票数 3
1
回答
欠
采样
条件下高度不平衡数据
的
交叉验证
machine-learning
、
scikit-learn
、
cross-validation
、
sampling
、
class-imbalance
在
我
的
问题中,我处理
的
是一个高度不平衡
的
数据
集
,比如每一个正面类都有10000个负值。一种正常
的
训练模型
的
方法是对数据进行欠
采样
。交叉验证实际上将欠
采样
的
列车
组分割成K段,并将其中一个折叠作为测试
集
(现在是欠
采样
的
测试
集
)。
我
认为对于模型评估,我们实际上需要计算非抽样测试
集
感兴趣
的</
浏览 0
提问于2019-02-04
得票数 12
回答已采纳
4
回答
不平衡数据
集
分类
的
训练、测试分割
python
、
classification
、
training
我
有一个做二进制分类
的
模型。
浏览 0
提问于2018-06-08
得票数 20
回答已采纳
1
回答
当
使用
KNN时,
我
如何
知道
使用
Minkowski距离
的
顺序?
machine-learning
、
k-nn
总的来说,
我
正在学习KNN和ML。
我
知道KNN通常
使用
二阶Minkowski距离(Eucledian距离),但我假设它也
使用
其他
阶数。但是,根据模型
的
一般性能选择更高
的
阶数有什么好处呢?会更快吗?噪音水平会影响
我
下订单
的
决定吗?
我
怎么知道,由于这个和这个条件,
我
必须
使用
一个更高
的
Minkowski距离?
浏览 0
提问于2020-01-29
得票数 0
1
回答
SMOTE
如何
处理仅包含范畴变量
的
数据
集
?
machine-learning
、
deep-learning
、
neural-network
、
classification
、
smote
我
有一个977行
的
小数据
集
,类比例为77:23。
我
的
输入变量本质上是绝对
的
。下面是
我
试过
的
。假设我们没有age和salary信息( b)分成火车和试验(用stra
浏览 0
提问于2022-02-20
得票数 6
回答已采纳
3
回答
200多个类中高度不平衡
的
数据
集
machine-learning
、
multiclass-classification
、
class-imbalance
、
sampling
我
有一个文本数据
集
,在这里,
我
需要训练一个分类器来将标题分类。数据
集
形状超过575000。这里有256个目标类。问题是数据
集
是高度不平衡
的
。考虑目标值计数是按递减顺序排列
的
。 为了处理不平衡
的
数据
集
,对多类(比如3类)进行过
采样
和欠
采样
。但在
我
的
例子中,有256个类。
如何
在这种情况下对数据
集
进行
采样
?
如
浏览 0
提问于2019-09-28
得票数 2
1
回答
处理极不平衡且相关性极差
的
数据
集
python
、
scikit-learn
、
classification
我
正在处理一个困难
的
数据
集
,因为这些类既高度不平衡,又非常不相关。该集合有96,000个值,其中少于200个值是1。
我
尝试了几种方法,每种方法
的
精确度和准确度都很高,但是只有少数(小于5)
的
值被归类为1。
我
想知道是否有一种方法可以迫使机器分类更多
的
1。
如果
我
能在25%
的
时间内正确分类,这将是一个很好
的
结果。
我
尝试
使用
随机森林
的
&
浏览 3
提问于2018-11-18
得票数 1
1
回答
创建分类数据
集
,一个好
的
数据
集
应该达到多大
的
平衡?
classification
、
dataset
、
binary-classification
、
twitter
我
正在创建一个有4个类
的
数据
集
,其中有50K行,
我
已经获得了86%
的
准确率,0.85
的
预测,0.86
的
召回和0.71
的
F1-分数支持向量机上
的
80,20分裂。
我
必须在一篇研究论文中公布这个数据
集
,但我关心
的
是班级百分比
的
年龄分布。
例如
,类1比类4有更多
的
数据。(数据集注释已经完成) Dataset是从Twitter上刮来
浏览 0
提问于2022-01-06
得票数 0
1
回答
产品预测异常
time-series
、
unsupervised-learning
、
prediction
、
anomaly-detection
、
semi-supervised-learning
我
有一个关于异常预测
的
问题。
如果
你能给我看一些关于这类问题
的
论文,或者给我一些关于这个问题
的
提示,
我
将非常感激。数据如下:
我
有100000多个产品,对于每一个产品,
我
有120个特征,测量了1000次(
浏览 0
提问于2022-03-15
得票数 0
1
回答
WEKA分类器评价
classification
、
weka
我
试着在WEKA中
使用
10倍
的
CV来评估分类器
的
性能。
我
有三万二千张唱片,分成三个不同
的
类别,"po","ng","ne“。po:~950 ng:~1200 ne:~30000
如何
分割用于执行简历
的
数据
集
?
我
是否正确地假设,对于简历,
我
应该有一个大致相同
的
记录为每一个班级,以防止不公平
的
加权对"ne“类
浏览 4
提问于2016-04-27
得票数 0
回答已采纳
2
回答
如何
通过ADOMD.NET获取KPI值隐藏
度量
?
c#
、
sql-server
、
ssas
、
mdx
、
adomd.net
我
正在尝试
使用
SQL Server/SSAS2008通过ADOMD.NET (
使用
MDSCHEMA行
集
)
访问
KPI元数据。当我获得一个给定
的
KPI值字段时,
例如
在Adventure中,它会返回
我
认为是与KPI值相关联
的
隐藏
度量
(
例如
,Measures.Net收入值)。但该值具有与其关联
的
实际MDX表达式。
我
已经尝试通过ADOMD获取不可见
的</e
浏览 6
提问于2009-09-30
得票数 3
回答已采纳
4
回答
随机森林异常高
的
精确度,有可能吗?
machine-learning
、
python
、
classification
、
random-forest
我
需要你
的
帮助,以发现
我
的
模型
的
缺陷,因为它
的
准确性(95%)是不现实
的
。# Splitting the dataset into the Training set and Test set from sklearn.cross_validation
浏览 0
提问于2018-11-06
得票数 1
回答已采纳
2
回答
在Keras中,x_train和x_test有什么区别?
python
、
keras
、
conv-neural-network
我
看了几个教程来深入研究Keras,以便
使用
卷积神经网络进行深入学习。在本教程(以及Keras
的
官方文档中)中,MNIST数据
集
的
加载方式如下:然而,没有解释为什么我们有两个元组
的
数据。
我
的
问题是:什么是x_train 和 y_train ,以及它们与 x_test 和 y
浏览 0
提问于2017-09-29
得票数 13
回答已采纳
2
回答
非平衡训练
集
的
处理与实际数据
的
比较
classification
、
class-imbalance
、
supervised-learning
我
正在致力于一个欺诈检测模型,防止欺诈用户
使用
我们
的
解决方案。
我
的
模型表现很好,但我
的
问题是,该模型表现得越好,
我
的
培训集中
的
欺诈性用户就越少,因此它与现实世界
的
数据相比变得不平衡。为了应对这一问题,我们引入了一个随机过程,允许一些用户通过而不被打分,这样我们就可以继续从无偏见
的
数据中学习。理想情况下,
我
应该只在这个不偏不倚
的
数据
集
上训练
浏览 0
提问于2021-10-08
得票数 5
3
回答
可重复
的
例子,其中平衡训练数据明显提高了准确性。
class-imbalance
、
smote
、
imbalanced-learn
我
在统计SE上问了这个问题,但是没有答案,即使有一个小小
的
奖金,所以我在这里询问是否可以给出任何例子。有人能给出真实世界(最好不是合成
的
)数据
集
的
可再
浏览 0
提问于2023-04-18
得票数 4
2
回答
使用
Tensorflow数据
集
和Keras Tuner处理高度不平衡
的
数据
集
python
、
tensorflow
、
keras
、
imbalanced-data
、
keras-tuner
我
有一个高度不平衡
的
文本文档数据
集
(3%是,87%不),包含一个标题和抽象特性。
我
已经将这些文档转换为带有填充批
的
tf.data.Dataset实体。现在,
我
正在尝试
使用
深度学习来训练这个数据
集
。
使用
model.fit()在TensorFlow中,您可以
使用
class_weights参数来处理类
的
不平衡,但是,
我
正在
使用
keras-tuner库寻找最佳参数。在它们
浏览 3
提问于2020-10-12
得票数 1
1
回答
TimeSeriesSplit -
如何
聚合(
或
非筒仓)分裂?
python
、
scikit-learn
、
time-series
网上有很多例子显示
如何
使用
TimeSeriesSplit创建多个培训/测试
集
。然而,他们并没有展示
如何
在实践中真正地聚合这些信息。
例如
,这是从scikit学习文档中提供
的
:X = np.array([[1, 2], [3, 4: 火车:0 1测试:2
列车
:0 1 2 3测试:4
列车
:0 1
浏览 0
提问于2019-03-18
得票数 0
回答已采纳
2
回答
不平衡数据
集
评价指标的解释
machine-learning
、
classification
、
class-imbalance
我
目前正在处理一个严重不平衡
的
数据
集
的
分类问题。更具体地说,它是一个包含大约290 k行数据
的
欺诈检测数据
集
,0类(非欺诈)
的
分布率为99.8%,1类(欺诈)
的
分布率为0.17%。
我
一直
使用
XGBoost,随机森林和LightBGM作为
我
的
预测模型。
我
还尝试以不同
的
方式运行这些模型,方法是调优类权重并重新对数据
集
进行
重<
浏览 0
提问于2023-04-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
解决机器学习中不平衡类的问题
方法总结:教你处理机器学习中不平衡类问题
最优解的平坦度与鲁棒性,我们该如何度量模型的泛化能力
为ML带来拓扑学基础,Nature子刊提出拓扑数据分析方法
Netflix下一代图像编码算法AVIF实践
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券