腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
r
中
进行
下
采样
以
进行
回归
(
不是
分类
)
、
目前我只是简单地使用: down_sample_size = 3000 train <- train[sample(nrow(train), down_sample_size),] 向下
采样
我的训练数据,使我的模型拟合更快(
在
超参数搜索和CV -上面的上下文中是简化的)。例如,
在
分类
的上下文中,必须考虑类优先级和分层。然而,也许上述情况对于
回归
来说是可以接受的?谢谢。
浏览 23
提问于2019-02-12
得票数 0
3
回答
将
回归
降至
分类
、
、
如果将
回归
问题归结为
分类
,那么最小化
分类
损失是否意味着将
回归
误差最小化,从而提高
回归
性能?
浏览 0
提问于2019-05-08
得票数 2
1
回答
Spark,MLlib:调整
分类
器的去犯罪阈值
、
、
、
我尝试使用星火MLlib Logistic
回归
(LR)和(或)随机森林(RF)
分类
器来建立模型来描述两类之间的关系,这两个类之间的基数差别很大。
在
使用默认参数对LR和RF
分类
器
进行
培训之后,对于这两个
分类
器,我得到了非常相似的结果,例如,对于以下测试集:Test positives = 433.0此外,无论如何将数据分割成训练集和测试集,
分类
器提供的false positives 与测试集真正具有的数量的完全相同。 LR<e
浏览 6
提问于2015-08-03
得票数 7
回答已采纳
1
回答
声发射混凝土断裂试件的深度学习:时间
回归
与破坏类型
分类
、
、
、
、
如何将深度学习用于
回归
和
分类
任务? 我想根据一定的
采样
频率来处理振幅数据的序列(时间序列),但它们的长度各不相同。我该如何处理这个问题?我有一定数量的录音,我想利用它来训练
在
100赫兹
采样
的模型。
在
等异常检测实例
中
,它们使用相
浏览 4
提问于2022-06-09
得票数 0
回答已采纳
1
回答
过度
采样
只会平衡培训集,那么测试集呢?
、
、
在数据
分类
不平衡的情况
下
,我知道我们只是过
采样
了培训集(以防止数据从培训到测试子集的泄漏),但是如果我的测试集中没有正数据点怎么办?测试集仍然非常偏斜,只有我的阳性类的1%。我使用XGBoost、随机森林、Logistic
回归
和KNN
进行
分类
任务。同时,我也尝试过使用SMOTE、SMOTE和Class_weight来对我的训练集
进行
过
采样
.为了增加获得更多数据的机会,我将10倍改为5倍交叉验证(
在
开发模型时),没有改进!
浏览 0
提问于2019-08-20
得票数 2
回答已采纳
1
回答
在
分类
中将
下
采样
后的预测概率转换为实际概率(使用mlr)
、
、
、
如果在不平衡二元目标变量的情况
下
使用欠
采样
来训练模型,则预测方法
在
假设数据集平衡的情况
下
计算概率。如何将这些概率转换为不平衡数据的实际概率?转换参数/函数是否
在
mlr包或其他包
中
实现?
浏览 2
提问于2017-07-18
得票数 8
回答已采纳
1
回答
not NC无助于对我的混合连续/
分类
数据集
进行
过
采样
。
、
、
当我使用SMOTE对四类
分类
问题中的三类
进行
过
采样
时,针对少数类的Prec、Recall和F1度量仍然很低(~3%)。我的数据集中有32个
分类
变量和30个连续变量。所有的
分类
变量已被转换为二进制列使用一热编码。此外,
在
进行
过
采样
处理之前,我将使用Iterativeimputer计算所有缺失的值。关于
分类
器,我使用的是logistic
回归
,随机森林和XGboost。能告诉我你对这个的想法吗?对多类和高度不平衡的数据集<
浏览 0
提问于2019-08-09
得票数 0
3
回答
ADA将如何被用于解决
回归
问题?
、
、
、
我知道ADABOOST将如何用于
分类
,但我想知道如何重新加权,从而在
回归
问题中使用ADABOOST。
浏览 0
提问于2015-08-31
得票数 7
1
回答
R
-CNN
中
的澄清
、
、
、
我正在学习用
R
探测物体.我理解
R
-CNN的这些步骤,使所有区域的大小一致。
在
CNN上播放这些图片
在
训练
中
,我把所有的对象(只有来自图像的对象,而
不是
背景)提供给CNN,然后用支持向量机训练特征图
以
进行
分类
。
在
每一个博客里,都在说
在
R</em
浏览 2
提问于2020-04-11
得票数 0
回答已采纳
3
回答
使用现有数据和概率模拟数据
、
、
、
、
从测量数据
中
,我可以得到每个物种
在
测量种群
中
的比例(因此是一个粗略的概率),每个物种的高度分布,物种的高度-冠幅关系,物种-条件关系等。因此,对于25米的高度,更有可能是雪松(高度范围5- 30米),而
不是
桑树(高度范围2 -8米),更有可能是雪松(50%的人口)而
不是
橡树(相同的高度范围,但2%的人口),因此将有10米的树冠宽度和95%的健康状况(基于我测量数据
中
的雪松树分布)。有没有办法
在
R
中使用概率论,最好是利用贝叶斯或机器学习方法? 我
浏览 19
提问于2017-03-16
得票数 0
2
回答
极小数据集的二进制
分类
(<40个样本)
、
、
我试图
在
一个非常小的数据集上
进行
二进制
分类
,包括3个负样本和36个正样本。我一直
在
测试不同的模型从科学学习(逻辑
回归
,随机森林,svc,mlp)。我读过使用玫瑰或各种口味的打击炮的过度
采样
技术,但也读到过
采样
会导致过度适合或不会提高性能。我尝试过过
采样
训练集,根据数据如何分割成火车/测试,不同的模型都能够正确地
分类
未见的数据(日志记录除外)。当不过度
采样
和仅仅执行特征选择时,调优超参数(例如,类权重),并使
浏览 0
提问于2022-07-14
得票数 2
回答已采纳
1
回答
梯度提升树的弱学习
分类
/多类
分类
、
、
我是机器学习领域的初学者,我想学习如何使用梯度增强树(GBT)
进行
多类
分类
。我读过一些关于GBT的文章,但是关于
回归
问题,我找不到关于GBT多类
分类
的正确解释。我也检查GBT
在
科学知识-学习图书馆机器学习。GBT的实现是利用
回归
树作为弱学习者
进行
多类
分类
的GradientBoostingClassifier。GB
以
提前阶段的方式建立了一个加性模型;它允许对任意可微损失函数
进行
优化。
在
每个阶段,n_c
浏览 0
提问于2018-04-25
得票数 0
回答已采纳
3
回答
下
采样
和等级比
、
、
、
、
我不清楚低
采样
的概念。如果我要降低申请的样本,我是否必须保持目前的接受和拒绝申请的比率,同时降低培训数据
中
的申请总数,还是可以将接受和拒绝的申请比例改为50%被接受,50%被拒绝?
浏览 0
提问于2018-11-12
得票数 1
3
回答
不平衡训练数据集与
回归
模型
、
、
、
我正在建立一个
回归
模型(随机森林),用来预测两种蛋白质之间的距离。 我的问题是,我对近距离匹配(短距离)更感兴趣,但是我的数据分布有很大的偏倚,所以大部分距离都很大。然而,当我对模型
进行
完整数据的训练时,模型的性能并不好,所以我想知道我能做什么最好的抽样方法,这样我就可以保证模型能够尽可能准确地预测近匹配距离,同时对数据
进行
分层,因为不幸的是,这个有偏见的数据分布代表了真实世界的数据分布,我将对模型
进行
验证和测试。
浏览 1
提问于2014-03-28
得票数 2
回答已采纳
1
回答
为什么重
采样
模式
下
的预测校准不符合预期?
在
最初的人口中,注销率约为0.515.现在,出于某种原因,我不得不对总体数据
进行
低
采样
,并填充一个新的数据集,
在
该数据集中,注销概率为0.15。由于欠
采样
改变了人口的原始事件概率,我需要校准模型预测,
以
表示注销可能发生的真实概率。
在
新数据的基础上,利用
R
.
中
的glm建立了一个logistic
回归
模型,并参考了"
在
分类
中将
下
采样
后的预测概
浏览 0
提问于2022-09-13
得票数 2
1
回答
回归
问题的交叉验证“平衡”
、
、
分类
问题可能在给定的数据集中表现出强烈的标签不平衡。这可以通过对某些类权重属性权重
进行
次
采样
来克服,这允许至少
在
模型培训期间平衡标签分布。对于
回归
问题,这是由标准的learn,例如scikit-学习未定义。很少有涵盖的方法,以及Scott 关于
回归
次抽样的一种写得好的理论方法。我想知道为什么
回归
的标签平衡而
不是
分类
问题在机器学习社区
中
很少被关注?
回归
问题也显示出不同的特性,在数据收集设置
中<
浏览 3
提问于2020-11-20
得票数 1
回答已采纳
1
回答
只含二进制数的机器学习
分类
、
、
我正在用
R
进行
分析。我有以下问题: 我把它们都转化成因素。
在
将变量输入到我的其他算法之前,我应该如何优先对待变量。
浏览 1
提问于2017-10-22
得票数 0
回答已采纳
1
回答
我们是否需要测试数据来评估模型的性能-
回归
在过去的6个月里,我一直
在
使用
R
和Python
进行
分类
建模。
在
分类
的基础上,对模型
进行
了精确性、召回性、Hamming损失、准确性等方面的评价,这些
分类
模型需要测试数据来计算这些评价指标。当我们计算SSR、SSE、RMSE和其他评价指标时,是否与
回归
的情况相同。 从
R
的角度来看,摘要(LmRegressionModel)
以
一种或另一种方式给出了这些评估指标数字。为什么我们需要测试数据,然后在这里评估
浏览 0
提问于2018-07-27
得票数 -1
回答已采纳
1
回答
LibSVM的降
采样
技术
、
我有一个不平衡的训练数据,我将使用它来训练SVM
分类
器。我已经尝试了几种处理不平衡数据的技术,例如对成本敏感的学习和
采样
技术。对于
采样
技术,我需要找到向上
采样
和向下
采样
的方法,而
不是
随机方法。可用于上
采样
和
下
采样
的技术有哪些?我使用weka和LibSVM
进行
分类
。
浏览 3
提问于2014-12-10
得票数 0
1
回答
警告“X
在
机器精度内不合格”问题
、
、
、
我试图建立一个多元线性
回归
在
MATLAB中有20个预测,这是
分类
与4个层次。我使用的是“
回归
”函数,如下所示(这些
不是
实际变量):在此之前,我用虚拟变量对范畴变量
中
的向量x1、x2...x20
进行
了转换。我得到了这个误差,
在
b系数中有很多0,并且这个误差: 警告:X
在
机器精度范围内不合格。
在</
浏览 2
提问于2020-05-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
手把手教你在小数据集下使用Keras进行图像分类
深度学习中的动手实践:在CIFAR-10上进行图像分类
研究人员开发机器学习算法,使其在没有负面数据的情况下进行分类
易点天下:已开始在AI技术中台进行私有化部署DeepSeek-R1
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券