开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

带有mlr3::autoplot()的Roc曲线，用于基准测试和“保持”重采样

带有mlr3::autoplot()的Roc曲线是用于基准测试和"保持"重采样的工具。它是在R语言中使用mlr3包进行机器学习模型评估和性能比较时的一种可视化方法。

Roc曲线（Receiver Operating Characteristic curve）是一种常用的二分类模型评估指标，用于衡量模型在不同阈值下的真阳性率（True Positive Rate）和假阳性率（False Positive Rate）之间的权衡。它可以帮助我们理解模型在不同阈值下的分类性能，并选择最佳的阈值。

mlr3::autoplot()是mlr3包中的一个函数，它可以自动绘制Roc曲线。通过传入模型预测结果和真实标签，mlr3::autoplot()会计算不同阈值下的真阳性率和假阳性率，并绘制出Roc曲线。这样我们可以直观地观察模型的分类性能，并进行模型之间的比较。

基准测试是指在性能评估中使用已知结果的数据集来评估模型的性能。通过绘制Roc曲线，我们可以比较不同模型在相同数据集上的性能表现，从而选择最佳的模型。

"保持"重采样是一种常用的交叉验证方法，它将数据集划分为训练集和测试集，其中训练集用于模型的训练，测试集用于模型的评估。通过绘制Roc曲线，我们可以观察模型在不同训练集和测试集划分下的性能变化，从而评估模型的稳定性和泛化能力。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）
腾讯云人工智能开发平台（https://cloud.tencent.com/product/tiia）
腾讯云数据分析平台（https://cloud.tencent.com/product/dla）
腾讯云云服务器（https://cloud.tencent.com/product/cvm）
腾讯云数据库（https://cloud.tencent.com/product/cdb）
腾讯云存储（https://cloud.tencent.com/product/cos）
腾讯云区块链（https://cloud.tencent.com/product/baas）
腾讯云物联网平台（https://cloud.tencent.com/product/iot）
腾讯云移动开发平台（https://cloud.tencent.com/product/mpp）
腾讯云网络安全（https://cloud.tencent.com/product/ddos）
腾讯云音视频处理（https://cloud.tencent.com/product/mps）
腾讯云元宇宙（https://cloud.tencent.com/product/vr）

请注意，以上链接仅供参考，具体产品选择应根据实际需求和情况进行。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

mlr3基础（二）

为了实际执行分割并获得训练和测试分割的指标，重采样需要一个Task。通过调用instantiate()方法，我们将数据的索引分解为用于训练集和测试集的索引。...img 基准测试比较不同学习器在多个任务和/或不同重采样方案上的表现是一个常见的任务。在机器学习领域，这种操作通常被称为“基准测试”。mlr3包提供了方便的benchmark()函数。...设计创建在mlr3中，我们要求你提供基准实验的“设计”。这样的设计本质上是你想要执行的设置表。它由任务、学习者和重采样三方面的唯一组合组成。...与绘制任务、预测或重新取样结果类似，mlr3viz还提供了用于基准测试结果的autoplot()方法。...我们现在可以将混乱矩阵的行和列规范化，从而得出一些有用的指标。 img 很难同时实现高TPR和低FPR，所以我们使用它们来构建ROC曲线。

2.8K1 0

mlr3_Benchmarking

mlr3_Benchmarking 概述这个词语，翻译是基准测试，一般用于比较多任务、多学习器、不同抽样方案的表现，在mlr3中通过benchmar函数实现创建设计在mlr3中进行基准测试，需要提供一个设计...，这个设计是由任务、学习器、采样方式形成的矩阵这里的例子设计一个单任务，2个学习器和一个采样方法的设计通过benchmark_grid函数进行组合 library("data.table") library...对单个任务进行绘制roc曲线 autoplot(bmr$clone()$filter(task_id = "german_credit"), type = "roc") ?...提取重抽样结果本质上和之前的代码没什么区别不过，需要学习data.table的语法 tab = bmr$aggregate(measures) rr = tab[task_id == "german_credit...为提取的单个任务和单个学习器的一次抽样通过下述代码查看 measure = msr("classif.auc") rr$aggregate(measure) ## classif.auc ##

8273 0

mlr3_重抽样

mlr3_重抽样概述 mlr3中包含的重抽样方法 cross validation ("cv")：交叉验证 leave-one-out cross validation ("loo")：留一验证 repeated...函数对任务进行分组 resampling = rsmp("cv", folds = 3L) resampling$instantiate(task) resampling$iters ## [1] 3 # 查看训练和测试集的...执行重抽样将task、learner和resample组合起来形成一个新的对象， task = tsk("pima") learner = lrn("classif.rpart", maxdepth...rr$warnings rr$errors # 查看抽样策略 rr$resampling # 产看迭代次数 rr$resampling$iters # 查看第一测试集和训练集 str(rr$resampling...绘制roc曲线 autoplot(rr, type = "roc") ? 结束语对于重抽样的操作，建议在高性能的服务器上进行，或者测试数据较少或者特征较少的数据集。 love&peace

8902 0

mlr3的校准曲线也是一样画！

前面介绍了使用tidymodels画校准曲线，不知道大家学会了没？ tidymodels不能画校准曲线？众所周知，tidymodels目前还不支持一键绘制校准曲线！相同类型的mlr3也是不支持的！...然后是对数据进行划分训练集和测试集，对数据进行预处理，为了和之前的tidymodels进行比较，这里使用的数据和预处理步骤都是和之前一样的。...曲线： autoplot(rr,type = "roc") plot of chunk unnamed-chunk-9 喜闻乐见的prc曲线： autoplot(rr, type = "prc")...-11 以上所有介绍的图形和评价方法都在之前的推文详细介绍过了~不会的赶紧翻看：R语言机器学习R包：mlr3（合辑）训练集的校准曲线先画训练集的校准曲线，毫无难度，看不懂的可以加群一起讨论~ prediction...没错，就是一样的，就是这么简单，想怎么画就怎么画！测试集的校准曲线先把模型用在测试集上，得到预测结果，然后画图！

6933 0

使用mlr3搞定二分类资料的多个模型评价和比较

我之前详细介绍过mlr3这个包，也是目前R语言机器学习领域比较火的R包了，今天说下这么用mlr3进行二分类资料的模型评价和比较。...然后是对数据进行划分训练集和测试集，对数据进行预处理，为了和之前的tidymodels进行比较，这里使用的数据和预处理步骤都是和之前一样的。...library(ggplot2) autoplot(bmr)+theme(axis.text.x = element_text(angle = 45)) 喜闻乐见的ROC曲线： autoplot(bmr...,type = "roc") 选择最好的模型通过比较结果可以发现还是随机森林效果最好~，下面选择随机森林，在训练集上训练，在测试集上测试结果。...曲线： autoplot(prediction,type = "roc") image-20220704162604466 总体来看mlr3和tidymodels相比有优势也有劣势，基本步骤大同小异

8013 0

mlr3_训练和测试

mlr3_训练和测试概述之前的章节中，我们已经建立了task和learner，接下来利用这两个R6对象，建立模型，并使用新的数据集对模型进行评估建立task和learner 这里使用简单的tsk和...lrn方法建立 task = tsk("sonar") learner = lrn("classif.rpart") 设置训练和测试数据这里设置的其实是task里面数据的行数目 train_set =...truth ## response M R ## M 15 3 ## R 8 16 改变预测的类型这个部分主要是计算每一种类型的概率，有时候用于roc曲线的绘制 learner...= "prob") learner$train(task) prediction = learner$predict(task) # 绘制默认图 autoplot(prediction) # 绘制roc...图 autoplot(prediction, type = "roc") ?

7971 0

tidymodels不能画校准曲线？

很多人都开始用tidymodels了，但是很多人还没意识到，tidymodels目前还不支持一键绘制校准曲线！相同类型的mlr3也是不支持的，都说在开发中！开发了1年多了，还没开发好！...总的来说，在临床预测模型这个领域，目前还是一些分散的R包更好用，尤其是涉及到时间依赖性的生存数据时，tidymodels和mlr3目前还无法满足大家的需求~ 但是很多朋友想要用这俩包画校准曲线曲线，其实还是可以搞一下的...今天先介绍下tidymodels的校准曲线画法，之前也介绍过：使用tidymodels搞定二分类资料多个模型评价和比较加载数据和R包没有安装的R包的自己安装下~ suppressPackageStartupMessages...，剩下的做测试集。...0.799 可视化结果，首先是大家喜闻乐见的ROC曲线： pred_rf %>% roc_curve(truth = play_type, .pred_pass) %>% autoplot

7455 0

tidymodels用于机器学习的一些使用细节

mlr3：嵌套重抽样 mlr3：特征选择 mlr3:pipelines mlr3：技术细节 mlr3：模型解释 mlr3实战：决策树和xgboost预测房价今天学习下tidymodels...目录：设计理念安装基本使用探索数据模型选择数据划分数据预处理建立workflow 选择重抽样方法训练模型（无重抽样）训练模型（有重抽样）用于测试集进阶总结设计理念 tidymodels...数据预处理之后，其实你不用把处理过的数据单独拿出来，就像之前介绍过的mlr3一样，可以直接进行到下一步训练模型，但是考虑到有些人就是要看到数据，你可以这样操作： # 提取处理好的训练集和测试集 train_proc...： tree_pred %>% roc_curve(truth = children, estimate = .pred_children) %>% autoplot() ROC 训练模型（有重抽样...用于测试集注意这里不是直接predict()哦，而是用last_fit()这个函数，而且它的第二个参数不是测试集，而是hotel_split！

1.4K4 0

使用workflow一次完成多个模型的评价和比较

本期目录：加载数据和R包数据预处理选择模型选择重抽样方法构建workflow 运行模型查看结果可视化结果选择最好的模型用于测试集加载数据和R包首先还是加载数据和R包，和前面的一模一样的操作...collect_predictions(four_fits) 可视化结果直接可视化4个模型的结果，感觉比ROC曲线更好看，还给出了可信区间。这个图可以自己用ggplot2语法修改。...four_fits %>% autoplot(metric = "roc_auc")+theme_bw() image-20220704145235120 选择最好的模型用于测试集选择表现最好的应用于测试集...喜闻乐见的ROC曲线： collect_predictions(rand_res) %>% roc_curve(play_type,.pred_pass) %>% autoplot()...image-20220704145041578 还有非常多曲线和评价指标可选，大家可以看我之前的介绍推文~ 是不是很神奇呢，完美符合一次挑选多个模型的要求，且步骤清稀，代码美观，非常适合进行多个模型的比较

1.5K5 0

使用tidymodels搞定二分类资料多个模型评价和比较

本期目录：加载数据和R包数据划分数据预处理建立多个模型 logistic knn 随机森林决策树交叉验证 ROC曲线画一起加载数据和R包没有安装的R包的自己安装下~ suppressPackageStartupMessages...，剩下的做测试集。...## ## 1 roc_auc binary 0.781 可视化结果，首先是大家喜闻乐见的ROC曲线： pred_lm...%>% roc_curve(truth = play_type, .pred_pass) %>% autoplot() plot of chunk unnamed-chunk-10 pr曲线：...，就不一一介绍了，简单说下训练集的校准曲线画法，其实也是和上面一样的~ res_calib_plot % mutate(

8272 0

限制性立方样条（RCS）的列线图怎么画？

区分度评价：C-statistic的计算 C-statistic的显著性检验临床预测模型之二分类资料ROC曲线绘制临床预测模型之生存资料的ROC曲线绘制 R语言画多时间点ROC和多指标ROC曲线生存资料...ROC曲线的最佳截点和平滑曲线 ROC（AUC）曲线的显著性检验 ROC阳性结果还是阴性结果？...来看看适用于一切模型的DCA！二分类资料校准曲线的绘制生存资料校准曲线的绘制 tidymodels不能画校准曲线？ mlr3的校准曲线也是一样画！...使用tidymodels搞定二分类资料多个模型评价和比较使用workflow一次完成多个模型的评价和比较使用mlr3搞定二分类资料的多个模型评价和比较 Fine-Gray检验、竞争风险模型、列线图绘制...tidymodels支持校准曲线了 3d版混淆矩阵可视化 logistic校准曲线(测试集)的6种实现方法 --------

1.6K4 0

多指标联合诊断的ROC曲线

关于ROC曲线，前前后后写了很多篇推文，关于二分类数据和生存资料的都有，目前只有多指标联合诊断的ROC曲线还没介绍了，今天就介绍多指标联合诊断的ROC曲线。...多时间点和多指标的ROC曲线临床预测模型之二分类资料ROC曲线的绘制临床预测模型之生存资料ROC曲线的绘制 ROC曲线(AUC)的显著性检验生存资料ROC曲线的最佳截点和平滑曲线 ROC曲线纯手工绘制...曲线了，这个就是多指标联合诊断的ROC曲线。...library(yardstick) roc_curve(aSAH, truth = outcome, estimate=pred,event_level = "second") |> autoplot...很简单，只要把predict中的数据集换成测试集即可： # 换成测试集即可 pred <- predict(f, newdata = 你的测试集, type = "response") 剩下的就都一样了

1.1K2 0

预测建模中的重抽样方法

对于数据集A，我把它分成A1和A2两份，A1这部分数据用于训练模型，A2这部分数据用于评估模型表现，用来评估模型表现的这部分A2数据就是内部验证(也有人把交叉验证和自助法等这种叫做内部验证)；假如此时我找来另一份数据集...留出法(holdout) 大家最常使用的，把数据集随机划分为训练集(train)/测试集(test)的做法就是holdout，其中训练集用于建模，测试集用于评估模型表现。...：模型解释 mlr3实战：决策树和xgboost预测房价使用mlr3搞定二分类资料的多个模型评价和比较 mlr3的校准曲线也是一样画！...使用mlr3搞定二分类资料的多个模型评价和比较使用tidymodels搞定二分类资料多个模型评价和比较 tidymodels不能画校准曲线？...tidymodels用于机器学习的一些使用细节 tidymodels支持校准曲线了 --------

1.2K2 0

logistic校准曲线(测试集)的6种实现方法

关于临床预测模型的基础知识，小编之前已经写过非常详细的教程，包括了临床预测模型的定义、常用评价方法、列线图、ROC曲线、IDI、NRI、校准曲线、决策曲线等。...1 测试集的校准曲线对于logistic回归很简单，任何可以计算概率的算法都可以轻松画出训练集、测试集的校准曲线，无非就是计算实际概率和预测概率而已。...二分类资料测试集的校准曲线在之前的推文中也做过很多次介绍，比如： tidymodels不能画校准曲线？ mlr3的校准曲线也是一样画！...你可能在文献看见过训练集和测试集的校准曲线都是上面那张图的样式，类似下面这张图展示的，训练集和测试集一样的图，实现方法也很简单。...测试集校准曲线方法2 如果你非要对测试集的校准曲线进行重抽样，其实也很简单(除了rms还有很多手段可实现)。这里还是用rms包实现。

1.4K2 0

一个企业级数据挖掘实战项目｜教育数据挖掘

最后分别选用五种不同分类器，且分别采用不同的数据重采样方法，绘制ROC曲线及得到的AUC得分情况。...ROC和AUC ROC曲线绘制采用不同分类阈值的TPR和FPR，降低分类阈值会将更多的样本判为正类别，从而增加FP和TP的个数。为了绘制ROC曲线，需要使用不同的分类阈值多次评估回归模型，很麻烦。...ROC曲线的横轴为FPR，越低越好，纵轴为TPR，越高越好，故如果有两个不同的模型，曲线位于左上方的模型优于曲线位于右下方的模型，这一点可以拿曲线的面积(AUV)来量化。...核心代码将所有主要方法定义为函数，包括数据重采样、划分测试集和训练集、模型训练、模型评价和结果可视化。此外，由于是比较不平衡数据集处理方法选择的优劣，这里所有的机器学习模型都采用默认参数。...pd.DataFrame(report, columns = Samplers, index = Classifiers) 交叉验证上节中选用五种不同分类器，三种不同的数据重采样方法，结合ROC曲线及

1.9K3 1

机器学习中如何处理不平衡数据？

ROC 和 AUROC 另外一个有趣的指标是ROC 曲线（Receiver Operating Characteristic），其定义和给定类相关（下文用 C 表示类别）。...有效性不同的模型的 ROC 曲线图示。左侧模型必须牺牲很多精度才能获得高召回率；右侧模型非常有效，可以在保持高精度的同时达到高召回率。...基于 ROC 曲线，我们可以构建另一个更容易使用的指标来评估模型：AUROC（Area Under the ROC），即 ROC 曲线下面积。...在接下来的两个小节里，我们将简单介绍一些常用于解决不平衡类以及处理数据集本身的方法，特别是我们将讨论欠采样（undersampling）、过采样（oversampling）、生成合成数据的风险及好处。...总结来讲，当我们采用重采样的方法修改数据集时，我们正在改变事实，因此需要小心并记住这对分类器输出结果意味着什么。添加额外特征重采样数据集（修改类比例）是好是坏取决于分类器的目的。

1.2K2 0

你真的了解模型评估与选择嘛

分层采样的目的是要保持数据分布的一致性，避免划分过程引入额外的偏差。...优缺点：数据集小、难以划分训练\测试集自助法能从初始数据集中产生多个不同的训练集，可以用于集成学习自助法产生的训练集改变了初始数据集的分布，会引入估计偏差 02 模型评价指标查准率、查全率、ROC...如何画ROC曲线对于一个特定的分类器和测试数据集，显然只能得到一个分类结果，即一组FPR和TPR结果，而要得到一个曲线，我们实际上需要一系列FPR和TPR的值，这又是如何得到的呢？...因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。...可以明显的看出，ROC曲线基本保持原貌，而Precision-Recall曲线则变化较大。

6723 0

评估方法详解

常用的分类模型评价指标有准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1值（F1 Value）、ROC和AUC等。...即有： image.png 每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就可以获得k组训练/测试集。...保证了实际评估的模型与期望评估的模型都是用m个训练样本，而有数据总量约1/3的、没在训练集中出过的样本用于测试，这样的测试结果，也叫做”包外估计”(out-of-bagestimate)....当曲线没有交叉的时候：外侧曲线的学习器性能优于内侧；当曲线有交叉的时候：第一种方法是比较曲线下面积，但值不太容易估算；第二种方法是比较两条曲线的平衡点，平衡点是“查准率=查全率”时的取值，在图中表示为曲线和对角线的交点...显示ROC的曲线图称为“ROC图” 进行学习器比较时，与P-R如相似，若一个学习器的ROC曲线被另一个学习器的曲线“包住”，则可断言后者的性能优于前者；若两个学习器的

6273 0

教你如何用python解决非平衡数据建模（附代码与数据）

=0.5, kind=’regular’, svm_estimator=None, n_jobs=1) ratio：用于指定重抽样的比例，如果指定字符型的值，可以是’minority’，表示对少数类别的样本进行抽样...如上表所示，即为清洗后的干净数据，接下来对该数据集进行拆分，分别构建训练数据集和测试数据集，并利用训练数据集构建分类器，测试数据集检验分类器： # 用于建模的所有自变量 predictors = churn.columns...# 绘制ROC曲线 # 计算流失用户的概率值，用于生成ROC曲线的数据 y_score = dt.predict_proba(X_test)[:,1] fpr,tpr,threshold = metrics.roc_curve...如上图所示，ROC曲线下的面积为0.795，AUC的值小于0.8，故认为模型不太合理。（通常拿AUC与0.8比较，如果大于0.8，则认为模型合理）。...# 计算流失用户的概率值，用于生成ROC曲线的数据 y_score = rf2.predict_proba(np.array(X_test))[:,1] fpr,tpr,threshold = metrics.roc_curve

4.7K8 0

机器学习中如何处理不平衡数据？

阈值 T 从 0 到 1 之间的每个值都会生成一个点 (false positive, true positive)，ROC 曲线就是当 T 从 1 变化到 0 所产生点的集合所描述的曲线。...该曲线从点 (0,0) 开始，在点 (1,1) 处结束，且单调增加。好模型的 ROC 曲线会快速从 0 增加到 1（这意味着必须牺牲一点精度才能获得高召回率）。 ?...有效性不同的模型的 ROC 曲线图示。左侧模型必须牺牲很多精度才能获得高召回率；右侧模型非常有效，可以在保持高精度的同时达到高召回率。...基于 ROC 曲线，我们可以构建另一个更容易使用的指标来评估模型：AUROC（Area Under the ROC），即。...总结来讲，当我们采用重采样的方法修改数据集时，我们正在改变事实，因此需要小心并记住这对分类器输出结果意味着什么。添加额外特征重采样数据集（修改类比例）是好是坏取决于分类器的目的。

9442 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭