我正在尝试将sklearn 的思想应用到我的数据集中。我的每类ROC曲线看起来都是一条直线,不符合sklearn的例子,显示曲线的波动。
我在下面给出一个MWE来说明我的意思:
# all imports
import numpy as np
import matplotlib.pyplot as plt
from itertools import cycle
from sklearn import svm, datasets
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import train
我正在构建一个GBM分类器来预测某个目标变量。
我的数据包含许多连续变量,我希望使用age函数来扩展其中的一个变量( scale )。我应该在火车集合中缩放这个变量,然后根据火车集的在测试集中进行缩放,这样我就不会得到信息泄漏。我的问题是如何在R中应用这个?
我这样做的方法是在火车组和测试集中分别缩放年龄特征,这是不完全正确的。下面是我的代码(我使用插入符号包):
for (i in (1:10)) {
print(i)
set.seed(i)
IND = createDataPartition(y = MYData$Target_feature, p=0.8, list =
我正在使用R包randomForest创建一个模型,该模型分为三组。
model = randomForest(formula = condition ~ ., data = train, ntree = 2000,
mtry = bestm, importance = TRUE, proximity = TRUE)
Type of random forest: classification
Number of trees: 2000
No.
我已经做了一个SVM预测器,它可以将样本分类为三组之一-“好”,“坏”或“好”。然而,测试数据集只包含分类为“好”或“坏”的样本。当我尝试使用multi_roc时,我遇到了一个错误,我不确定解决它的最佳方法。我做的例子如下: library(tidymodels)
library(mlbench)
library(multiROC)
data(Ionosphere)
# preprocess dataset
Ionosphere <- Ionosphere %>% select(-V1, -V2)
# split into training and test data
ion