使用嵌套重采样使用tidymodel调整岭回归_MLR -使用嵌套重采样的基准实验。如何访问内部重采样调优结果？ - 腾讯云开发者社区

# retrieve task task = tsk("pima") # load learner and set search space learner = lrn("classif.rpart", cp = to_tune(1e-04, 1e-1, logscale = TRUE)) # nested resampling rr = tune_nested( method = "random_search", task = task, learner = learner, inner_resampling = rsmp

浏览 4提问于2022-02-18得票数 1

1回答

多类tidymodel --结果变量的类别？

、、、

我想做多类分类，我的y变量是“字符”，三个级别("CD“、"UC”、"IBS")。如何将y-变量转换为模型将接受的因子/对象？我的模型代码： boost_tree(trees=50) %>% set_engine("xgboost") %>% set_mode("classification") %>% fit(diagnosis ~ ., data=train) check_outcome()中的错误：！对于一个分类模型，结果应该是一个因素。回溯： (诊断~，数据= train)parsni

浏览 8提问于2022-10-21得票数 0

回答已采纳

1回答

logistic回归中的预测因子，适用于大样本量(180万obs。)仅预测0

、

我正在尝试运行逻辑回归模型来预测个人贷款的违约概率。我有一个185万个观察值的大样本，其中大约81%是全额偿还的，其余的是违约的。我用其他有统计意义的预测因子运行逻辑回归，得到警告“匹配概率为0或1发生”，通过一步一步地添加预测因子，我发现只有一个预测因子导致了这个问题，即“年收入”(annual_inc)。我只用这个预测值运行逻辑回归，发现它只预测0(全额还清贷款)，尽管违约贷款的比例很大。我尝试了不同比例的训练和测试数据。如果我以将原始样本的80%提供给测试集，20%给训练集的方式分割模型，R不会显示拟合概率警告，但模型仍然只在测试集上预测0。下面我附上了相关的小代码，以防万一。我怀疑在

浏览 32提问于2021-02-09得票数 1

回答已采纳

1回答

MLJ:选择行和列进行评估培训

、、

我想实现一个内核岭回归，也在MLJ中工作。此外，我希望可以选择使用特性向量或预定义的内核矩阵，如Python中的。当我运行这段代码时 const MMI = MLJModelInterface MMI.@mlj_model mutable struct KRRModel <: MLJModelInterface.Deterministic mu::Float64 = 1::(_ > 0) kernel::String = "linear" end function MMI.fit(m::KRRModel,verbosity:

浏览 0提问于2020-12-17得票数 4

回答已采纳

1回答

带岭正则化的线性回归自动缩放数据

、、、

我使用线性回归工具和岭正则化。要使用岭正则化，我必须首先缩放数据。橙色自动缩放数据吗？我找不到任何有关这方面的信息，在Orange的文件中提到的岭正规化。在python的scikit-learn中，在使用Ridge回归之前，我必须手动缩放数据。在MATLAB中，岭函数的缩放包括。那么，在使用橙色的Ridge回归之前，我必须手动缩放数据吗？谢谢你的帮助。

浏览 0提问于2018-10-01得票数 2

回答已采纳

1回答

Matlab中的岭回归和OLS回归

、

岭回归与OLS回归有很小的不同。从数学上讲，OLS回归使用了以下公式其中岭回归使用公式我想使用岭回归来避免多重性，但是得到了非常奇怪的结果，这些结果远比使用regress()更糟糕。在matlab中，要调用函数岭，必须输入一个X、一个Y和一个k的值。理论上，如果k设置为零，这些方程应该是相同的；但是当两者在我的代码中被连续调用时，使用X和Y的相同值，我得到了B的两个非常不同的矩阵(如下所示)。有人能解释一下为什么会发生这种事吗？ b_ridge = ridge(Y_current,X, 0) 12.4525 9.0099 0.2808

浏览 2提问于2016-06-20得票数 2

回答已采纳

1回答

岭Logistic回归系数的标差分析

、、、

我在R中使用caret软件包，进行岭Logistic回归。现在我能找到每个变量的系数。的问题是：如何用岭logistic回归来了解各变量的系数的标准误差？下面是我的示例代码：- Ridge1 <- train(Group ~., data = train, method = 'glmnet', trControl = trainControl("cv", number = 10), tuneGrid = expand.grid(alpha = 0,

浏览 3提问于2020-02-12得票数 1

1回答

回归模型中的变量选择

、、、、

我建立了价格预测数据模型，使用多元线性回归，岭，拉索和弹性网络回归，最初我有215个变量。在创建模型之后，我运行了python代码来检查最终模型中使用了多少变量，这是python代码，用于检测岭回归中变量的数量， print("Ridge Regression Selected " + str(sum(coef_ridge != 0)) + " Variables and Neglected " + str(sum(coef_ridge == 0)) + " Variables") 这是我拿出来的岭回归选择209个变量和忽略6个变量以上代码

浏览 0提问于2020-01-25得票数 0

2回答

线性回归假设

、、

我读到，我们对线性回归作了以下假设： 1.线性(正确的函数形式) 2.常量误差方差(同方差) 3.独立误差项(无自相关) 4.误差术语的正态性 5.无多重共线性 6.外部性(无遗漏的变量偏差) 因此，这些假设是特定于线性回归或适用于所有类型的回归技术，如支持向量回归，拉索和岭回归，逐步回归等。

浏览 0提问于2020-03-11得票数 3

1回答

目前哪些模型支持潮汐模型中的多元回归？

、、、

我检查了多元回归的tidymodel，并在这里看到了下面的示例：这涵盖了偏最小二乘模型的多变量。是否有页面说明当前支持多元回归的模型？

浏览 16提问于2022-08-21得票数 0

回答已采纳

1回答

我怎样才能引进弹性网，拉索和岭回归在火花公子？

、、、、

你能告诉我如何使用Elastic-Net，Lasso和岭回归吗？实际上，我选择了线性，弹性网，拉索和岭回归这4种算法，根据机器学习的小计。然而，我不知道如何导入Elastic，Lasso和Ridge回归，在Pyspark，不能谷歌正确的答案。我只知道在Pyspark中使用线性回归。

浏览 1提问于2020-06-01得票数 1

2回答

岭回归可以用于分类因变量吗？

、

我试图将岭回归应用于一个电信数据，其中因变量，搅动是一个范畴变量，30个中只有3个连续的预测变量，其中存在多共线性。我能用岭回归法吗？

浏览 19提问于2021-12-11得票数 0

3回答

岭与线性回归的差异

、

据我所知，岭回归只是有一个优化问题的损失函数加上正则化项(L2范数在岭的情况下)。但是，我不确定损失函数是否可以用非线性函数来描述，还是需要是线性的。在这种情况下，如果损失函数需要是线性的，那么据我所理解的岭回归，只是执行线性回归加上L2-范数的正则化。如果我错了，请纠正我。

浏览 0提问于2020-03-13得票数 8

回答已采纳

3回答

如何进行lm.ridge汇总？

、、、

我想知道有没有一种方法可以在R中输出岭回归的摘要？它是lm.ridge{MASS}函数的结果。对于标准线性模型，你只需要做summary(lm_model)，但是岭回归模型呢？谢谢你的帮助。

浏览 4提问于2014-10-14得票数 7

回答已采纳

1回答

为什么PCA或因子分析后的正则化是个坏主意？

、、、、

我对我的数据进行了因子分析，并应用了各种机器学习模型。我特别发现，与其他模型相比，它给岭和Lasso回归提供了较高的MSE值。我想知道发生这种事的原因。

浏览 0提问于2020-08-12得票数 1

回答已采纳

1回答

如何解释mlr3中嵌套重采样的聚合性能结果？

、、、

最近，我正在学习mlr3包中的嵌套重采样。根据mlr3的书，嵌套重采样的目标是为学习者获得一个无偏的性能评估。我进行了如下测试： # loading packages library(mlr3) library(paradox) library(mlr3tuning) # setting tune_grid tune_grid <- ParamSet$new( list( ParamInt$new("mtry", lower = 1, upper = 15), ParamInt$new("num.trees", lower = 50, upp

浏览 1提问于2021-02-20得票数 1

回答已采纳

1回答

我需要帮助来应用引导程序

、

我在试着理解我应该在这里做什么。我已经应用了套索和岭回归，找到了最优的λ，并重新构建了模型。但我不明白在那之后我该做什么。问题： “。对于糖尿病数据集(上传到Moodle)，我们希望使用10个特征(X变量)来预测prog (Y)，这是基线后一年疾病进展的定量评估。变量prog是数据中的最后一列。在拟合岭回归和套索之前，不要忘记标准化所有的X变量，使它们在相同的尺度上。使用岭回归和套索预测程序。在两个回归中，使用交叉验证选择最优的λ。最优λ将对应于最小CV误差。对于最优的lambda，改装脊线和套索模型。使用1000个bootstrap重复运行bootstrap，以获得回归系数估计的标准误差(

浏览 2提问于2021-11-26得票数 0

1回答

线性回归的正确成本函数是什么？

、、、、

众所周知，线性回归的成本函数是： 📷 当我们使用岭回归时，我们只是添加lambda*斜率*2，但是在这里，我总是看到以下是线性回归的成本函数，在这里它是not divided by the number of records。 📷 所以，我只想知道什么是正确的成本函数，Ik都是正确的，但是在丁岭或拉索为什么我们忽略了除法部分呢？

浏览 0提问于2021-10-14得票数 1

回答已采纳

1回答

状态模型与滑雪板岭回归的失配

、、

我在探索山脊回归。在比较statsmodels和sklearn时，我发现这两个库产生了不同的岭回归输出。下面是区别的一个简单例子 import numpy as np import pandas as pd import statsmodels.api as sm from sklearn.linear_model import Lasso, Ridge np.random.seed(142131) n = 500 d = pd.DataFrame() d['A'] = np.random.normal(size=n) d['B'] = d['A&

浏览 13提问于2022-05-16得票数 1

回答已采纳

3回答

脊线回归能用于特征选择吗？

、、、

我试图弄清楚，用岭回归进行正则化是否可以导致更稀疏的假设，但在我看来，脊似乎永远不会将任何系数降到零，只会非常接近它。那么脊线回归会导致任何系数变为零吗？权向量中的零数能从零变为其他值吗？或者简单地说，使用岭回归的零系数的数目是单调增加还是可能减少？谢谢。

浏览 0提问于2019-08-15得票数 3

回答已采纳

1回答

在R中进行弹性网回归的尝试

、、、

我是新的R和弹性-网络回归模型。我在默认的数据集上运行弹性网络回归模型，泰坦尼克。在运行列车功能之后，我试图获得Alpha和Lambda值。但是，当我运行列车函数时，输出一直滞后，我不得不等待输出，但根本没有输出。它是空的..。我正在尝试调整参数。 data(Titanic) example<- as.data.frame(Titanic) example['Country'] <- NA countryunique <- array(c("Africa","USA","Japan","Australia

浏览 0提问于2022-02-28得票数 1

回答已采纳

1回答

在嵌套重采样中，分类精度结果变化很大

、、

使用R中的mlr包，我创建了随机森林模型。为了评估模型的分类准确性，我使用了嵌套重采样，如here中所述。我的问题是，内部循环中的随机森林模型的分类精度通常比外部循环的结果高15%。我在内部循环中观察到大约85%的分类精度，但外部循环的精度通常在70%左右。我不能在这里提供数据，但我正在粘贴我正在使用的代码。那件事怎么可能？可能的原因是什么？ rf_param_set <- makeParamSet( ParamHelpers::makeDiscreteParam('mtry', values = c(3, 7, 14)), ParamHelpers::mak

浏览 32提问于2019-02-15得票数 0

2回答

拉索回归怀疑

、、、

我试图解决一个基于线性回归的问题(预测销售额，这是一个连续变量)。对于这个问题，我使用了线性回归，但是有一个建议的解决方案是用Lasso回归。然而，用户已经使用了列车功能。我不明白为什么要使用火车功能。是拉索的语法吗？岭回归也采用了类似的函数。 my_control = trainControl(method="cv", number=5) Grid = expand.grid(alpha = 0, lambda = seq(0.001,0.1,by = 0.0002)) lasso_linear_reg_mod3 = train(x = Train[, -c(1,2)],

浏览 0提问于2018-06-24得票数 1

1回答

分类模型基准准确度

、、、

我有一个任务，我需要为我的训练数据集创建一个基准模型。我需要在编码方面的帮助，以了解我将如何处理这项任务。这5种分类模型分别是KNN、核支持向量机、决策树、Logistic回归和k近邻。任何有良好解释的例子都会有所帮助。

浏览 14提问于2021-04-27得票数 0

1回答

岭回归能用来解决超定方程吗？

、、、、

超定方程不存在唯一解，但可以用最小二乘法求近似解。我了解到岭回归是一种优化的最小二乘方法，可以更好地拟合病态数据。经过搜索，我没有找到任何使用岭回归来解决超定方程的例子。因此，我认为这要么太简单，无法讨论，要么有一些限制，这样做是不可行的。我不确定是什么原因。此外，在Python中，通过简单地调用numpy.linalg.lstsq()方法，可以使用最小二乘法来求解超定方程。那么，有没有类似的岭回归方法来解决超定方程呢？谢谢！

浏览 7提问于2021-05-21得票数 1

1回答

是否有一个R软件包来训练回归模型，以返回概率预测而不是点预测？

、、、、

我需要训练一个回归模型，能够估计完全的预测分布，而不是点预测估计。有什么能让R做这个的包吗？我通常使用tidymodel框架。

浏览 2提问于2021-12-23得票数 0

回答已采纳

1回答

随着较大的数据集，脊线回归的好处会减少吗？

、、

我有一个关于岭回归的问题，以及当数据集很大时它的好处(相对于OLS)。当数据集较大时(例如50,000 vs 1000)，脊线回归的好处是否消失了？当数据集足够大时，常规的OLS模型难道不能确定哪些参数更重要，从而减少对惩罚项的需求吗？当数据集较小且存在高方差的空间时，岭回归是有意义的，但对于大型数据集，我们是否期望它的预期好处(相对于OLS)消失？

浏览 0提问于2020-12-04得票数 1

回答已采纳

2回答

是否存在与scikit-learn的标签为kfold的交叉验证对应的R/插入？

、、、、

我正在增加我的数据，我想确保相关数据在交叉验证期间不会被分成不同的折叠。我知道scikit-learn有一个带标签的k-折叠算法，它接收标签列表和数据集，并确保在两个不同的文件夹中找不到相同的标签。在R中有这样的等价物吗？我正在使用插入符号包进行回归建模。

浏览 9提问于2016-08-07得票数 1

1回答

在R中绘制cv.glmnet

、、

使用R，我试图修改一个标准图，该图是通过使用cv.glmnet执行岭回归得到的。我执行了一个岭回归 lam = 10 ^ seq (-2,3, length =100) cvfit = cv.glmnet(xTrain, yTrain, alpha = 0, lambda = lam) 通过执行以下操作，我可以根据log lambda绘制系数图 plot(cvfit $glmnet.fit, "lambda") 如何根据实际的lambda值(而不是lambda)绘制系数图，并在图上标记每个预测器？

浏览 0提问于2016-04-16得票数 2

2回答

岭回归与Lasso回归

、、、

拉索回归还是弹性网络回归总是好于岭回归？我对一些数据集进行了这些回归，结果总是一致的，即均方误差在拉索回归中最小。这只是巧合，还是无论如何都是如此？

浏览 3提问于2019-05-25得票数 1

回答已采纳

1回答

RandomOverSampler似乎不接受log转换作为我的y目标变量

、、、、

我正在尝试对一个小数据集进行随机过采样，以进行线性回归。然而，似乎scikit学习采样API不能将浮点值作为其目标变量。有什么办法可以解决这个问题吗？这是我的y_train值的一个示例，这些值经过了对数转换。 3.688879 3.828641 3.401197 3.091042 4.624973 from imblearn.over_sampling import RandomOverSampler X_over, y_over = RandomOverSampler(random_state=42).fit_sample(X_train,y_train) ----------------

浏览 16提问于2021-05-18得票数 0

回答已采纳

1回答

使用tidymodels筛选多个模型的特征

、、、、

我目前正在执行回归建模，其数据集的特征数(p)高于观测值(n)。通常是p = 10000和n = 30。此外，我想并找到最好的。我现在要做的是首先消除这些特性。使用或将其从10K降至20-30 .我通过把它放在我的管道顶端来达到这个目的。然后，我将开始测试许多模型。这种做法是否合理？

浏览 15提问于2022-07-07得票数 0

回答已采纳

1回答

使用sklearn.linear_model.Ridge描述训练数据的最佳方法线性病态问题？

、、、、

问题陈述:我正在处理一个线性方程组，它对应于一个不适定的逆问题。我可以在Python中手工应用Tikhonov正则化或岭回归，并获得对我的问题足够精确的测试数据的解决方案。我想尝试使用sklearn.linear_model.Ridge来解决这个问题，因为我想在这个包的线性模型部分()中尝试其他机器学习方法。我想知道在这种情况下使用sklearn是否使用了错误的工具。我所做的:我阅读了sklearn.linear_model.Ridge的文档。由于我知道与前向问题对应的线性变换，所以我通过脉冲响应来创建训练数据，然后将它提供给sklearn.linear_model.Ridge生成一个模型。

浏览 2提问于2021-03-28得票数 1

回答已采纳

1回答

保存具有不同数据类型的列表

、

我想在R中保存一个列表列表，这样我可以稍后再来查看它。该列表包含多个列表，这些列表依次包含一个tidymodel (线性回归lm)、2个Tibble和一个ggplot。 ? 我不介意它是如何存储的，我只想确保我在整理工作环境时不会丢失它。

浏览 8提问于2021-07-09得票数 0

回答已采纳

1回答

如何将非POT图像转换为POT位图，以便在openGL的纹理上使用它们？

、、

我正在OpenGL-ES上做我的第一步。我可以在一个方形多边形上加载两次幂(POT)纹理，我可以在屏幕上旋转和缩放。如果我尝试加载一个非POT png，那么，纹理显示为白色。我需要做一些技巧来将非POT纹理转换为POT位图来填充我的正方形多边形的纹理。如何将它们转换为POT位图？这是我必须加载纹理的实际代码：从ASSETS DIR： String imagePath = "radiocd5.png"; AssetManager mngr = context.getAssets(); // Create an input stream to read

浏览 3提问于2011-10-07得票数 0

1回答

改变mov或wav的WAV、aiff或MOV音频采样率而不改变采样数

、、、、

我需要一个非常精确的方式来加速音频。我正在为OpenDCP准备电影，这是一个制作数字影院包的开源工具，用于在影院放映。我的源文件通常是23.976fps和48.000 MOV音频的quicktime MOV文件。有时我的音频是一个单独的48.000 WAV的WAV。(FWIW，源的视频帧率实际上是24/100.1帧/秒，这是一个重复的小数。) DCP标准基于24.000fps和48.000 The的节目，因此需要加速源的音频和视频。图像处理工作流程本质上涉及将MOV转换为TIF序列，即每帧帧，然后假定为24.000fps，因此我不必涉及QT Video Media Handler的内部。但事

浏览 2提问于2013-03-06得票数 0

回答已采纳

2回答

R包装器特性选择+无嵌套交叉验证的超参数调优？

、、、

在mlr中，可以使用嵌套交叉验证(例如使用以下代码)与超参数优化一起进行筛选功能选择。 lrn = makeFilterWrapper(learner = "regr.kknn", fw.method = "chi.squared") ps = makeParamSet(makeDiscreteParam("fw.abs", values = 10:13), makeDiscreteParam("k", values = c(2, 3, 4))) ctrl = makeTuneControlGr

浏览 7提问于2016-11-10得票数 4

回答已采纳

1回答

使用引导增加样本计数有意义吗？那麽，怎样才能做到呢？

、、、

我有15个样本，要做回归分析有点小。有人告诉我，使用引导技术增加样本计数将使我的数据在统计上更有意义。所以我试过了。我第一次尝试的是让我的样本数从15到1000之间，通过对scikit的“重采样”功能--在Python中学习。但是当我看到“重采样”函数的源代码时，似乎没有任何关于引导的内容。这是我的问题。 Q1:用引导技术将15个样本重采样到1000个有统计学意义吗？ Q2:如果是的话，如何在中实现？谢谢。

浏览 3提问于2017-11-05得票数 1

回答已采纳

1回答

用分组数据进行惩罚logistic回归

、、

我的数据是由ID指定的大型参与者集合的x值(shift.magnitude)和y值(response.sign)的集合。我使用以下命令分别对每个参与者执行逻辑回归： do(fitmod = tidy(glm(response.sign~shift.magnitude,family=binomial(link="logit"), data = .))) %>% unnest(fitmod) %>% pivot_wider(id_cols = ID, names_from = term, values_from = c(estimate)) 我想使用glm

浏览 2提问于2022-05-10得票数 0

1回答

如何才能使岭回归包含整个数据集？

、、

我正在尝试对一组数据进行岭回归。我的完整数据集voters有49978个观察值，我的训练数据有39983个观察值。我使用训练数据构建了岭回归模型，并在测试数据上对其进行了测试，现在正在尝试将该模型应用于整个选民数据集。问题是，当我对整个数据集运行预测时，它只返回39983个元素(即，仅与测试数据集中的观测值相对应。这是构建岭回归的代码： set.seed(123) ridge <- train( x, y, data = train.data, method = "glmnet", trControl = trainControl("cv", n

浏览 0提问于2020-12-11得票数 0

1回答

带有非正则截距项的学习岭回归

、、

科学学习岭回归是否包括正则化项中的截距系数，如果是，是否有一种不对截距进行正则化而运行岭回归的方法？假设我适合岭回归： from sklearn import linear_model mymodel = linear_model.Ridge(alpha=0.1, fit_intercept=True).fit(X, y) print mymodel.coef_ print mymodel.intercept_ 对于某些数据X，y，其中X不包含1的列，fit_intercept=True将自动添加一个截距列，相应的系数由mymodel.intercept_给出。我无法弄清楚的是，这个截距系

浏览 1提问于2014-09-30得票数 7

1回答

我们应该在多大程度上重新整理数据？

、

在使用搅动数据集时，我们通常会发现不平衡的数据集。我的问题是如何决定我们应该在什么基础上重新整理数据。例如:在训练前分割数据时，我们在训练中分开测试(70-30或70-25)，同样地，如果我有0级的62%，在这种情况下是1级的38%，我们需要重采样数据吗？

浏览 0提问于2021-05-28得票数 2

1回答

通过此代码更改音频采样，该代码当前更改了位深度？

、

好吧，我想不出一个好的话题。关键是，我有一个代码，我得到了帮助，它将位深度从32位更改为16位，不确定它是如何工作的，但我认为它只是删除了所有其他比特，没有什么特别之处。因此，如果使用代码可以做到这一点，那么应该可以更改样本。此外，我不想要一些花哨的东西，因为它更多的是用于调试用途，我只是想使它成为一些其他样本，它不一定是一个“重采样”。例如，如果音频是48千赫，当它播放到47赫兹时，我会重放它，它听起来不会像它仍然认为它是48千赫，这意味着它会播放慢一些。换句话说，我将用它来用一种非常简单的方式来改变音频的速度。这里是改变位深度的代码，我希望它可以被重用。 Int32 bytesr

浏览 1提问于2013-12-15得票数 0

2回答

重采样还是插值？

、

对于我来说，在图像处理中重采样和插值的区别是什么，我并不清楚。如果我有一个geotiff，并且我想提高它的分辨率，我是否应该使用重采样方法，例如最近邻，对吗？例如，我发现gdalwarp函数可以做到这一点。插值方法，也就是克里格法呢？如果我的数据不是均匀分布的是不是更好？如果我想要考虑数字高程模型来校正我的图像呢？非常感谢您的帮助，并对您的困惑表示歉意。劳拉

浏览 6提问于2013-07-25得票数 4

1回答

L2 (岭)罚在LogisticRegression函数中是如何计算的？

、、

例如，在Python中对我的数据执行以下逻辑回归模型时。。。 ### Logistic regression with ridge penalty (L2) ### from sklearn.linear_model import LogisticRegression log_reg_l2_sag = LogisticRegression(penalty='l2', solver='sag', n_jobs=-1) log_reg_l2_sag.fit(xtrain, ytrain) 我并没有指定范围内的岭惩罚值。最优惩罚是用公式显式计算的(如普通最小二乘岭回归

浏览 1提问于2019-08-26得票数 1

回答已采纳

1回答

多类回归的不平衡数据

、、

我试图比较多类logistic回归(OvR)和随机森林的性能，但是我的数据集与标签的5个可能值是不平衡的。数据不平衡对绩效有影响吗？

浏览 8提问于2022-09-08得票数 -1

2回答

用SAS进行岭logistic回归？

、、

如何在SAS中使用岭回归优化Logistic回归？根据注释和，这应该已经在SAS中使用PROC HPGENSELECT实现了。但是怎么做呢？我是SAS的新手，来自R的世界。我有点迷失方向，通常很难在SAS中找到R类似物。

浏览 2提问于2017-03-22得票数 1

1回答

认识脊回归

、

我在R中开始学习岭回归，应用线性岭回归，得到以下结果。我如何解释结果？ > gridge<-lm.ridge(divorce ~., data=divusa, lambda=seq(0,35,0.02)) > select(gridge) modified HKB estimator is 0.07693804 modified L-W estimator is 0.3088377 smallest value of GCV at 0.02 > which.min(gridge$GCV) 0.02 2 > round(coef(gridge

浏览 2提问于2012-10-16得票数 0

1回答

当我只想用surv预测数据的最后一行时，如何重采样和比较结果。程序包中的函数，R？

、

我刚刚开始尝试R包mlr，我想知道我是否可以定制培训集和测试集。例如，一个时间序列的所有数据都是除了最后一个之外的训练集，最后一个是测试集。以下是我的例子： library(mlr) library(survival) data(lung) myData2 <- lung %>% select(time,status,age) myData2$status = (myData2$status == 2) myTrain <- c(1:(nrow(myData2)-1)) myTest <- nrow(myData2) 肺数据来自生存包。我只使用三个维度:时间、

浏览 4提问于2017-08-11得票数 2

回答已采纳

2回答

不平衡分类:过采样与缩放特征的顺序？

、、

当使用不平衡的数据集(例如，欺诈检测)执行分类(例如，逻辑回归)时，是最好在过度采样少数类之前对特征进行缩放/zscore/标准化，还是在缩放特征之前平衡类？其次，这些步骤的顺序是否会影响最终如何解释特性(当使用所有数据scaled+balanced来训练最终模型时)？下面是一个例子：标度第一：将数据分割成列车/测试折叠使用所有培训(不平衡)数据计算平均值/std；使用这些计算来缩放培训数据对培训数据中的少数族裔类进行过抽样(例如，使用SMOTE) 训练数据拟合logistic回归模型使用平均值/std计算来缩放测试数据用不平衡的测试数据预测类；评估ac

浏览 0提问于2018-01-21得票数 7