在R中使用GBM计算r平方(多重决定系数)_在R中，我如何使用dplyr进行此计算(1 -sigma(特定值的平方)？_在R中，使用相同的x偏移开始多重打印 - 腾讯云开发者社区

、

这是关于建议的一个一般性问题：使用“确定系数”(R^2)作为推荐标准是个坏主意吗？我正在建立一个推荐模型，想知道用“决定系数”来评价模型是否是个好主意，而对于纯回归，我经常使用“决定系数”。另一方面，我在建议Kaggle核或一些基准上找不到“决定系数”。

浏览 0提问于2022-01-11得票数 0

回答已采纳

1回答

用线性回归手工改变β系数估计R2

、

我想知道是否有一种方法来建立一个线性回归模型，手动改变贝塔系数，并在这个变化之后估计R2。简单的例子： a <- c(2000 , 2001 , 2002 , 2003 , 2004) b <- c(9.34 , 8.50 , 7.62 , 6.93 , 6.60) c <- c(10.5 , 12.8 , 13.1 , 14.4 , 15.9) fit=lm(a~b+c) fit$coefficients (Intercept) b c 2005.1537642 -0.89

浏览 1提问于2015-09-22得票数 0

回答已采纳

1回答

R2评分( BigQueryML )

、、、

在统计数据中，R 2的得分一般在0~ 1之间，但在使用BigQuery ML的训练结果中可能为负值。那么，在BigQuery ML模型评估中，决定系数R是多少？

浏览 8提问于2022-08-16得票数 0

1回答

r2_score是-18.709，为什么？

、

我正在用Python，ML进行多元线性回归。据我所知，r2_score应该在-1到1的范围内。但是，我得到了-18.709。得到这个答案有什么问题，我该如何改正？其编码和结果如下：计算R from SK-learn.meterics import r2_score score = r2_score(y_test, y_pred) print(score) 产出： -18.7097 预测结果如下： y_pred = model.predict(X_test) print(y_pred) 结果： 25000。123000。73000。103000.

浏览 1提问于2019-10-27得票数 1

1回答

OLS回归的计算yhat

、

我在python中实现了一种计算OLS回归β的方法。现在，我想用R^2给我的模型打分。对于我的任务，我不允许使用Python包这样做，所以必须从头开始实现一个方法。 #load the data import numpy as np import pandas as pd from numpy.linalg import inv from sklearn.datasets import load_boston boston = load_boston() # Set the X and y variables. X = boston.data y = boston.target #app

浏览 0提问于2018-10-04得票数 0

回答已采纳

1回答

在R中使用GBM计算r平方(多重决定系数)

、

我执行GBM模型。数据样本 a=structure(list(yield = c(1842L, 2147L, 2444L, 3850L, 1866L, 2897L, 1783L, 2434L, 2650L, 2863L), time.diff = c(122, 186, 177, 168, 162, 186, 161, 125, 187, 185), Biomass = c(18400L, 6400L, 8620L, 12800L, 5400L, 10400L, 6000L, 8800L, 9080L, 60000L)), class = "data.frame", r

浏览 64提问于2021-01-25得票数 0

1回答

在R中使用GBM进行预测时的错误

、、

我需要一个快速的帮助。我一直试图简单地应用GBM，但我面临一个错误，我无法解决。请帮帮忙。使用的数据集可以在“”代码中找到： data1 <- read.csv("train.csv") data2 <- read.csv("test.csv") data2$medv<- NA GBM library(caret) library(gbm) fitControl <- trainControl(method = "cv", number = 10) tune_Grid <- expand.grid(in

浏览 4提问于2017-10-09得票数 0

回答已采纳

1回答

如何计算非线性模型调整后的R2评分

、、、、

正如本所提到的，调整后的R2评分可以通过以下公式计算，其中n是样本数，p是模型的参数数。 adj_r2 = 1-(1-R2)*(n-1)/(n-p-1) 根据另一个，我们可以用model.coef_得到模型的参数数。然而，对于梯度增强(GBM)，我们似乎无法获得我们的模型中的参数数： from sklearn.ensemble import GradientBoostingRegressor import numpy as np X = np.random.randn(100,10) y = np.random.randn(100,1) model = GradientBoostingR

浏览 2提问于2020-03-21得票数 0

回答已采纳

1回答

一种有r~2回归模型的评价

、、、、

使用一袋单词模型，我计算每个文档的单词数量(这是来自板的帖子)，并为每一篇文章创建向量。示例： X = [[0,0,0,1,0,3,0,0] [0,0,1,0,0,0,1,0] [1,0,1,0,2,0,0,0]] y = [22,35,87] 在y中是X中每个向量的标号/目标(y =作者的年龄)。训练后的回归模型(线性回归，Logistic回归，.)我用平均绝对误差( MAE )来比较预测的年龄和真实的年龄，得到了令人满意的结果。然而，我不太明白如何使用r 2：输入我必须使用预测的标签和真实的标签(在我的情况下，使用年龄在14-65岁之间)，这是正确的吗？ r2

浏览 1提问于2016-06-03得票数 1

2回答

MAD对RMSE对MAE对MSLE对R 2:什么时候使用哪种？

、

在回归问题中，您可以使用各种不同的度量来检查您的模型做得有多好：平均绝对偏差(MAD)：在[0, \infty)中，越小越好均方误差:在[0, \infty)中，越小越好中位绝对误差(MAE)：在[0, \infty)中，越小越好均方日志误差:在[0, \infty)中，越小越好 R平方，决定系数：(-\infty, 1] 不一定越大越好是否有任何理由不使用其中一种或另一种？

浏览 0提问于2018-12-17得票数 13

1回答

sklearn、r2_score和函数给出了不同的R^2值。为什么？

、、、

我使用相同的数据，但不同的python库来计算决定系数R^2。这种行为背后的原因是什么？ # Using stats lineregress slope, intercept, r_value, p_value, std_err = stats.linregress(x, y) print r_value**2 0.956590054918 # Using sklearn from sklearn.metrics import r2_score print r2_score(x, y) 0.603933484937

浏览 10提问于2016-03-22得票数 5

回答已采纳

1回答

神经网络领域的性能衡量标准是什么？

、、、、

我用neuralnet软件包在R中构造了一个神经网络。我想用交叉验证来测试，这是一种基于4/5的数据集训练网络和第五个测试集的技术。我想知道我应该用什么方法来衡量神经网络的性能，从可预测性的角度来看。你能提出在这一领域常用的措施，并解释原因吗？任何有关这方面的提示和想法都将不胜感激。

浏览 0提问于2015-07-04得票数 0

回答已采纳

1回答

用确定系数求两个向量之间的关系

、、、、

我有一个关于决定系数的问题。我需要找到两个向量之间的关系。给定两个数值向量x和y，其系数的确定可表示为： 1 - ( 1 - (dot_product(x,y))^2 / (|x|^2 + |y|^2)) / (1 - |y| * |y|/ ( y'dimension * |y|^2 ) ) |x|^2 = sum of squared of each element of vector x. |y| = sum of each element of vector y. 是这样吗？我从一些代码中得到了公式，但我不知道作者。如何理解它？任何帮助都将不胜感激！

浏览 2提问于2014-03-06得票数 0

2回答

SciKit学习R-平方与培生相关R的平方有很大不同。

、、、、

我有两个numpy数组，所以： a = np.array([32.0, 25.97, 26.78, 35.85, 30.17, 29.87, 30.45, 31.93, 30.65, 35.49, 28.3, 35.24, 35.98, 38.84, 27.97, 26.98, 25.98, 34.53, 40.39, 36.3]) b = np.array([28.778585, 31.164268, 24.690865, 33.523693, 29.272448, 28.39742, 28.950092, 29.701189, 2

浏览 3提问于2021-01-21得票数 1

回答已采纳

1回答

自定义RMSE损失函数和内置RMSE的Lightgbm分数是不同的。

、

为了开始为lightgbm定制目标函数，我开始复制标准的目标RMSE。不幸的是，分数是不同的。我的示例基于这个或。 Grad和hess与lightgbm中的相同，或者在下面的中给出的答案是相同的。自定义RMSE函数有什么问题？注:在这个例子中，最后的损失似乎接近了，但轨迹完全不同。在其他(更大的)例子中，我在最终损失方面的差异甚至更大。 import numpy as np import matplotlib.pyplot as plt from lightgbm import LGBMRegressor import lightgbm from sklearn.datasets imp

浏览 8提问于2020-05-25得票数 0

1回答

从R到Python中导出文件到PMML后的错误预测

、、、

我已经使用库gbm在R上构建了一个gbm分类器。 gbm2<-gbm(deal_stage~.,data=train,train.fraction=1, interaction.depth=4,shrinkage=.001, n.trees=6000,bag.fraction=0.5,cv.folds=5, distribution="bernoulli",verbose=T) r2pmml(gbm2,"/gbm_test.pmml",compact=TRUE) 然后在Python上，当我尝试

浏览 97提问于2020-06-19得票数 0

1回答

如何在Julia中进行线性回归，得到标准偏差和确定系数？

、

我想要一个包，有一个函数，计算角，线性，决定系数R^2，标准差.我很难找到它。我看过这里的例子，，但我不太喜欢它，因为我也想知道决定系数。你能告诉我一个特定的功能吗?或者我需要实现我自己的功能？

浏览 7提问于2022-07-28得票数 0

2回答

改进GBM包运行时间

我正在构建一个具有相当大的数据集的GBM模型。data.table非常适合处理数据。但是当我运行GBM模型时，它需要永远的时间才能完成。查看活动监视器(在Mac中)，我可以看到进程没有使用所有内存，也没有最大限度地耗尽处理器。由于GBM是单核的，我不能将其修改为在多核上运行，那么我有什么选择来改善我的运行时间呢？现在我使用的是4BG内存和1.7 and i5的Macbook Air。我不确定以下哪个选项对性能最有帮助：(i)购买内存更大的计算机；(ii)获得功能更强大的芯片(i7)；或(iii)使用Amazon AWS并在那里安装R。这些都会有什么帮助呢？根据Brandson的请求添加示

浏览 2提问于2012-12-05得票数 1

1回答

如何在h2o包中计算GBM模型的变量重要性？

、

我想知道，对于连续变量和分类变量，在h2o软件包中计算GBM模型变量重要性的具体方法/公式是什么？

浏览 2提问于2017-05-21得票数 0

2回答

普通最小二乘与R平方之差(决定系数)？

、

*嗨，有人能指出-普通最小二乘和R平方(决定系数)之间的区别吗？它们似乎与我非常相似，它们都在计算估计值和实际值之间的差额，然后进行求和，然后将它们平方。也许我弄错了。有什么建议吗?*

浏览 6提问于2019-11-20得票数 1

回答已采纳

1回答

IPython生成的图形不正确

、、

我有两个文件GBM_simulation.py和test_GBM.py。 GBM_simulation.py import numpy as np # Return path as numpy array of length and step predefined # simulate exact GBM def GBM(n, dt, s0, r, sigma): path = np.zeros(n) s_old = s0 for i in range(n): s_new = s_old*np.exp((r-sigma**2/2)*dt + sig

浏览 1提问于2017-12-30得票数 0

回答已采纳

2回答

h2o.gbm中的树数

、、、

在传统的gbm中，我们可以使用模型(predict.gbm，newsdata=...，n.tree=...) 以便我可以将结果与测试数据不同数量的树进行比较。在h2o.gbm中，虽然需要设置n.tree，但似乎对结果没有任何影响。它与默认模型完全相同： h2o.test.pred <- as.vector(h2o.predict(h2o.gbm.model, newdata=test.frame, n.tree=100)) R2(h2o.test.pred, test.mat$y) [1] -0.00714109 h2o.test.pred <- as.vector(h2o.pr

浏览 1提问于2017-08-30得票数 0

2回答

理解决定系数

、、、、

我通过来理解决定系数，从文件中我了解到，决定系数只是R(相关系数)。所以我从kaggle.com上拿出了房价数据，为了更好的理解，我开始试用它，这是我的代码。取相关系数 test_data=pd.read_csv(r'\house_price\test.csv') _d=test_data.loc[:,['MSSubClass','LotFrontage']] _d.fillna(0,inplace=True) _d.corr() 现在，取这样的决定系数 from sklearn.metrics import r2_score r2

浏览 7提问于2020-05-28得票数 0

回答已采纳

1回答

使用mlr预测计数

、、

我正在使用learner regr.gbm来预测计数。在mlr之外，直接使用gbm包，我使用distribution = "poisson"和predict.gbm，使用type = "response"，返回原始尺度上的预测，但是我注意到，当我使用mlr执行此操作时，预测似乎是对数尺度： truth response 913 4 0.67348708 914 1 0.28413256 915 3 0.41871237 916 1 0.13027792 2101 1 -0.02092168

浏览 1提问于2018-10-31得票数 2

1回答

为什么决定系数R 2产生不同的结果？

、、、

在尝试实现用于计算决定系数R 2的python函数时，我注意到，根据我使用的计算顺序，我得到了截然不同的结果。似乎非常清楚地解释了如何计算R_2。我对wiki页面上正在说的内容的粗野解释如下： def calcR2_wikipedia(y, yhat): # Mean value of the observed data y. y_mean = np.mean(y) # Total sum of squares. SS_tot = np.sum((y - y_mean)**2) # Residual sum of squares. SS_res

浏览 5提问于2020-10-04得票数 1

回答已采纳

1回答

分数法在xgboost中的意义

我正在解决一个回归问题，我已经预留了一个cv数据集来评估我的模型。我可以很容易地计算我的神经网络，因为TensorFlow计算()方法给出了所有平方误差的总和。但是，xgb为我提供了一个函数- score()，它返回一个数字- 0.7。首先，我该如何解释这个数字？其次，如何使xgb返回作为我可以解释的模型的度量。

浏览 3提问于2022-08-11得票数 0

1回答

多元线性回归评价结果解读

、、

我正在学习多元线性回归模型。我构建了一个model并使用了R命令： summary(model) 我得到了这个结果： Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 253.2 on 44 degrees of freedom Multiple R-squared: 0.3336, Adjusted R-squared: 0.2579 F-statistic: 4.405 on 5 and 44 DF, p-value: 0.002444 我如何解释这个结果

浏览 0提问于2015-07-07得票数 4

回答已采纳

2回答

负的决定系数对于评估脊线回归意味着什么？

、、

从我的ridge.score()显示的负面结果来看，我猜我做错了什么。也许有人能给我指明正确的方向？ # Create a practice data set for exploring Ridge Regression data_2 = np.array([[1, 2, 0], [3, 4, 1], [5, 6, 0], [1, 3, 1], [3, 5, 1], [1, 7, 0], [1, 8, 1]], dtype=np.float64) # Separate X and Y x_2 = data_2[:, [0, 1]] y_2 = data_2[:,

浏览 0提问于2019-02-15得票数 4

回答已采纳

2回答

GridsearchCV负值

、、、

我正在使用sklearn的来获得我的模型的最佳参数。下面是我的代码 model = RandomForestRegressor(random_state = 1, n_jobs = -1) param_grid = {"n_estimators": [5, 10]} for parameter, param_range in dict.items(param_grid): #get_optimum_range(parameter, param_range, RFReg, index) grid_search = GridSearchCV(est

浏览 0提问于2019-01-31得票数 0

1回答

如何从gbm中获得与训练分数相对应的响应变量的向量？

、、、

我正在运行gbm函数(来自GBM R包)，并且我将选项train.fraction设置为0.7。我想得到一个响应变量对应于这个子集的向量。我认为这必须保存在输出gbm对象的一个变量中，但我没有找到它，也不知道是否有方法可以获得它。使用的数据片段保存在gbm.result$data$x.ordered中，但不包括response变量。如果这有一个非常明显的答案，很抱歉。

浏览 24提问于2020-03-22得票数 0

1回答

为什么我的自变量之间的相关性有助于我的线性回归模型？

、、、

我正在使用绝地求生的数据，并为同样的开发一个线性回归模型！现在我的原始数据集中有三个特征:骑行距离、游泳距离、步行距离。我结合了这三个新的功能:距离覆盖，这是上述三个特征之和。当我把它放在线性回归模型中时，当我使用这三个特征和第四个特征时，我得到的分数比只用这三个特征或者仅仅使用第四个特征要好。我已经读过，在开发模型时，特性之间的相关性不应该存在。但是，当所有具有相关性的特征(其中4个)被用来建立模型时，模型有一个较好的平方(R-平方)。为什么会发生这种事？

浏览 0提问于2019-01-27得票数 1

1回答

分数上的这种差异意味着什么？

、、

我已经建立了一个线性回归模型，我得到了训练集和验证集的两个不同的分数，这意味着什么？这是我得到的训练数据得分: 0.8802644749581061，验证数据得分: 0.7124061878004602 注意:-我还没有使用我的测试集。我建立了一个ML模型(线性回归)，然后我检查了训练部分和验证部分的得分： reg = LinearRegression().fit(X_train, y_train) reg.score(X_train, y_train) 这是从下面这行代码中得到的：训练数据: 0.8802644749581061 验证数据: 0.7124061878004602

浏览 0提问于2019-10-22得票数 1

4回答

计算找到的每个文件的行数

、

我想我不太理解Unix中find命令是如何工作的；我有这个计算每个文件夹中文件数量的代码，但我想计算找到的每个文件的行数，并将总行数保存在变量中。 find "$d_path" -type d -maxdepth 1 -name R -print0 | while IFS= read -r -d '' file; do nb_fichier_R="$(find "$file" -type f -maxdepth 1 -iname '*.R' | wc -l)" nb_ligne_fic

浏览 2提问于2014-08-13得票数 0

1回答

如何在cmake中使用CHECK_LIBRARY_EXISTS？

、、

下面是我在我的CMakeLists.txt中拥有的内容： link_directories( "/usr/local/lib" ) include(CheckLibraryExists) CHECK_LIBRARY_EXISTS( "libmali-midgard-t76x-r9p0-r0p0.so" "gbm_create_device" "" MALI ) 结果： Looking for gbm_create_device in libmali-midgard-t76x-r9p0-r0p0.so - not found 该图书

浏览 5提问于2017-10-12得票数 2

回答已采纳

5回答

GBM对XGBOOST？关键的区别？

、、、、

我试图理解GBM和XGBOOST之间的关键区别。我试着搜索它，但是找不到任何好的答案来解释这两种算法之间的区别，以及为什么xgboost几乎总是比GBM表现得更好。是什么让XGBOOST这么快？

浏览 0提问于2017-02-11得票数 81

回答已采纳

1回答

Python -多元线性回归-每个输入变量的决定系数

、、

我正在使用sklearn在Python中执行相当直接的多元线性回归。参见下面的代码片段- full_results是一个数据帧，其中所有变量都是数字。这个代码的结果是一个决定系数，我相信它表示了由于x1 - x4的组合，y的变化有多大。我的问题是，决定系数是否可以在4个输入变量之间分开，这样我就可以看到y的变化分别归因于每个变量。当然，我可以对每个变量单独运行单变量线性回归，但这不像是正确的解决方案。我记得很多年前在统计课上，在R做过类似的事情。 from sklearn.linear_model import LinearRegression x = full_results[[

浏览 46提问于2021-11-19得票数 0

2回答

是否在R中并行执行GBM？

、、、

我在R中使用gbm库，我想使用我所有的CPU来适应一个模型。 gbm.fit(x, y, offset = NULL, misc = NULL,...

浏览 4提问于2015-11-20得票数 3

回答已采纳

1回答

在Azure ML演播室中线性回归的决定系数与Orange 3中相同数据集的回归R平方显著不同，为什么？

我在Orange 3和Azure ML Studio中尝试了完全相同的数据集，用于线性回归。在Azure ML演播室中的决定系数是.71，而橙给出R平方作为.45。为什么会有这么大的差别？

浏览 0提问于2019-02-12得票数 2

2回答

利用optimal软件包寻找GBM的最佳参数

、、、

我正在使用R软件包的boosting对10,000×932的一些生物数据进行回归，我想知道GBM软件包的最佳参数设置是什么(n.trees，收缩，interaction.depth和n.minobsinnode)当我在网上搜索时，我发现R上的CARET软件包可以找到这样的参数设置。但是，我很难将Caret包与GBM包一起使用，所以我只想知道如何使用脱字符来找到前面提到的参数的最佳组合？我知道这个问题可能看起来很典型，但我读了插入符号手册，仍然很难将插入符号与gbm集成，特别是因为我对这两个包都是非常陌生的

浏览 2提问于2013-03-25得票数 13

回答已采纳

1回答

使用R包“dismo”中创建的“gbm”模型和R包“gbm”中的函数

、、

这是我不久前问过的一个的后续，最近得到了答复。我用dismo::gbm.step构建了几个dismo::gbm.step模型，它依赖于R package gbm中的gbm拟合函数，以及来自R package splines的交叉验证工具。作为我分析的一部分，我想使用R(例如透视图)中的一些图形工具来可视化数据中的成对交互。gbm和dismo包都具有检测和建模数据交互的功能。 dismo中的实现在Elith中得到了解释。()并返回一个统计数据，该统计数据指示模型预测与预测器的线性组合之间的偏差，同时保持所有其他预测器的均值。 gbm中的实现使用了Friedman`s的H统计量()，并返回了不

浏览 8提问于2015-10-23得票数 0

2回答

Logistic回归评分为负值

、、

我正在尝试实现logistic回归算法。我正为此目的使用sklearn。当我印刷的准确性，它的印刷负值。代码： import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb import scipy from scipy.stats import spearmanr import sklearn from sklearn.preprocessing import scale from sklearn.linear_model import LogisticRegressi

浏览 0提问于2018-11-03得票数 -2

1回答

如何量化模型预测是否接近Python中的期望值？

、、、

我有两组数据，其中X是观测值，Y是期望值。我试图量化与Python相匹配的好处。对人们来说，计算是非常普遍的。并根据这些值来决定哪个更好，这是错误的。我需要帮助我确定哪个数据集已经观察到接近预期值的值的值。我试过了使用Python进行测试，但是是否有任何其他测试可以帮助确定哪一个最适合。码 from scipy.stats import chisquare import numpy as np x1 = np.array([97.83, 95.06, 92.54, 97.69, 93.76, 93.36, 93.37, 99.29, 101.57, 97.88,

浏览 3提问于2016-02-11得票数 1

2回答

如何从MATLAB中的套索中获得决定系数R^2？

、

在MATLAB中，我们可以使用交叉验证的拉索。 [w, FitInfo] = lasso(X, y, 'CV', 3); 并获得最佳的权重 w(:,FitInfo.IndexMinMSE) 怎样才能找到决定系数呢？

浏览 0提问于2015-01-22得票数 2

回答已采纳

3回答

如何确定我的GBM模型是否过拟合？

、、、、

下面是一个使用R的虹膜数据集的h2o梯度增强机模型的简化示例。该模型被训练用于预测萼片长度。该示例的r2值为0.93，这似乎是不现实的。我如何评估这些是否确实是现实的结果，还是简单的模型过度适合？ library(datasets) library(h2o) # Get the iris dataset df <- iris # Convert to h2o df.hex <- as.h2o(df) # Initiate h2o h2o.init() # Train GBM model gbm_model <- h2o.gbm(x = 2:5, y = 1, df.

浏览 0提问于2017-07-06得票数 6

回答已采纳

4回答

我如何知道一个表中有多少列至少有一个值>或一个数字的<？

library(tidyverse) gbm_vec <- function(nsim = 1000, t = 5, mu = 0.1, sigma =.3, S0 = 3400, dt = 1/252) { epsilon <- matrix(rnorm(t*nsim, sd = .3, mean = .0004), ncol = nsim, nrow = t) gbm <- exp((mu - sigma * sigma / 2) * dt + sigma * epsilon * sqrt(dt))

浏览 3提问于2020-10-13得票数 0

回答已采纳

1回答

如何在gbm封装分析中计算生存函数？

、

我想基于梯度提升模型来分析我的数据。另一方面，由于我的数据是一种队列，我很难理解这个模型的结果。这是我的代码。基于实例数据进行了分析。 install.packages("randomForestSRC") install.packages("gbm") install.packages("survival") library(randomForestSRC) library(gbm) library(survival) data(pbc, package="randomForestSRC") data <- na.

浏览 23提问于2018-09-07得票数 1

1回答

offset_column in h2o.gbm

、、

我使用的是H2O 3.10.4.1 我试图用其他模型的一些初步预测来拟合Bernoulli模型和GBM，而且我比开始预测更有可能。我用泰坦尼克号的数据复制了它。我可以用R的gbm来做我想做的事。R的gbm.fit要求在链接标度上进行偏移，这是不受限制的，它可能是很高的或非常低的负值。但是，当我尝试在H2O GBM中执行同样的操作时，它会引发一个错误： GBM模型的water.exceptions.H2OModelBuilderIllegalArgumentException:非法论证: GBM_model_R_1489164084643_3568。详细信息:在字段上的错误：_offset

浏览 0提问于2017-03-16得票数 1

1回答

R:如何从gbm包中找到C/C++源代码？

、、

library(gbm) gbm.fit 我运行了上面的代码来查看gbm.fit的源代码。看起来函数的“肉”在下面这一行： gbm.obj <- .Call("gbm_fit", Y = as.double(y), Offset = as.double(offset), X = as.double(x), X.order = as.integer(x.order), weights = as.double(w), Misc = as.double(Misc), cRows = as.inte

浏览 27提问于2020-10-01得票数 0

回答已采纳

1回答

Python - Scikit找到分类变量的变量重要性

、、、、

我正在尝试使用python中的scikit learn来做一些不同的分类器问题(RF，GBM等)。除了建立模型和进行预测之外，我还希望看到变量的重要性。我知道有一种方法可以让你 importances = clf.feature_importances_ print(importances) 但是，我如何才能得到与变量名(即R中的summary(gbm)或R中的varImp(randomForest) )相关的更精确的东西，特别是如果它是一个多层的分类变量呢？

浏览 1提问于2015-03-20得票数 8

1回答

特定训练/测试拆分的线性回归系数“爆炸”

、、

我正在使用"“数据集，比较线性回归、岭和套索的系数。我首先进行训练/测试拆分，然后标准化数据，然后训练三个模型并比较系数。对于大多数训练/测试拆分随机种子，三个模型的系数在相同的尺度上，我可以比较它们。但是对于一些随机的种子，一些线性回归的系数“爆炸”，从大约10^4-10^5的值跳到大约10^18。这只发生在线性回归模型中的几个系数上，脊线和套索的系数不受影响。我不确定为什么会发生这种情况，有什么建议或建议吗？

浏览 0提问于2020-09-23得票数 1