使用sklearn RandomizedSearchCV搜索H2o参数

使用sklearn的RandomizedSearchCV可以帮助我们在H2O模型中搜索最佳参数。

H2O是一个开源的分布式机器学习平台，它提供了丰富的机器学习算法和工具，可以在大规模数据集上进行高效的分析和建模。H2O支持多种编程语言，包括Python、R和Java，使得开发人员可以方便地使用自己熟悉的语言进行模型开发和部署。

RandomizedSearchCV是sklearn中的一个函数，用于在给定的参数空间中随机搜索最佳参数组合。它通过指定参数的分布或列表来定义参数空间，并在给定的搜索次数内随机选择参数组合进行模型训练和评估。这种随机搜索的方法可以帮助我们更快地找到最佳参数组合，从而提高模型的性能。

在使用RandomizedSearchCV搜索H2O参数时，我们需要先定义参数空间。例如，对于H2O的Gradient Boosting Machine（GBM）模型，我们可以定义以下参数空间：

learning_rate: 学习率，控制每次迭代的步长
max_depth: 树的最大深度
min_rows: 叶子节点的最小观测数
sample_rate: 每次迭代时用于训练的样本比例
col_sample_rate: 每次迭代时用于训练的特征比例

然后，我们可以使用RandomizedSearchCV函数指定参数空间和搜索次数，并将H2O模型作为评估器传入。例如：

from sklearn.model_selection import RandomizedSearchCV
from h2o.estimators import H2OGradientBoostingEstimator

# 定义参数空间
param_space = {
    'learning_rate': [0.01, 0.1, 0.5],
    'max_depth': [3, 5, 7],
    'min_rows': [1, 5, 10],
    'sample_rate': [0.8, 0.9, 1.0],
    'col_sample_rate': [0.8, 0.9, 1.0]
}

# 创建H2O GBM模型
model = H2OGradientBoostingEstimator()

# 创建RandomizedSearchCV对象
search = RandomizedSearchCV(model, param_space, n_iter=10, cv=5)

# 在训练数据上进行参数搜索
search.fit(X_train, y_train)

在上述代码中，我们定义了learning_rate、max_depth、min_rows、sample_rate和col_sample_rate这些参数的取值范围。然后，我们创建了一个H2O GBM模型和一个RandomizedSearchCV对象，并指定了搜索次数（n_iter）和交叉验证折数（cv）。最后，我们使用训练数据（X_train和y_train）对模型进行参数搜索。

完成参数搜索后，我们可以通过search.best_params_属性获取到最佳参数组合。例如，可以使用以下代码打印最佳参数组合：

print(search.best_params_)

除了RandomizedSearchCV，sklearn还提供了GridSearchCV函数，用于在给定的参数空间中进行网格搜索。与RandomizedSearchCV不同的是，GridSearchCV会遍历所有可能的参数组合，因此在参数空间较大时可能会耗费更多的时间。

总结起来，使用sklearn的RandomizedSearchCV可以帮助我们在H2O模型中搜索最佳参数组合，从而提高模型的性能。在实际应用中，我们可以根据具体的问题和数据集来定义参数空间，并根据搜索结果进行模型调优。

使用sklearn RandomizedSearchCV搜索H2o参数

、、、

我正在尝试使用sklearn RandomizedSearchCV来优化h2o模型的最佳参数。代码(摘自此documentation)： from sklearn.model_selection import RandomizedSearchCV from sklearn.pipeline importpipeline = Pipeline([("gbm", H2OGradientBoostingEstimator(distribu

浏览 12提问于2020-07-03得票数 0

1回答

基于分组K折叠cv发生器的学习网格搜索

、

我试图实现一个网格搜索的参数在sklearn使用随机搜索和分组k折叠交叉验证生成器。以下工作：rs=sklearn.model_selection.RandomizedSearchCV(clf,parameters,scoring='roc_auc',cv=skf,n_iter=10)这可不是 gkf=G

浏览 2提问于2017-03-17得票数 11

回答已采纳

2回答

基于RandomizedSearchCV的scikit学习超参数的条件优化

、、

我希望在sklearn中使用RandomizedSearchCV为我的数据集上的支持向量分类器搜索最优的超参数值。我正在优化的超参数是“内核”、"C“和”伽马“。但是，对于"poly“核，我还想优化第四个超参数”度“(多项式核函数的索引)。我意识到，由于在内核不是"poly“时忽略了度数超参数，所以我只需在我提供给RandomizedSearchCV的params字典中包含程度(正如我在下面的代码中所做的

浏览 6提问于2019-09-30得票数 2

回答已采纳

1回答

亲合传播偏好参数

、、、

我已经获得了一些令人鼓舞的结果，使用scikit-learn的亲和性传播实现对一组实体名称进行聚类，使用修改后的Jaro-Winkler距离作为相似性度量，但我的集群仍然太多(即。)太多的假阳性。我在scikit-learn文档中看到，存在一个影响集群数量的“首选项”参数，其描述如下：每个点的偏好值越大，就越有可能被选择作为样本。如果首选项不是作为参数传递，它们将被设置为输入相似性的中位数。是否有某种方法来确定偏好参数的“合理”值？为什么我

浏览 3提问于2017-04-24得票数 6

1回答

StackingRegressor sklearn的超参数调优

、、、、

在我的问题中，我想使用一个简单的RandomizedSearchCV调谐器调优sklearn.ensemble.StackingRegressor。因为我们需要在实例化StackingRegressor()时定义估计器，所以我无法在我的param_distribution随机搜索中正确地定义估计器的参数空间。我尝试了以下方法，但遇到了错误： from sklearn.datasets import load_diabetes from sklearn.linear_mo

浏览 232提问于2021-09-21得票数 0

回答已采纳

1回答

如何在滑雪板上进行多输出参数调整的分类训练？

、、、

然而，我无法确定这个平均参数应该放在哪里；accuracy_score、precision_score、recall_score内置方法有一个参数，我在代码中没有明确使用这个参数。MultiOutputClassifier没有这样的论点，RandomizedSearchCV's .fit()方法也没有。我也尝试过将像precision_score(average='micro')这样的方法直接传递给RandomizedSearchCV的scoring和ref

浏览 0提问于2022-02-05得票数 0

回答已采纳

1回答

如何从RFE管道中获取support_值？

、、、

我创建了一个包含RFE和RandomForestClassifer的管道，然后应用RandomizedSearchCV为两者找到最佳的超参数值。我的代码就是这样的-from sklearn.feature_selectionimport RFEfrom sklearn.model_selec

浏览 12提问于2022-06-27得票数 2

回答已采纳

1回答

基于组验证的滑雪板模型超参数搜索方法

、、、

我想执行超参数优化，为一个模型，我已经培训了在科学学习。我想首先使用随机搜索来获得一个好的搜索区域的想法，然后用网格搜索来跟踪它。我需要使用的验证方法是将一个组排除在外(徽标)。squared_error", "absolute_error", "poisson"],} random_search = RandomizedS

浏览 7提问于2021-12-10得票数 1

回答已采纳

1回答

在learning_rate中定义日志统一的RandomizedSearchCV参数

、、、

我正在进行超参数调优，我使用scikit-optimize进行贝叶斯优化，使用RandomizedSearchCV进行随机搜索。log-uniform", name='learning_rate'), ...我如何使用RandomizedSearchCV (sklearn)来进行优化，

浏览 0提问于2018-04-24得票数 0

回答已采纳

1回答

递归特征消除和网格搜索在scikit-learn中的结合

、、

我正在尝试在scikit-learn中结合递归特征消除和网格搜索。正如您从下面的代码中看到的(可以工作)，我能够从网格搜索中获得最佳估计器，然后将该估计器传递给RFECV。然而，我宁愿先做RFECV，而不是网格搜索。问题是，当我将选择器从RFECV传递到网格搜索时，它不接受它：有没有可能从RFECV获取选择器并将其直接传递给RandomizedSearchCVfrom sklearn.datasets impor

浏览 5提问于2015-08-25得票数 7

1回答

用于RandomForestClassifier的scaling sklearn

、、、

仅训练这个分类器就运行得相当快，使用机器上的所有核，并使用~93 on：rfc = sklearn.ensemble.RandomForestClassifier()

浏览 0提问于2019-03-27得票数 3

回答已采纳

2回答

sklearn.exceptions.NotFittedError:估计器不匹配，在开发模型之前调用“not”

、、、

import numpy as npfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import KFold, cross_val_predictfrom sklearn.pi

浏览 1提问于2019-06-19得票数 2

回答已采纳

1回答

调优CatBoost超参数时出现问题

、

RandomizedSearchCV来调优超参数： cat_gridverbose=True) cat_model_rs.fit(Xtrain[:100000], ytrain[:100000]) 现在，到目前为止，计算机需要很长时间才能将这些参数匹配到搜索中昨天，我在使用GPU时出现了“内核停止”(不记得木星是

浏览 9提问于2020-09-16得票数 0

1回答

在RandomizedSearchCV中使用支持集进行验证-学习？

、、

当验证数据已经作为一个阻碍集存在时，有什么方法可以从scikit学习中进行RandomizedSearchCV呢？我尝试将训练和验证数据连接起来，并定义cv参数，以便在两个集合合并的地方进行精确的拆分，但找不到RandomizedSearchCV接受的正确语法。

浏览 2提问于2020-06-30得票数 3

回答已采纳

2回答

scikit评分标准-学习的LassoCV

、、、

我在使用scikit-learn的函数。在交叉验证期间，默认情况下使用的是什么？我希望交叉验证是基于“均方误差回归损失”。在LassoCV中可以使用这个度量吗？我们可以为指定一个评分标准，所以也可以使用LassoCV吗？

浏览 3提问于2017-05-22得票数 3

回答已采纳

2回答

在搜索超参数时，如何设置AUC作为评分方法？

、、

我想执行一个随机搜索，在分类问题上，将选择评分方法作为AUC，而不是准确性评分。看看我的可再现性代码：import numpy as npy = np.random.binomi

浏览 6提问于2022-05-06得票数 0

1回答

将RandomizedSearchCV指向一个分类器

、、

我正在使用下面的工作流程来训练一个随机的森林分类器供生产使用。我使用RandomizedSearchCV来调整分类器的参数，方法是打印结果，然后使用RandomizedSearchCV的结果创建一个新的管道。我假设必须有一种方法来简单地将RandomizedSearchCV的最佳结果指向分类器，这样我就不必手动地去做了，但是我不知道怎么做。select = sklearn.feature_selection.SelectKBest(k

浏览 2提问于2016-04-08得票数 0

回答已采纳

1回答

通过随机化搜索和递归特征消除将特征缩放添加到嵌套交叉验证

、

我有一个分类任务，希望使用重复嵌套的交叉验证来同时执行超参数调整和特征选择。为此，我使用Python的sklearn库在RFECV上运行RandomizedSearchCV，正如this SO answer中所建议的那样。但是，我还需要缩放我的功能，并首先计算一些缺失的值。我试图创建一个Pipeline来到达那里，但我认为它“破坏”了我的简历嵌套(即，彼此分开执行RFECV和随机搜索)： import numpy as np from sklearn.data

浏览 24提问于2021-11-08得票数 3

1回答

随机搜索的优化目标是什么？

、、

最近，我了解了随机搜索(或者sklearn.model_selection.RandomizedSearchCV中的Python)，并思考了优化过程背后的理论。特别是我的问题是，考虑到对某个算法(例如随机森林)执行随机搜索，基于什么是最佳的超参数？更具体地说，从什么意义上说，它们是模型的“最佳”超参数？他们是否最大限度地提高了模型的准确性？

浏览 0提问于2020-05-01得票数 0

回答已采纳

1回答

如何让RandomizedSearchCV从分布或无值中选择？

、、、、

假设我们正在尝试寻找的最佳参数。我们使用的是from sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import RandomizedSearchCV rf_params = { # Is this somehow'max_depth': [sp_randint(

浏览 1提问于2017-04-22得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用sklearn RandomizedSearchCV搜索H2o参数

相关·内容

使用sklearn RandomizedSearchCV搜索H2o参数

基于分组K折叠cv发生器的学习网格搜索

基于RandomizedSearchCV的scikit学习超参数的条件优化

亲合传播偏好参数

StackingRegressor sklearn的超参数调优

如何在滑雪板上进行多输出参数调整的分类训练？

如何从RFE管道中获取support_值？

基于组验证的滑雪板模型超参数搜索方法

在learning_rate中定义日志统一的RandomizedSearchCV参数

递归特征消除和网格搜索在scikit-learn中的结合

用于RandomForestClassifier的scaling sklearn

sklearn.exceptions.NotFittedError:估计器不匹配，在开发模型之前调用“not”

调优CatBoost超参数时出现问题

在RandomizedSearchCV中使用支持集进行验证-学习？

scikit评分标准-学习的LassoCV

在搜索超参数时，如何设置AUC作为评分方法？

将RandomizedSearchCV指向一个分类器

通过随机化搜索和递归特征消除将特征缩放添加到嵌套交叉验证

随机搜索的优化目标是什么？

如何让RandomizedSearchCV从分布或无值中选择？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐