原文:https://blog.csdn.net/zwqjoy/article/details/90637423

XGBoost的参数一共分为三类(完整参数请戳官方文档):
booster:我们有两种参数选择,gbtree和gblinear。gbtree是采用树的结构来运行数据,而gblinear是基于线性模型。silent:静默模式,为1时模型运行不输出。nthread: 使用线程数,一般我们设置成-1,使用所有线程。如果有需要,我们设置成多少就是用多少线程。n_estimator: 也作num_boosting_rounds
这是生成的最大树的数目,也是最大的迭代次数。
learning_rate: 有时也叫作eta,系统默认值为0.3,。
每一步迭代的步长,很重要。太大了运行准确率不高,太小了运行速度慢。我们一般使用比默认值小一点,0.1左右就很好。
gamma:系统默认为0,我们也常用0。
在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大,算法越保守。因为gamma值越大的时候,损失函数下降更多才可以分裂节点。所以树生成的时候更不容易分裂节点。范围: [0,∞]
subsample:系统默认为1。
这个参数控制对于每棵树,随机采样的比例。减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,它可能会导致欠拟合。 典型值:0.5-1,0.5代表平均采样,防止过拟合. 范围: (0,1],注意不可取0
colsample_bytree:系统默认值为1。我们一般设置成0.8左右。
用来控制每棵随机采样的列数的占比(每一列是一个特征)。 典型值:0.5-1范围: (0,1]
colsample_bylevel:默认为1,我们也设置为1.
这个就相比于前一个更加细致了,它指的是每棵树每次节点分裂的时候列采样的比例
max_depth: 系统默认值为6
我们常用3-10之间的数字。这个值为树的最大深度。这个值是用来控制过拟合的。max_depth越大,模型学习的更加具体。设置为0代表没有限制,范围: [0,∞]
max_delta_step:默认0,我们常用0.
这个参数限制了每棵树权重改变的最大步长,如果这个参数的值为0,则意味着没有约束。如果他被赋予了某一个正值,则是这个算法更加保守。通常,这个参数我们不需要设置,但是当个类别的样本极不平衡的时候,这个参数对逻辑回归优化器是很有帮助的。
lambda:也称reg_lambda,默认值为0。
权重的L2正则化项。(和Ridge regression类似)。这个参数是用来控制XGBoost的正则化部分的。这个参数在减少过拟合上很有帮助。
alpha:也称reg_alpha默认为0,
权重的L1正则化项。(和Lasso regression类似)。 可以应用在很高维度的情况下,使得算法的速度更快。scale_pos_weight:默认为1
在各类别样本十分不平衡时,把这个参数设定为一个正值,可以使算法更快收敛。通常可以将其设置为负样本的数目与正样本数目的比值。objective [缺省值=reg:linear]
reg:linear– 线性回归reg:logistic – 逻辑回归binary:logistic – 二分类逻辑回归,输出为概率binary:logitraw – 二分类逻辑回归,输出的结果为wTxcount:poisson – 计数问题的poisson回归,输出结果为poisson分布。在poisson回归中,max_delta_step的缺省值为0.7 (used to safeguard optimization)multi:softmax – 设置 XGBoost 使用softmax目标函数做多分类,需要设置参数num_class(类别个数)multi:softprob – 如同softmax,但是输出结果为ndata*nclass的向量,其中的值是每个数据分为每个类的概率。eval_metric [缺省值=通过目标函数选择]
rmse: 均方根误差mae: 平均绝对值误差logloss: negative log-likelihooderror: 二分类错误率。其值通过错误分类数目与全部分类数目比值得到。对于预测,预测值大于0.5被认为是正类,其它归为负类。 error@t: 不同的划分阈值可以通过 ‘t’进行设置merror: 多分类错误率,计算公式为(wrong cases)/(all cases)mlogloss: 多分类log损失auc: 曲线下的面积ndcg: Normalized Discounted Cumulative Gainmap: 平均正确率一般来说,我们都会使用xgboost.train(params, dtrain)函数来训练我们的模型。这里的params指的是booster参数。
XGBoost 一共有三类参数通用参数,学习目标参数,Booster参数,那么对于LightGBM,我们有核心参数,学习控制参数,IO参数,目标参数,度量参数,网络参数,GPU参数,模型参数,这里我常修改的便是核心参数,学习控制参数,度量参数等。更详细的请看LightGBM中文文档
boosting:也称boost,boosting_type.默认是gbdt。
LGB里面的boosting参数要比xgb多不少,我们有传统的gbdt,也有rf,dart,doss,最后两种不太深入理解,但是试过,还是gbdt的效果比较经典稳定
gbdt, 传统的梯度提升决策树rf, Random Forest (随机森林)dart, Dropouts meet Multiple Additive Regression Trees goss, Gradient-based One-Side Sampling (基于梯度的单侧采样)num_thread:也称作num_thread,nthread.指定线程的个数。
这里官方文档提到,数字设置成cpu内核数比线程数训练效更快(考虑到现在cpu大多超线程)。并行学习不应该设置成全部线程,这反而使得训练速度不佳。
application:默认为regression。,也称objective, app这里指的是任务目标
regression_l2, L2 loss, alias=regression, mean_squared_error, mseregression_l1, L1 loss, alias=mean_absolute_error, maehuber, Huber lossfair, Fair losspoisson, Poisson regressionquantile, Quantile regressionquantile_l2, 类似于 quantile, 但是使用了 L2 lossmulticlass, softmax 目标函数, 应该设置好 num_class multiclassova, One-vs-All 二分类目标函数, 应该设置好 num_class xentropy, 目标函数为 cross-entropy (同时有可选择的线性权重), alias=cross_entropyxentlambda, 替代参数化的 cross-entropy, alias=cross_entropy_lambdalabel_gain 可以被用来设置 int 标签的增益 (权重)valid:验证集选用,也称test,valid_data, test_data.支持多验证集,以,分割learning_rate:也称shrinkage_rate,梯度下降的步长。默认设置成0.1,我们一般设置成0.05-0.2之间num_leaves:也称num_leaf,新版lgb将这个默认值改成31,这代表的是一棵树上的叶子数num_iterations:也称num_iteration, num_tree, num_trees, num_round, num_rounds,num_boost_round。迭代次数device:default=cpu, options=cpu, gpu
max_depth-1, type=int限制树模型的最大深度. 这可以在 #data 小的情况下防止过拟合. 树仍然可以通过 leaf-wise 生长.< 0 意味着没有限制.feature_fraction:default=1.0, type=double, 0.0 < feature_fraction < 1.0, 也称sub_feature, colsample_bytree
bagging_fraction:default=1.0, type=double, 0.0 < bagging_fraction < 1.0, 也称sub_row, subsample
bagging_freq: default=0, type=int, 也称subsample_freq
lambda_l1:默认为0,也称reg_alpha,表示的是L1正则化,double类型lambda_l2:默认为0,也称reg_lambda,表示的是L2正则化,double类型cat_smooth: default=10, type=double
min_data_in_leaf , 默认为20。 也称min_data_per_leaf , min_data, min_child_samples。
一个叶子上数据的最小数量。可以用来处理过拟合。min_sum_hessian_in_leaf, default=1e-3, 也称min_sum_hessian_per_leaf, min_sum_hessian, min_hessian, min_child_weight。
min_data_in_leaf, 可以用来处理过拟合.early_stopping_round, 默认为0, type=int, 也称early_stopping_rounds, early_stopping。
如果一个验证集的度量在 early_stopping_round 循环中没有提升, 将停止训练、min_split_gain, 默认为0, type=double, 也称min_gain_to_split`。执行切分的最小增益。max_bin:最大直方图数目,默认为255,工具箱的最大数特征值决定了容量 工具箱的最小数特征值可能会降低训练的准确性, 但是可能会增加一些一般的影响(处理过拟合,越大越容易过拟合)。* 针对直方图算法tree_method=hist时,用来控制将连续值特征离散化为多个直方图的直方图数目。
* LightGBM 将根据 `max_bin` 自动压缩内存。 例如, 如果 maxbin=255, 那么 LightGBM 将使用 uint8t 的特性值。
12.**`subsample_for_bin`**
`bin_construct_sample_cnt`, 默认为200000, 也称`subsample_for_bin`。用来构建直方图的数据的数量。metric: default={l2 for regression}, {binary_logloss for binary classification}, {ndcg for lambdarank}, type=multi-enum, options=l1, l2, ndcg, auc, binary_logloss, binary_error … l1, absolute loss, alias=mean_absolute_error, mael2, square loss, alias=mean_squared_error, msel2_root, root square loss, alias=root_mean_squared_error, rmsequantile, Quantile regressionhuber, Huber lossfair, Fair losspoisson, Poisson regressionndcg, NDCGmap, MAPauc, AUCbinary_logloss, log lossbinary_error, 样本: 0 的正确分类, 1 错误分类multi_logloss, mulit-class 损失日志分类multi_error, error rate for mulit-class 出错率分类xentropy, cross-entropy (与可选的线性权重), alias=cross_entropyxentlambda, “intensity-weighted” 交叉熵, alias=cross_entropy_lambdakldiv, Kullback-Leibler divergence, alias=kullback_leibler