25分钟
学习控制参数
max_depth: 一个整数,限制了树模型的最大深度,默认值为-1。如果小于0,则表示没有限制。min_data_in_leaf或者min_data_per_leaf或者min_data或者min_child_samples: 一个整数,表示一个叶子节点上包含的最少样本数量。默认值为 20min_sum_hessian_in_leaf或者min_sum_hessian_per_leaf或者min_sum_hessian或者min_hessian或者min_child_weight: 一个浮点数,表示一个叶子节点上的最小hessian之和。(也就是叶节点样本权重之和的最小值) 默认为1e-3。feature_fraction或者sub_feature或者colsample_bytree: 一个浮点数,取值范围为[0.0,1.0], 默认值为1.0。 如果小于1.0,则lightgbm会在每次迭代中随机选择部分特征。如0.8表示:在每棵树训练之前选择80%的特征来训练。feature_fraction_seed: 一个整数,表示feature_fraction的随机数种子,默认为2。bagging_fraction或者sub_row或者subsample:一个浮点数,取值范围为[0.0,1.0], 默认值为1.0。 如果小于1.0,则lightgbm会在每次迭代中随机选择部分样本来训练(非重复采样)。如0.8表示:在每棵树训练之前选择80%的样本(非重复采样)来训练。bagging_freq或者subsample_freq: 一个整数,表示每bagging_freq次执行bagging。 如果该参数为0,表示禁用bagging。bagging_seed或者bagging_fraction_seed: 一个整数,表示bagging的随机数种子,默认为 3 。early_stopping_round或者early_stopping_rounds或者early_stopping: 一个整数,默认为0。 如果一个验证集的度量在early_stopping_round循环中没有提升,则停止训练。如果为0则表示不开启早停。lambda_l1或者reg_alpha: 一个浮点数,表示L1正则化系数。默认为0lambda_l2或者reg_lambda: 一个浮点数,表示L2正则化系数。默认为0min_split_gain或者min_gain_to_split: 一个浮点数,表示执行切分的最小增益,默认为0drop_rate: 一个浮点数,取值范围为[0.0,1.0],表示dropout的比例,默认为0.1。 该参数仅在dart中使用skip_drop: 一个浮点数,取值范围为[0.0,1.0],表示跳过dropout的概率,默认为0.5。 该参数仅在dart中使用max_drop: 一个整数,表示一次迭代中删除树的最大数量,默认为50。 如果小于等于0,则表示没有限制。 该参数仅在dart中使用uniform_drop:一个布尔值,表示是否想要均匀的删除树,默认值为False。 该参数仅在dart中使用xgboost_dart_mode: 一个布尔值,表示是否使用xgboost dart模式,默认值为False。该参数仅在dart中使用drop_seed: 一个整数,表示dropout的随机数种子,默认值为 4。 该参数仅在dart中使用top_rate: 一个浮点数,取值范围为[0.0,1.0],表示在goss中,大梯度数据的保留比例,默认值为 0.2。该参数仅在goss中使用other_rate: 一个浮点数,取值范围为[0.0,1.0],表示在goss中,小梯度数据的保留比例,默认值为 0.1。该参数仅在goss中使用min_data_per_group:一个整数,表示每个分类组的最小数据量,默认值为100。用于排序任务max_cat_threshold: 一个整数,表示category特征的取值集合的最大大小。默认为 32 。cat_smooth: 一个浮点数,用于category特征的概率平滑。默认值为 10。 它可以降低噪声在category特征中的影响,尤其是对于数据很少的类。cat_l2: 一个浮点数,用于category切分中的L2正则化系数。默认为 10 。top_k或者topk: 一个整数,用于投票并行中。默认为20 。 将它设置为更大的值可以获得更精确的结果,但是会降低训练速度。
学员评价