鸢尾花数据集是由杰出的统计学家R.A.Fisher在20世纪30年代中期创建的,它被公认为用于数据挖掘的最著名的数据集。它包含3种植物种类(Iris setosa、Irisversicolor和Iris virginica),每种各有50个样本。
链接:https://pan.baidu.com/s/1hrG8Yn6 密码:pzgn
XGBoost的作者把所有的参数分成了三类:
尽管有两种booster可供选择,我这里只介绍tree booster,因为它的表现远远胜过linear booster,所以linear booster很少用到。
这个参数用来控制理想的优化目标和每一步结果的度量方法。
如果你之前用的是Scikit-learn,你可能不太熟悉这些参数。但是有个好消息,python的XGBoost模块有一个sklearn包,XGBClassifier。这个包中的参数是按sklearn风格命名的。会改变的函数名是:


xg.png
