我在很多开源的数据集上也做了实验,基本90%的数据集都可以在原始单个模型的基础上带来或多或少的提升。...在大量实验数据的测试中,我们的方法都取得了非常显著的效果。...这些产品的成功主要来源于两大核心因素,一个是能够挖掘数据之间的非线性关系的模型设计,另一个则是高速的可扩展的高性能算法的设计。...大多时候我们会选择直接将预测的结果作为最终的结果或者通过集成的方法来对模型进行进一步的提高,但是这样的计算代价往往较大,因为我们需要训练大量的模型来增加模型之间的差异性。...如果数据集上不存在已经划分好的训练集和测试集,则我们将数据按照7:3的比例划分为训练集和测试集,同样的,在训练数据上我们采用3折交叉验证获取最佳参数,然后使用最优参数在训练数据上重新进行模型训练,然后再在测试集上进行测试