BigML将提升树模型(Boosted Trees)带入我们日益增长的监督式学习技术套件中。Boosting是一个变体,旨在减少偏见,可能会导致比Bagging或随机决策森林更好的表现。
在我们关于提升树模型(Boosted Trees)的这六个系列文章的第一篇博客文章中,我们看到了对提升树集( Trees)的一个介绍,以获得关于这个新资源是什么以及它如何帮助您解决分类和回归问题的一些背景。本文将进一步介绍如何使用BigML机器学习服务进行增强的详细步骤。
要从我们的数据中学习,必须首要上传数据。有几种方法可以将数据上传到BigML管理平台。最简单的方法是导航到仪表板,然后单击最左侧的“ 源”选项卡。从那里,您可以通过从Google云端硬盘,Google存储,Dropbox或MS Azure导入来创建源。如果你的数据集不是非常大,直接输入数据创建一个内联源可能会吸引你。您还可以通过远程URL或上传本地文件(格式为.csv,.tsv,.txt,.json,.arff,.data,.gz或.bz2)创建源文件。
一旦文件作为源文件上传,就可以将其转换为数据集。在您的源视图中,单击一次单击数据集以创建一个数据集,这是您的数据的结构化版本,可供机器学习算法使用。
在数据集视图中,您将能够查看字段值的摘要,一些基本统计数据和字段直方图以分析数据分布。这个视图对于查看数据中的任何错误或不规则性非常有用。您可以按照多个条件过滤数据集,甚至可以从现有数据创建新的字段。
如果检查到数据没有错误,您需要将数据集分成两个不同的子集:一个用于训练Boosted Trees模型,另一个用于测试。培训和评估具有不同数据的监督学习模型以获得真正的评估并且不会被过度拟合所欺骗是至关重要的。您可以使用BigML单击选项或配置选项菜单轻松拆分数据集,然后会随机分配80%的数据进行培训,并留出20%用于测试。
要创建加强树,请确保您正在查看数据集的分割训练,然后在配置选项菜单下单击创建集成。默认情况下,您的数据集的最后一个字段被选为目标字段,但您可以使用左侧的下拉列表轻松更改。要启用提升,请在类型下选择提升树。这将打开高级配置下的增强标签。
当然,您现在可以使用默认设置并单击创建集成。但是,如果没有你,用户,机器学习从来就不是最强大的,它将你自己的领域特定知识带入问题。如果您旋转某些旋钮并更改默认设置以适合您的数据集和问题,您将获得最佳结果(在稍后的博文中,我们将自动讨论查找好的参数)。
BigML提供了许多不同的参数来调整。其中最重要的是迭代次数。这将控制将建造多少棵树; 每次迭代一棵树进行回归,每次迭代一棵树进行分类。
在Boosting下可以找到的其他参数包括:
可以在树的抽样下找到另一个有用的参数:
一旦创建了提升树模型(Boosted Trees),资源视图将包含称为局部依赖图的可视化对象或PDP。该图表忽略除轴上显示的两个区域以外的所有区域的影响。如果您希望其他字段影响结果,则可以通过选中输入字段部分中的框或将它们设置为轴来选择它们。
轴最初设置为两个最重要的领域。您可以随时使用X和Y附近的下拉菜单更改字段。网格中的每个区域都根据预测的类别和概率进行着色。要更详细地查看概率,请将鼠标悬停在网格上,确切概率出现在右上方区域。
如何认为你的参数是否确实调节正确?您需要通过将其预测与您的测试数据集中看到的实际值进行比较来评估提升树模型(Boosted Trees)。
为此,请在集成视图中单击1-click操作菜单下的评估。您可以更改数据集以对其进行评估,但默认的20%测试数据集对于此过程是完美的。单击评估执行,您将看到熟悉的评估可视化,具体取决于您的问题是分类还是回归。
当你对结果满意时,是时候做出一些预测。用你喜欢的方式创建更多的提升树模型(Boosted Trees),但是这一次,在整个数据集上运行它。这意味着你的所有数据都会告知你的决定。
增强型树与其他集合预测不同,因为它们不会返回置信度(用于分类),而是返回目标字段中所有类的概率。
现在,您可以对一些新数据进行预测。就像BigML先前的监督式学习模型一样,您可以对一个实例或整个数据集的批量预测进行单一预测。
在整体视图中,单击1单击操作菜单下的预测(或批量预测)。左手边已经有你的提升树模型(Boosted Trees)。从右侧的下拉列表中选择希望运行预测的数据集。当然,您可以自定义名称和预测输出设置。向下滚动以单击预测来创建预测。
在下一篇文章中,我们将看到BigML推动奥斯卡颁奖典礼的六个步骤。敬请关注!