bigML中提升树模型的6个步骤

BigML将提升树模型(Boosted Trees)带入我们日益增长的监督式学习技术套件中。Boosting是一个变体,旨在减少偏见,可能会导致比Bagging或随机决策森林更好的表现。

在我们关于提升树模型(Boosted Trees)的这六个系列文章第一篇博客文章中,我们看到了对提升树集( Trees)的一个介绍,以获得关于这个新资源是什么以及它如何帮助您解决分类和回归问题的一些背景。本文将进一步介绍如何使用BigML机器学习服务进行增强的详细步骤。

1.导入数据

要从我们的数据中学习,必须首要上传数据。有几种方法可以将数据上传到BigML管理平台。最简单的方法是导航到仪表板,然后单击最左侧的“ 源”选项卡。从那里,您可以通过从Google云端硬盘,Google存储,Dropbox或MS Azure导入来创建源。如果你的数据集不是非常大,直接输入数据创建一个内联源可能会吸引你。您还可以通过远程URL或上传本地文件(格式为.csv,.tsv,.txt,.json,.arff,.data,.gz或.bz2)创建源文件。

2.创建你的数据集

一旦文件作为源文件上传,就可以将其转换为数据集。在您的视图中,单击一次单击数据集以创建一个数据集,这是您的数据的结构化版本,可供机器学习算法使用。

在数据集视图中,您将能够查看字段值的摘要,一些基本统计数据和字段直方图以分析数据分布。这个视图对于查看数据中的任何错误或不规则性非常有用。您可以按照多个条件过滤数据集,甚至可以从现有数据创建新的字段。

如果检查到数据没有错误,您需要将数据集分成两个不同的子集:一个用于训练Boosted Trees模型,另一个用于测试。培训和评估具有不同数据的监督学习模型以获得真正的评估并且不会被过度拟合所欺骗是至关重要的。您可以使用BigML单击选项或配置选项菜单轻松拆分数据集,然后会随机分配80%的数据进行培训,并留出20%用于测试。

3.创建你的提升树模型(Boosted Trees)

要创建加强树,请确保您正在查看数据集的分割训练,然后在配置选项菜单下单击创建集成。默认情况下,您的数据集的最后一个字段被选为目标字段,但您可以使用左侧的下拉列表轻松更改。要启用提升,请在类型下选择提升树。这将打开高级配置下的增强标签。

当然,您现在可以使用默认设置并单击创建集成。但是,如果没有你,用户,机器学习从来就不是最强大的,它将你自己的领域特定知识带入问题。如果您旋转某些旋钮并更改默认设置以适合您的数据集和问题,您将获得最佳结果(在稍后的博文中,我们将自动讨论查找好的参数)。

BigML提供了许多不同的参数来调整。其中最重要的是迭代次数。这将控制将建造多少棵树; 每次迭代一棵树进行回归,每次迭代一棵树进行分类。

Boosting下可以找到的其他参数包括:

  • 早起停止的两种形式。这些将使整体不再执行所有迭代,节省运行时间并可能提高性能。早期坚持试图通过在每次迭代中完全保留一部分数据进行测试来寻求最佳停止时间以改进。提前从袋中抽取数据(树数据中未使用的数据)。
  • “ 学习效率 ”。默认值为10%,学习率控制梯度方向走多远。一般而言,较小的步长将导致更准确的结果,需要耗费更大的时间。

可以在树的抽样下找到另一个有用的参数:

  • 集成速率”选项可确保每棵树仅与您的训练数据的子集一起创建,并且通常有助于防止过度拟合。

4.分析你的提升树模型

一旦创建了提升树模型(Boosted Trees),资源视图将包含称为局部依赖图的可视化对象或PDP。该图表忽略除轴上显示的两个区域以外的所有区域的影响。如果您希望其他字段影响结果,则可以通过选中输入字段部分中的框或将它们设置为轴来选择它们。

轴最初设置为两个最重要的领域。您可以随时使用X和Y附近的下拉菜单更改字段。网格中的每个区域都根据预测的类别和概率进行着色。要更详细地查看概率,请将鼠标悬停在网格上,确切概率出现在右上方区域。

5.评估你的提升树

如何认为你的参数是否确实调节正确?您需要通过将其预测与您的测试数据集中看到的实际值进行比较来评估提升树模型(Boosted Trees)。

为此,请在集成视图中单击1-click操作菜单下的评估。您可以更改数据集以对其进行评估,但默认的20%测试数据集对于此过程是完美的。单击评估执行,您将看到熟悉的评估可视化,具体取决于您的问题是分类还是回归。

6.做出你的预测

当你对结果满意时,是时候做出一些预测。用你喜欢的方式创建更多的提升树模型(Boosted Trees),但是这一次,在整个数据集上运行它。这意味着你的所有数据都会告知你的决定。

增强型树与其他集合预测不同,因为它们不会返回置信度(用于分类),而是返回目标字段中所有类的概率。

现在,您可以对一些新数据进行预测。就像BigML先前的监督式学习模型一样,您可以对一个实例或整个数据集的批量预测进行单一预测。

在整体视图中,单击1单击操作菜单下的预测(或批量预测)。左手边已经有你的提升树模型(Boosted Trees)。从右侧的下拉列表中选择希望运行预测的数据集。当然,您可以自定义名称和预测输出设置。向下滚动以单击预测来创建预测。

在下一篇文章中,我们将看到BigML推动奥斯卡颁奖典礼的六个步骤。敬请关注!

本文的版权归 用户1652466 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

想要训练专属人脸识别模型?先掌握构建人脸数据集的三种绝招

雷锋网 AI 研习社按,随着深度学习的发展,很多技术已经落地,成为我们每天都能接触到的产品,人脸识别就是其中之一。人脸识别的应用范围很广,涉及上下班打卡、门禁、...

1972
来自专栏CDA数据分析师

谷歌教你学 AI-第四讲部署预测模型

翻译/校对: Mika 本文为 CDA 数据分析师原创作品,转载需授权 Google Cloud发布了名为"AI Adventures"的系列视频,用简单易懂的...

2716
来自专栏大数据智能实战

DrQA实践

2017年七月份Facebook开源了其开放域问答系统DrQA的代码。关于DrQA,还有一篇2017年发表在ACL上的论文《Reading Wikipedi...

3265
来自专栏程序生活

斯坦福tensorflow教程(四) 贪婪执行Eager Execution

1655
来自专栏CVer

开源 | 深度学习网络模型(model)可视化开源软件Netron

前两天,Amusi分享了一篇 经典卷积神经网络(CNN)结构可视化工具,该工具可用于可视化各种经典的卷积神经网络结构。如AlexNet、VGG-16、ResNe...

8633
来自专栏XAI

Java分布式神经网络库Deeplearning4j 环境搭建和运行一个例子

DeeplearningforJava简单介绍: deeplearning4j是一个Apache 2.0-licensed,开源的,分布式神经网络库编写的jav...

4528
来自专栏磐创AI技术团队的专栏

TensorFlow + Keras 实战 YOLO v3 目标检测图文并茂教程(文末有惊喜)

3253
来自专栏YoungGy

ML基石_9_LinearRegression

linear regression problem linear regression algorithm 优化问题 求梯度 算法 generalization...

2496
来自专栏小白课代表

软件分享 | SPSS 22 32位/64位 安装教程

SPSS for Windows是一个组合式软件包,它集数据录入、整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,...

1583
来自专栏磐创AI技术团队的专栏

Tensorboard详解(下篇)

2735

扫码关注云+社区

领取腾讯云代金券