小菜与老鸟之机器学习08

机器学习利器 Orange 介绍

【关键字】Orange

Orange 是什么?

我们来看下官网对 Orange 的介绍。

Data Mining Fruitful and Fun

Open source machine learning and data visualization for novice and expert. Interactive data analysis workflows with a large toolbox.

Orange 是一款面向新手和专家的开源机器学习和数据可视化的软件,具有大型工具箱的交互式数据分析工作流程,在挖掘数据方面非常有效并且富有乐趣。

本篇文章针对的版本是 Orange 最新版本3.1.4,后面版本升级有可能界面等有所不同,伙伴们要注意。

Orange 最大的特点就是拖拽、可视化、易于理解。软件菜单有 5 大模块:

1. Data 数据:表示数据,数据可以来自于默认集合、文件、数据库表、绘制点数据等等,非常丰富

2. Visualize 可视化:可以看分布图、散点图、树形图、热力图等等

3. Model 模型:包含逻辑回归、线性回归、向量机、随机森林树等模型,非常丰富

4. Evaluate 评估:评估函数用来测试学习算法的好坏

5. Unsupervised 无监督:包含了聚类等无监督学习算法

我们可以通过这 5 大模块拖拽构建出一个数据挖掘或者机器学习流程。

举个非常简单的例子:

我们从 Data 里面拖拽 File 出来,双击 File, 默认的数据会载入 iris 鸢尾花的数据集,我们需要把数据按照 8:2 的比例拆分成训练集和测试集,此时从 Data 里面拖拽出 Data Sampler (数据取样器),双击

选择 80% 的比例。

此时数据取样器会将 File 里面的数据按照 8:2 拆分出训练集和测试集,那么如何看这两个集合的数据?

从 Data 里面拖拽出 Data Table,然后用Data Sampler 的输出(右侧弧)连接到 Data Table 的输入(左侧弧),此时弧线上显示 Data Sample -> Data,表示训练集,然后再拖拽出一个 Data Table,使用 Data Sampler 的输出再次连接该 Data Table,此时弧线上显示还是 Data Sample -> Data,如何让新的 Data Table 显示是测试集数据呢?

双击 Data Sampler 与第二个 Data Table 连接的弧线,此时出现

点击 clear all 按钮,清空掉连接,然后连接 Remaining Data 与右侧 Data

大功告成,我们可以重命名这两个 Data Table 为训练集和测试集,双击训练集可以看到集合中的数据。

更厉害的还在后面。我们可以选择 Visualize 可视化这些数据。

继续从 Visualize 中拖拽出 Scatter Plot (散点图)和 Distributions(分布图) 两个可视化方式。

然后分别看下可视化图。

散点图

分布图-描述了特征值的分布情况

是不是非常直观。

最后给大家节选一些官网上的其他例子图,鼓励大家在学习的过程中去发现更多有趣的用法。记住,拖拽出来后,多用 F1 查看帮助文档。RTFM!

树形查看器-回归

决策树

更多阅读

- Orange官网:https://orange.biolab.si/

- https://github.com/biolab/orange3

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180713G1INPW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券