前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Rapid Miner 基本使用

Rapid Miner 基本使用

作者头像
caoqi95
发布2019-03-27 18:08:46
3.5K0
发布2019-03-27 18:08:46
举报

这学期选了实验室指导教授的 Data Mining 课程,课上教授推荐使用 Rapid Miner 这个工具来做 projects,这样可以避免大量的编程工作。

安装

安装地址:https://my.rapidminer.com/nexus/account/index.html#downloads 安装后 ,得注册账号,然后去邮箱中确认,才能开始使用。

界面介绍

左边红色标识的部分主要是一些数据存储的地方;左下角黄色标识的部分是一些操作器,找到需要的操作器后,可以直接拖放在中间的“Process”区域;中间的区域是处理区域,可以查看自己搭建的模型,以及运行的一些结果;右上角灰色标识的区域是展示参数信息的地方;右下角是帮助窗口,如果不知道怎么使用选择的操作器,可以点击操作器,然后在该窗口就会展示出帮助信息。

主要界面

扩展应用

点击界面上方的“Extensions”,再点击“Top Downloads”,可以看到很多的扩展应用。刚开始的时候会有一小段更新加载的时间。

下面就是扩展应用,有“Web Processing”,“Text Processing”等等,这些后面的课程中都会使用到。

热门扩展应用

数据展示

双击任意数据集,会出现如下窗口。“Data”一栏显示的就是原始的数据;“Statistics”一栏显示的是数据的一些统计。“Charts”和“Advanced Charts”这两栏显示的数据的一些图表,用于可视化。

搭建简单的模型

  • 拖入数据 在 “Samples” 下的 “Data” 中找到 “Titanic Training” 和 “Titanic Unlabeled” 这两个数据集分别用于训练模型和测试模型。前者是已经被处理过的数据,已经过滤掉一些无用的信息,后者是无标签数据。
  • 选择模型 在 “Operators” 下的搜索框中可以搜索到自己想要的模型。本例子选择 “Naive Bayes” 模型,找到后拖入右边的操作栏中。
  • 应用模型 要想将训练的模型用于预测,此时就需要用到 “Apply Model” 这个操作器。同样在搜索框中搜索找到后拖入右边的操作栏中。
  • 运行 将数据与操作器之间的连接线都连接好后,点击运行按钮。
  • 查看结果 运行完操作后,会自动蹦出结果。可以很清晰地查看模型的结果。

划分数据集

在 “Operators” 下的搜索框中可以搜索 “Split Data” 这个操作器,然后将其拖入右边的操作栏中。然后点击该操作器,在最右边的 “Parameters” 一栏中会出现一些信息。点击 “Edit Enumeration”,再点击两次 “Add Entry”,第一行中输入 0.7,第二行输入 0.3 。表示 70% 的数据用于训练模型,30% 的数据用于测试模型。最后还需要注意一下,操作器之间的连线。

Cross Validation 交叉验证

在 “Operators” 下的搜索框中可以搜索 “Cross Validation” 这个操作器,然后将其拖入右边的操作栏中。双击该操作器,会出现内部嵌套的处理操作,分为 “Training” 和 “Testing” 这两部分。主要在 “Training” 中添加模型训练,“Testing” 中添加 “Apply Model” 用于测试模型。这里也要注意连线的信息。

处理类别(categorical)数据

  • 将非数字型数据转换成数字型数据(二元类型):使用 “Norminal to Numerical” operator
  • 将数字型数据转换成二元类型:使用 “Numerical to Binominal” operator,结果为 True 和 False
  • 将数字型数据转换成多元类型:使用 “Numerical to Polynominal” operator,结果为 one-hot 向量

一些注意事项

  • 数据加载:只有在点击 “Process” 之后,数据才正式的被加载进来。
  • 连线问题:在选择使用每个操作器后,需要马上和数据集或者之前的操作器进行连接,这样数据流可以正常流动,点击操作器也能够正常的在 “Paramtetrs” 一栏中看到参数情况。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.09.04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安装
  • 界面介绍
  • 扩展应用
  • 数据展示
  • 搭建简单的模型
  • 划分数据集
  • Cross Validation 交叉验证
  • 处理类别(categorical)数据
  • 一些注意事项
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档