专栏首页caoqi95的记录日志Rapid Miner 基本使用

Rapid Miner 基本使用

这学期选了实验室指导教授的 Data Mining 课程,课上教授推荐使用 Rapid Miner 这个工具来做 projects,这样可以避免大量的编程工作。

安装

安装地址:https://my.rapidminer.com/nexus/account/index.html#downloads 安装后 ,得注册账号,然后去邮箱中确认,才能开始使用。

界面介绍

左边红色标识的部分主要是一些数据存储的地方;左下角黄色标识的部分是一些操作器,找到需要的操作器后,可以直接拖放在中间的“Process”区域;中间的区域是处理区域,可以查看自己搭建的模型,以及运行的一些结果;右上角灰色标识的区域是展示参数信息的地方;右下角是帮助窗口,如果不知道怎么使用选择的操作器,可以点击操作器,然后在该窗口就会展示出帮助信息。

主要界面

扩展应用

点击界面上方的“Extensions”,再点击“Top Downloads”,可以看到很多的扩展应用。刚开始的时候会有一小段更新加载的时间。

下面就是扩展应用,有“Web Processing”,“Text Processing”等等,这些后面的课程中都会使用到。

热门扩展应用

数据展示

双击任意数据集,会出现如下窗口。“Data”一栏显示的就是原始的数据;“Statistics”一栏显示的是数据的一些统计。“Charts”和“Advanced Charts”这两栏显示的数据的一些图表,用于可视化。

搭建简单的模型

  • 拖入数据 在 “Samples” 下的 “Data” 中找到 “Titanic Training” 和 “Titanic Unlabeled” 这两个数据集分别用于训练模型和测试模型。前者是已经被处理过的数据,已经过滤掉一些无用的信息,后者是无标签数据。
  • 选择模型 在 “Operators” 下的搜索框中可以搜索到自己想要的模型。本例子选择 “Naive Bayes” 模型,找到后拖入右边的操作栏中。
  • 应用模型 要想将训练的模型用于预测,此时就需要用到 “Apply Model” 这个操作器。同样在搜索框中搜索找到后拖入右边的操作栏中。
  • 运行 将数据与操作器之间的连接线都连接好后,点击运行按钮。
  • 查看结果 运行完操作后,会自动蹦出结果。可以很清晰地查看模型的结果。

划分数据集

在 “Operators” 下的搜索框中可以搜索 “Split Data” 这个操作器,然后将其拖入右边的操作栏中。然后点击该操作器,在最右边的 “Parameters” 一栏中会出现一些信息。点击 “Edit Enumeration”,再点击两次 “Add Entry”,第一行中输入 0.7,第二行输入 0.3 。表示 70% 的数据用于训练模型,30% 的数据用于测试模型。最后还需要注意一下,操作器之间的连线。

Cross Validation 交叉验证

在 “Operators” 下的搜索框中可以搜索 “Cross Validation” 这个操作器,然后将其拖入右边的操作栏中。双击该操作器,会出现内部嵌套的处理操作,分为 “Training” 和 “Testing” 这两部分。主要在 “Training” 中添加模型训练,“Testing” 中添加 “Apply Model” 用于测试模型。这里也要注意连线的信息。

处理类别(categorical)数据

  • 将非数字型数据转换成数字型数据(二元类型):使用 “Norminal to Numerical” operator
  • 将数字型数据转换成二元类型:使用 “Numerical to Binominal” operator,结果为 True 和 False
  • 将数字型数据转换成多元类型:使用 “Numerical to Polynominal” operator,结果为 one-hot 向量

一些注意事项

  • 数据加载:只有在点击 “Process” 之后,数据才正式的被加载进来。
  • 连线问题:在选择使用每个操作器后,需要马上和数据集或者之前的操作器进行连接,这样数据流可以正常流动,点击操作器也能够正常的在 “Paramtetrs” 一栏中看到参数情况。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于 CNN 的中文对话情感分析

    这是 Data Mining 这门课的期末项目,主要记录一下中文文本的处理方式与 CNN 作用于文本特征的原理,网络训练调参和与其他模型的对比就不详细记录了。

    caoqi95
  • 如何用 Rapid Miner 进行情感分析

    有段时间没学习 Rapid Miner 了,经实验室的小伙伴推荐,有个 Deep Learning 的扩展库挺强大的,能搭建各种深度学习的模型以及进行超参数调参...

    caoqi95
  • K-means 聚类算法

    聚类是把相似的对象通过静态分类方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。聚类算法的任务是将数据集划分为...

    caoqi95
  • 内连接、左连接、右连接区别

    `Aid` int(10) NOT NULL DEFAULT 1 COMMENT '主键' ,

    一觉睡到小时候
  • sql sever[基本] ''增删改'' 随笔

      结构语言分类  DDL(数据定义语言)  create  drop  alter   创建删除以及修改数据库,表,存储过程,触发器,索引....  DML(...

    房上的猫
  • 独家 | 准确度VS速度——数据科学家能从搜索中学到什么?(附链接)

    作为数据科学家,我们有一个首要任务:提供准确的见解。如果你和我一样,一个同时从事搜索(或与此相关的任何实时应用程序)的数据科学家,你必须管理两个有时会相互冲突的...

    数据派THU
  • 棋盘覆盖问题(转载)

    在一个2^k×2^k 个方格组成的棋盘中,恰有一个方格与其他方格不同,称该方格为一特殊方格,且称该棋盘为一特殊棋盘。在棋盘覆盖问题中,要用图示的4种不同形态的L...

    lin_zone
  • NVIDIA的python-GPU算法生态 ︱ RAPIDS 0.10

    随着新版本的推出,RAPIDS 迎来了其推出一周年纪念日。回顾所经历的一年,RAPIDS团队就社区对该项目的关心和支持表示衷心的感谢。此前,RAPIDS获得了其...

    素质
  • 【黑科技】数据分析师的秘密-QQ聊天记录分析(一)

    ? 摘要:一群数据分析师在一起谈论着什么?他们最关心什么问题,如何从QQ群这个角度,去做客户的定位分析? 从聊天记录中挖掘出商业的机会,找准最佳推广时机, 深...

    小莹莹
  • 进程和线程的概述

    黑泽君

扫码关注云+社区

领取腾讯云代金券