数据挖掘工具R软件与Weka的比较分析

作为数据挖掘常用的两个工具软件,R软件和weka软件各有千秋,本文对这两种数据挖掘软件进行了比较与分析。

R软件介绍

R是统计领域广泛使用的一款软件,是一个开放的统计分析和图形显示的程序设计环境,它与S编程语言相似。 R 可以看作是贝尔实验室(Bell Laboratories)的Rick Becker,John Chambers和Allan Wilks开发的S语言的一种实现。S语言是一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。

Auckland大学的Robert Gentleman 和 Ross Ihaka及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。S-PLUS的使用手册,只要经过不多的修改就能成为 R的使用手册。所以有人说:R,是S-PLUS的一个"克隆"。

R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。

与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。

R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在R主页那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。

R 软件由一组数据操作,计算和图形展示的工具构成。相对其他同类软件,它的特色在于:

1.有效的数据处理和保存机制。

2.完整的数组和矩阵计算操作符。

3.连贯而又完整的数据分析工具。

4.图形工具可以对数据直接进行分析和展示,同时可用于多种图形设备。

5.它是一种相当完善,简洁而又高效的程序设计语言(也就是"S")。它包括条件语句,循环语句,用户定义的递归函数以及各种输入输出接口。

R的主要优点:

1.R是自由软件。它不会向你收取任何费用,但是它的能力不会比任何同类型商业软件差。从功能相似的角度来说,R和Matlab最像的。

2.通过R你可以和全球一流的统计计算方面的专家合作讨论,它是全世界统计学家思维的最大集中。R已经有上千个由世界各国统计学专家提供的R软件包,用户可以免费使用。

3.它是彻底的面向对象的统计编程语言。

4.R和其他编程语言/数据库之间有很好的接口。代码整合的时候感觉R为你提供了一系列对象,你用其他语言只要调用这些对象就可以了。这对数据整合工作非常有用。

Weka软件介绍

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine)的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。

Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。而开发者则可使用Java语言,利用Weka的架构上开发出更多的数据挖掘算法。 读者如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

Weka自1993年由位于New Zealand的the University of Waikato进行开发,最初的软件基于C语言实现。1997年,开发小组用JAVA语言重新编写了该软件,并且对相关的数据挖掘算法进行了大量的改进。2005年8月,在第11届ACM SIGKDD国际会议上,the University of Waikato 的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。

Weka和R比较

Weka和R是两个突出的开放源码分析软件系统。这两个都来自学术界,但有不同的目标和重点。R来自统计界,是一个通用分析统计环境,Weka的起源是在计算机科学,因此专门为机器学习和数据挖掘而设计。在选择分析软件时,你需要仔细考虑你的数据挖掘的目标范围内的各种因素,包括预测潜在部署模型。Weka的基础是100%的Java,促进简单集成和部署。Weka提供了技术,广阔的选择数据挖掘和机器学习。R是一个通用的统计环境,拥有设施。Weka无疑是更用户友好,有熟悉点的点击图形用户界面。而R本质上是一种函数式编程语言。

R里有很多机器学习的函数和包,不过Weka里提供的函数更全面更集中。所以通常在R中准备好训练的数据(如:提取数据特征……);整理成Weka需要的格式(*.arff);在Weka里做机器学习(如:特征选择、分类……);从Weka的预测结果计算需要的统计量(如:sensitivity, specificity, MCC……)。

Weak和R的具体比较见下表:

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-11-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

深度 | 对比深度学习十大框架:TensorFlow最流行但并不是最好

2016 年已经过去,BEEVA Labs 数据分析师 Ricardo Guerrero Gomez-Ol 近日在 Medium 上发表了一篇文章,盘点了目前最...

2877
来自专栏新智元

开源深度学习平台 TensorFlow、Caffe、MXNet……哪个最适合你

【新智元导读】本文选自开源深度学习项目 Deeplearning4j (DL4J)博客,文章虽然着重介绍自家产品,但内容仍然值得借鉴。与其他项目相比,DL4J ...

6546
来自专栏牛客网

百度阿里头条算法面经

最近秋招很多消息和内推都是通过牛客获得的,回馈一下发一波面经,希望能帮到大家~ 楼主华五本科海外硕士,一份美国大厂数据挖掘实习,没有相关领域的paper,投的都...

1123
来自专栏ThoughtWorks

从分布式计算到分布式训练

对计算机来讲,所谓的计算,不过是将存储在各个地方的数据通过数据总线进行传输,然后经过算术逻辑单元执行一系列预设好的规则,最终再将输出写入到某个位置。 在计算能力...

3365
来自专栏ThoughtWorks

如何快速读Paper

自从上次介绍了去哪里找paper之后,大家问我的问题就常常变成了:如何快速阅读一篇paper并准确的提取其中有用的信息。在本文中,我将试图为大家简要解答这个问题...

942
来自专栏数说工作室

懂点硬件 | AlphaGo、图像搜索、街景......背后都有它的影子:TPU

去年,谷歌曾在I/O开发者大会上透露了一款名为TPU的芯片,全称Tensor Processing Unit 张量处理器,是不是有点眼熟?(谷歌推出的机器学习框...

2795
来自专栏互联网数据官iCDO

用数据讲故事的诀窍 ——创建有说服力图表的5个步骤

用数据说话是当今社会的一个特别流行的词,它反映了当今人类面对这个信息爆炸时代所需要做出的必然的改变。 有预测截至2020年,整个数字世界的数据量将达到44ZB,...

3739
来自专栏互联网杂技

知其所以然(以算法学习为例)

其实下文的绝大部分内容对所有学习都是同理的。只不过最近在正儿巴经地学算法,而后者又不是好啃的骨头,所以平时思考总结得就自然要比学其它东西要多一些。 问题:目前几...

3498
来自专栏斑斓

两步到位,快速找准Bounded Context

如何识别Bounded Context,在领域驱动设计方法学中无疑是一个挑战。我尝试利用可视化的用例图,通过两个步骤驱动出Bounded Context,从而完...

2644
来自专栏PPV课数据科学社区

2016年最流行的六大深度学习开源工具

对于希望在应用中整合深度学习功能的开发者来说,GitHub上其实还有很多不错的开源项目值得关注,以下我们推荐2016年人气最高的六款开源深度学习工具:(阅读原文...

2978

扫码关注云+社区