专栏首页机器学习AI算法工程R语言为Hadoop集群数据统计分析带来革命性变化

R语言为Hadoop集群数据统计分析带来革命性变化

R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。

R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发。(也因此称为R)现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用 S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。

R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux)、Windows和MacOS。R主要是以命令行操作,同时有人开发了几种图形用户界面。(此资源来自维基百科)

众所周知,Google开创了MapReduce,MapReduce是处理存储在存储区的非结构化数据的先驱。虽然Google不允许 MapReduce被外部使用,但由于Google曾拿出MapReduce一部分相关信息与Nutch分享,以开发开源版本的Hadoop。结果 Nutch被Yahoo收购,所以Yahoo也推出了Apache Hadoop项目。

MapReduce的工作原理是将非结构化数据打碎并分布到服务器的各个节点。MapReduce将并行化、容错、数据分布、负载均衡等放在库中,而将系统对数据的所有操作都归结为两个步骤,通过Map和Reduce两步来实现在大规模计算节点中人物的调度与分配。

R语言与Hadoop结合

现在,统计工作者可利用R语言,R语言擅长在Hadoop分布式文件系统中存储的非结构化数据的分析。R现在还可以运行在HBase这种非关系型的 数据库以及面向列的分布式数据存储之上。其主要模仿了Google的BigTable。这基本上等同于使用Hadoop来持有结构化数据的数据库。就像 Apache软件基金会Hadoop项目的子项目HBase一样。

Revolution Analytics公司提供对开源R语言的商用软件扩充以及支援,这使得让统计分析师及科学家能够在短暂的时间内从大量的重要资料中发现有意义的资讯。 Revolution Analytics公司首席技术官David Champagne表示R引擎可部署在Hadoop集群中的每个节点上面。你可以在部署了R的工作组中设置R算法,而不是在Java编程中减少算法。它可解析Hadoop映射函数的节点,同时可并行的统计分析存储在HDFS的数据。

如果不使用MapReduce,然后提取数据并将数据返回给分析数据的工作组。但不要忘记你还需要消化集群中的数据,同时还要聚合它们。从本质说,R是使用Hadoop的一个网格控制器,其管理特定算法的运行并控制运行的数据。

R语言为企业提供更多商机

本周,Revolution Analytics与Cloudera成为新的合作伙伴。并宣布将Cloudera Distribution Apache Hadoop(CDH3)集成到RevolutionAnalytics的R企业平台上。新产品被称为“RevoConnectRfor Apache Hadoop”。

其实Oracle早在去年就增加了对开源R语言的支持,据Oracle官方透露他们将在数据挖掘软件接口中更多使用R语言进行数据的统计与分析。同时一些主流的数据分析和数据库厂商,如IBM、SAS也都已经开始支持R语言。

七款优秀的R语言图形用户界面

相关的R语言图形用户界面也应用而生,其可帮助初学者快速进入R语言环境。包括:集成开发环境RStudio、Gnome环境下的R语言数据挖据工具Rattle、图形编程界面Red-R、Deducer等。

现在,R与Hadoop的连接器已经可以在GitHub下载。(来源:CSDN)

本文分享自微信公众号 - 大数据挖掘DT数据分析(datadw)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-01-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如果每一种语言都对应一种女生,你会喜欢哪一个?

    这几天调试都很顺利,今天很意外的不要加班,哥几个看着窗外还是白天,还有点不适应。没想到哥几个突然开始YY: 如果每种语言都对应一种女生, 你会喜欢哪一个? 程...

    机器学习AI算法工程
  • Python Excel操作

    最近公司要把Excel导入到mysql数据库,查了几篇博文,这几项是非常有用的,记录下来。 一、安装xlrd模块 到python官网下载http://pyp...

    机器学习AI算法工程
  • 一份SPSS回归分析与数据预处理的心得体会

    关于SPSS数据预处理 拿到一份数据,或者在看到国内外某个学者的文章有想法而自己手里的数据刚好符合这个想法可以做时,在整理好数据后不要急于建模。一定要对数据做...

    机器学习AI算法工程
  • 数据挖掘整理

    2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据

    DuncanZhou
  • 【每日一题】亲密数

    题目描述 两个不同的自然数A和B,如果整数A的全部因子(包括1,不包括A本身)之和等于B;且整数B的全部因子(包括1,不包括B本身)之和等于A,则将整数A和B称...

    编程范 源代码公司
  • 教你用TensorFlow实现神经网络(附代码)

    ? 来源:云栖社区 作者:Pavel Surmenok 本文长度为2600字,建议阅读5分钟 本文帮助你理解神经网络的应用,并使用TensorFlow解决现实...

    数据派THU
  • leetcode473. Matchsticks to Square

    Remember the story of Little Match Girl? By now, you know exactly what matchstic...

    眯眯眼的猫头鹰
  • 互联网厂工必知必会:SQL基础篇

    来源 | 《SQL 基础教程》 PostgreSQL 的安装和连接设置 那么就让我们赶快按照下面的步骤来安装 PostgreSQL 吧。 01 安装步骤 ①...

    CSDN技术头条
  • Elasticsearch的Index和Mapping(二)

    本文使用的Elasticsearch版本为6.5.4,基本命令以及操作大都通用。下面通过MySQL与Elasticsearch的对比图,让我们更好地理解接下来的...

    用户3467126
  • 如何在ubuntu 16.04 下安装 Tensorflow

    如果系统没有安装 gcc 则会提示 command not found。这时要先安装 gcc。

    流川枫

扫码关注云+社区

领取腾讯云代金券