数据分析工具--R语言各种优点

开源R软件不再是学术机构的独宠或专有工具。经过多年来的持续演进,它现在已成为数据科学家、业务分析师和数据挖掘人员的理想分析软件。

Rexer Analytics发布的2013年数据挖掘人员调查显示,70%的数据挖掘人员使用R软件进行分析工作,其中有24%将其用作主要工具。这些结果类似于2013 年KDnuggets调查的结果,该调查指出有61%的响应者表示使用R处理分析、数据挖掘和数据科学工作。相比前一年,这一比例上升了16%。

R 是什么?

R 是在用户数量和分析功能方面增长最快的分析工具。它也被称为“R Project”,具有多种描述,例如:

用于统计分析、数据可视化和预测建模的数据分析软件

一种面向对象的编程语言,提供了对象、运算符和函数来探索、建模和可视化数据

用于统计分析的环境,支持几乎所有数据分析所需的数据处理、统计模型和图表

一个开源软件项目,得到了庞大用户社区的广泛采取,在质量和数字准确度方面树立了高标准

尽管R软件在某些领域非常风靡,得到广泛采用,但它在企业领域却迟迟没有取得进展,这主要是受到了数据和处理限制相关挑战的影响。由于开源R软件在内存中运行,它无法处理庞大、多样化的数据,因而限制了它能够处理的信息量。此外,由于R软件采用单线程设计,它无法并行运行,因此会显著增加处理时间。

克服传统缺点

企业尝试了多种方法来消除开源R软件的内存限制。其中一种方法是购买配备了大容量内存的大型服务器。此方法的缺点是内存非常昂贵,同时企业仍然受到服务器的数据限制的影响。此外,这一方法不可扩展。

另一种方法是在多个服务器或节点上并发运行R引擎。这一方法在包含数据的服务器上执行作业,在数据划分清晰时有着出色表现。然而,如果用户需要对其所有数据进行分析,此方法将无法很好地应对。

例如,当数据分布在多台服务器上时,计算所有销售的全球平均数字对于标准R程序包将很难完成。同样,对公司的所有客户建立一个细分模型也是一项艰巨的任务。这些用例要求建立并行算法,或使用另一种能够在所有服务器和节点上运行的方法,以处理所有数据。但要实现这一目标却并非易事。

许多解决方案提供商尝试了多种方法来解决这些不足,但时至今日,他们仅取得了部分成功。Teradata?Aster R提供了预构建的并行函数、并行构造器和集成在Teradata Aster DiscoveryPlatform中的开源R引擎,以消除这些传统问题。

企业级R

Teradata Aster R库允许分析函数在数据库中的所有数据上并行运行,有效克服了这些挑战。该库简单易用,采用了类似于R语言的语法,并打包了可立即运行的预构建并行算法。在基础之上,R分析师将能够显著提高工作效率。

如果编程人员未能在库中发现他们所需的预构建R函数,他们可以充分利用并行构造器,使用在开源 R程序包中提供的算法,创建自己的并行版本。借助拆分/应用/组合战略,企业将能够轻松对其所有数据而非样本运行R函数,从而获得更深入的见解。

此外,Teradata Aster R解决方案还使用R语言和程序包构建了强大的程序,能够访问100多个Teradata Aster Discovery Portfolio分析产品和5,000多个开源R程序包。所有这些产品和程序包均经过协调,能够并行运行。

编程人员可在Teradata Aster SNAP?框架中轻松加载R程序包和开源R解释器,以并行运行其钟爱的函数。R解释器简单易用,非常灵活和强大,能够满足临时和高级R分析师的所有需求。与其他解决方案不同,Teradata Aster R能够独一无二地支持用户在数据库内轻松执行大规模R分析,并使用SNAP框架自动优化和执行多个引擎。

简化发现过程

分析师将能够从Teradata Aster R中获益匪浅,无需再仅仅使用可装入内存的样本数据进行分析。相反,他们现在可以使用“ta.data.frame()”函数创建虚拟数据框,在Teradata AsterDiscovery Platform中发现信息。

Teradata Aster R可支持企业在发现平台中直接轻松地部署任意开源R程序,以提供出色的可扩展性和卓越的性能,满足充满挑战性的业务要求。此外,分析师还可以混合匹配Teradata Aster分析函数组合,如nPath?、图形和文本分析函数与R,以得出创新的结果。

编程人员可以轻松调用任意Teradata Aster预构建的函数,以对其所有数据执行数据准备、探索、统计和机器学习函数,而无需解读数学难题和编写并行程序。

简单易用的解决方案

企业可以使用Teradata Aster Discovery Platform作为其单一的高性能分析平台,满足业务用户、数据挖掘人员、数据科学家和R用户的需求。过去希望使用R,但由于其传统劣势最终放弃的数据专业人员,现在将可以从这款解决了那些难题的企业级解决方案中获益匪浅。Teradata Aster R解决方案充分利用了R的优势,同时摒弃了传统的限制,提供了快速、强大的分析功能。

来源:微信公众号---中国统计网

原文发布于微信公众号 - 数据的力量(shujudeliliang)

原文发表时间:2014-12-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户画像

SQL Server 数据库连接类

884
来自专栏跟着阿笨一起玩NET

C# Stream 和 byte[] 之间的转换

601
来自专栏张善友的专栏

Using sqlite with .NET

The other day I found that there is a .NET wrapper for sqlite. sqlite is a very ...

2258
来自专栏听雨堂

想修改CSS

      下载了一个“通用”的CSS文件,本来想偷懒的,结果发现有问题,就是它用的颜色是变量定义的,无法识别。我又找不到在哪里可以定义。 BODY{     ...

20310
来自专栏码匠的流水账

聊聊spring cloud的LoadBalancerAutoConfiguration

本文主要研究一下spring cloud的LoadBalancerAutoConfiguration

1022
来自专栏james大数据架构

C#日期格式转换

DateTime dt = DateTime.Now; // Label1.Text = dt.ToString();//2005-11-5 13:21:25 ...

1895
来自专栏吴小龙同學

时间工具类TimeUtil

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30...

3036
来自专栏Pulsar-V

C#下各种获取时间的姿势

直接贴代码吧 DateTime dt = DateTime.Now; Label1.Text = dt.ToString();//2005-11-5 13:21...

3206
来自专栏海说

Java应用中常见的JDBC连接字符串(SQLite、MySQL、Oracle、Sybase、SQLServer、DB2)

Java应用中常见的JDBC连接字符串 Java应用中连接数据库是不可或缺的,于是便整理一些可能用到的JDBC的jar包及其相匹配的URL,以备日后查阅。 1)...

2710
来自专栏xingoo, 一个梦想做发明家的程序员

windows程序设计-第四章 system1.c

/*---------------------------------------------------- SYSMETS1.C -- System M...

23310

扫码关注云+社区