【学习】R语言各种优点

开源R软件不再是学术机构的独宠或专有工具。经过多年来的持续演进,它现在已成为数据科学家、业务分析师和数据挖掘人员的理想分析软件。

Rexer Analytics发布的2013年数据挖掘人员调查显示,70%的数据挖掘人员使用R软件进行分析工作,其中有24%将其用作主要工具。这些结果类似于2013 年KDnuggets调查的结果,该调查指出有61%的响应者表示使用R处理分析、数据挖掘和数据科学工作。相比前一年,这一比例上升了16%。

R 是什么? R 是在用户数量和分析功能方面增长最快的分析工具。它也被称为“R Project”,具有多种描述,例如:

  • 用于统计分析、数据可视化和预测建模的数据分析软件
  • 一种面向对象的编程语言,提供了对象、运算符和函数来探索、建模和可视化数据
  • 用于统计分析的环境,支持几乎所有数据分析所需的数据处理、统计模型和图表
  • 一个开源软件项目,得到了庞大用户社区的广泛采取,在质量和数字准确度方面树立了高标准

尽管R软件在某些领域非常风靡,得到广泛采用,但它在企业领域却迟迟没有取得进展,这主要是受到了数据和处理限制相关挑战的影响。由于开源R软件在内存中运行,它无法处理庞大、多样化的数据,因而限制了它能够处理的信息量。此外,由于R软件采用单线程设计,它无法并行运行,因此会显著增加处理时间。

克服传统缺点 企业尝试了多种方法来消除开源R软件的内存限制。其中一种方法是购买配备了大容量内存的大型服务器。此方法的缺点是内存非常昂贵,同时企业仍然受到服务器的数据限制的影响。此外,这一方法不可扩展。

另一种方法是在多个服务器或节点上并发运行R引擎。这一方法在包含数据的服务器上执行作业,在数据划分清晰时有着出色表现。然而,如果用户需要对其所有数据进行分析,此方法将无法很好地应对。

例如,当数据分布在多台服务器上时,计算所有销售的全球平均数字对于标准R程序包将很难完成。同样,对公司的所有客户建立一个细分模型也是一项艰巨的任务。这些用例要求建立并行算法,或使用另一种能够在所有服务器和节点上运行的方法,以处理所有数据。但要实现这一目标却并非易事。

许多解决方案提供商尝试了多种方法来解决这些不足,但时至今日,他们仅取得了部分成功。Teradata® Aster R提供了预构建的并行函数、并行构造器和集成在Teradata Aster Discovery Platform中的开源R引擎,以消除这些传统问题。

企业级R Teradata Aster R库允许分析函数在数据库中的所有数据上并行运行,有效克服了这些挑战。该库简单易用,采用了类似于R语言的语法,并打包了可立即运行的预构建并行算法。在基础之上,R分析师将能够显著提高工作效率。

如果编程人员未能在库中发现他们所需的预构建R函数,他们可以充分利用并行构造器,使用在开源 R程序包中提供的算法,创建自己的并行版本。借助拆分/应用/组合战略,企业将能够轻松对其所有数据而非样本运行R函数,从而获得更深入的见解。

此外,Teradata Aster R解决方案还使用R语言和程序包构建了强大的程序,能够访问100多个Teradata Aster Discovery Portfolio分析产品和5,000多个开源R程序包。所有这些产品和程序包均经过协调,能够并行运行。

编程人员可在Teradata Aster SNAP™框架中轻松加载R程序包和开源R解释器,以并行运行其钟爱的函数。R解释器简单易用,非常灵活和强大,能够满足临时和高级R分析师的所有需求。与其他解决方案不同,Teradata Aster R能够独一无二地支持用户在数据库内轻松执行大规模R分析,并使用SNAP框架自动优化和执行多个引擎。

简化发现过程 分析师将能够从Teradata Aster R中获益匪浅,无需再仅仅使用可装入内存的样本数据进行分析。相反,他们现在可以使用“ta.data.frame()”函数创建虚拟数据框,在Teradata Aster Discovery Platform中发现信息。

Teradata Aster R可支持企业在发现平台中直接轻松地部署任意开源R程序,以提供出色的可扩展性和卓越的性能,满足充满挑战性的业务要求。此外,分析师还可以混合匹配Teradata Aster分析函数组合,如nPath™、图形和文本分析函数与R,以得出创新的结果。

编程人员可以轻松调用任意Teradata Aster预构建的函数,以对其所有数据执行数据准备、探索、统计和机器学习函数,而无需解读数学难题和编写并行程序。

简单易用的解决方案 企业可以使用Teradata Aster Discovery Platform作为其单一的高性能分析平台,满足业务用户、数据挖掘人员、数据科学家和R用户的需求。过去希望使用R,但由于其传统劣势最终放弃的数据专业人员,现在将可以从这款解决了那些难题的企业级解决方案中获益匪浅。Teradata Aster R解决方案充分利用了R的优势,同时摒弃了传统的限制,提供了快速、强大的分析功能。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-12-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

快速了解数据科学与 R 语言数据分析

作者 CDA 数据分析师 数据科学家被认为是21世纪最性感也是最具发展前景的职业,目前有75%左右的数据科学家使用R语言,有35%左右的数据科学家将R语言作为...

2248
来自专栏CSDN技术头条

【BDTC 2015】大数据分析及生态系统分论坛:HBase、Spark、ES、Kylin技术生态

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

2896
来自专栏华章科技

大数据告诉你:如何让大忙人及时回复邮件

网上教人们如何写邮件的建议不少,但大多还没有数据做支撑。最近,邮件效率服务商Boomerang通过分析5300多万封邮件数据,找出了一些影响邮件回复率的窍门。总...

591
来自专栏Java学习网

更快学习 JavaScript 的 6 个思维技巧

更快学习 JavaScript 的 6 个思维技巧 我们在学习JavaScript,或其他任何编码技能的时候,往往是因为这些拦路虎而裹足不前: 有些概念可能会...

2815
来自专栏钱塘大数据

【干货】五个技巧教你用编程实现数据可视化

导读:数据可视化可以通过视觉形式来呈现抽象的数据信息,有利于对数据进行更深入的观察和分析,除了使用现有的可视化软件和工具,也可以用编程定制属于自己的数据可视化,...

3447
来自专栏钱塘大数据

五个技巧教你用编程实现数据可视化

导读:数据可视化可以通过视觉形式来呈现抽象的数据信息,有利于对数据进行更深入的观察和分析,除了使用现有的可视化软件和工具,也可以用编程定制属于自己的数据可视化,...

3679
来自专栏鹅厂网事

基于R.M.B的下一代网管

2366
来自专栏数据的力量

数据分析工具--R语言各种优点

2303
来自专栏较真的前端

影响团队交付速度的那些问题

2507
来自专栏ThoughtWorks

基于GitHub的敏捷学习方法之道与术|洞见

持续行动,持续反思,持续进步。—— via. 敏捷学习宣言 前言 对时间的敬畏 需要好多年才能懂得,最好不是去震惊世界,而是要像易卜生所说的,生活在世界上...

3623

扫码关注云+社区

领取腾讯云代金券