数据分析工具--R语言各种优点

开源R软件不再是学术机构的独宠或专有工具。经过多年来的持续演进,它现在已成为数据科学家、业务分析师和数据挖掘人员的理想分析软件。

Rexer Analytics发布的2013年数据挖掘人员调查显示,70%的数据挖掘人员使用R软件进行分析工作,其中有24%将其用作主要工具。这些结果类似于2013 年KDnuggets调查的结果,该调查指出有61%的响应者表示使用R处理分析、数据挖掘和数据科学工作。相比前一年,这一比例上升了16%。

R 是什么?

R 是在用户数量和分析功能方面增长最快的分析工具。它也被称为“R Project”,具有多种描述,例如:

用于统计分析、数据可视化和预测建模的数据分析软件

一种面向对象的编程语言,提供了对象、运算符和函数来探索、建模和可视化数据

用于统计分析的环境,支持几乎所有数据分析所需的数据处理、统计模型和图表

一个开源软件项目,得到了庞大用户社区的广泛采取,在质量和数字准确度方面树立了高标准

尽管R软件在某些领域非常风靡,得到广泛采用,但它在企业领域却迟迟没有取得进展,这主要是受到了数据和处理限制相关挑战的影响。由于开源R软件在内存中运行,它无法处理庞大、多样化的数据,因而限制了它能够处理的信息量。此外,由于R软件采用单线程设计,它无法并行运行,因此会显著增加处理时间。

克服传统缺点

企业尝试了多种方法来消除开源R软件的内存限制。其中一种方法是购买配备了大容量内存的大型服务器。此方法的缺点是内存非常昂贵,同时企业仍然受到服务器的数据限制的影响。此外,这一方法不可扩展。

另一种方法是在多个服务器或节点上并发运行R引擎。这一方法在包含数据的服务器上执行作业,在数据划分清晰时有着出色表现。然而,如果用户需要对其所有数据进行分析,此方法将无法很好地应对。

例如,当数据分布在多台服务器上时,计算所有销售的全球平均数字对于标准R程序包将很难完成。同样,对公司的所有客户建立一个细分模型也是一项艰巨的任务。这些用例要求建立并行算法,或使用另一种能够在所有服务器和节点上运行的方法,以处理所有数据。但要实现这一目标却并非易事。

许多解决方案提供商尝试了多种方法来解决这些不足,但时至今日,他们仅取得了部分成功。Teradata?Aster R提供了预构建的并行函数、并行构造器和集成在Teradata Aster DiscoveryPlatform中的开源R引擎,以消除这些传统问题。

企业级R

Teradata Aster R库允许分析函数在数据库中的所有数据上并行运行,有效克服了这些挑战。该库简单易用,采用了类似于R语言的语法,并打包了可立即运行的预构建并行算法。在基础之上,R分析师将能够显著提高工作效率。

如果编程人员未能在库中发现他们所需的预构建R函数,他们可以充分利用并行构造器,使用在开源 R程序包中提供的算法,创建自己的并行版本。借助拆分/应用/组合战略,企业将能够轻松对其所有数据而非样本运行R函数,从而获得更深入的见解。

此外,Teradata Aster R解决方案还使用R语言和程序包构建了强大的程序,能够访问100多个Teradata Aster Discovery Portfolio分析产品和5,000多个开源R程序包。所有这些产品和程序包均经过协调,能够并行运行。

编程人员可在Teradata Aster SNAP?框架中轻松加载R程序包和开源R解释器,以并行运行其钟爱的函数。R解释器简单易用,非常灵活和强大,能够满足临时和高级R分析师的所有需求。与其他解决方案不同,Teradata Aster R能够独一无二地支持用户在数据库内轻松执行大规模R分析,并使用SNAP框架自动优化和执行多个引擎。

简化发现过程

分析师将能够从Teradata Aster R中获益匪浅,无需再仅仅使用可装入内存的样本数据进行分析。相反,他们现在可以使用“ta.data.frame()”函数创建虚拟数据框,在Teradata AsterDiscovery Platform中发现信息。

Teradata Aster R可支持企业在发现平台中直接轻松地部署任意开源R程序,以提供出色的可扩展性和卓越的性能,满足充满挑战性的业务要求。此外,分析师还可以混合匹配Teradata Aster分析函数组合,如nPath?、图形和文本分析函数与R,以得出创新的结果。

编程人员可以轻松调用任意Teradata Aster预构建的函数,以对其所有数据执行数据准备、探索、统计和机器学习函数,而无需解读数学难题和编写并行程序。

简单易用的解决方案

企业可以使用Teradata Aster Discovery Platform作为其单一的高性能分析平台,满足业务用户、数据挖掘人员、数据科学家和R用户的需求。过去希望使用R,但由于其传统劣势最终放弃的数据专业人员,现在将可以从这款解决了那些难题的企业级解决方案中获益匪浅。Teradata Aster R解决方案充分利用了R的优势,同时摒弃了传统的限制,提供了快速、强大的分析功能。

来源:微信公众号---中国统计网

原文发布于微信公众号 - 数据的力量(shujudeliliang)

原文发表时间:2014-12-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏吉浦迅科技

CodeXL编程分析工具

要想在异构计算上有所突破,良好的支持环境是必不可少的,NVIDIA就为其GPU通用计算开发了一套CUDA软件,AMD也要有相应的工具才行。 这个工具就是C...

34514
来自专栏TEG云端专业号的专栏

扫盲 : 图片的深度认知

图片是互联网的重要元素之一,各应用各网站基本上都离不开它,以图片作为关键场景的产品一直层出不穷。十年海量请求的技术锤炼,从基础服务到业务深度合作,从基础架构到精...

6333
来自专栏FreeBuf

Hunting系统:简述如何通过智能分析异常来检测网络入侵行为

? 当组织内发生数据泄露事件时,泄漏检测系统(BDS)能够给我们提供足够有效的提醒,但如果敏感等级设置的非常低的话,我们还需要考虑风险报告的假阳性问题。而基于...

1996
来自专栏PPV课数据科学社区

【V课堂】数据挖掘知识脉络与资源整理(二)R语言

简介: R是用于统计分析与绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R是一套完整的...

2757
来自专栏飞总聊IT

大数据那些事(23):我是怎么分析Dremel系统的

做公众号到今天也算小半年了,有很多的收获。大数据系列转眼之间也若干万字了,最开始的时候的确没有能想到会写到今天这个规模。上篇关于Dremel的文章,读者给了我很...

2586
来自专栏人工智能头条

微软正式发布分布式大规模图数据处理引擎 Graph Engine 1.0 预览版

1265
来自专栏WOLFRAM

Stephen Wolfram:如何训练孩子们的计算思维(IV)

1144
来自专栏程序员互动联盟

【编程指导】如何系统、科学地自学编程知识?

对于什么样的学习才算得上“系统”几乎是一个哈姆雷特式的问题——人们很难在这一问题上达成一致。 因此抛出答案几乎只是在引发更多的争议。所以在讨论这个问题的时候,我...

34813
来自专栏PPV课数据科学社区

关于数据挖掘就业方面的问题?

1.数据挖掘主要是做算法还是做应用?分别都要求什么? 这个问题太笼统,基本上算法和应用是两个人来做的,可能是数据挖掘职位。做算法的比较少,也比较高级,其实所谓...

3456
来自专栏AI科技大本营的专栏

创新工场王咏刚:为什么 AI 工程师要懂一点架构?

AI 时代,我们总说做科研的 AI 科学家、研究员、算法工程师离产业应用太远,这其中的一个含义是说,搞机器学习算法的人,有时候会因为缺乏架构(Infrastru...

2827

扫码关注云+社区