为什么75%的数据科学家使用R做数据分析?

作者   CDA 数据分析师

数据科学家被认为是21世纪最性感也是最具发展前景的职业,目前有75%左右的数据科学家使用R语言,有35%左右的数据科学家将R语言作为首选统计分析工具。今天,我们来了解一下R语言的前世今生。

R的诞生

1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语言)的基础上开始构思一种新的用于统计学分析的开源语言,直到1995年第一个版本正式发布。因为他们名字的第一个字母都是R,所以这门语言就被叫做R。这两个人都是统计学教授出身,再加上R语言的生父S语言,所以R语言在统计学方面有着纯正的血统!

如果你平时的工作会涉及到统计学,那么接触R语言实在是太正常不过了。

R的发展

作为开源软件的R能够迅速发展,很大程度上取决于其活跃的社区。学习R,很大程度上也是学习各种R包的使用。截止目前(2017年3月,CRAN(Comprehensive R Archive Network)上已经有10762个可以获取的R扩展包,内容涉及各行各业,可以适用于各种复杂的统计。各地的CRAN镜像都是R网站的备份文件,内容完全一样,你可以选择离自己最近的去访问。

R的特长

在R官网有这样几句介绍

R provides a wide variety of statistical (linear and nonlinear modelling, classical statistical tests, time-series analysis, classification, clustering, …) and graphical techniques, and is highly extensible.

One of R’s strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed.

1.因为R语言本身为统计而生,所以你能想到的所有统计相关的工作,R都可以非常简洁的用几行命令(甚至1行命令)帮你完成。

2.R高度的可扩展性正是体现在它那1万多个包上,你想做的几乎所有事情都可以用现有的R包来辅助完成。

3.R另一个杀手锏就是其强大的绘图功能,正如上面的英文介绍所言,R可以画图,画各种各样的图,画各种各样高逼格的图,画各种各样高逼格可以直接出版的图。

4.完善的统计学功能再加上强大的绘图功能,就是你学习的最大理由。

R应用示例

在这一部分,仅仅是给展示几个用R可以轻松完成的相对有趣的工作。 安装对应包后应该可以直接运行

示例1 ggplot2画图

效果展示:

示例2 词频分析及词云

效果展示:

示例3 E-chart世界航空线路图

部分代码(完整版在Echart官网)

效果展示

如何尝试入门R语言

① 大致了解一下R语言是什么,能干什么用

1.学习如何在R的官网下载R,如何在自己的电脑安装R并成功运行。

2.学习如何安装Rstudio,并且了解其基本的用法(这步可省略)。

3.学习如何查看R帮助文档(这步很重要)。

4.学习如何将外部的数据(作业中通常是txt或者csv格式)正确地导入R。

5.学习R语言一些最基本的命令,如安装包、调用包、读入写入文件、构造矩阵和基础绘图等。

6.了解R语言语法入门知识(数据类型、数据结构、函数与包)

② 了解R语言在商业数据分析领域的应用。

1.SQL数据库与统计分析

2.描述性统计分析与统计推断

3.精益化管理相关知识

4.市场分析方法与模式识别

5.客户分析方法与分类模型

6.客户分析方法与分类模型

7.时间序列分析与综合案例

个人感觉,如果能完成上述几条学习路线,那么R语言就算入门了。

入门的标准是什么呢?

我想是给你一份数据让你处理,你脑子里的第一反应是可不可用R做;如果给你一个任务,你能上手尝试用R去解决。

参考书籍

《R语言编程艺术》

《R语言实战》

《统计建模与R软件》

《ggplot2:数据分析与图形艺术》

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

谁适合学Python?学了Python可以做什么工作?

Tips: 目前在很多行业中都在越来越多的应用Python,这也是很多行业学习Python的原因,Python主要的应用领域有哪些呢?今天我们就来详细看一下。 ...

1.2K5
来自专栏HansBug's Lab

【作业4.0】HansBug的第四次面向对象课程思考

1143
来自专栏橙、

我们知道你在看什么(即使它是加密的)

在周五晚上疯狂地看六个小时没有太大意义的侦探片,用着Silent Phone(APP),品着一杯红酒,这是我基本的权利我深信不疑。我也可以说我可以这么做...

2486
来自专栏腾讯音视频实验室

腾讯云H5语音通信QoE优化|云+沙龙

2692
来自专栏Java学习网

更快学习 JavaScript 的 6 个思维技巧

更快学习 JavaScript 的 6 个思维技巧 我们在学习JavaScript,或其他任何编码技能的时候,往往是因为这些拦路虎而裹足不前: 有些概念可能会...

2775
来自专栏腾讯云技术沙龙

张轲:腾讯云H5语音通信QoE优化

    11月份,W3C发布了WebRTC的标准。另外一个专注于WebRTC的国际组织RETF在12月份也发布了第一个RFC8298,目前还没有成为真正的标准。...

98110
来自专栏鹅厂网事

基于R.M.B的下一代网管

2196
来自专栏安智客

等级保护2.0之物联网安全风险、要求、设计

谈安全必须明确边界,物联网应作为一个整体对象,主要包括感知层、网络传输层和处理应用层等要素。规范定义是:物联网系统是将感知设备通过互联网等网络连接起来构成的一个...

1723
来自专栏架构师小秘圈

从小白到大数据架构师的学习历程

最近有很多人问我,大数据是怎么学?需要学什么技术以及这些技术的学习顺序是什么?今天我把个问题总结成文章分享给大家。 ---- 大数据处理技术怎么学习呢?首先我...

4697
来自专栏程序人生

如和在几十个 Repo 中游刃有余?

Sindre Sorhus 是我一直 follow 并且仰慕的程序员。他的 github 日常是这个样子的:

1102

扫码关注云+社区

领取腾讯云代金券