【教程】一小时向非程序员介绍 R 编程语言

(1)下载R和RStudio

我对RStudio的印象不错,对于初学者来说,它既方便又很有帮助,对专业人士也很有用。尤其对于初学者:鼠标指向-点击式(point-and-click)的选项非常棒,工作区面板对于建立起对R环境的概念也非常有用。我甚至都不用再花精力向我妹妹介绍R默认的集成开发环境——我马上就让她下载了RStudio,不过你仍然需要下载普通版的R。下载之后,我意识到r-project.org网站真应该在设计上进行大修整,因为:(a)它不够漂亮(b)如果你不知道什么是“CRAN镜像”,下载R将是一件容易把人搞糊涂的事。

(2)控制台和脚本

准备好之后,我们做的第一件事就是在控制台中键入如下两行代码:

这并非纯粹的“Hello World”,但它阐明了一些概念,比如”赋值”、”变量”和”求值”[注2]。

接着,我让妹妹在一个R脚本文件中保存了上面那两行代码(我认为,在初学者开始使用一门语言时就教会他们如何正确地把代码保存在脚本文件中是非常重要的)。然后,我教她怎么用Cmd-Enter组合键(译者注:这是Mac OS的键位。在PC中,对应的组合键是Ctrl+Enter)在控制台中执行代码。

在解释这些内容的过程中,我意识到”控制台”和”脚本”这类术语比较晦涩,所以我尽可能给出它们的明确的定义。我也不得不小心地使用那些含义确切的词而非”REPL”或”prompt”这类词汇

(3)注释

1

# 注释特别重要,所以我们学习了它

(4)图形

脚本、注释和控制台可能有点儿枯燥,所以到了这一步,该是从图形中寻找点儿乐趣的时候了!这是我们绘制的一张图:

教我妹妹理解这段代码涉及解释什么是函数(因为rnorm和hist都是函数)、什么是函数的实参,以及为什么你可以通过名字引用实参却不一定非得这样做。

我还教她怎么保存一个图形——借助图形窗口中方便的“Export”按钮,在RStudio中保存图形非常容易。

(5)获得帮助

我认为,“获取帮助”是这类快速入门过程中需要掌握的最重要的概念。显然你不可能在一个小时之内学会一切,所以,你真正需要的是当你用到时可以查找到相应信息的工具。下面是我介绍的语法:

考虑到查函数文档对非程序员来说不太容易,这本来或许不是一个正确的策略。我考虑过强调google技巧的重要性(我在研究生院学到的最有用的东西),或者介绍StackOverFlow和R-help,但最后还是决定讲解官方的文档系统。”在R中我该怎么做X这件事”是初学者最常见的问题之一,我认为这个问题的答案可能应该是”使用函数Y( )”——所以重要的是能够搞清楚如何使用函数Y( )。

在我看来,初学者最常见的另一个问题是”我遇到了出错信息Z,怎么修正它?”。为解决这个问题,我演示一些常见的错误(对象未找到,意外的<X>常量,等等)并解释了它们的含义。

(6)数据类型

查看帮助文档让我想起文档中经常会提及某个函数的实参必须是某个特定的类型,因此我们或许应该讨论一下数据类型。我介绍了:

向量

矩阵

数据框(dataframe)

就这样,我们借助实例讨论了一些数据类型,并顺带着学习了其他一些重要的内容,像怎么确定向量中元素的个数、什么是工作目录,以及怎样读入数据文件。

(7)探索性数据分析

一旦你读入了一个数据集,事情就开始变得有趣了。我们从中学习了一大堆东西,像怎么做基本的表格、遇到缺失数据如何处理,以及怎么拟合一个简单的线性模型。这部分的内容相当有趣,以至于我妹妹开始主导学习过程了:不再是我说“我要教你如何做什么”,而是她主动问“嗯,我们能画一个散点图吗?”或“你觉得我们可以把最优拟合直线放到那个图上吗?”我真为此而感到高兴——我希望这意味着她已全身心投入并乐在其中。

我们还进一步学习了图形,像怎么作出好的直方图,以及怎么在回归直线上叠加散点图。

好了,时间到。

我遗漏了些什么?哪些事能做得更好?我事后想到的有:

· 用[]取子集. 这是个关键知识点。它可以应用于我所介绍的所有数据类型,而且极为有用。我真希望当时有时间让我妹妹做一个,比如只包含女性的工资直方图

· 编程相关的东西:循环、if语句、用户自定义函数,等等。不过我觉得不教这些东西也没问题——考虑到受众,我是把R当作一个数据分析环境而非一种编程语言来教授。

· 保存.rda文件和/或工作区

· 安装和载入包

· 其他数据类(比如列表)

· 其他(更好的?)帮助资源/提示/技巧

最后一点感想 总的来说,在一小时内介绍R让我收获了乐趣,而且我认为(希望?)我妹妹也是如此。临别时我又给了她一些资料:这个,这个和这个,这些资料我都不是非常熟悉——但我知道,要想能够用R分析实际数据,所需的时间远大于在我这儿的一个小时。我相信我已经覆盖了大部分基础知识,我妹妹也觉得这对她非常有帮助。我很乐意听各位来谈谈你是如何应对”一小时内向非程序员介绍R”这个挑战的。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-09-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏恰同学骚年

OOAD利器之UML基础

UML:Unified Modeling Language,即统一建模语言,简单地说就是一种有特殊用处的语言。本文是我初步学习UML的学习笔记,对于我们菜鸟码农...

853
来自专栏奇点大数据

Github寻宝 | 贪吃蛇游戏AI版,代码就得这么写!

本期案例是一个C++ 项目,同时也是经典小游戏——贪吃蛇的升级版。(该项目由Github用户stevennl贡献,英文原版可访问Github网站:https:/...

3734
来自专栏数说工作室

换个姿势学量化!|【量化小讲堂】使用python计算各类移动平均线

作者:邢不行 原文链接: http://bbs.pinggu.org/thread-3631776-1-1.html (本文已获作者授权转载,如需转载请与原作者...

44411
来自专栏深度学习与数据挖掘实战

干货|PyTorch实用代码段集锦

Facebook公司开源的深度学习框架PyTorch越来越火,PyTorch易于上手。本文节选github中PyTorch的常用实用代码片段,供大...

2647
来自专栏算法channel

BAT面试题2:请简要介绍下Tensorflow的计算图

接下来,每天推送一道BAT的面试题,一般问到的这些知识点都是很重要的,所以知道的就再复习一下,不知道的希望这篇可以帮助到你。日积月累,你会在不知不觉中就步入机器...

1.9K2
来自专栏Crossin的编程教室

【每周一坑】房贷计算器 |【解答】生成九宫格图片

因为是“刚需”,所以网上早有无数的版本。有人已经用过,有人以后可能会用。有没有想过,类似这种小工具,其实你自己也可以实现。

1312
来自专栏AI科技评论

开发 | 如何利用 TVM 优化深度学习GPU op?教你用几十行Python代码实现2-3倍提升

数天前,陈天奇团队宣布推出 TVM,在微博上表示,「我们今天发布了 TVM,和 NNVM 一起组成深度学习到各种硬件的完整优化工具链,支持手机,cuda, op...

4148
来自专栏Leetcode名企之路

服务端开发95th 99th 是什么意思?

作者:滔滔不绝 链接:https://www.zhihu.com/question/20575291/answer/22814728 来源:知乎

961
来自专栏Linyb极客之路

浅谈黑盒测试和白盒测试

  从图中可以直接看出来,黑盒测试就当整个程序是个黑盒子,我们看不到它里面做了些什么事情,只能通过输入输出看是否能得到我们所需的来测试。而白盒测试可以当盒子是透...

2061
来自专栏IT派

Python高性能计算库——Numba

摘要: 在计算能力为王的时代,具有高性能计算的库正在被广泛大家应用于处理大数据。例如:Numpy,本文介绍了一个新的Python库——Numba, 在计算性能方...

6798

扫码关注云+社区

领取腾讯云代金券