R语言入门–什么是R语言,为什么选择R语言用于机器学习或数据挖掘

R语言最近在TIOBE排名上取得了不小的进步,上升到了第13名。因为机器学习的火爆的程度和R语言特殊的语法,使得它的关注度越来越高。好多人对于R语言的特性和语法不太了解,而因我在上学的时候学习了Data Mining(数据挖掘)相关的课程,用R语言做了些初步的数据挖掘项目,所以现简单介绍下什么是R语言。

R语言简介

R语言是专门用来作统计计算和数据可视化的编程语言。由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman两人开发。它的灵感来自于John Chambers开发的S语言,虽然两种语言有很多不同之处,但是据说用S语言开发的程序可以直接在R环境下运行。R语言的名字一半是由作者名字首字母而来,一半是受S语言启发,取自它的前一个字母。因R语言由有统计学背景的人物研发,所以R语言具有统计学特性,包括线性和非线性建模(linear and nonelinear modeling),时间序列分析(time-series analysis),分类(classification),聚类(clustering)等等。所以学习R语言需要一点统计学基础,但是它的语法相对比较简单。所以可以通过一边熟悉它的语法一边巩固统计学知识。

特性

数据处理和存储设施。

用于计算数组,特别是矩阵的运算符。

对于数据分析,提供多种中间工具。

可供显示和打印的图形,图表。

结构完整的编程语言,包括条件,循环,自定义递归函数,输入输出功能。

社区和生态

R语言具有很强的扩展性,通过扩展函数来增加新的功能,并以『包』的形式发布在R社区仓库里,其中最大的仓库是Comprehensive R Archive Network (CRAN) ,还有一些其它的第三方库,Bioconductor, Github等等。在这些仓库里能找到所有数据挖掘所需要的工具和算法实现。其中,R语言的plot函数用来生成图表和公式极为方便,几乎所有统计方法都扩展了此函数用来可视化统计结果。

总结

R语言作为一门统计学语言,虽然需要跨学科的知识,但是这正是印证了编程语言的可适用范围是无限的,几乎可以渗透各行各业。后面的篇章中会详细介绍R语言的语言,并在以后给出实际的项目示例来介绍它的具体用途。

参考

https://en.wikipedia.org/wiki/R_(programming_language)

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180306G1NCNK00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券