R语言系列介绍之一：R的缘起及对下一代系统生物医学研究的意义

文章来源：企鹅号 - 成都苔米信息科技

R语言是一种应用范围极其广泛、发展极其迅速、功能极其强大的统计和数据挖掘软件。其源起可追溯到1993年，时为新西兰奥克兰大学教师的Ross Ihaka和Robert Gentleman在讨论实验室教学计划时，产生了想要在S语言基础上开发一款嵌入式小软件的设想。

S语言是贝尔实验室于70年代中期开发的一款统计软件，全称是StatisticalComputing Subroutines(SCS，S)。S与SAS等同时代出现的商业统计软件相比，其最大的优势是具备灵活的交互性，但其不足在于需要进行大量编程。R的产生，正好弥补了S的不足：R的原理基于SCS，但编程大为简化，交互性进一步增强。R从其诞生之初，就坚持走开源路线，很快就有许多既精通统计学又擅长编程的软件开发者、统计学家加入到R的后继开发中。到1997年，R加入了GNU协议。GNU是“GNU's Not Unix”的递归缩写，是自由软件使用项目，目的在于让软件可以自由地被“使用、复制、修改和发布”。

1997年对于R的发展具有里程碑意义，在加入GNU的同时，R建立了核心开发团队，标志着R从一个两人兴趣小组，正式成为一个完整的、不断延展的工程项目。值得一提的是，S语言的三位创始者之一：John M. Chambers也加入了R核心开发团队。1998年，S语言之父John M. Chambers获得了美国计算机协会(ACM)授予的软件系统奖。ACM的软件系统奖意味着S被计算机科学领域认可为一项重大创新，这一点从ACM授予的授奖词就可看出，ACM这样肯定S“S永久的改变了人们对数据分析、可视化以及处理的方式，S是优雅的、广为接受的、不朽的软件系统，它具有概念框架的全面性，我们要对John Chambers的洞察力、高雅趣味以及不懈努力致敬”。所以，我们可以说，滥觞于S的R，不仅仅是一个统计软件，它已经成为整个计算机编程的一个里程碑。

到2018年6月，R版本已经更新到了3.5.1，其在CRAN(The Comprehensive RArchive Network , cran.r-project.org)上可以下载使用的扩展工具包（packages）超过5000种，提供的统计分析工具包涵盖了统计检验，回归分析，模式识别，时间序列，等等。同时，由于不同的学科对统计分析有各自独特的需求，R还陆续推出了各种专业学科的分析工具包。与生物医学研究相关的很多工具包都被整合到R的Bioconductor项目中。此外，还有一些独立于Bioconductor项目的生物信息学工具包，包括：用于流行病学研究的专门分析工具epidisplay，以及有名的聚类算法工具e1071等。这些工具包为各个领域的研究者提供了强大而且方便的分析工具，极大的减少了为开发统计方法所需要的编程能力和开发时间。

如今，R语言的使用者可以非常方便的获取并调用其他开发者上传的工具包，得到其需要的最终结果，同时也可以查看和修改其他开发者提供的工具包，使之更加符合使用者需要。因此，R语言具有很好的代码重用性，其扩展性、易于维护与可调适性、灵活性都是同类商业软件无法比拟的。

近年来，计算生物学及生物信息学（computationalbiology and bioinformatics，CBB）的快速发展，与R的Bioconductor项目有极为密切的联系。R推出Bioconductor项目的目的，是为了降低研究者的入门门槛，提高开发效率。而采用了R的CBB研究，其论文结果可重复验证性高，研究具有开放透明的特色。这在一定程度上引领了现代生物医学数据分析发展的大趋势。

好了，今天的内容就介绍到这里，“R语言系列介绍”将陆续为大家介绍更多R语言相关知识，欢迎大家关注学习。

发表于: 2018-06-202018-06-20 08:59:28
原文链接：https://kuaibao.qq.com/s/20180620G0CDTE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

R语言系列介绍之一：R的缘起及对下一代系统生物医学研究的意义

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐