R语言系列介绍之一:R的缘起及对下一代系统生物医学研究的意义

R语言是一种应用范围极其广泛、发展极其迅速、功能极其强大的统计和数据挖掘软件。其源起可追溯到1993年,时为新西兰奥克兰大学教师的Ross Ihaka和Robert Gentleman在讨论实验室教学计划时,产生了想要在S语言基础上开发一款嵌入式小软件的设想。

S语言是贝尔实验室于70年代中期开发的一款统计软件,全称是StatisticalComputing Subroutines(SCS,S)。S与SAS等同时代出现的商业统计软件相比,其最大的优势是具备灵活的交互性,但其不足在于需要进行大量编程。R的产生,正好弥补了S的不足:R的原理基于SCS,但编程大为简化,交互性进一步增强。R从其诞生之初,就坚持走开源路线,很快就有许多既精通统计学又擅长编程的软件开发者、统计学家加入到R的后继开发中。到1997年,R加入了GNU协议。GNU是“GNU's Not Unix”的递归缩写,是自由软件使用项目,目的在于让软件可以自由地被“使用、复制、修改和发布”。

1997年对于R的发展具有里程碑意义,在加入GNU的同时,R建立了核心开发团队,标志着R从一个两人兴趣小组,正式成为一个完整的、不断延展的工程项目。值得一提的是,S语言的三位创始者之一:John M. Chambers也加入了R核心开发团队。1998年,S语言之父John M. Chambers获得了美国计算机协会(ACM)授予的软件系统奖。ACM的软件系统奖意味着S被计算机科学领域认可为一项重大创新,这一点从ACM授予的授奖词就可看出,ACM这样肯定S“S永久的改变了人们对数据分析、可视化以及处理的方式,S是优雅的、广为接受的、不朽的软件系统,它具有概念框架的全面性,我们要对John Chambers的洞察力、高雅趣味以及不懈努力致敬”。所以,我们可以说,滥觞于S的R,不仅仅是一个统计软件,它已经成为整个计算机编程的一个里程碑。

到2018年6月,R版本已经更新到了3.5.1,其在CRAN(The Comprehensive RArchive Network , cran.r-project.org)上可以下载使用的扩展工具包(packages)超过5000种,提供的统计分析工具包涵盖了统计检验,回归分析,模式识别,时间序列,等等。同时,由于不同的学科对统计分析有各自独特的需求,R还陆续推出了各种专业学科的分析工具包。与生物医学研究相关的很多工具包都被整合到R的Bioconductor项目中。此外,还有一些独立于Bioconductor项目的生物信息学工具包,包括:用于流行病学研究的专门分析工具epidisplay,以及有名的聚类算法工具e1071等。这些工具包为各个领域的研究者提供了强大而且方便的分析工具,极大的减少了为开发统计方法所需要的编程能力和开发时间。

如今,R语言的使用者可以非常方便的获取并调用其他开发者上传的工具包,得到其需要的最终结果,同时也可以查看和修改其他开发者提供的工具包,使之更加符合使用者需要。因此,R语言具有很好的代码重用性,其扩展性、易于维护与可调适性、灵活性都是同类商业软件无法比拟的。

近年来,计算生物学及生物信息学(computationalbiology and bioinformatics,CBB)的快速发展,与R的Bioconductor项目有极为密切的联系。R推出Bioconductor项目的目的,是为了降低研究者的入门门槛,提高开发效率。而采用了R的CBB研究,其论文结果可重复验证性高,研究具有开放透明的特色。这在一定程度上引领了现代生物医学数据分析发展的大趋势。

好了,今天的内容就介绍到这里,“R语言系列介绍”将陆续为大家介绍更多R语言相关知识,欢迎大家关注学习。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180620G0CDTE00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券