R语言系列介绍之二:强大的统计和数据挖掘工具

随着大数据时代的到来,数据挖掘和模式识别已逐渐成为新的医学科学研究范式。临床大数据集具有数据格式多样、复杂且难于统一的特点,常规的商业化统计分析软件难以适应临床数据挖掘的任务需要。今天为临床研究者和从事数据挖掘工作的医务人员介绍R语言这个实用工具的优点。

R与SPSS,SAS等传统统计软件相比较具有以下优点:

1)R具有良好的可编程性,其用户界面的友好性不输于SPSS,强于SAS,同时R属于开源、免费软件。

2)R本身体量小,功能强大,且具有易于扩展性,R开源社区的大量开发者提供了很多先进和实验性的统计模块及算法包,其中有些统计模块是SPSS、SAS等商业软件无法及时提供的。商业软件SPSS、SAS具有大公司的通病:对用户的需求漠不关心,反应极慢,不适应科研发展的快速需要。

3)R是一款脚本语言,具有良好的交互界面。通过输入命令行,可以直观且快速的获得结果,并以统计学家、研究者习惯的风格呈现在屏幕上。SPSS、SAS界面更新慢、输出的结果十分凌乱,缺乏美感。

4)R几乎支持所有数据格式的载入。R不仅可以灵活方便的读取文本文档,也可以读取xls、sav、stata、xml等流行软件的数据文件。

5)R作为可编程语言具有风格的优美性,清晰方便的数据管理等特点。它提供两种编程风格,既可以基于面向过程也可以基于面向对象。对于简单的统计算法的编程可以使用面向过程;对于复杂的统计算法开发,R提供了面向对象的S3和S4类方法。

6)R可以出色的绘制出各种统计图表,功能十分强大。R提供的基础库函数以及其他开发者提供的绘图包(比如ggplot、ggplot2、lattice等通用绘图包以及KEGGgraph、RBGL等专用绘图包)足以满足各类研究者的可视化需求。

7)R具有十分优秀的并行计算性能(通过调用snow、parallel并行计算包)。SPSS、SAS用于常规统计尚不输于R,然而,一旦进入到临床大数据分析,两大商业软件在计算性和操作性上的劣势便显现出来,高下立判。

8)R具有广泛的用户参与度和开发度。R是一款有坚实群众基础的软件,SPSS、SAS则不然。体现在用户数上有着明显差异:已有的调查发现,SPSS和SAS主要由生物医学研究者在使用,但其用户社区活跃度最低,反映出SPSS和SAS的功能应用开发陷于停顿。以 前SPSS、SAS在与R论辩时,常常使用的一个论点是它们都由大公司、大团队开发,比之于小制作的R,有其团队优势。然而,时易世移,经过十余年发展,R的5000多个软件包,数以万计的社区开发者,良好可持续的开发文化,早已将恐龙般巨大的两大商业软件开发团队远远的抛在身后。

换言之,SPSS、SAS代表的是20世纪垄断企业的作风,而R则属于21世纪。

今天的内容就介绍到这里,“R语言系列介绍”将陆续为大家介绍更多R语言相关知识,欢迎大家关注学习。

了解更多详情

官方网址:https://www.taemine.com

(文中部分图片来自网络)

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180621G1TNW100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券