首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言系列介绍之三:R已成为现代临床数据分析的主要发展趋势

20世纪八十年代以来,在“循证医学”(EBM,evidence-basedmedicine)研究范式的引领下,医学取得了许多重大进展,推动了临床实践的规范化。EBM其研究哲学的根基源于从临床医生经验、观察来提出各种假设和猜想,并经由假设-演绎法来做检验。

其最引人瞩目的方法论基石:随机对照实验(RCT,randomized controltrial),可概括为:猜想—搜集数据—假设检验—得出结论。但是,这种方法论,在面对疾病,尤其是癌症等一系列有着异常复杂内在机制的疾病时,其缺陷也是不可忽略的。由于试图通过随机分组方式来简化影响干预效果的复杂性,从而可以使用简单的统计手段来考察很少的一些因素对于干预和临床结局的影响。但是,这就使得RCT本质上成为一种“黑箱研究”,即轻视在临床环境的研究中充分、全面考察的机制,将特定干预(如抗生素、抗肿瘤药)通过此种简单相关性与临床结局挂钩。

研究者未尝不知道相关性与逻辑因果有区别,但出于各种应用上的便利性,往往在结果解释时故意混淆概念,化相关为因果。以RCT为其支柱的循证医学,使得临床实践几乎被大量RCT的结论主导,但当出现结果相反的RCT时,就会给临床医生造成极大困惑。Meta-分析作为一种解决此类挑战的方法已经十分流行。但Meta-分析从诞生开始,就被异质性挑战缠身,其结论十之八九还要乞灵于“更多、更大样本的RCT”,从而进入了一个死循环。破解这一难题,需要另觅蹊径。

传统临床研究设计方法论产生的前提,正在于彼时无法处理海量的临床数据,无法考察全集而必须抽样。无论RCT还是队列研究,究其根本,其核心技术关键都是围绕恰当抽样设计的。但由于各类疾病本身的复杂性和患者之间巨大的内在差异性,RCT以及队列研究所能揭示的真相是有限的。当然,可以通过扩大样本量来减少异质性,但随着样本量扩大而带来的异质性减少是边际递减的,而成本却呈数量级上升。

随着计算机科学的进步,我们对临床数据的记录和处理能力已经远非20世纪80年代的研究者所能想象。但是,利用计算机工具对这些海量的数据进行数据清洗、建模和计算时,旧有的、适用于传统临床设计的统计工具是不堪胜任的。这需要由功能更为强大的计算机语言来实现。这种语言不仅可用于假设和猜想的验证,还可以在没有假设和猜想时,基于对数据进行模式识别提取出海量临床数据中存在的重要信息。这种模式识别分析方法对分析工具的灵活性要求很高,传统固定的分析软件难于实现。R语言才是比现有商业化软件如SPSS和SAS更适用于临床数据挖掘的新分析模式。

海量数据的产生,还对计算机统计算法提出了新的要求,即统计分析的参数选择从基于研究者/统计学家的主观经验逐渐过渡到客观的智能化、自动化选择。这就为临床数据分析引入了一个全新的计算机研究领域——机器学习。TOM Mitchell在1997年对机器学习曾经进行了如下的定义:“机器学习是对能通过经验来自动改进的计算机算法的研究”。(Machine Learningis the study of computer algorithms that improve automatically through experience)。机器学习不仅是要求对已经存在的数据进行分析和挖掘,还要求计算机能够通过对已有数据的学习来实现临床上对各种趋势的预测。研发临床机器学习系统,其核心技术关键是构建有效的、可自动更新的临床知识库。开发此类具有自动优化功能的机器学习系统,其工作量极其庞大,任务具有碎片化性质,现有的商业开发模式无法完成。显然,只有功能异常强大,用法灵活,且有全球最优秀的科学家和程序员进行有效社区支撑的情况下才能完成。

综上,我们可以合理的推论,医学统计的未来工具,非R莫属。今天开始进入医学研究的年轻科学家,应该勇于探索,不懈学习R编程技巧,非如此,则不能成为转化医学时代的优秀科学家。

今天的内容就介绍到这里,本次“R语言系列介绍”已全部结束,感谢大家关注学习。

了解更多详情

官方网址:https://www.taemine.com

(文中部分图片来自网络)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180625G0X0SP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券