首页
学习
活动
专区
工具
TVP
发布

从《纽约时报》和纪念斯隆凯特琳癌症中心的恩怨看大数据的临床应用

大数据在MSK的应用

上次提到MSK在企图利用“黑科技” ——大数据,人工智能,基因测序等等来改进癌症患者的临床治疗。这些年, 俺在健康大数据和人工智能领域摸爬滚打,想和大家分享一下我的心得,近距离地看看MSK到底是如果落地这些时髦技术的。

在人类和癌症作斗争的这100多年来,大量的科研和临床实践,认识到基因的变异对癌症形成至关重要。如何找出这些基因,近几年快速成长的二代基因测序技术为精准医疗带来巨大突破。

从2014年开始, MSK病理系创立了IMPACT项目(Integrated Mutation Profiling of Actionable Cancer Targets )。对很多癌症患者进行基因测序,通过第二代基因测序技术(NGS),对468个特殊基因序列做数据的分析标识,发现癌症细胞的靶向突变基因,然后对不同的癌症病人做个性化的治疗。MSK-IMPACT是对精准医疗概念的一次成功实践,到目前已经有超过3万个癌症病人接受了基因测序和个性化的治疗。2017年,MSK-IMPACT通过美国食品和药物管理局(FDA)批准,成为第一个分子水平上的基因靶向疗法,是人类抗癌史上一个重要的里程碑。

我们知道基因测序会产生大量的数据,从储存到分析都达到了大数据级别的范畴。虽然MSK-IMPACT项目来源于癌症患者的临床辅助治疗,但是通过和电子病历系统的结合,接驳其它的检验结果,经过大数据的分析,和对随访病人的不间断地数据采集,MSK-IMPACT所产生的影响不仅仅在临床治疗上,而且是通过对癌症突变基因的深度发掘,发现不同癌症的发病通路,对于癌症新药的研发有着非常重要的意义。

那么“干货”来了,我们来深挖一下MSK的大数据平台,看看MSK是怎么解决数据集成问题和如何利用数据在临床实践中发挥作用的。

MSK-IMPACT项目流程图(图片来源:《Nature(Medicine)》)

肿瘤医生通过和患者的交流和自己临床知识,确定需要通过IMPACT来分析患者的肿瘤基因。病理医生标识从患者身上取下的肿瘤组织,组织切片被送到实验室经过第二代基因测序(NGS)技术对468个基因进行测序,测序会产生大约1Gb的原始数据。一旦测序结束,数据事件驱使平台会自动被触发,通过大数据流水线的处理和质量管控流水线产生初步结果,在分子病理医生和生物统计专家共同商讨和标识下,生成最终测序报告,报告进入病理的电子病历系统。

这个数据流水线用到很多生物统计的知识和算法。从一开始产生的原始数据,到最后的分析处理好的数据,中间会产生很多其他数据集,大小和数量都非常巨大。现在比较流行的处理方式开始向工业界常见的Hadoop大数据生态链靠拢,利用比较成熟的可以横向扩展的平台来提高基因分析的算力。但是MSK还没有使用这个技术,在这一点上还有很多拓展空间。

Darwin 系统介绍

仅仅一份基因测序的报告对于肿瘤医生来说还是远远不够,医生需要看到病人全部的病史记录,包括其他的检验结果。这样需要一个大数据平台可以整合所有的电子病历系统,不同的来源,并且按照病史时间轴记录展示患者各个方向的数据。

虽然说起来很容易的样子,医疗数据的集成和分析并不是看起来那么简单。虽然美国医院的电子化程度已经很高,但是由于医疗技术高度分化的原因,很多科室会采用本专科特定电子病历系统。 不同的系统经常会使用不同的标准。数据的采集,数值和单位的标准化一直是医疗大数据的难题。

MSK最有价值的地方在于它的患者可以第一时间接受到最前沿的治疗方案和药物,往往很多还是在临床试验阶段(Clinic Trials)。临床试验的药物和方法对于参与患者有特别挑剔的要求,除了症状要符合,而且限制了在基因层面的要求。精准匹配患者到特定的临床试验是一个很有挑战性的问题,但是是临床医生最需要的,现在常见的做法往往是通过人工来挑选相关数据,形成表格,然后手动筛查,不仅时间长,过程繁琐,而且容易出错。

MSK从2013年开始下手开发自己的临床试验管理系统——

Darwin,一开始主要想解决的问题是自动化临床试验患者的筛查。后来Darwin逐渐发展为一个有综合功能的大数据平台,它想要解决几个主要问题

1

不同电子病历的整合。像MSK这样有140年历史的癌症中心,和巨大的患者量,虽然病历电子化开展的很早,但是错综复杂的系统(检验,诊断记录,随访,基因等)的数据互通互联,格式的转换,和数据的标准化也都相当的有难度。

2

如何从MSK-IMPACT的癌症测序报告中抓取有用的信息,结构化,然后整合到病史记录中。

3

如何以最短的时间发现和匹配符合最新临床试验的患者,并且通知患者的主治医生。

4

MSK内部的斯隆凯特琳研究所(Sloan Kettering Institute)有很多专注于癌症基础研究的实验室,如何通过一个共同的平台可以及时的分享脱敏以后的患者大数据,加速科研临床转化。

5

Darwin从最初的版本开始,已经经历了几次迭代,上面提到的五个问题也根本得到了解决。Darwin是采用批处理模式,目前还没有能够做到实时数据处理。(这里小鄙视一下, 咱自己设计过实时的医疗大数据流水线,很有技术挑战哦,呵呵)。

每天晚上,当月上西楼, Darwin就偷偷摸摸从MSK-IMPACT数据流水线提取基因检测报告,因为报告是非机构化的自然语言,Darwin通过自然语言学习(NLP)技术提取关键字,通过病理知识图谱,把非机构数据结构化,变成它内部的医疗数据模型。

于此同时Darwin也不动声色的从各科室电子病历系统采集和汇总数据, 包括患者的个人信息,临床医生的问诊病历,实验室检验结果,影响报告,因为不同的系统有自己的标准,所有的数据都要通过数据流水线结构化和标准化。

Darwin综合介绍(图片来源:Automated eligibility screening and monitoring for genotype driven precision oncology trials)

肿瘤医生通过Darwin的界面可以定义符合一定条件的特定患者群(Cohort)。从病史记录到癌症基因序列,Darwin通过特殊的算法精确匹配符合条件的患者,并且每天通知肿瘤科医生是不是有符合条件的新的患者加入,并且通过肿瘤知识图谱,标识出这些特定患者群可以使用的最新的临床试验方法和药物。

MSK-IMPACT癌症基因分布(图片来源:《Nature(Medicine)》)

这个是2017年MSK在国际著名学术期刊《自然(医学)》(Nature Medicine)发表的一篇论文。通过对已有的10000多名肿瘤患者的数据分析,匹配了62个特定人群,大数据的分析显示突变的TP53基因是所有癌症患者中出现最多的,TP53突变最常见于晚期卵巢癌(98%),食管腺癌(89%)和小细胞肺癌(85%)。

Darwin 工作流程

2013左右MSK开始分享自己患者的癌症基因数据,cBioPortal就这样诞生了。通过向全世界的研究者共享第一手的基因数据,MSK希望可以促进探索新的癌症疗法和新的抗癌药物。用互联网公司的行话来说就是MSK想要开源它的数据,cBioPortal想做癌症基因界的github。

cBioPortal带动了世界其他的医疗机构,也开始通过这个平台共享自己的基因数据。MSK目前已经通过cBioPortal分享了10945例患者的癌症基因数据,并且会不断去更新和添加最新的数据。Darwin作为一个MSK内部的大数据平台,通过它的整合流水线,自动产生脱敏以后的癌症基因数据,通过标准的接口向cBioPortal推送最新的数据。cBioPortal基于标准化的数据,提供丰富的可视化分析和丰富的查询功能。

在对各种大数据的整合和临床试验匹配基础上,Darwin还提供了灵活并且高度可定制的大数据查询界面,临床肿瘤医生可以及时的查询患者的所有的病史记录,基因数据。一个个患者标准化的病史以时间轴的方式全面的展现在临床医生面前,极大的方便医生快速地做出正确的判断。

Darwin系统的用户界面

目前Darwin还是只是面向MSK内部使用,但是它却提供了完整的企业级别应用程序接口(API),(这里可以看出MSK管理者的远见)丰富的应用程序接口对于一个成熟的大数据平台的发展至关重要。标准化的设计,完整的文档给MSK内部的医生和科研人员极大的自由度去开发基于Darwin平台的其它应用,同时对于将来和外部机构合作扫清了技术上的一大障碍。

Darwin 的应用程序接口(API)

Darwin从一开始的设计初衷为了满足医生临床试验的需求,可以快随的发现和匹配符合临床试验的病人,到随着临床医生的需求的不断增加,从一个简答的患者病史查询,演变为一个整合各种数据源的大数据平台。通过数据流水线,结构化和标准化医生需要的基因数据,病史数据,检验数据,影像数据等。

一个成功的医疗大数据平台一定是通过从临床医生的需求出发,不断的完善和改进,通过对数据的深度整治,和新技术的不断引入,又反过来加速临床的应用。

MSK的患者不仅仅是在接受着世界上最优秀的肿瘤科医生的诊疗,同时在大数据时代,数据驱使(Data-Driven)这只无处不在的手又在辅佐着它的医生,做出最及时,最全面,最正确的治疗方案。

结尾

不断整合新技术让这家有着快140年历史的癌症中心——纪念斯隆凯特琳癌症中心,一直走在癌症诊疗的前沿阵地。在这个数据爆炸的年代,我相信大数据技术作为基础和枢纽与医学无缝连接将在未来的十年到二十年间革命性地改变医疗实践。

MSK正门标语(图片来源:作者手机拍摄)

We’re changing how the world treats cancer

是镌刻在MSK的正门上霸气的一句话:“我们一直在改变着人类治疗癌症的方法”。——作为一个大数据工程,现在俺也可以在这些改变里掺和掺和了。

MSK的主楼病房夜景(图片来源:作者手机拍摄)

夜晚从家里窗户看出去,正对着MSK的病房,可以看到来自世界各地的患者在这里寻找希望——诊断,治疗,康复。一个个的抗癌奇迹在这里被不断的重复着。

我时常在想在接下来的10年里,又有什么新的癌症诊疗技术出现,谁又是这个新技术的引领者……

参考文献

https://www.mskcc.org/press-releases/msk-impact-first-tumor-profiling-multiplex-panel-authorized-fda-setting-new-pathway-market-future-oncopanels

https://www.mskcc.org/sites/default/files/node/158749/document/msk-17ar-final-pdf.pdf

https://www.nature.com/articles/nm.4333

https://www.cancer.gov/about-cancer/treatment/clinical-trials/nci-supported/nci-match

https://www.ncbi.nlm.nih.gov/pubmed/27016727

https://www.nature.com/articles/nm.4333#f2

原创作品,未经许可请勿转载

本文仅仅代表作者个人观点

插图来自网络

如有版权问题,请与我们联系

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190125G0KAHA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券