大数据能治愈癌症吗?

  你以前听过这样的故事:一对高才生在一所精英大学里相识,出于对计算机的热爱而走到一起,在经过了几次开到深夜的技术讨论会后,创建了一家网站或是一种应用程序。没等你听说,他们的课余小项目就变成了新创企业,两位青涩少年从投资者那里筹集到了大笔资金,入驻了高档写字楼,组建了一家让他们一夜之间至少在账面上成为百万富翁的公司。

  初看上去,纳特·特纳(Nat Turner)和扎克·温伯格(Zach Weinberg)就是这样的人。他们到宾夕法尼亚大学读大一的第一天即成为密友。现在,这对年轻的二人组—都是28岁—在纽约经营着一家新创企业。可是他们的创业梦想比绝大多数人都要宏大。他们的崭露头角的新创企业不是普通的社交网络、照片共享软件或是约会网站。他们制作的工具不是给十几岁和二十几岁的人用来在手机屏幕上调情或是买夜宵的。

他们在两年前创办的公司Flatiron Health正在追逐一个相当大胆的目标:撼动医疗界。他们针对的,并非是一般的医疗难题。特纳和温伯格希望通过收集和分析海量的临床数据,打入医学界最为复杂、最需要研究、也是最艰难的一个领域:癌症治疗。不过,这二位在沃顿商学院(Wharton School)学的是经济学和创业学,从来没有上过一堂像样的生物课。

  不过,在你嘲笑他们之前,先想想这个吧:Flatiron不是他们一起创办的第一家公司,而是第三家。他们尝试过为大学生开办一家在线食品购买服务网站,结果失败了。他们的第二次创业是在读大三时开办的Invite Media,利用大数据技术来提高数字营销的效力。他们获得了巨大的成功,大数据教父、全球最大的数字营销企业谷歌公司(Google)在2010年出资超过8,000万美元,买下了Invite。

  现在,谷歌为特纳和温伯格再次打开了支票薄,通过其风险资本部门谷歌风投公司(Google Ventures)给Flatiron注资超过1亿美元。(Flatiron总共筹集了1.38亿美元。)不只有谷歌被这两位年轻的技术人员打动。杜克大学的一位医学教授、著名的肿瘤学家艾米·阿伯内西(Amy Abernethy)承认,Flatiron的目标极难实现。但是,它的收集整理临床数据的方法严密而周全,她深受吸引,在今年7月决定加盟公司,担任首席医学官。阿伯内西说:“上了Flatiron这条船,我已经把声誉都搭上了。”她不久前主持过杜克大学癌症研究计划(Duke Cancer Care Research Program),曾经介入早期的一些通过收购大量临床数据以改进癌症治疗的“梦幻”项目。

  即使没有背书以及谷歌的投资,这种极端自负的主张也值得关注:一对长着娃娃脸的IT技术人员居然将癌症治疗推进到迄今为止连科研人员和受过高度培训的医生都达不到的程度。Flatiron的首席执行官特纳为人谦逊,却无所畏惧。“我们在打造一家正好处于癌症空间的科技公司。”他说。(他经常使用“空间”这个词。)

  Flatiron的论点如下:目前,仅有一小部分癌症患者的治疗数据得到了有系统的采集。这种采集基本上是在临床试验中随意为之的,只覆盖了大约4%的成人癌症患者(不过,相关的估计有差异)。Flatiron将余下大约96%的信息加以整理,实现标准化,然后将数据提供给医生。公司认为,这能帮助医生找出更好的治疗方案。

  理论上,医生们能够找出病情类似的患者的最有效疗法,或者是评估自己的疗效,比如他们可以将自己的乳腺癌治疗效果与美国各地其他专家的治疗效果做比较,并且快速纠正不足之处。这些数据可以突显出最为经济的疗法,反之也能展示哪里浪费了医疗开支。它能给更多的病人匹配合适的临床试验,有可能加快新药开发和审批的过程。特纳和温伯格并没有在鼓吹通过数据来终结癌症困扰的乌托邦式的科技梦想,而是希望能够带来有意义的进步。特纳表示:“我们所做的一切是在表明,如果我们能从其他行业中借鉴些什么,那就是数据的价值。有多大价值,现在还不知道。”即使好处不大,也能影响千百万人。“哪怕只有影响到各种癌症的5% ……”他说话的声音渐渐变弱。2014年,美国有约170万人新确诊为癌症,患者整体存活率提高5%,相当于一年就拯救了数万人的生命。

  特纳的父亲是一位地球物理学家,从事石油勘探工作。特纳在成长的过程中,曾经在美国的得克萨斯州和路易斯安娜州,荷兰、苏格兰之间来回搬迁。同事们形容特纳是笑面“老精灵”。他的浅棕色头发已经开始脱落,露出了宽大的额头,但是他的面相依旧年轻,像个研究生。不久前的一个早上,他身穿一件马球衫,一只肩膀上挂着双肩背包,手腕上戴着为各种活动筹集资金的橡胶手镯。坐在从前Flatiron位于纽约特里贝卡区(Tribeca)的一间房“总部”(公司后来搬到了更宽敞的办公空间)对面的一家咖啡店里,特纳一五一十地讲述了Flatiron公司的计划。他既没有成功的系列创业者身上普遍存在的那种张扬,也没有自认为可以改变世界的创新者身上的专横之气。但是他和在曼哈顿上西区(Upper West Side)长大的温伯格都有一种坚定的信念:技术可以给癌症患者的生活带来重大的影响。温伯格说:“正如你了解到的有关医疗空间和肿瘤学的情况,如果有一个团队不耻下问,愿意提出正当的问题,它就有助于解决很多问题。”

  特纳首次对癌症产生兴趣是在2009年。当时,他和亲属在北卡罗来纳州度假,7岁的表弟布伦南·西姆金斯(Brennan Simkins)生病了。经过一连串的化验,表弟被确诊患上了急性骨髓细胞白血病,由此开始了多年的折磨,先是骨髓移植,然后又复发,再移值,再复发。西姆金斯总共经受了四次痛苦的骨髓移值,还被数次误诊。他今年12岁,病情自2011年以来一直处于缓解期。

  表弟痛苦求生的经历促使特纳和温伯格开始动脑筋,为患有类似病症的人们做点什么。他们讨论了开办一家新公司的创意,起初考虑通过互联网提供补充性的专业医疗建议。特纳(他的橡胶手镯上刻有西姆金斯的名字)说:“在半年的时间里,我们把精力都放在了癌症上。”二人造访了大约60家癌症中心,与专家交谈,和医生巡访,探讨可能的商业创意。经常与他们同行的,还有克里施纳·耶什万特(Krishna Yeshwant),他是一名医生和谷歌风投公司的合伙人,专业从事生命科学投资。

  经过数十次交谈,特纳和温伯格形成了一个新的创意:整理分散在美国各地的肿瘤治疗中心档案里的海量临床数据,无论是数字形式还是其他材质的数据,加以编排汇总,再返回给医生,目的是帮助他们更好地决定怎样治疗病人。

  对于特纳和温伯格这两位数据狂人来说,肿瘤学临床数据的问题既明显又熟悉。尽管多年来,医学机构一直在努力说服医生和医院采用电子病历(简称“EMR”),但是肿瘤学的数据依旧难于查找和使用。特纳说:“EMR的数据太不合格。”一位病人的数据可能有几十个来源:实习医师、肿瘤科医生、放射科医生、外科医生、化验室和病理报告,等等。即使数字化的数据也存在着技术人员所说的“格式散乱”的问题。数据库没有经过规整,展示方式因化验报告和病历的不同而存在差异。更糟糕的是,隐藏的报告里的海量数据有的是手写的,有的是扫描文件,有的是从没有人听过的录音,还有的是由传真机生成的低分辨率PDF文档,结果造成各种数据系统无法兼容,再加上有关个人健康信息的严格隐私规定,令共享数万种肿瘤疗法变得难上加难。

  坦白地说,挑战极为巨大。

  理论上,电子病历应该很容易做这样的数据汇总和整合。但是想想这样的情况:假设要测量某一种蛋白质的水平,比如癌症病人通常要化验的白蛋白,来自于某家癌症中心的EMR可能会被用30多种格式展示出来。这算是一大挑战,考虑到癌症治疗中采用的蛋白质和遗传化验、活组织检查及其他诊断方法超过100种,整理的难度将成倍增长。再考虑到美国独立的EMR系统和癌症中心的数量,难度又会提高很多倍。想必现在,你已经理解这个问题的复杂性了。

  为了解决这一问题,特纳和温伯格花了两年多的时间建立他们所谓的数据模型,也就是将海量数据清楚地分门别类的方法。他们很快发现,针对所有类型的癌症来做这项工作实在是太复杂了。因此,他们与一群医生顾问合作,专注于结肠癌。利用公开的临床数据,他们提取了超过350个类别,包括人口结构、地点、癌症发展期、疾病的生物学标识以及对疗法的反馈,等等。然后,他们再对其他类型的癌症重复这一过程。

  从EMR中提取数据是一项极度劳动密集型的工作,为了将这一过程自动化,Flatiron采用了各种计算机技巧,包括给化验报告确定价值的匹配算法。公司还完善了一种叫做“自然语言处理”的技术,让计算机“阅读”文件,并且从中提取数据。这类系统特别容易出错,所以Flatiron创造了一种人机混合感知系统,锁定并纠正错误。其实就是公司聘请了一个由50名护士组成的团队,手工录入500名患者的数据,制作出特纳所谓的“培训模板”,可以用来发现自动收集的数据中的错误。相关的差异再被反馈回系统中,帮助完善自动收集程序。

  Flatiron并不是第一家从事这项工作的组织。去年,一家非营利专业机构美国临床肿瘤学协会(American Society of Clinical Oncology)公布了CancerLinQ计划,打算开发一种系统,利用临床数据库来改进疗效和加快发现新药的速度。另一家由资深计算机科学家马蒂·特南鲍姆(Marty Tenenbaum)管理的非营利机构Cancer Commons希望进一步推进肿瘤学临床数据的标准化,能够供所有人免费使用。IBM借助其沃森(Watson)人工智能系统,已经在与纪念斯隆-凯特琳医院(Memorial SloanKettering)等癌症治疗中心合作,筛选数以百万计的临床资料数据、期刊文章以及临床试验报告,自动向医生推荐患者的治疗方案。

  早期的努力—包括美国国家癌症研究所(National Cancer Institute)的一项耗资5亿美元之巨、名叫“caBIG”的生物信息学计划—不是失败,就是尚未产生积极的效果。但是,阿伯内西说,Flatiron对复杂数据的专注让她惊叹。她曾经担任过CancerLinQ项目顾问委员会主席,并且参与了其他的临床肿瘤数据的数字化编纂工作。她说,特纳和温伯格显然明白,“光有技术解决不了这个问题,这是我决定和他们一起努力的原因”。

谷歌风投公司的投资不仅提升了Flatiron的信誉,还让它有本钱收购为肿瘤医学创造EMR服务的Altos Solutions公司。该公司位于加利福尼亚州山景城(Mountain View),距离谷歌不远,收购它让Flatiron拥有了更大的用户基础,加强了与医生的联系。目前,大约有210家癌症医疗中心使用Flatiron的系统,每年共收治大约30万名新患者。大多数客户是社区癌症诊所,但是也有一些大型学术机构,比如耶鲁纽黑文医院(Yale-New Haven)的斯米洛癌症诊所(Smilow Cancer Hospital)、宾夕法尼亚大学(University of Pennsylvania)的艾布拉姆森癌症中心(Abramson Cancer Center)。谷歌表示,给Flatiron投资的原因之一,是想让一个前景光明的领域快点出成果。谷歌风投公司的主管比尔·马里斯(Bill Maris)说:“我们努力不让电子医疗纪录还要再过一代人的时间才能得到广泛应用。我希望,我们能省去人们的很多麻烦和痛苦。”

  横穿美国,前往位于长岛(Long Island)林木葱茏的郊区杰斐逊港(Port Jefferson)的一座不起眼的低板办公楼,这里的杰弗里·瓦奇尔卡(Jeffrey Vacirca)医生相信Flatiron的愿景。瓦奇尔卡说,他已经使用了数年Altos的EMR系统,帮助他改进了对患者的治疗,但是这个系统还有很大的潜力没有发挥出来。他说:“数据非常多,但是没有人能整理它,没人知道其中的含义。我认为,Flatiron的重要性就在这里。它提取所有的详细数据和数百万名患者的治疗结果,加以评估和归类,寻找真正有效的方法。”瓦奇尔卡医生将Flatiron系统称为“癌症治疗的基础设施”。他说,未来有了它,他就能发现,他对特定癌症的治疗方法是否在哪些方面已经落后并加以调整,还能确定是否有更多的病人符合临床试验的资格。他还说:“如果积累患者的速度增加五倍,想象一下,你能让多少药物通过规定的流程?”

  该领域的一些领军人物仍然对大数据的长期抗癌前景表示怀疑。在不久前发表在《细胞》杂志(Cell)上的一篇论文中,开创性研究者罗伯特·温伯格(Robert Weinberg)指出了大数据和癌症之间不稳定的关系。他与扎克·温伯格没有亲戚关系,是麻省理工学院怀特黑德生物医学研究所(MIT’s Whitehead Institute for Biomedical Research)的创始人之一。他强调,从肿瘤里的蛋白质间的相互作用到基因突变,方方面面的数据膨胀已经超过了研究人员的解读能力。他后来在一次采访中对《财富》杂志说:“有人对生物信息学太着迷,以为只要做一下数据汇总,就可以获得从前无法得到的高质量的见解。对我来说,这一点并不明显。”

  罗伯特·温伯格还说,即便可以利用数据来提高某些治疗方案的疗效,其改进的程度也并非大到足以让医生改变他们的疗法他说:“有很多大胆的尝试和乐观的声明。相比于已经付出的努力,实际得到的经验很少。”

  斯坦福大学的一位医学健康研究和政策教授约翰·约安尼季斯(John Ioannidis)给出的评价要高一些,但是也有限。他认为,如果有能力通过一个集中的系统将患者的病历与疗法进行匹配,有助于减少小诊所与大医院在癌症治疗方法上的巨大差异。但是除了高度受控的临床试验,依靠其他数据能否实现重大进步,约安尼季斯心存疑问。他说:“我们能从这个没有试验设计的数据大集合中学到多少东西,是个公开的疑问。”

  特纳和扎克·温伯格并不期望能迅速打消别人的疑虑。但是他们和很多客户(Flatiron的客户数量还在不断增长)都相信,他们的“智能数据”将给癌症患者带来更佳的治疗。阿伯内西说,它首先可以消除社区诊所和医术通常更高的顶级教学医院之间的差距。与此同时,联合创始人温伯格说,Flatiron从事的是长期抗癌斗争:“我们是一家只有两年历史,但有着雄心勃勃的庞大计划的新创企业。我们已经来了个开门红,但归根到底,这是一个需要花数十年才能解决的问题。”

  见财富中文网:大数据能治愈癌症吗?

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏飞总聊IT

特大喜讯-看脸识罪犯,上交深度学习新突破

昨天晚上收到一位朋友发来新智元的长篇博文:伪科学争议,谷歌研究院两万字批驳上交大用深度学习推断犯罪分子。讲述的是谷歌的研究员花费两个小时,对我国著名学府,上海交...

3378
来自专栏Java学习网

程序员的年龄天花板

程序员的年龄天花板 其他行业里的老将 农村有一些老人 70 多岁了还能种地,不但能种小麦玉米,还能在自己房子后面种点白菜、萝卜、西红柿、豆角什么的,自给自足,不...

2656
来自专栏量子位

北航机器人研究所名誉所长王田苗:人工智能与机器人的发展趋势 | 北大AI公开课笔记

622
来自专栏机器人网

当今机器人界的25位女强人(上)

在最近举行的Grace Hopper女性计算机科学系列会议上,微软CEO Satya Nadella给女性提出了一些有待商榷的职业建议:“这并不是加不加薪的...

3105
来自专栏大数据文摘

数据脱口秀 | AI领域你应当关注的14位女性,其中三位是华人

601
来自专栏机器人网

她做了个跟自己一样的仿真机器人

宋扬博士(左)与她的仿真人机器人“阳扬”在全球移动互联网大会期间拍摄海报 可调整妆容的仿真肌肤,随心所欲呈现出喜怒哀乐,伴着游刃有余的真人语音模仿……她俨然...

2639
来自专栏Coding迪斯尼

发刊词:使用神经网络玩转图像和自然语言识别

632
来自专栏机器人网

不可思议,十大尖端科技打造超人

1950年代,人工起搏器发明被视为科幻成真。目前进入商用的创新发明已在逐渐地恢复聋人的听觉和盲人的视觉。仍在研究的发明则已指向完善或是提升造物主所创的健全肢体,...

3307
来自专栏人工智能快报

科学家总结将塑造未来的五大人脑技术

2015年8月19日,美国杜克大学医学中心神经认知障碍计划主任MuraliDoraiswamy在世界经济论坛网站发表文章,总结了能展现脑科学未来前景的五项新兴技...

2657
来自专栏即时通讯技术

干了这碗鸡汤:从理发店小弟到阿里P10技术大牛

MIT TR 35(MIT Technology Review 35 Innovators Under 35)——“全球 35 位 35 岁以下科技创新青年”榜...

523

扫描关注云+社区