整理 | 陈彩娴
高性能计算被誉为计算机科学的「神来之笔」,在过去的数十年,对气象、海洋、物理、生物、材料、机械工程,甚至人工智能等等领域均产生了重要的影响。
换句话说,也就是越来越多学科在「抱 CS 的大腿」。
那么,高性能计算的发展,对生物大数据的分析究竟体现在哪些方面?高性能计算与人工智能模型的结合,又对人类了解生物数据背后隐藏的规律与密码起到怎样的帮助?
在10月21日于珠海横琴召开的全国高性能计算学术年会(CCF HPC China 2021)上,陈润生院士作了题为「从大数据、精准医学到核酸药物」的主题报告,介绍了大数据的出现在生物领域所引起的一系列变革。
陈润生院士是我国最早从事理论生物学、生物信息学以及非编码RNA研究的科研人员之一,目前在中国科学院生物物理研究所担任核酸生物重点实验室主任,同时是国际人类基因组织会员、国际数据库组织生物大分子专业组委员。
以下,AI科技评论对陈润生院士于CCF HPC China 2021的报告作了不改原意的整理:
我想讲三个问题。第一个问题是「从大数据到精准医学」。
近30年以来,生物领域发生了重大的变化,而变化的原因背后,是生物领域已经进入大数据时代。人的遗传密码可以测试,水稻的遗传密码也可以测试。
这是一段真实的人类遗传密码(如下图),是一尾线性的字符串,但上面只有4个符号。遗传密码的形式非常简单,主要是长,有30亿个建基。
人类历史上只有最近30年才可以破译自己的遗传密码。能够测量遗传密码,也就得到了前所未有的、跟生物相关的大数据。大数据必然会带来大的信息,信息的解析给生物医学带来的冲击是巨大的。
我们再看下面一个例子:
图的左边是高等生物的结构和遗传核酸信息链,右边是新冠病毒核苷酸的链。新冠病毒的结构远比人的简单得多。图中所示是从早期的武汉病人身上提取的新冠病毒完整序列。这个序列很短,人类遗传密码是3乘10的九次方,而新冠病毒只有29903个。但即便是这么短的序列,给我们带来的影响却是深远的。
由于有了大数据的测量,新冠在武汉出现以后,中国科学家在一周内就测量了它的完整序列,而这序列在国际社会上公布以后,世界上最大的核酸疫苗公司 Moderna 用了两天时间就基于这个序列设计出了现在人尽皆知的核酸疫苗,BioNTech公司用这样的大数据甚至只用了4个小时就设计出核酸疫苗,为抗击新冠起了非常重要的作用。
所以大数据分析对生物领域的冲击、对预防新冠的影响是巨大的、是根本的。在2003年,人类用了4个月的时间才确定了SARS病原体的组成和序列;更早之前,20世纪的西班牙流感用了13到15年才决定了病原的性质。而现在,有了大数据,人类只要几天就可以确病毒的序列,几个小时就可以把疫苗设计出来,可见大数据对人类的影响是巨大的。
我们再举一些例子,谈谈生物大数据对人类健康与疾病预防的作用。
美国著名影星 Angelina Jolie 来自所谓的乳腺癌家族。过去没有大数据的测量,不知道病因,有大数据测量遗传密码后,她发现她的家族有基因BRCA1的突变,由于这么一点遗传序列的变化,她的家族大多数人到一定年龄就会罹患乳腺癌去世。在她还很年轻的时候,她也测了自己的遗传密码,发现自己也是阳性,所以她决定做预防性治疗,切掉了当时还完全正常的乳腺,杜绝了自己此后患乳腺癌的可能性。
图注:Angelina Jolie
还有美国前总统卡特,2015年体检的时候发现自己罹患了黑色素瘤,同时肝转移、脑转移。这是后期的肿瘤,非常难治。他做了大数据分析,发现肿瘤微环境的变化,而这个变化与当时刚刚研制出的抗原非常契合。在大数据的精准预测下,对症用药,只用了五个月的时间,不仅仅是原发肿瘤消失,其他转移灶也不见了,身上的肿瘤细胞再也找不到。换言之,他痊愈了。对后期肿瘤转移病人的精确根治,也是依赖于大数据精确的测量和判断。卡特现在还好好地活着。
再举两个学术例子。
一个发表在重要学术刊物《Scinece》上,一位美国教授 Michael Snyder 定期抽自己的血液做大数据检测,希望通过大数据判断他的健康情况和预测未来的疾病。测量结果说明,他是糖尿病的危险者。看右侧中间的图,测量完了以后,过了一段时间,他发现自己的血糖确实是提高了,鼓起了一个包,就开始控制自己的饮食、减肥等等。
最后一个例子,发表在2020年8月13日《新英格兰医学杂志》上。这两条线显示了从2001年开始,美国非小细胞肺癌患者发生率和死亡率的变化。非小细胞肺癌是肺癌最主要的部分,有80%的肺癌病人都是非小细胞肺癌。
美国大数据统计表明,从2001年开始,美国非小细胞肺癌的发生率和死亡率都是单调下降的,而到目前为止,我国肺癌的发生率和死亡率还是单调上升的,极端不同。一个是单调上升、一个是单调下降,原因是什么?我国肺癌有两个非常好的单抗靶向药物,一个针对EGFR,一个针对ALK,但是美国通过肺癌病人组学大数据测量,得到了另外将近20个新的靶点。换言之,我们治疗非小细胞肺癌只有两个对症药物,而美国通过大数据计算发现了20个,同时有20种不同精准位点治疗。
美国非小细胞肺癌呈现单调下降的趋势,预示着即便是肿瘤也是可防可治的,相信在大数据搜集和挖掘的情况下,也一定会实现对肿瘤的预测和根本治疗。
更重要的是,随着人类遗传密码的破译,生物医学进入了大数据时代,不仅仅像上面例子展示的可以使疾病得到了精准预测、精准用药和有效治疗,更加根本的是,有人预测,整个大数据会给生物医学带来本质的变化,使得生物医学从诊断治疗过渡到健康保证,在大数据的推动下,将来的医疗体系是对全民的,是涉及到整个生命周期的,从出生到死亡都可以对全民进行健康保障。
这样的健康体系跟现在相比有本质的不同,必然会引起国家相应的法律法规(药物管理体制、社保制度等等)的变化,最终推动整个产业的发展。国际上的发达国家,包括美国、欧盟、英国、日本,都建立了大数据驱动的精准医学计划。有人估计,这个产业规模可以到达万亿美金的数量级。
生物医学的变革中,有哪些可以产生原始创新的机会?又或者说,在精准医学的路上,目前有哪些挑战?
一是认识论的挑战。现在遗传密码是可以测的,但是,真正能够完全解析的遗传密码只有3%。现在医学上可以用的只是大数据当中很少的一部分,另外97%的遗传密码是非编码序列,人类依然没有解析。这部分的大量挖掘工作有待于进一步的开发,所以,人类离精准利用基因组信息的差距还很远。
引用一篇文献。如果关心这个问题,可以看2010年12月17日的《Science》,上面统计了最近十年(2001到2010年)自然科学领域中人类最希望、最需要解决的重要问题。首先是Genome’s “Dark Matter”(基因组当中的暗物质),这告诉了我们,遗传密码很容易测,但解析遗传密码的路还很长。
举几个例子说明没有解析这部分暗物质对疾病治疗的影响:
第一个例子是现在医院里常规检测的指标中,有些肿瘤的指标是没有变化的、正常的。但它的变化来自于没有解析的 97%,说明 97% 的暗物质都与肿瘤的发生有关。
第二个例子,研究肿瘤的恶性程度和肿瘤干细胞的恶性程度是否只是由现在了解的信息参与呢?其实不是,没有充分破解的97%其实跟人的健康紧密相关。
第三个例子,现在很多晚期肿瘤病人希望做 PD1、PDL1 治疗,我们考虑来自97%的地方是否也起到了像PD1那样的作用。研究结果充分证实了,不仅仅 PD1 可以影响肿瘤微环境,很多因素都可以影响到肿瘤的微环境。所以,另外97%是有待于创新和挖掘的广大源泉。利用好大数据,一定可以更好地为人类健康、尤其是为解决严重疾病问题服务。
随着生物医学进入大数据时代,很多过去不常见的数据都变成了生物医药相关的大数据,比如电子病历、可穿戴设备,一个手环记录的生理的指标;医院里影像学超声、CT这样的影像学,组学处置过程中动态的变化;微生物、大气中的雾霾、水文中的化肥农药,以及本地辐射等等。
大数据自身的建模与挖掘也是当前生物医学领域面临的棘手问题。看它的数理特征,生物医药大数据依然是足够的复杂,是多尺度、高维度、异质化的,也是动态含时的,作用方式不像物理和化学体系是标量,生物体系是向量,是有向的、是非线性的。随着对97%遗传密码的认识加深,我们知道构成生物网络的元件不仅仅是蛋白,也包括97%的核酸,所以网络的基本元件是双色的。
大数据挖掘成为一个极端复杂的问题。而处理这些数据,有赖于高性能计算和计算机领域其他科学家的支援和帮助。
目前,人工智能在生物领域中也展示了很大的作用。
一是结构预测,AlphaFold2 这些人工智能技术可以很好地预测蛋白质的结构,预测精度达到了实验的90%以上,换句话说,是可用的。这是我自己以前做生物大分子计算没有想到的,所以用这样的技术能够预测天然蛋白值的85%,同时为核酸预测提供了很好的模式,为核酸疫苗、核酸药物的设计开拓了很好的前景。
二是影像学方面,目前用人工智能构建的影像系统超过了任何一个独立的医生的准确度,比如 DeepMind 通过处理数以千计的视网膜扫描图像,训练出了一种人工智能算法,可以比人类医生更加高效、准确地检查出眼底疾病。这展示了人工智能对生物大数据处理的精度和作用。这个作用会向大数据的其他方面延展,而为生物医药提供更好的工具。
30多年前,我自己也构造神经网络,用来预测基因。现在我自己觉得,在人工智能当中,可能有两个方面应当重视。一是现在的人工智能的基本理论和当初做的在实际本质上并没有根本性的差别,只是技术上有差别,一是规模扩大了,另外是收敛有所改进。我们的系统是全局收敛,现在因为参数的增加,全局收敛的计算复杂度比较高。我自己觉得人工智能的模式、理论、技术可能有待于进一步的完善和发展。对于生物医学工作者而言,如何构造一个很好的学习集,是充分发挥人工智能作用的重要环节。
下面讲两个困难。一是数据的挖掘,二是认识论对遗传密码的解析差距很多。虽然解析很多,但是随着大数据的认识,随着这次新冠疫情的出现,人类对核酸疫苗和核酸药物有了充分的认识,通过大数据的解析与疫情的发展,生物医药进入了所谓的“核酸时代”。
目前效率最高的新冠疫苗是由Moderna和BioNTech两家公司所做,在一些地区大的人群做实验,包括群体测量,证实其有效保护率达到95%左右。一般的蛋白疫苗平均保护率是达到70%,核酸疫苗的保护作用和蛋白疫苗相差了20个百分点,说明核酸疫苗是非常重要的。这就推动了核酸领域的研究发展,为未来出现新的所谓烈性传染病、烈性病毒的治疗提供了很好的经验,以后有了任何新的烈性病毒出现,我们可以很快的设计核酸疫苗,达到保护的作用,这是非常重要的。
核酸和蛋白药物、其他药物相比有不可替代的优势,小分子药物是第一代药物,现在关心的PD1、CAR-T这些所谓抗体或者细胞药物作为第二类药物。最近几年,由于核酸的发展,核酸类药物在大数据挖掘技术上很快会成为第三代药物。从核酸药物的作用来看,第一是安全,因为机体里面有很多核酸,第二是它的设计要远比抗体或其他细胞药物简单得多,因为它只是一条线,上面只有四个字符,所以设计起来比较简单,有了新的疫情以后,可以在以小时计、或者以天计的时间内设计出相应的疫苗,而蛋白疫苗一般以年计。核酸药物的合成也很容易,用一个核酸合成仪就可以很快实现,说明将来核酸疫苗和核酸药物的研制将是低廉的、快速的、有效的。
基于上面讲的核酸药物,2020年欧洲心脏病学会上有个报告,一家公司做了一种降血脂药物,是核酸药物,基于上述的核酸优点,它的效果可以和他汀一样,而且打一针可以维持6个月的药效。换言之,以后高血脂病人只要打这样一种小的核酸药物,一年两次就够了,从临床上看,对人的生活质量的影响几乎不存在。这样的药物显示了核酸药物有自己不可替代的优势,药效既持久又高效。核酸药物也在不断发展,一个核酸药物最重要的是核酸适配体,通过大规模计算才能实现。
最重要的两类核酸药物,一类是小核酸药物,就是刚才讲的降脂药一类,2020年降脂药物出现以后,短短的一年时间内,目前在美国FDA等待批准的小核酸药物已经有20多个。除了降脂,降糖、降压的也出现了,这是基于大数据分析的结果。
另外一类药物,是核酸疫苗和核酸药物,基于新冠的重要序列来设计,为以后人类对抗所谓的烈性传染病提供了很好的机会。
所有核酸药物有两个关键的问题,一是核酸药物成药前要经过修饰,二是要研究出很好的递送系统。核酸药物给了我们很大的空间,核酸药物递送系统在世界上依然是一个开放的问题,谁能够发展更好的独特系统,谁就可以在未来利用大数据研发出新一代的药物,走在前列。
最后讲一个我自己的统计。2020年有十个“药王”,十个药里面,第一代小分子药物只有三个,其余7个都是第二代药物。截至去年,第二号药物(阿达木单抗)的销售额已经达到1159亿美金,换句话说,也就是一个药卖了八千亿人民币。再倒退看20年、30年前的榜单,榜单里大部分是第一代药物(小分子药物),再过十年再统计榜单,大部分就是刚才讲的核酸药物。我乐意跟大家一起见证核酸药物在未来很短的时间内就会成为新一代药物的主导。
我国在这个领域其实并不差,在论文数量、总他引数量、重要论文基础数量上都已经超过了美国,更远远超过了德国、日本和英国。如果我们把基础研究成果转化、结合大数据挖掘开发新一代药物的话,一定会在药物领域取得国际领先和创新的成果。我自己深深地体会到,随着遗传密码的破译,整个生物医药正在发生的变革源头就是以遗传密码为代表的大数据。大数据无论在方法上还是内涵上都远远没有解决,随着自身的发展、随着其他领域科学家的介入,这个领域一定能够得到更加蓬勃的发展,为人类造福。谢谢!