编译| 周鹏
本文介绍由亚马逊的研究团队推出的应用于生命科学的图神经网络指南《Graph Neural Networks in Life Sciences: Opportunities and Solutions》,这个工作发表在2022年数据挖掘顶会KDD上。图结构数据在生命科学以及医疗场景无处不在,最近很多研究把原来依赖于描述性数据分析的问题转化成依赖于生物网络的问题,例如图神经网络 (GNNs)。与其它领域相比,生命科学的问题有其自身的独特性和细微的差别。首先,这份指南比较全面地介绍了生命科学中的各种图结构数据,基于这些数据的生物和医学问题,以及相关的基于图机器学习的算法;随后,作者提供了四类基于GNN的解决方案的编程指南,每一种方案都提供了python代码和比较详细的说明,这四类问题包括:1)小分子属性预测;2)大分子属性和功能预测;3)基于双图(bi-graph)的蛋白质-配体对亲和力预测;4)利用知识图谱进行医学预测。所有代码都基于深度学习库DGL-lifesci和DGL-KE。
图机器学习在生命科学的应用
图结构数据在生命科学中十分常见。例如在蛋白质相互作用图中,结点表示蛋白质,边表示蛋白质之间的物理联系;在药物相互关系图中,每个结点是一种药物,边表示药物之间的协同或者对抗作用;在细胞网络中,结点可以表示细胞、肿瘤以及淋巴,边表示他们之间的空间邻近关系;在非编码RNA调节网络中,结点表示非编码RNA,边表示RNA之间的调节相互作用(regulatory interaction);在疾病关系网络中,结点表示疾病,边表示疾病之间的共存性;在医疗保健知识图中,结点是某种医药或者治疗方案,而边代表这些治疗手段的共存关系;把上述的所有图连接在一起,又可以组成一个更大的图中图,在这个大图中每个结点又都是一个图(图1)。基于上述的生物网络图,图机器学习可以用来预测分子的性质、功能,生成具有某类性质的新分子,预测分子之间的影响;预测RNA序列数据疗法的扰动效应,药物再利用,预测药物冲突;利用生物知识图谱进行疾病诊断,辅助临床治疗等等。
图1
编程指南
作者提供了四类实用编程指南(Github链接在本文末尾)。
图2
图3
图4
图5
图6
总结
这个工作比较全面地介绍了生命科学中的图结构数据和蕴含在这些数据中的科学问题,并提供了从零开始的编码示例和比较详细的代码说明,为新的相关从业和研究人员提供了很好的入门指导。
参考资料
Wang, Zichen, et al. "Graph Neural Networks in Life Sciences: Opportunities and Solutions." Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022.
代码
https://github.com/dglai/Graph-Neural-Networks-in-Life-Sciences