作者 | 王豫 编辑 | 汪逢生 校对 | 李仲深
摘要
今天给大家介绍的是中国科学院深圳理工大学计算机科学与控制工程学院的潘毅教授和陕西师范大学计算机科学学院雷秀娟教授等人在Medicinal Research Reviews(SCI,中科院大类一区,IF:12.944,Top期刊)上发表的一篇名为《Association predictions of genomics, proteinomics, transcriptomics, microbiome, metabolomics, pathomics, radiomics, drug, symptoms, environment factor, and disease networks: A comprehensive approach》的文章。目前,基因组学、蛋白质组学、转录组学、微生物组学、代谢组学、病理组学、放射组学等多组学是研究的热点之一。其中多组学数据、药物和疾病之间的关系受到了研究者们的广泛关注。同时,多组学研究可以有效预测疾病的诊断、预后和治疗。从本质上讲,这些研究实体,如基因、RNA、蛋白质、微生物、代谢物、通路以及病理和医学影像数据,都可以用不同层次的网络来表示。一些计算机科学和生物学学者已经尝试使用计算方法来探索生物实体之间的潜在关系。本文提出了一种综合的研究策略,即构建多组学数据的异构网络,覆盖多模态数据,并利用当前流行的计算方法进行预测。在文章中,作者首先介绍了数据级生物实体相似度的计算方法;其次,讨论了多模态数据融合和特征提取方法;最后,总结了现阶段面临的挑战和机遇。
https://onlinelibrary.wiley.com/doi/epdf/10.1002/med.21847
潘毅教授,目前任中国科学院深圳理工大学计算机科学与控制工程学院院长,讲席教授;美国佐治亚州立大学州校董荣休教授;美国医学与生物工程院院士;英国皇家公共卫生学院院士;乌克兰工程院院士。
多组学关联预测的全面描述
未来面临的挑战
本文以当前热点的生物学关联关系预测研究作为讨论。作者提出了一种可能的策略,融合大规模的多组学数据,以全面探索各种生物实体之间的关系。作者把所有的研究分为三个层次,首先是多组数据的收集和整合。通过计算相同类型生物实体之间的相似度,构建子网络并与其他子网络相关联。然后,根据生物体本身的特性和所构建网络的特性,挖掘生物实体的潜在特征。最后,利用这些特征,基于深度学习等方法对关系进行预测。这其中主要的挑战如下:
1. 数据融合的挑战
对于数据融合,大量的数据来自不同的数据库,它们的命名规则、表达形式和描述重点不同。例如,相同的疾病或症状有好几个名称,甚至有相互矛盾的错误。如何使用合理的方法集成这些数据,并尽可能多地利用这些数据是一个难点。除了传统的人工处理外,基于人工智能方法的自动提取也有可能实现。随着越来越多可用数据的出现,人工智能或许可以对数据进行无监督的探索,给我们带来新的设想。
2. 特征提取的挑战
在特征提取过程中,在计算时往往需要将不同生物实体和医学实体的特性结合起来。如何从多个方面充分体现生物的特征,对多模态数据特征进行融合分析也是其中的挑战之一。放射组学的合理组合也是当前研究的热点,特别是放射组学与组织病理学和生物分子特征的对应关联问题。
3. 设计预测方法的挑战
现阶段的预测方法有很多,每一种方法都有其优缺点。但它们只适用于专有的数据类型和数据规模。因此,开发一个强大的预测模型或组合模型是一个巨大的挑战。它应该能够自适应地处理相对稀疏的关系预测,如circRNA-疾病,以及相对密集的网络,如蛋白质和药物之间的关系网络。除了预测具体实体之间关系的方法外,还需要发展宏观关系预测框架。在环境因素、基因、疾病等综合评价方面,还有很长的路要走。
4. 预测结果分析的挑战
深度学习已经被证明是一种强大的学习方法,但有时它不能合理解释提取的特征。这导致了生物学意义不明显,无法说服生物学和医学工作者,以及在分析和预测疾病时,很少有对其他关系的全面分析。如何将生物实体之间的相关性与它们与疾病的相关性结合起来,删除相互矛盾的关系,提取最有可能的关系,也是一个挑战。如何合理地整理分析结果,将预测的微观实体与个体表型甚至宏观环境联系起来,是生物信息学研究人员面临的终极挑战。
欢迎阅读论文原文,获取详细信息:
https://doi.org/10.1002/med.21847
参考文献
Pan,Y, Lei, X, Zhang, Y. Association predictions of genomics, proteinomics,transcriptomics, microbiome, metabolomics, pathomics, radiom-ics, drug,symptoms, environment factor, and disease networks: a compreh-ensive approach.
https://doi.org/10.1002/med.21847