前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中国团队两篇齐发:首个跨物种生命基础大模型+新型细胞命运预测AI模型发布

中国团队两篇齐发:首个跨物种生命基础大模型+新型细胞命运预测AI模型发布

作者头像
生信宝典
发布2023-09-30 14:14:23
4640
发布2023-09-30 14:14:23
举报
文章被收录于专栏:生信宝典生信宝典

被称为20世纪人类三大科学计划之一的人类基因组计划拉开了深度解析生命奥秘的序幕。由于生命过程的多维度、高动态特点,传统实验研究手段难以系统精准地破解基因密码的底层共性规律。当前,以大模型为核心的人工智能技术在计算机视觉和自然语言处理等领域引发了新一轮科技革命,已展示出对复杂数据和知识的深入理解能力,运用人工智能强大能力实现基因组学的数据表征与知识发现,必将在生命科学研究领域带来革命性突破。

近日,由中国科学院多学科交叉研究团队组成的“指南针联盟”(Xcompass Consortium)在人工智能赋能生命科学研究方面取得了重要突破,成功构建了世界首个跨物种生命基础大模型——GeneCompass。该模型首次使用了超过1.26亿的跨物种单细胞数据集、融合了包括启动子序列和基因共表达关系等四种先验知识,以1.3亿规模的参数量实现了对基因表达调控规律的全景式学习与理解,支持多种生命过程的精准分析及细胞命运状态的变化预测,展示了人工智能赋能生命科学研究的巨大潜力。

另外,该团队还同步发布了一个基于迁移学习的基因调控网络生成模型, CellPolaris,该模型能够准确识别细胞命运转换核心因子,并具有转录因子扰动模拟能力。该两项研究均已于9月28日上线bioRxiv。(链接见文末)

GeneCompass:首个跨物种生命基础大模型

哺乳动物个体一般包含数万到数十万亿个细胞。尽管个体中的所有细胞均含有相同的基因序列,但是每个细胞的命运和功能却因其独特的时空背景而千差万别。如此精密的生命过程是由复杂的基因表达调控系统所控制。探索生命普遍存在的基因调控机制可增进理解生命的本质规律并创新各种重大疾病的诊疗手段。然而传统的研究方法通量低且集中在单个模式生物上,难以揭示复杂基因调控机制。近年来,单细胞组学技术的突破产生了大量不同类型细胞的基因表达谱数据,为解读基因-基因相互作用提供了数据基础。同时深度学习的发展,尤其是生成式大模型的出现,可以综合汇总海量不同细胞状态下的数据学习非线性调控机制,为生命科学研究带来了前所未有的机遇。

首个1.2亿细胞量+1.3亿参数的跨物种生命基础大模型

目前,全世界范围内在单一物种上已获得的单细胞转录组数据规模仅为千万级别,难以充分支撑用于解析复杂生命过程的生命基础大模型训练。该团队收集了不同物种的单细胞转录组开源数据,经过筛选、清洗、均一化等预处理流程,建立了目前已知最大规模、包含小鼠和人类的超过1.26亿细胞的高质量训练数据集scCompass-126M;采用了基于Transformer自注意力机制的深度学习架构,可捕获不同基因之间在不同细胞背景下的长程动态关联关系,模型参数规模达1.3亿。为实现针对生命过程的高分辨率刻画,GeneCompass首次将基因编号和表达量进行双重编码,从而能够有效、灵敏地提取基因之间的关联关系。这使GeneCompass对各种特定条件,如细胞类型和扰动状态的基因-基因相互作用提供更加精准分析。

先验知识嵌入预训练有效提升模型性能

模型通过有效整合启动子序列、已知基因调控网络、基因家族信息和基因共表达关系四种生物学先验知识,加入人类注释信息编码,提高了对生物数据间复杂特征关联关系的理解。通过训练整合不同物种的数据信息及先验知识,GeneCompass有望提高传统生物学研究的效率和精准性为尚无法突破的复杂生命科学难题带来新的切入点。

GeneCompass融入四种生物学先验知识

规模效应提示模型训练捕获生物进化保守规律

团队发现对大规模跨物种数据所获得的预训练模型对于单物种的子任务符合尺度定律(scaling law):即较大规模的多物种预训练数据量较单一物种数据量产生更优异的预训练表征,并进一步提高下游任务的性能。这一发现显示了物种间存在保守的基因调控规律,并且这些规律能够被预训练模型学习理解。这同时预示着随物种和数据的扩展,模型性能有望不断提升。

增加跨物种数据规模可提升模型性能

多任务性能优势展现基础大模型强大泛化能力

作为迄今为止最大规模的、具有知识嵌入的跨物种预训练生命基础大模型,GeneCompass可实现多个跨物种下游任务的迁移学习,并在细胞类型注释、定量基因扰动预测、药物敏感性分析等方面,相比已有方法取得更优性能。这充分展示了基于多物种无标注大数据预训练,再利用不同子任务数据进行模型微调的策略优势,有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。

CellPolaris:迁移学习解码基因调控网络,预测细胞命运变化

利用迁移学习生成细胞特异的基因调控网络

团队还开发了一套基于泛化迁移学习的基因调控网络构建AI模型,称为CellPolaris。模型首先整理数百套匹配细胞场景下的转录组及染色质可及性数据,构建高质量的基因调控网络,随后通过泛化迁移学习模型,仅使用转录组数据生成更多细胞场景下的基因调控网络。进而利用生成的高可信度基因调控网络,开发了细胞命运转换核心转录因子识别工具以及基于概率图模型的转录因子扰动模拟工具。该模型能够有效识别细胞命运转换核心因子,并实现转录因子扰动的模拟,在基因调控机制解析及致病基因发现方面均有重要应用价值

模拟胎盘发育过程中转录因子敲除对细胞命运的影响

CellPolaris模型产生的基因调控网络,提供了丰富的分子相互作用信息,可以作为深度学习大模型的先验知识。而深度学习大模型产生的低维嵌入向量,将为基因调控机制解析及致病基因发现提供重要信息。

上述两项研究由“指南针联盟”团队完成,“指南针联盟”团队目前主要由中国科学院动物研究所联合计算机网络信息中心、自动化研究所、计算技术研究所、数学与系统科学研究院等组成,联盟的目标是建立数智驱动的生命科学研究新范式,解析生命的本质规律。

GeneCompass论文地址: https://www.biorxiv.org/content/10.1101/2023.09.25.559244v1

CellPolaris论文地址: https://www.biorxiv.org/content/10.1101/2023.09.25.559244v1

Github主页:https://github.com/xCompass-AI

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-29 12:43,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档