首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【AI与生命科学】理解Gene-LLMs:大型语言模型如何学习生命语言

【AI与生命科学】理解Gene-LLMs:大型语言模型如何学习生命语言

作者头像
三兔测序学社
发布2025-10-20 17:12:02
发布2025-10-20 17:12:02
210
举报

Vellore理工学院研究人员探索了人工智能和生物学之间令人兴奋的交集,其中语言模型最初是为文本开发的,如ChatGPT,现在正被用来解释DNA。这些新系统被称为基因组大语言模型(Gene-LLMs),它们被训练来阅读和理解遗传密码,就像自然语言模型学习阅读和理解人类语言一样。

Gene-LLMs处理原始DNA序列和基因表达数据,识别支配生物学功能的“语法”和“句法”,而不是句子和单词。通过这样做,他们可以揭示基因是如何被调控的,蛋白质如何与RNA相互作用,甚至DNA的变化如何影响健康和疾病。

研究人员描述了这些模型是如何通过一个叫做自我监督预训练的过程来训练的,在这个过程中,模型从大量的基因组数据集中学习模式,而没有明确的人类标记。就像语言模型可以预测句子中缺失的单词一样,基因-LLMs可以预测缺失的核苷酸或序列之间的关系。这使他们能够学习复杂的基因组模式,否则可能会保持隐藏。

从原始核苷酸序列到自监督预训练的基因-LLMs工作流程,使关键基因组任务与示例模型和基准。

基因LLMs已经被应用于基因组学的几个关键领域,包括识别增强子和启动子(调节基因活性的区域),预测RNA-蛋白质相互作用,以及建立染色质的三维结构模型。除了研究,它们还有潜力通过帮助识别疾病相关突变来辅助临床诊断,并通过追踪跨物种的遗传模式来辅助进化研究。

研究人员还讨论了模型是如何通过改进的架构演变的,例如编码器、解码器框架和位置嵌入,它们解释了遗传物质的独特空间组织。这些增强可能会增加可解释性,并为个性化医学和罕见变异发现的真实世界应用敞开大门。

展望未来,作者强调了基因-LLMs的几个前沿领域,包括允许多个研究中心在敏感遗传数据上安全协作的联合学习,集成不同类型生物数据的多模态模型,以及用有限的可用数据研究罕见条件的方法。随着持续的发展,基因-LLMs可能成为下一代生物信息学的基石,在人工智能和生物学之间架起桥梁,加深我们对生命本身的理解。

文献:Balakrishnan P, Anny Leema A, Dhivya Shree V, Mohammad Saad C, Mohan Babu A. (2025)Gene-LLMs: a comprehensive survey of transformer-based genomic language models for regulatory and clinical genomics. Frontiers in Genetics16(2025): Article 1634882.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 三兔测序学社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档