前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >bioRxiv|BaseFold:更准确地预测大型复杂蛋白质的三维结构

bioRxiv|BaseFold:更准确地预测大型复杂蛋白质的三维结构

作者头像
智药邦
发布2024-04-01 10:48:15
900
发布2024-04-01 10:48:15
举报
文章被收录于专栏:智药邦智药邦

2024年3月12日,基于人工智能的蛋白质和其他生物系统设计领域的全球领先企业Basecamp Research宣布推出其全新的深度学习模型BaseFold,该模型能比其他人工智能工具(包括行业黄金标准AlphaFold2)更准确地预测大型复杂蛋白质的三维结构。这些数据最近发表在bioRxiv上。

BaseFold是由AlphaFold2模型和BaseGraph共同创建。AlphaFold2模型可根据氨基酸序列预测蛋白质的三维结构。BaseGraph是Basecamp Research专门为生物人工智能建立的基础数据集,通过与超过25个生物多样性丰富的国家建立的访问和利益共享伙伴关系收集而来。已公布的准确度改进只是一个起点,随着Basecamp Research扩展其全球生物多样性合作伙伴网络,BaseFold每周都在不断改进。此外,Basecamp Research还将与英伟达™合作,为英伟达BioNeMo(一个用于药物发现的生成式人工智能平台)优化和部署BaseFold。

图1 在CASP15和CAMEO竞赛中,AlphaFold2(橙色)与BaseFold(青色)的结构预测性能差异的直观比较。以蛋白质目标T1113(噬菌体T7聚合酶抑制剂,左图)和8SSD(蛋氨酸合成酶,右图)为例,BaseFold的预测结果更接近实验室验证的结构(米色)。白色箭头标出了AlphaFold2预测明显不准确的区域。

确定蛋白质结构的科学基准仍然是通过X射线晶体学等缓慢而耗时的实验方法。然而,AlphaFold2在2020年的开发为人工智能在整个生物技术领域的应用带来了突破,让科学家们对基于人工智能的结构预测充满信心。在AlphaFold2之后,又出现了一系列结构预测模型,其中最著名的有CollabFold、ESMFold、OpenFold和RoseTTAFold。

然而,这些模型的性能在很大程度上取决于它们的训练数据;所有模型都是在公共蛋白质数据库上训练的,而这些数据库被普遍认为不适合生物技术的人工智能时代。这些公共训练数据集规模小、不可靠,而且严重偏向于来自实验室模式生物的蛋白质。据估计,这些公共数据库中的序列数据只代表了地球上不到0.000001%的生命。这些数据的局限性意味着,现有的人工智能工具只能很好地预测较小、较简单的蛋白质结构,而这些蛋白质在公共数据集中都有很好的代表性,但除此之外,人工智能工具往往就无能为力了,这给那些利用人工智能开发复杂新药的人带来了很大的问题。

AlphaFold2在很大程度上借鉴了公共MGnify数据库,众所周知,该数据库存在序列不完整的问题,这会影响较大蛋白质结构预测的质量。Basecamp Research的BaseFold解决了下一个重大计算挑战,为更大型、更复杂的蛋白质实现晶体学级别的准确性,尤其是那些在现有蛋白质序列数据库中代表性不足的蛋白质。

为此,BaseFold从BaseGraph中超过60亿个关系中提取了数量级更有意义的进化信息。BaseGraph具有广泛的基因组上下文和全面的元数据,在BaseGraph上训练算法已被证明能显著提高各种生物人工智能模型的性能,包括本文介绍的AlphaFold2。

图2 获取和组织来自全球元基因组和生物数据供应链的数据的战略

在这篇预印本文章中,Basecamp Research的科学家评估了BaseFold在预测CASP15(结构预测关键评估)竞赛和CAMEO(连续自动模型评估)社区项目中选出的各种蛋白质结构方面的性能。

主要研究结果:

  • Basecamp Research专门建立的基础数据集使BaseFold预测AlphaFold2结构的准确性提高了6倍。
  • 研究小组证明,小分子与蛋白质靶标相互作用的建模准确性提高了3倍。
  • BaseFold为更大型、更复杂的蛋白质,尤其是那些在公共数据集中代表性不足的蛋白质,提供了比以往更可靠的三维结构预测和小分子对接。
  • 这种飞跃式的变化将大大加速药物发现工作,了解这些相互作用将允许使用人工智能开发更先进的治疗分子。

图3 左侧为本研究中描述的知识图谱数据模型的可视化表示。右侧显示的是与图中实体相关的部分信息、测量值和注释。分类标准(*)在基因组组装和开放阅读框(ORF)层面都有注释。

Basecamp Research首席技术官Phil Lorenz博士说:"我们重新设计和构建了整个数据采集流程,使我们成为有史以来第一个以与人类临床基因数据相同的质量收集和注释生物多样性数据的团队,所有这些都是为人工智能时代而专门构建的。BaseGraph是同类数据中最多样化、最全面的数据集,是我们在人工智能领域取得进步的核心驱动力。这篇论文的结果证明,更多样化、更有代表性的基因组学数据可以实现算法的阶跃式改进。我们的数据库每周都在增长,因此,BaseFold也在每周不断改进。"

Basecamp Research联合创始人Glen Gowers博士说:"AlphaFold是药物发现领域最有用的人工智能工具之一,它能让研究人员更好地预测药物如何与人体内的蛋白质相互作用,从而省去数年的工作。然而,AlphaFold仍有很大的改进空间--尤其是在用于预测大型、复杂和代表性不足的蛋白质时,而这些蛋白质往往对新疗法的开发最为关键。即使只有几个百分点的误差,也会对准确预测蛋白质-分子相互作用产生重大影响。"

关于Basecamp Research

Basecamp Research是为基于人工智能的生物系统设计绘制生物多样性地图的市场领导者。我们利用BaseGraph™为合作伙伴的工业、治疗或诊断应用精确匹配和改进新型蛋白质,BaseGraph™是新一代人工智能设计,由有史以来第一张高分辨率全球遗传生物多样性地图提供支持。

通过了解每种蛋白质的全部遗传、进化和环境背景,Basecamp Research可以为特定应用设计量身定制的蛋白质,而无需进行昂贵而耗时的定向进化活动。我们是一支由探险家、科学家和政策专家组成的团队,我们的目标是保护和学习自然的多样性,同时为最需要的人提供改变生活的突破。欲了解更多信息,请访问

www.basecamp-research.com。

参考资料:

1.https://www.biorxiv.org/content/10.1101/2024.03.06.583325v1

2.https://www.prnewswire.com/news-releases/basecamp-research-launches-basefold-a-breakthrough-in-3d-protein-structure-prediction-of-large-complex-protein-structures-302085262.html

--------- End ---------

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档