细节详见: 密西根大学张阳实验室郑伟博士在CASP15蛋白质结构预测大赛中斩获多项冠军 为什么姜还是老的辣:CASP 15蛋白质结构单体预测结果分析:https://blog.sciencenet.cn /blog-472757-1367504.html CASP 15结果地址:https://predictioncenter.org/casp15/zscores_final.cgi 2. 细节详见: CASP 15结果地址:https://predictioncenter.org/casp15/zscores_RNA.cgi AI的光辉还没有照亮RNA结构预测:CASP 15比赛结果详解 /posts/casp15/day1/ CASP15会议日程:https://predictioncenter.org/casp15/doc/CASP15_Meeting_Program.pdf CASP15 摘要:https://predictioncenter.org/casp15/doc/CASP15_Abstracts.pdf
我们的系统,AlphaFold,在过去的两年里我们一直在努力研究它,它建立在多年前使用大量基因组数据预测蛋白质结构的研究基础之上。 Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction(CASP 今年我们向 CASP 提交了 AlphaFold,这是近几年我们 DeepMind 对这个问题的研究成果。 我们很自豪地成为 CASP 组织者所称的「在预测蛋白质结构的计算方法能力方面的空前进步」的一部分,在入选的团队中排名第一(我们的代号是 A7D)。 我们首次涉足蛋白质折叠的成功,展示了机器学习系统如何能整合各种信息来源,以帮助科学家快速地找到解决复杂问题的创造性解决方案。
领8888元新春采购礼包,抢爆款2核2G云服务器95元/年起,个人开发者加享折上折
的影响,以及CASP的新突破方向。 在CASP14上,AlphaFold的一些预测结果已经与实验结构没有区别,这是第一次达到这样的准确性。 意外的是,DeepMind团队没有参加CASP15。 DeepMind没有说明不参加的原因,但在CASP15期间发表了一份简短的声明,祝贺那些参加的团队。 CASP发起人之一的Moult说:"准确度已经很高了,很难再有更好的结果。" Moult认为:"如果他们参加了,对CASP来说是件好事。但也因为方法很好,他们不可能再做大的飞跃了"。
我们的系统,AlphaFold,在过去的两年里我们一直在努力研究它,它建立在多年前使用大量基因组数据预测蛋白质结构的研究基础之上。 例如,构成我们免疫系统的抗体蛋白是「Y 形」,类似于独特的钩状物。通过锁定病毒和细菌,抗体蛋白能够检测并标记致病微生物以便消灭它们。 今年我们向 CASP 提交了 AlphaFold,这是近几年我们 DeepMind 对这个问题的研究成果。 我们很自豪地成为 CASP 组织者所称的「在预测蛋白质结构的计算方法能力方面的空前进步」的一部分,在入选的团队中排名第一(我们的代号是 A7D)。 我们首次涉足蛋白质折叠的成功,展示了机器学习系统如何能整合各种信息来源,以帮助科学家快速地找到解决复杂问题的创造性解决方案。
在刚刚公布的第 14 届 CASP 评估结果中,DeepMind 的最新 AlphaFold 系统在所有预测目标中的中位 GDT 达到 92.4,意味其平均误差大概为 1.6 埃(Angstrom),相当于一个原子的宽度 对于在 CASP14 比赛中使用的最新版 AlphaFold,DeepMind 团队创建了一个基于注意力的神经网络系统,并用端到端的方式进行训练,以理解图结构,同时基于其构建的隐式图执行推理。 DeepMind 团队在公开数据上训练这一系统,这些数据来自蛋白质结构数据库(PDB)和包含未知结构蛋白质序列的大型数据库,共包括约 170,000 个蛋白质结构。 该系统使用约 128 个 TPUv3 内核(相当于 100-200 个 GPU)运行数周,与现今机器学习领域出现的大型 SOTA 模型相比,该系统所用算力相对较少。 对于所有致力于科学领域中计算和机器学习方法的人而言,像 AlphaFold 这样的系统彰显了 AI 作为基础探索辅助工具的惊人潜力。
01 轰动的新闻 2020年11月30日,DeepMind宣布了一项重要突破:他们最新版本的AI系统AlphaFold,被CASP的组织者认定为是生物学50年来重大挑战“蛋白质折叠问题”的解决方案。 在CASP14发布的评审结果中,作为CASP14的参加者之一,DeepMind最新的AlphaFold系统在所有目标中获得了92.4 GDT的平均分。 在最新版本的AlphaFold中,DeepMind创建了一个基于注意力的神经网络系统,经过端到端的训练,来解释蛋白质空间图的结构,同时做出推理。 该系统使用了可公开获得的数据进行训练,数据由来自蛋白质数据库的约170,000种蛋白质结构,以及尚未确定结构的蛋白质组成。该测试数据与2018年使用的测试数据非常相似。 他说:“机器学习系统中总会出现错误”。
在“蛋白质结构预测奥运会”CASP13比赛中,力压其他参赛者。 那么,DeepMind这项研究到底意味着什么?会带来什么样的影响? 作为业内人士,哈佛医学院系统生物学研究员Mohammed AlQuraishi对其进行了解读。他博士毕业于斯坦福大学,参加了CASP13,是AlphaFold大放异彩的见证者。 ? 上图中,呈现了每届CASP第一名和第二名的成绩,虚线代表着CASP13预期成绩,是根据CASP10到12的平均改善率预测的。 在CASP 10之前,整个增长曲线10年来基本上是平缓的。 CASP11的提升,是因为引入了协同进化的方法。CASP 12带来的提升,是这些方法最终被证明了。 从CASP11→ CASP12的进步中就证明了这一点,当时的进步并不比这一次差,但新闻报道寥寥无几。
CASP旨在对蛋白质结构预测进行评估,被誉为蛋白质结构预测的奥林匹克竞赛。 AlphaFold2开源之后,往年专注于蛋白质领域的CASP 比赛在今年的CASP15 中首次引入 RNA 结构预测挑战,过去蛋白质结构预测的老牌玩家华盛顿大学David Baker,Zhang Yang ,Yang Jianyi等等行业顶尖选手纷纷参与角逐,是今年CASP大赛中最受关注的领域之一。 因而,智峪生科团队荣幸受邀在本次的CASP15优胜者方法报告会中担任RNA预测组首位报告。 而蛋白质-小分子复合体预测在CASP比赛中也是首次出现,该方向的进步将极大促进药物设计和酶设计的项目落地。 本次CASP15中的小分子比赛的评估方就是AI药物设计领域的知名公司Relay Therapeutics。
Section 1: CASP如何帮助药物化学发现; Section 2: 如何在制药和化学工业中使用CASP; Section 3:如何使CASP更好。 ? 对于自动合成,如果CASP系统推荐了公司内部经常使用的简单而坚固的化学方法,则可以避免化学家必须设计或执行简单化学方法的负担。 为研究人员提供通用的测试集以对其系统进行基准测试是一项艰巨的任务。随着领域的发展,提供给测试集的分子将不得不进化,因为随着时间的流逝,它们将被包含在数据库中进行训练。 由于某些系统在其算法中纳入了专家编码的规则,因此基准化后合成软件也变得很复杂。这意味着这些编码规则与测试集之间可能存在重叠,而纯数据驱动的方法则在训练数据和测试数据之间有明确的区别。 例如,条件推荐系统通常集中于以已知或可能唯一的组合来预测已知试剂。催化反应的数据非常有限,因为经证明成功的独特催化剂/配体通常较少。为了应对药物发现中存在的许多低数据环境,必须改进机器学习模型。
我们的人工智能系统AlphaFold的最新版本已经被两年一度的蛋白质结构预测临界评估(CASP)组织会认可为这一重大挑战的解决方案,是一项重大的科学进展。 在今天发布的第14次CASP评估的结果中,我们最新的AlphaFold系统在所有目标中实现了92.4的GDT总分。 对于CASP14使用的AlphaFold的最新版本,我们创建了一个基于注意力的神经网络系统,经过端到端的训练,它试图解释这个图的结构,同时对它所构建的隐式图进行推理。 与我们的CASP13 AlphaFold系统一样,我们正在准备一篇关于该系统的论文,以便在适当的时候提交给同行评审的期刊。 ? 除了撰写同行评议的论文外,我们还在探索如何以可伸缩的方式提供对系统更广泛的访问。
谷歌旗下公司DeepMind最新研制出的人工高智能系统AlphaFold在蛋白质结构预测技术评估试验CASP(Critical Assessment of Structure Prediction)以58% 12月2日,谷歌旗下的人工智能公司DeepMind在第13届结构预测评估竞赛(CASP)中获得了最高荣誉。这项两年一度的竞赛旨在预测蛋白质的三维结构。 CASP的首席组织者、美国Rockville市马里兰大学的计算生物学家John Moult表示,AlphaFold赢得了很多次,在最困难的43次测试中,其平均准确率比其他组高15%。 华盛顿大学西雅图分校的CASP组织者、参与者和计算建模专家David Baker指出:DeepMind的科学家是在其他人开创的两种算法策略的基础上开展工作的。 洛杉矶马里兰大学的另一位CASP组织者和计算生物学家John Moult补充道:“给予他们信任,他们刚刚起步。”
CASP(www.predictioncenter.org)每两年举行一次,迄今已经举办13届。 I-TASSER(亦称Zhang Server)连续7次在CASP7、CASP8、CASP9、CASP10、CASP11、CASP12和CASP13竞赛Server组中排名第一。
在最新的CASP13竞赛中,传统的Contact辅助结构预测方法受到了AlphaFold的挑战。 图1 GDFold预测流程图 2.2数据集 本文使用了几个成熟的数据集进行测试,包括PSICOV150、CASP11、CASP12和CASP13。训练和验证集采用CATH数据库。 图3 增强模型的性能 AmoebaContact在验证集和PSICOV150测试集之间表现出相差无几的性能,但是在三个CASP测试集中显示出较低的f1分数,如表1所示。 3.3 GDFold进行结构建模 本文系统地比较了AmoebaContact和GDFold与RaptorX-Contact对所有测试集蛋白的Contact和预测结构,如图4所示。 因此,通过更系统的模型增强和集成平均有望进一步提高AmoebaContact的性能。
DeepMind名为AlphaFold的系统在2018年CASP13上的表现让该领域的许多科学家大吃一惊,长期以来,该领域一直是小型学术团体的堡垒,但其方法与其他应用AI的团队大致相似。 这是一个复杂程度相当高的系统。 Moult说:与上届CASP相比,今年各团队预测的结构更加准确,但大部分的进展可以归功于AlphaFold。 其中大部分来自学术团队,但微软和中国科技公司腾讯也进入了CASP14。 纽约市哥伦比亚大学的计算生物学家、CASP参赛者Mohammed AlQuraishi渴望挖掘AlphaFold在比赛中的表现细节,并在12月1日DeepMind团队展示其方法时,了解更多关于系统的工作原理
结果表明,基底鳞状上皮亚组中CASP1,CASP4,CASP5,GZMA和GZMB的表达水平较高(图1A),与其他亚组相比,除了CASP6,CASP7,CASP9和DFNA5,其余调控因子在神经元样本中均下调表达 在基因组水平,有371例MIBC样本存在细胞焦亡相关调控因子的体细胞突变,其中CASP8,CASP1和CASP5的突变频率最高(图1C)。CNV分析表明,大部分裂解酶存在拷贝数缺失(图1D和1E)。 P4中CASP1,CASP4,CASP5,GZMA和GZMB的表达水平较高(图4F),且CD8+ T效应因子,抗原加工机制和免疫检查点打分最高(图4G和4H)。 其中P4的CASP1,CASP4,CASP5,GZMA和GZMB的表达水平较高。以上结果表明,在MIBC的TME中,与焦亡相关的基因特征具有较好的分类效果,P4与焦亡和免疫激活显著相关。
值得一提的是,曾在 CASP14 比赛期间,CASP 官方发起了一次针对新型冠状病毒肺炎(COVID-19)的蛋白质结构预测,天壤 XLab 基于 TRFold 提交的模型(nsp6-D2)预测结果被 CASP 选为六个“最具可信度模型”之一。 天壤三部曲 AI 围棋、AI 交通、AI 生命科学 自创立以来,天壤始终专注研究复杂系统的决策难题,凭借对复杂问题的理解以及在深度学习领域的沉淀,先后破解了 AI 围棋、AI 交通和 AI 生命科学领域三大难题 2018 年 9 月,天壤发布了 TRTraffic,是全球首个 7×24 小时在线的AI信号灯调控系统,接管了杭州全城高架路,同时使通行效率提高了 20%。 2020 年,天壤 TRTraffic 以数据为中心,从城市全局视角,为江西省南昌市提供了系统级解决方案,助力南昌成为全国首例从交通“限行”到“不限行”的城市。
03 构建预后模型 使用单变量Cox回归分析筛选出9个P<0.05的细胞焦亡相关基因,包括5个潜在风险基因(IL18,GSDMC,NLRP2,CASP8和CASP4)和4个潜在的保护基因(PLCG1,GPX4 利用IL18、CASP4、NLRP1、NLRP2和GSDMC构建了预后模型。 CASP4与等级呈正相关。风险评分与等级呈正相关。综上,该模型是一个可靠的预后生物标志物。 与传统的预后评分系统相比,该模型具有更高的AUC值(AUC = 0.664,图5E)。综上,该列线图可用于准确预测PAAD患者的OS。 此外,为了测试细胞增殖和迁移的抑制是否是由敲低GSDMC引起的,作者使用慢病毒系统在PANC-1和CFPAC-1细胞中重新表达GSDMC。
2018年,又是两年一度的国际蛋白质结构预测竞赛(CASP)的日子(历史推文无序结构域IDRs的预测里也有提到)。 我也是这次写这篇新闻稿才知道,Chris当年也是CASP竞赛第一届的获奖者之一。 ? 使用CASP13中的一个例子CASP13-T1008 演示模型训练的进程 如果到这里就结束了,那你就小看DeepMind了。 比如CASP13-T0966-D1,对应E. S补充道,“DeepMind尝试过抛弃这种评分系统,但是最终也没有完全做到,这充分说明这种传统方法长期积累下来的估值函数也起到了相当于重要的作用。” 实际上,AI在生物学的整合并非个例。
DeepMind 团队在具有挑战性的第 14 次蛋白质结构预测关键评估 (CASP14) 中验证了 基于神经网络的模型的完全重新设计的版本 AlphaFold2,在大多数情况下表现出与实验相媲美的准确性 文章第一份Supplementary Information长达62页,描述了AlphaFold2系统、模型和分析的方法细节,包括数据管道、数据集、modJumpel块、损失函数、训练和推理细节,以及消融 https://github.com/deepmind/alphafold 为了尽可能接近地重现AlphaFold 2的 CASP14 结果,您必须使用AlphaFold 2在 CASP 中使用的相同数据库版本
腾讯云归档存储(Cloud Archive Storage, CAS)是面向企业和个人开发者提供的低成本、高可靠且易于管理的云端离线存储服务,适用于海量、非结构化数据长时间备份,实现数据的容灾和c。归档存储采用分布式云端存储,您可以通过 RESTful API 对存储的数据进行访问。归档存储易于管理,您无需关心硬件维护及容量扩展;按实际使用量付费,为您节省额外成本。
扫码关注腾讯云开发者
领取腾讯云代金券