2021年11月11日,Science杂志发表文章,对AI在预测蛋白质复合物结构方面的新进展进行了介绍和分析。
能够实现蛋白质三维结构可视化的软件非常多。比专业级的PyMOL(https://pymol.org/2/)。这个软件已经被世界上著名的生物医药软件公司“薛定谔公司(Schrödinger)”收购。这种专业级的可视化软件不仅能够做出非常漂亮的图片,它还有强大的插件支持各种各样的蛋白质结构分析,这款软件需要购买,如果你发表的文章里提到某些内容是使用PyMOL制作的,而文章中所有作者和作者单位都没有PyMOL的购买记录的话,你可能会面临薛定谔公司的追责。
DNA序列和蛋白质类型,都是很重要的生物数据。今天我们介绍一种可以实现二者高效、准确的转换的深度学习算法。
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 没想到,图像生成领域的大明星—— 扩散模型,这么快就被用来做蛋白质结构生成了! 而且结果在复杂度和结构上都和天然蛋白质有的一拼。 消息一出,不少人都称赞这个组合简直非常妙。 还有人表示:我早就猜到了,生成模型能做的真的不仅是图像和视频。 所以,AlphaFold这是可能有新的挑战者了? 具体是怎么回事? 来看看斯坦福大学和微软的这项最新研究成果到底怎么说。 扩散模型vs蛋白质结构生成 说起研究的初衷,作者表示: 尽管蛋白质结构预测已经取得了非
蛋白质设计在寻找能折叠成所需构象的序列方面取得了成功,但设计功能性蛋白质仍然具有挑战性。
2024年3月12日,基于人工智能的蛋白质和其他生物系统设计领域的全球领先企业Basecamp Research宣布推出其全新的深度学习模型BaseFold,该模型能比其他人工智能工具(包括行业黄金标准AlphaFold2)更准确地预测大型复杂蛋白质的三维结构。这些数据最近发表在bioRxiv上。
今天为大家介绍的是来自微软研究团队的一篇关于分子构象的论文。深度学习的进步极大地改善了分子的结构预测。然而,对于真实世界的应用而言,许多重要的宏观观察并不是单一分子结构的函数,而是由结构的平衡分布确定的。传统的获取这些分布的方法,如分子动力学模拟,计算代价高昂且常常难以处理。在本文中,作者引入了一种新颖的深度学习框架,称为分布图变换器(DiG),旨在预测分子系统的平衡分布。通过展示DiG在几个分子任务上的性能,包括蛋白质构象采样、配体结构采样、催化剂吸附采样和基于性质的结构生成,DiG在统计理解分子系统的方法学方面具有重大进展,为分子科学开辟了新的研究机会。
@NiEntropy - 想到了生物课本中的一句话:生物的性状是由基因决定的,而基因的表达受环境因素影响;想到了秦始皇炼丹渡海寻仙求长生,Google投资Calico专注衰老研究。从古至今,人类一直在追寻着长寿,而在日复一日的生活中,我更感兴趣未来会是什么样?是像《赛博朋克:边缘行者》中“低端生活与高等科技结合”的悲剧,还是我们共同的理想:在高度发达的社会生产力和广大共识范围,人们科学文化水平和思想觉悟,道德水平极大提高的基础上,实行各尽所能、按需分配原则的劳动者有序自由联合的社会经济形态。未来源于当下,还是要脚踏实地把当下的工作干好。
最近在帮实验室的学姐分析一些蛋白质序列,然后就接触到了DSSP这个算法。于是写一篇小笔记,仅此来记录一下本次的使用记录。
今天为大家介绍的是来自Jinbo Xu研究团队的一篇关于蛋白质结构预测的论文。蛋白质侧链装配(Protein side-chain packing,PSCP)是指在只给定主链原子位置的情况下确定氨基酸侧链构象的任务,对蛋白质结构预测、精化和设计具有重要应用。了解决这个问题,作者提出了AttnPacker,一种用于直接预测蛋白质侧链坐标的深度学习(DL)方法。与现有方法不同,AttnPacker直接利用主链的三维几何信息,同时计算所有侧链的坐标,而无需借助离散的构象库或进行昂贵的构象搜索和采样步骤。这大大提高了计算效率,相比基于DL的方法DLPacker和基于物理的RosettaPacker,推理时间减少了超过100倍。
今天为大家介绍的是来自David Baker的一篇关于蛋白质结合物设计的论文。目前的算法仅凭目标结构信息就可以从头设计具有高亲和力的蛋白质结合物。然而,最后的设计成功率仍然较低,因此算法仍有很大的改进空间。在此项研究中,作者探索了利用深度学习增强基于能量的蛋白质结合物设计。作者发现,使用AlphaFold2或RoseTTAFold评估设计的序列采用设计的单体结构的概率,以及这种结构与目标的设计结合概率,可以将设计成功率提高近10倍。此外,作者还发现,使用ProteinMPNN而不是Rosetta进行序列设计可以大大提高计算效率。
本文介绍了由坦普尔大学Vincenzo Carnevale和Allan Haldane共同通讯发表在Nature Communications的研究成果:本文提出了一个新的标准来度量蛋白质序列生成模型(GPSM)的准确性和生成能力,并使用该标准比较了不同GPSM的生成能力。与之前的度量标准相比,能够直接测量高阶边缘值,衡量GPSM捕获高阶协变的能力,对GPSM的准确性和生成能力有更加直接和科学的度量。
今天为大家介绍的是来自Bruno Correia团队的一篇综述。深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里显著地革新了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们与其他生物分子的相互作用,并且有潜力创造用于治疗疾病的新有效药物。
自噬是细胞在外界环境因素的影响下,利用溶酶体,降解自身受损、变性大分子物质或者细胞器的自我消化过程。依据其发生途径,主要分为三种:巨自噬 (Macroautophagy),微自噬 (Microautophagy) 和分子伴侣介导的自噬 (Chaperone-mediated autophagy, CMA)。
2021年12月25日,来自加拿大多伦多大学的Alexey Strokach和Philip M. Kim在Curr Opin Struc Biol合作发表综述“蛋白质设计的深度生成建模”。
蛋白质相互作用(PPI)可以说是人体最重要的分子事件之一,事关人体生长发育、新陈代谢,是疾病治疗干预的重要来源,PPI失调会导致癌症等疾病发生,因而该领域也是医药行业关注的研究热点。 为了更好地预测和解读PPI,并深入挖掘相关分子信息,2023年3月,腾讯 AI Lab 联合香港科技大学、中国科学院大学相关团队,将深度学习领域的层次图学习技术引入PPI研究,提出了一种双视图层次图学习模型(HIGH-PPI),模型被证明在PPI研究中具有更高的预测准确性和更好的可解释性,研究成果在知名国际学术期刊《自然-通讯
今天为大家介绍的是来自Ava P. Amini团队的一篇论文。文章讲述了一种计算方法,这种方法能够生成新的、在物理上可折叠的蛋白质结构,这对于新的生物学发现以及针对当前还无法治愈的疾病的新疗法具有重要意义。
许多肽具有潜在的药理作用,其生产具有相当大的商业重要性。除了商业应用外,较大蛋白质的特定肽部分的合成是研究蛋白质结构和功能的越来越重要的工具。有三种方法可以获得肽:(1)从组织中纯化,这项任务通常因某些肽的低浓度而变得困难;(2) 基因工程(第9章);和(3)直接化学合成。强大的技术现在使直接化学合成在许多情况下成为一种有吸引力的选择。
本文来自NVIDIA GTC21的一篇演讲,主讲人是多伦多大学、谷歌和Vector研究所的Geoffrey Hinton,他将介绍一个关于表征的单一想法,该想法把transformers,SimclR,neural fields取得的进展结合到一个叫做GLOM的想象系统中。
今天给大家带来的是斯科尔科沃科学技术研究院lgor Kozlovskii和Petr Popov发表在Nature Communications Biology的文章“Spatiotemporal identification of druggable binding sites using deep learning”。新型蛋白质结合位点的鉴定扩大了可成药基因组,为药物发现提供了新的机会。一般来说,结合位点的存在与否取决于蛋白质的三维构象,这使得结合位点的识别类似于计算机视觉中的物体检测问题。研究人员开发了一种快速准确的深度神经网络(BiteNet)框架,适用于大规模和时空识别蛋白质结合位点。
蛋白质是生命的通用组成部分,几乎在每个细胞过程中都发挥至关重要的作用。为特定目的设计新型蛋白质的能力有助于解决许多医疗挑战。
这次给大家介绍清华大学交叉信息研究院的曾坚阳教授课题组在Cell Systems上发表的论文“MONN: A Multi-objective Neural Network for Predicting Compound-Protein Interactions and Affinities”。分析化合物与蛋白质的相互作用 (Compound-Protein Interactions ,CPIs)在药物研发过程中起着至关重要的作用,迅速准确地预测作用位点和其间的亲和力有利于高效的药物研发。基于此问题,曾坚阳教授课题组引入深度学习,提出了一种预测化合物-蛋白相互作用和亲和力的多目标神经网络-MONN。作者在方法中引入了(i)捕获全局特征的超级节点、(ii)预测亲和力的GRU模块(Gate Recurrent Unit,门循环单元模型)、(iii)预测化合物-蛋白结合位点和判断其间的亲和力指标的多目标共享特征结构,使得其模型具有比现有模型更好的特征可解释性,有效捕捉了化合物与蛋白质的内在特征与联系,实现精确判断分子间的相互作用和亲和力。
使用AlphaFold、RoseTTAFold和相关方法预测蛋白质结构的准确性大大优于前几代预测算法,这使人们对大分子的三维结构的理解更接近于实际。随之而来的一个问题是,这些预测能够在多大程度上替代实验结构测定?
本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
空间转录组学和蛋白质组学提供了互补信息,改变了我们对复杂生物过程的理解。然而,这些模式的实验整合是有限的。为了克服这个问题,近日《Nature Biotechnology 》发表了一种允许在完整组织中大规模同时测量蛋白质标记物和全转录组的新方法:SPOTS,用于高通量同步空间转录组和蛋白质分析。
今天为大家介绍的是来自Ali Madani团队的一篇论文。蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢?
本文将延续上篇文章,通过应用VQE算法模拟解决蛋白质折叠问题的实验,解决使用传统方法耗时长、准确率低的问题,从而极大提升现代分子生物学的研究效率,为破解蛋白质折叠谜题带来新希望,进一步推动科学界前进。
本文介绍由美国马萨诸塞州波士顿哈佛医学院系统生物学系系统药理学实验室的Mohammed AlQuraishi等人发表于Nature Methods 的研究成果:研究人员报道了可微程序与分子和细胞生物学结合产生的新兴门类:“可微生物学”。本文作者介绍了可微生物学的一些概念并作了两个案例说明,展示了如何将可微生物学应用于整合跨生物实验中产生的多模态数据,解决这一存在已久的问题将促进生物物理和功能基因组学等领域的发展。作者讨论了结合生物和化学知识的ML模型如何克服稀疏的、不完整的、有噪声的实验数据造成的限制。最后,作者总结了它面临的挑战以及它可能扩展的新领域,可微编程仍有很多可发挥的空间,它将继续影响科技的发展。
蛋白质是大多数药物的靶点,目前,通过将新的生化方法与基于质谱的蛋白质组学相结合,能够从全新的维度对疾病表型及其生物活性分子的调节机制进行剖析。最近,德国慕尼黑马克斯普朗克生化研究所(Max Planck Institute of Biochemistry)等研究团队在Nature Reviews Drug Discovery上发表了题为The emerging role of mass spectrometry-based proteomics in drug discovery的综述文章。
今天我们介绍由北京邮电大学网络与交换技术国家重点实验室的王光宇等学者发表在Nature Medicine上的工作。该工作介绍了一个基于人工智能框架UniBind,该框架利用深度学习和蛋白质结构分析来预测SARS-CoV-2的刺突蛋白突变的影响。该工作强调了在病毒宿主相互作用和新的SARS-CoV-2变体出现中理解蛋白质相互作用的重要性。UniBind整合了蛋白质三维结构和结合亲和力数据,预测了刺突蛋白突变如何影响其与人类ACE2受体和中和抗体的结合亲和力。该框架在基准数据集上进行了测试,并通过实验证实了其有效性。UniBind还能够有效预测刺突蛋白变体对结合亲和力的影响,并可以应用于预测宿主对SARS-CoV-2变体的易感性和未来病毒变体的进化趋势。该工作强调了UniBind作为问题变体的预警系统的潜力,以及其促进蛋白质相互作用研究的能力。总体而言,UniBind使用异质数据集提供了全面且高容量的蛋白质相互作用分析,有助于人类理解SARS-CoV-2的感染性和变体进化。
蛋白质折叠问题一直是一个耗费巨大的难题,但是这个难题的解决又对人类具有巨大的意义。于是各个研究机构都开始寻找蛋白质折叠问题的不同解,希望找到一种高效、准确的方式来解决这一难题。
6亿多种蛋白结构预测结果,而且还是“蛋白质中的暗物质”——宏基因组蛋白(Metagenomic Proteins)。
不同的是,过去的AI是发现蛋白质结构,这回开始自己设计和生成蛋白质结构了。如果说过去是「检察官」,现在说是进化成了「造物主」也不是不行。
传统上,药物-靶点复合物形成和解离的速度,不被认为是影响药物在体内作用或持续时间的主要因素。2006 年引入了药物-靶点停留时间的概念后,这种传统的观点受到了挑战。
22分钟推理出长达4K+的超长蛋白质序列,1分15秒搞定将近2K长的序列预测。 这是国产开源项目的最新战绩! 最近,由Colossal-AI团队(https://github.com/hpcaitech/ColossalAI)联合百图生科的蛋白质预测模型xTrimo Multimer,正式免费开源。 它在支持蛋白质单体(Monomer)和复合物(Multimer)的同时,还能大幅提升蛋白质预测速度。 面对2K到3K序列长度的预测任务,使用多卡推理,最高速度可达AlphaFold 2的11.15倍。 还能挑
用于蛋白质结构预测的基于神经网络的模型最近已达到接近实验的准确性,并且正在迅速成为生物学家武器库中的强大工具。正如使用 RoseTTAFold 或 AlphaFold2 的 ColabFold 实现的初步研究所建议的那样,未来一个特别有趣的发展方向将是优化这些计算方法,从而获得蛋白质-蛋白质相互作用的高可信度预测。
Cytoscape 简介 Cytoscape是一个专注于开源网络可视化和分析的软件。软件的核心部分提供了网络显示、布局、查询等方面的基本功能。软件的核心可以通过插件架构进行扩展,这样就能快速地开发出新的功能。 Cytoscape 源自系统生物学,用于将生物分子交互网络与高通量基因表达数据和其他的分子状态信息整合在一起。虽然Cytoscape也能适用于其他分子构件和相互作用,但其最强大的功能还是用于大规模蛋白质輭蛋白质相互作用、蛋白质-DNA和遗传交互作用的分析。各种物种(包括人类)的这方面的实验数据都在迅速
机器之心报道 机器之心编辑部 尽管最近研究者在蛋白质结构预测方面取得了进展,但从神经网络直接生成不同的、新颖的蛋白质结构仍然很困难。在这项工作中,本文提出了一种新的基于扩散的生成模型,该模型通过一种反映蛋白质原生折叠过程的过程来设计蛋白质的主链结构。 蛋白质对生命至关重要,几乎在每个生物过程中都发挥着作用。一方面它们能在神经元之间传递信号、识别微观入侵者并激活免疫反应等。另一方面,蛋白质作为一种治疗介质已经得到广泛研究,成为治疗疾病的一部分。因此,通过生成新的、物理上可折叠的蛋白质结构,打开了利用细胞通路治
深度学习在蛋白质结构预测和蛋白质设计方面的应用日益增多,设计出的蛋白质已进入临床试验阶段,甚至获得了美国FDA的批准。机器学习在加速设计过程、减少实现功能性蛋白质所需的实验测试变体数量方面有着巨大的潜力。随着几种生成方法的到位,该领域正朝着利用这些方法、开发设计型蛋白质的方向发展,应用领域涵盖材料科学、治疗和诊断,以及将蛋白质与电子电路集成。
选自arXiv 作者:冯霁、俞扬、周志华 机器之心编译 自去年周志华等研究者提出了「深度森林」以后,这种新型的层级表征方式吸引了很多研究者的关注。今日,南京大学的冯霁、俞扬和周志华提出了多层梯度提升决策树模型,它通过堆叠多个回归 GBDT 层作为构建块,并探索了其学习层级表征的能力。此外,与层级表征的神经网络不同,他们提出的方法并不要求每一层都是可微,也不需要使用反向传播更新参数。因此,多层分布式表征学习不仅有深度神经网络,同时还有决策树! 近十年来,深层神经网络的发展在机器学习领域取得了显著进展。通过构建
今天为大家介绍的是来自侯廷军教授团队的一篇论文。计算机辅助药物发现的一个重大挑战是高效地从头设计药物。虽然近年来已经开始有一些针对特定结构的三维分子生成方法,但多数方法并没有完全学习到决定分子形态和结合复合物稳定性的原子间互动细节。因此,很多模型难以为各种治疗目标生成合理的分子。为了解决这个问题,作者提出了一个名为SurfGen的模型。这个模型设计分子的方式就像锁和钥匙原理一样。SurfGen由两个等变神经网络组成,它们分别捕捉口袋表面的拓扑互动和配体原子与表面节点之间的空间互动。SurfGen在多个基准测试中的表现优于其他方法,并且对口袋结构的高敏感性为解决由突变引起的药物耐受性问题提供了有效的解决方案。
文章目录 核酸数据库 非编码RNA数据库 1.非编码小RNA数据库 2.长非编码RNA数据库: 3.非编码RNA家族数据库 4.非编码RNA序列数据库 蛋白质数据库 0.蛋白质信息 1.蛋白序列数据库 2.蛋白质结构数据库 3.蛋白组数据库 4.蛋白质功能域数据库 5.蛋白互作数据库 代谢数据库 1.代谢途径数据库 2.代谢组学常用数据库 3.表型数据库 序列比对 1.序列与数据库比对 2.多序列间比对 3.序列进化树分析 基因分析 0.基因信息 1.基因注释 2.基因功能预测: 3.基因结
蛋白质是生命的基础,是生命功能的主要执行者,其结构与功能由氨基酸序列所决定。目前,能够形成稳定三维结构的蛋白质,几乎全部是天然蛋白质,其氨基酸序列是长期自然进化形成。在天然蛋白结构功能不能满足工业或医疗应用需求时,想要得到特定的功能蛋白,就需要对其结构和序列进行设计。目前,国际上已报道的蛋白质结构从头设计工作使用天然结构片段作为构建模块来拼接产生新结构。这种方法显著限制了人工设计蛋白的结构多样性和可变性。对蛋白质从头设计中最困难的问题,即如何充分地探索蛋白质主链结构空间,从头发现新颖的、“高可设计性”主链结构,还缺乏系统性的方法。
基于AlphaFold2的静态蛋白结构预测方法已经接近实验精度,为结构生物领域带来了巨大的影响。然而,在药物开发中,靶蛋白的功能性运动非常关键,它会对药物的活性产生影响,而目前的算法模型无法捕捉到大分子的功能构象动态变化过程。近日,上海交通大学郑双佳课题组与星药科技研究团队,美国莱斯大学Peter G. Wolynes联合团队在《Nature Communications》发表题为“DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model”的研究论文。该论文提出的新方法DynamicBind可基于AF2预测的初始非结合构象,生成与对应输入药物分子相匹配的蛋白结合构象及转化过程,并在计算过程中自动寻找口袋位置,让对接中发现隐藏口袋成为可能。该研究对于蛋白质功能机制的理解以及难成药靶点的药物筛选具有重要意义,为后AlphaFold时代的药物研发提供了一种基于深度学习的,考虑蛋白动态变化的新范式。
今天给大家介绍斯坦福大学Jure Leskovec教授团队在Nature Communications上发表的一篇文章“Identification of disease treatment mechanisms through the multiscale interactome”。在这项工作中,作者构建了一个多尺度相互作用网络,该网络整合了疾病扰动蛋白、药物靶标和生物功能。基于该网络,作者开发了一种随机游走方法,捕获药物作用如何在蛋白质相互作用和生物功能的层次结构中传播。实验结果表明,多尺度相互作用网络可以预测药物疾病的治疗,鉴定与治疗有关的蛋白质和生物学功能,并预测可改变治疗功效和不良反应的基因。另外,仅通过蛋白质之间的相互作用不能对治疗机制进行解释,因为许多药物通过影响被疾病破坏的生物功能来治疗疾病,而不是直接作用于疾病蛋白。
大家好,今天给大家分享一篇近期发表在Nature上的研究进展,题为:Illuminating protein space with a programmable generative model。该工作的通讯作者是马萨诸塞州萨默维尔Generate Biomedicines公司的Gevorg Grigoryan博士。
近日,生物科技团队天壤XLab正式上线了国内首个蛋白质设计工作台,免费开放给国内科研院校和机构。用户无需编写任何代码即可进行蛋白质预测和设计等各项任务,并对计算结果进行可视化展示和分析。
蛋白质结构和功能的形成,很大程度上取决于侧链原子间的相互作用,因此,精准的蛋白质侧链预测(PSCP)是解决蛋白质结构预测和蛋白质设计难题的关键一环。但此前蛋白质结构预测大多聚焦于主链结构,侧链结构预测始终是一个未被完全解决的难题。
2022年5月30日,以色列特拉维夫大学Blavatnik计算机科学学院的Haim J. Wolfson等人在Nat Methods杂志发表文章,提出了一种可解释的深度学习模型,该模型直接从原始数据中学习具有功能的结构基序 (motifs),从而可以将蛋白质结合位点和抗体表位准确地映射到蛋白质结构上。
2024年2月8日,来自清华大学自动化系的汪小我团队在Synthetic and Systems Biotechnology上发表文章DIProT: A deep learning based interactive toolkit for efficient and effective Protein design。
领取专属 10元无门槛券
手把手带您无忧上云