Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Nat. Methods | 基于深度学习的RNA序列设计

Nat. Methods | 基于深度学习的RNA序列设计

作者头像
DrugAI
发布于 2024-01-22 03:08:39
发布于 2024-01-22 03:08:39
4730
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Michiaki Hamada和Hirohide Saito团队的一篇论文。RNA工程在生物技术和医学领域有巨大潜力。尽管RNA工程非常重要,但目前仍缺乏一个多功能的自动化设计功能RNA的平台。因此,作者们提出了一种名为RfamGen的深度生成模型。这个模型通过明确结合序列对齐二级结构信息,以数据高效的方式设计RNA家族序列。RfamGen能够通过从一个语义丰富且连续的表示中采样点来生成新颖且功能性的RNA家族序列。作者们通过多种RNA家族的实验,证明了RfamGen的多功能性。

在功能性RNA设计的计算尝试中,主要研究了RNA逆向折叠的概念,这是一种寻找能够折叠成给定二级结构的序列设计方法,由RNA二级结构预测和离散优化算法指导。然而,由于RNA的功能性不仅仅由结构特征,所以仍需以临时方式选择设计的序列。此外,由于RNA逆向折叠的灵活性和通用性不足,它在生成具有期望功能的可接受变异的序列方面存在困难,其准确性受RNA二级结构预测和优化算法的准确性限制。不同于RNA逆向折叠,协变模型(CM)是一种用于RNA序列对齐和共识二级结构的统计框架,可以在不依赖RNA二级结构预测的情况下定量评估序列和结构的变异。由于其灵活性,CM已经成为几十年来RNA同源性搜索的黄金标准,将大多数功能性RNA物种分类为数千个“RNA家族”。尽管CM以前没有用于功能性RNA设计,但它可能为避开RNA逆向折叠相关的技术难题提供了一个有希望的框架。

此外,通过离散算法探索指数级庞大的序列空间所带来的优化难题,可以通过序列表示来缓解。序列表示是一种基于机器学习的方法,将离散序列嵌入到连续空间中。为了高效设计具有期望属性的序列,学习具有连续性的有意义的表示非常重要。最近,深度生成模型因其学习语义丰富的序列表示而受到了广泛关注。特别是,内部表示为“潜在空间”的深度生成模型,如变分自编码器(VAE),能够生成模仿现有数据,同时将原始数据嵌入到潜在空间中。因为潜在空间允许数据的连续内插,VAE使得可以通过连续优化生成具有期望属性的序列。在这项研究中,作者提出了RNA家族序列生成器(RfamGen),这是一个用于功能性RNA设计的深度生成模型。RfamGen利用VAE和CM生成RNA家族的人工序列,同时提供序列的语义上有意义的表示。作者通过体内和体外方法证明了RfamGen对多种RNA家族的广泛适用性。

RfamGen模型

图 1

RfamGen是一种利用协变模型(CM)架构的变分自编码器(VAE),用以提高RNA家族序列生成的效率。CM是一种基于树结构的隐马尔可夫模型,用于在共识二级结构的约束下形式化多序列比对(MSA)。在这个框架中,MSA中的每个序列都被对齐并表示为在CM上的一条路径(图1b)。由于CM明确描述了MSA中变异的结构约束,通过VAE架构,RfamGen被训练来恢复模仿自然序列的对齐,同时将它们嵌入到潜在空间中。为此,作者将对齐到CM的特征向量化,然后旨在使用VAE生成CM上的路径,而不是直接生成序列。作者将路径分解为CM中的转移和生成规则,并将它们转换为one-hot表示,接着进行进一步处理以稳定学习过程。在采样过程中,模型通过重建CM并通过从重建的CM中取最大值(argmax)的参数来生成序列。

RfamGen是一个高效生成器

图 2

为了检验显式使用协变模型(CM)在生成能力上的影响,作者首先将RfamGen与三种未考虑二级结构和/或序列对齐信息的消融模型(ablation models)进行了比较。这些模型分别是:只包含序列对齐信息的GCVAE(gapped character VAE)、只包含二级结构信息的GVAE(grammar VAE)以及两者都不包含的CVAE(character VAE)。作者通过比较这些模型生成的序列质量(使用“比特分数”来衡量,根据序列对Rfam数据库中的CM进行对齐来计算),来评估它们的性能。研究结果显示,RfamGen和GCVAE在序列生成方面的能力较强,其次是GVAE和CVAE,尽管RfamGen在大多数情况下表现最佳(图2a,b)。这些结果表明,加入序列对齐信息显著提升了性能,而二级结构信息则适度改善了性能。接下来,作者通过对不同数据规模进行欠采样,评估了RfamGen和GCVAE的有效性和稳健性。RfamGen在广泛的采样规模下保持了高生成能力,对于大多数RNA家族而言,仅用约500个输入序列就能达到接近顶峰的性能。最后,研究者们使用至少有100个序列的628个RNA家族的完整对齐数据对RfamGen进行了训练,并与GCVAE进行了比较以确认其应用范围。结果显示,RfamGen生成的序列比特分数高于GCVAE,从而证明了RfamGen在生成RNA家族序列方面的优越性。

此外,研究还调查了这两个模型在学习自然序列信息内容方面的能力。研究者们计算了自然和生成序列的序列信息熵和基于CM共识二级结构的成对生成概率的互信息。尽管RfamGen在一些RNA家族的序列信息内容学习方面稍显不稳定,但在再现二级结构信息内容方面显著优于GCVAE。

RfamGen学习了一个语义丰富的潜在空间

图 3

RfamGen学习了一个语义丰富的潜在空间,这对序列设计至关重要,因为潜在空间需要包含丰富的语义信息。为了检验RfamGen的潜在空间是否包含有意义的序列表示,作者进行了分析。他们利用t-SNE方法,对RfamGen的16维潜在空间进行了三维投影,图3a。结果显示,RfamGen的潜在空间展现出了基于系统发生学的分离的簇。在其他RNA家族的分析中也观察到了类似的趋势。此外,作者还使用了tRNA的深度突变扫描(DMS)工具,来探究RfamGen如何将序列变体嵌入到潜在空间中。他们进行了线性回归分析,以近似潜在空间上的活性景观,并发现两者之间存在中等程度的相关性(r = 0.2932,图3b)。这表明潜在空间线性地表示了tRNA的活性。

RfamGen用于生成多种RNA家族的活性序列

图 4

在RNA工程领域,自切割核糖酶是最广泛研究的功能性RNA之一。作者评估了RfamGen生成功能性序列的适用性,使用了来自Zasha Weinberg数据库(ZWD)和Rfam数据库的多种自切割核糖酶,这些核糖酶的序列数量相对较少(约100至800个)。由RfamGen生成的序列展示出与自然序列相似的序列和结构特征,但序列同一性有所不同。虽然RfamGen限制了核糖酶进化上保守的二级结构区域,但它能产生具有高序列多样性的RNA家族序列。为了评估生成序列的功能,研究者随机合成了每种核糖酶的三个生成序列,并设计了相应的突变体,这些突变体据报道活性降低。与此同时,他们也对一个自然序列进行了测试。通过电泳确认了序列的切割活性。与RfamGen生成的序列不同,研究者发现通过CM随机采样生成的序列没有活性。CM的随机采样在理论上具有类似的序列和/或二级结构偏好,但没有诸如更高结构约束或碱基配对堆叠等多体相关性。因此,研究结果支持RfamGen学习数据中的多体相关性的能力。

RfamGen用于预测多种RNA家族变体的效果

在RNA工程中,经常需要设计具有调整活性的序列。为此,研究人员已经进行了高通量实验,以筛选出最佳活性的变体,用于工程应用。另一方面,在蛋白质工程中,根据经验知道,可以通过使用自然序列训练的生成模型的生成概率来预测活性。在之前的一些研究中,tRNA也有类似的观察结果。然而,目前还不清楚这种方法是否普遍适用于多种RNA家族。因此,作者扩展了这一分析到更多的RNA家族。他们通过手动整理以前DMS研究中的序列变体活性数据。接着,他们检验了是否可以用与蛋白质相同的策略预测序列变体的活性。使用整理后的数据集,作者比较了序列变体的报告活性和RfamGen的损失函数。他们用RfamGen的损失函数来近似对数概率ln P(x),因为VAE的损失函数是对数概率ln P(x)的下界。他们还对EVMutation进行了基准测试,EVMutation是一种基于Potts模型的变体效应预测器。通过这种比较,作者确认了RfamGen在预测变体效应方面的准确性与EVMutation相当。这些结果支持了RfamGen用于序列调整的潜力。

编译 | 曾全晨

审稿 | 王建民

参考资料

Sumi, S., Hamada, M. & Saito, H. Deep generative design of RNA family sequences. Nat Methods (2024).

https://doi.org/10.1038/s41592-023-02148-8

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat. Commun. | 理解RNA序列、结构与功能关系,IGI构建最新数据库进行分析
今天为大家介绍的是来自加州大学伯克利分校IGI机构Jamie H. D. Cate团队的一篇论文。结构化RNA是许多核心生物过程的关键,包括基因表达和催化反应。由于缺乏与生物体表型相关的高质量参考数据,尚无法预测RNA的结构,这些数据本可用于指导RNA的功能。作者介绍了GARNET,这是一个新的RNA结构和功能分析数据库,它基于基因组分类数据库(GTDB)。GARNET将RNA序列与GTDB参考生物的实验和预测最适生长温度相连接。利用GARNET,作者开发了考虑序列和结构的RNA生成模型,采用重叠三联体标记法为类似GPT的模型提供了最佳编码。通过利用GARNET中的高温菌RNA及这些RNA生成模型,作者识别出了核糖体RNA中的突变,这些突变使大肠杆菌核糖体具有更高的热稳定性。本文介绍的基于GTDB的数据和深度学习模型为理解RNA序列、结构与功能之间的关系提供了基础。
DrugAI
2025/01/03
1590
Nat. Commun. | 理解RNA序列、结构与功能关系,IGI构建最新数据库进行分析
Nat. Commun. | 深度学习赋能RNA研究,NuFold实现精确RNA结构预测
今天为大家介绍的是来自美国普渡大学Daisuke Kihara团队的一篇论文。RNA不仅作为信使RNA在基因表达过程中发挥信息传递的重要作用,还作为非编码RNA参与各种生物学功能。理解其功能的机械机制需要三级结构信息;然而,实验测定RNA三维结构既昂贵又耗时,导致RNA序列和结构数据之间存在巨大差距。为了应对这一挑战,作者开发了NuFold,这是一种新型计算方法,利用最先进的深度学习架构来准确预测RNA三级结构。NuFold是一个端到端训练的深度神经网络,可以从输入序列预测输出结构。NuFold采用核碱基中心表示法,使核糖环构象更加灵活。基准研究表明,NuFold明显优于基于能量的方法,并且与现有最先进的基于深度学习的方法相比表现相当。NuFold在构建RNA的正确局部几何结构方面具有特殊优势。对NuFold流程中各个组件的分析表明,通过利用宏基因组序列进行多序列比对并增加recycling次数,可以提高其性能。NuFold还能够通过连接输入序列来预测RNA的多聚体复合物结构。
DrugAI
2025/02/26
1450
Nat. Commun. | 深度学习赋能RNA研究,NuFold实现精确RNA结构预测
使用基于语言模型的深度学习方法进行准确的 RNA 三维结构预测 | Nat.Methods
生信菜鸟团
2025/01/10
1190
使用基于语言模型的深度学习方法进行准确的 RNA 三维结构预测 | Nat.Methods
Nat. Rev. Drug. Discov. | 以小分子靶向RNA结构
今天为大家介绍的是来Robert T. Batey 和Matthew D. Disney的一篇关于靶向RNA小分子的论文。RNA在人类生物学中是3D形态,赋予不同的功能角色,并在疾病中导致功能障碍。目前正在积极追求利用小分子治疗性地靶向RNA结构的方法,其中包括预测进化保守的RNA结构的计算工具的发展,以及扩展作用方式并促进与细胞机制的相互作用的策略。现有的RNA靶向小分子使用一系列机制,包括通过与细胞蛋白作为分子黏合剂来定向剪接,抑制难以药物化的蛋白质的翻译和停用非编码RNA中的功能结构。在这里,作者描述了识别、验证和优化靶向功能转录组的小分子的策略,为将这些药物推进到未来十年制定了路线图。
DrugAI
2023/09/09
4870
Nat. Rev. Drug. Discov. | 以小分子靶向RNA结构
Nat. Commun. | 深度学习探索可编程RNA开关
今天给大家介绍的是一篇发表在Nature Communications 的文章“A deep learning approach to programmable RNA switches”,工程RNA元件是能够检测小分子、蛋白质和核酸(合成生物学成分)的可编程工具。增强深度学习的模式识别可以用于预测合成生物学成分。本文用深度神经网络(DNN)来预测合成生物学中的经典核糖开关模型——toehold开关。为了促进DNN训练,作者在体内合成并表征了涵盖23个病毒基因组和906个人类转录因子的91,534个toehold开关的数据集。经过核苷酸序列训练的DNN表现(R 2  = 0.43–0.70)优于前沿的热力学和动力学模型(R 2 = 0.04–0.15),且允许实行人类可理解的注意力可视化(VIS4Map)识别成功和失败的模式。本文研究表明深度学习方法可用于RNA合成生物学中的功能预测。
DrugAI
2021/02/02
5360
Nat. Commun. | 深度学习探索可编程RNA开关
Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计
今天为大家介绍的是来自Debora Marks团队的一篇论文。近期在人工智能领域的突破性进展,加上蛋白质序列和结构数据的快速积累,已经彻底改变了计算蛋白质设计的面貌。新方法有望打破自然和实验室进化的限制,加速生成用于生物技术和医学中的蛋白质。为了理解机器学习方法多样化爆炸的情况,作者提出了一个统一的框架,该框架根据模型使用的三种核心数据模态来分类:序列、结构和功能标签。
DrugAI
2024/03/19
3030
Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
本文介绍一篇拜罗伊特大学2022年7月发表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白质设计在自然环境和生物医学中发挥着重要作用,旨在为特定用途设计全新的蛋白质。受到近期Transformer架构在文本生成领域成功的启发,作者提出ProtGPT2,一种在蛋白质空间上训练的语言模型,用于生成遵循自然序列原则的全新蛋白质序列。ProtGPT2生成的蛋白质显示出天然氨基酸倾向,而无序预测表明,88%的ProtGPT2生成的蛋白质是球状的,与自然序列一致。蛋白质数据库中的敏感序列搜索表明,ProtGPT2序列与自然序列有着远亲关系,相似网络进一步证明,ProtGPT2是对蛋白质空间中未探索区域的采样。ProtGPT2生成的序列在探索蛋白质空间的未知区域时,保留了天然蛋白质的关键特征。
DrugAI
2022/11/28
5310
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
热点综述 | RNA二级结构预测和RNA药物发现的机器学习和深度学习综述
RNA序列的计算分析在RNA生物学领域中是至关重要的一步。近年来机器学习方法使RNA二级结构预测及与RNA二级结构相关的序列分析更加准确。此外,人工智能和机器学习还在分析RNA-小分子相互作用以发现 RNA 靶向药物和设计RNA 适体(其中RNA作为其自身的配体)方面引入了技术创新。2023年5月,《Briefings in Bioinformatics》发表综述文章,重点介绍利用机器学习、深度学习和相关技术预测RNA二级结构、RNA适体和RNA药物发现的最新趋势,并讨论RNA信息学领域的潜在未来途径。
尐尐呅
2023/09/06
2K0
热点综述 |  RNA二级结构预测和RNA药物发现的机器学习和深度学习综述
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
利用基于深度信号处理进展的架构,Evo扩展到了70亿参数,并在单核苷酸分辨率下实现了131千碱基的上下文长度。
新智元
2025/02/14
1040
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
Nature | 利用AFM和深度神经网络解析RNA构象
人类基因组中大部分被转录为RNA,这些RNA中包含许多对其功能至关重要的结构元素。这类RNA分子,包括那些具有明确结构和良好折叠的分子,通常具有构象异质性和灵活性,这是其功能发挥的前提条件。然而,这种特性限制了核磁共振(NMR)、晶体学和冷冻电子显微镜等方法在结构解析中的应用。此外,由于缺乏大型RNA结构数据库,以及序列与结构之间没有明确的相关性,类似AlphaFold用于蛋白质结构预测的方法并不适用于RNA。因此,解析异质性RNA的结构仍是一项未解决的挑战。在此,研究人员报道了一种结合原子力显微镜、无监督机器学习和深度神经网络的整体RNA结构解析方法(HORNET)。该方法利用溶液中单个分子的原子力显微镜图像,解析RNA的三维拓扑结构。由于原子力显微镜具有高信噪比,这种方法特别适合捕获处于不同构象的大型RNA分子的结构。通过六个基准案例,我们验证了HORNET的实用性,并成功解析了RNase P RNA和HIV-1 Rev响应元件(RRE)RNA的多种异质性结构。因此,该方法解决了大型柔性RNA分子异质性结构解析的主要挑战之一,并对RNA结构生物学的基础研究作出了贡献。
DrugAI
2024/12/23
1200
Nature | 利用AFM和深度神经网络解析RNA构象
Nat.Mach.Intell | ProteinGAN:利用生成对抗网络扩展功能蛋白序列空间
蛋白从头设计是蛋白质工程的长期课题,目前计算方法难以将蛋白序列映射至其功能。然而,今年3月Nature Machine Intelligence发表的一篇文章,似乎找到了序列与功能间的映射之法。作者提出ProteinGAN,一种基于自注意力机制的生成对抗网络,能够“学习”天然蛋白序列的多样性,并且进一步生成功能蛋白序列。ProteinGAN从复杂的多维氨基酸序列空间中学习序列间的进化关系,经实验验证,生成了具有天然物理性质的新序列。
智能生信
2021/04/13
7710
Nat.Mach.Intell | ProteinGAN:利用生成对抗网络扩展功能蛋白序列空间
Nat. Rev. Chem. | 小分子与RNA的碰撞
今天为大家介绍的是来自Maria Duca团队的一篇论文。在化学生物学和药物发现领域,开发创新方法以识别RNA结合物引起了巨大关注。尽管针对细菌核糖体RNA的抗生素已经上市数十年,但对RNA靶向的重新关注反映了人们对更好地理解涉及RNA的复杂细胞内过程的需求。在这个背景下,小分子是用来探索RNA的生物学功能、验证RNA作为治疗靶点的工具,它们最终有可能成为新药。尽管近期取得了进展,但理性设计特定的RNA结合物需要更好地理解与RNA靶标发生的相互作用,以达到期望的生物学响应。在这篇综述中,作者讨论了接近这一未充分探索的化学空间的挑战。
DrugAI
2024/02/23
2780
Nat. Rev. Chem. | 小分子与RNA的碰撞
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
今日分享的是巴黎索邦大学、都灵理工大学和巴黎高等师范学院联合发表的文章,该篇文章介绍了一个基于简单自回归模型的蛋白质序列高效生成模型。生成模型的优越性表现在不仅可以设计基于序列数据的蛋白质,也可以提取深深地隐藏在序列数据库中蛋白质的结构和功能信息。本文提出了基于简单自回归模型的高准确率、高计算效率的序列生成模型。其性能类似于现有的基于玻尔兹曼机或深度生成模型的方法,但计算成本大大降低。此外,该模型的简单结构具有独特的数学优势,提高了在序列生成和评估上的适用性。
DrugAI
2021/11/15
6530
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
Nat. Commun. | 借助机器学习设计和筛选合成细胞中新兴蛋白质功能
今天为大家介绍的是来自Petra Schwille团队的一篇论文。最近,机器学习(ML)的应用为计算蛋白质设计领域带来了惊人的进步,使得针对工业和生物医药应用的蛋白质定向工程设计成为可能。然而,为细胞核心相关的新兴功能设计蛋白质,比如能够在时空上自组织并因此构建细胞空间的能力,仍然极具挑战。虽然在生成方面,条件生成模型和多状态设计正在兴起,但对于新兴功能而言,无论是计算上还是实验上,都缺乏专门为蛋白质设计项目所需的筛选方法。在这里作者展示了如何为机器学习生成的蛋白质变体实现这种筛选,这些蛋白质变体能在细胞内形成时空模式。对于计算筛选,作者采用了一种基于结构的分而治之方法来找到最有希望的候选者,而对于随后的体外筛选,作者使用了由自下而上的合成生物学建立的合成细胞模拟体。
DrugAI
2024/04/12
1860
Nat. Commun. | 借助机器学习设计和筛选合成细胞中新兴蛋白质功能
Nat. Methods | 压缩比高达10^48!清华药学院张数一团队仅用82个“锚点”即可表示高适应度序列空间
今天为大家介绍的是来自清华大学药学院张数一团队的一篇论文。设计功能更强大的蛋白质需要深入了解序列与功能之间的关系,但这个关系空间范围庞大,难以探索。因此,通过识别功能上重要的特征来有效压缩这个空间就显得极其重要。作者建立了一种称为EvoScan的方法,用于全面分割和扫描高适应度序列空间,从而获得能够捕获其基本特征的锚点(anchor)。这种方法可以与任何能够与转录输出相关联的生物分子功能相兼容。随后,作者开发了深度学习和大语言模型,可以通过这些锚点来精确重建序列空间,无需依赖同源性或结构信息就能预测新的、高适应度的序列。作者将这种实验与计算相结合的方法称为EvoAI,并将其应用于一个抑制蛋白。研究发现,仅需82个锚点就足以将高适应度序列空间压缩,压缩比达到1048。序列空间的极致可压缩性为生物分子设计的应用和对自然进化的理解提供了启示。
DrugAI
2024/12/20
1220
Nat. Methods | 压缩比高达10^48!清华药学院张数一团队仅用82个“锚点”即可表示高适应度序列空间
Curr Opin Struc Biol|蛋白质设计的深度生成建模
2021年12月25日,来自加拿大多伦多大学的Alexey Strokach和Philip M. Kim在Curr Opin Struc Biol合作发表综述“蛋白质设计的深度生成建模”。
智药邦
2022/03/04
5770
Curr Opin Struc Biol|蛋白质设计的深度生成建模
AI系统可以学习设计用于研究的RNA分子
核糖核酸(RNA)存在于所有活细胞中。它充当信使,携带来自DNA(脱氧核糖核酸)的指令。当它不能正常工作时,它会严重影响神经系统、心血管和肌肉的调节过程,导致肿瘤、胰岛素抵抗和运动技能障碍等。
AiTechYun
2019/01/09
6370
Nat. Com. Sci.|使用RaptGen发现生成核酸适配体
本文介绍由日本早稻田大学、计算生物大数据开放创新实验室、日本医学院的Michiaki Hamada教授团队发表在Nature Computational Science的研究成果。作者开发了一种变分自编码器模型(RaptGen)用于生成核酸适配体。RaptGen利用一个轮廓隐藏的马尔可夫(HMM)模型解码器来有效地表示motif序列。作者证明了RaptGen在motif信息的基础上将模拟序列数据嵌入到低维潜在空间中,并使用两个独立的SELEX数据集进行了序列嵌入。RaptGen成功地从潜在空间生成了适配体,模型还可以通过一个较短的学习模型生成一个截断的适配体。并且证明了RaptGen可以根据贝叶斯优化应用于活性引导的适配体生成。
DrugAI
2022/11/28
5130
Nat. Com. Sci.|使用RaptGen发现生成核酸适配体
Nat. Commun.| 使用自回归生成模型进行蛋白质设计和变体预测
今天给大家介绍哈佛大学Andrew C. Kruse教授团队在Nature Communications上发表的一篇文章“Protein design and variant prediction using autoregressive generative models”。在该文章中,作者开发了一种新的自回归生成模型,用于预测和设计蛋白质功能序列,并且无需序列比对。实验结果表明,该模型能够很好地预测错义突变,序列片段的插入和缺失,并且能够泛化到超出了预测和设计范围的序列空间域。
DrugAI
2021/05/24
1.2K0
Nat. Commun.| 使用自回归生成模型进行蛋白质设计和变体预测
Nat. Methods. | 高效数据优化Low-N蛋白质筛选工程
今天给大家介绍来自哈佛Wyss研究院的Surojit Biswas等人四月份发表在Nature上的文章《Low-N protein engineering with data-efficient deep learning》,文章介绍一种机器学习指导的范例,该范例可以使用低至24个经过功能分析的突变体序列来构建准确的虚拟适应环境,并通过计算机定向进化筛选千万级别的序列。作者对avGFP和TEM-1 β-lactamase这两种完全不同的蛋白质进行测试,结果发现该方法在不牺牲通量的情况下可以有效利用资源密集的高保真测定。
智能生信
2021/06/24
8110
Nat. Methods. | 高效数据优化Low-N蛋白质筛选工程
推荐阅读
Nat. Commun. | 理解RNA序列、结构与功能关系,IGI构建最新数据库进行分析
1590
Nat. Commun. | 深度学习赋能RNA研究,NuFold实现精确RNA结构预测
1450
使用基于语言模型的深度学习方法进行准确的 RNA 三维结构预测 | Nat.Methods
1190
Nat. Rev. Drug. Discov. | 以小分子靶向RNA结构
4870
Nat. Commun. | 深度学习探索可编程RNA开关
5360
Nat. Biotechnol. | 应用机器学习于功能性蛋白质设计
3030
Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2
5310
热点综述 | RNA二级结构预测和RNA药物发现的机器学习和深度学习综述
2K0
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
1040
Nature | 利用AFM和深度神经网络解析RNA构象
1200
Nat.Mach.Intell | ProteinGAN:利用生成对抗网络扩展功能蛋白序列空间
7710
Nat. Rev. Chem. | 小分子与RNA的碰撞
2780
Nat. Commun. | arDCA:基于自回归模型的高效蛋白质序列生成模型
6530
Nat. Commun. | 借助机器学习设计和筛选合成细胞中新兴蛋白质功能
1860
Nat. Methods | 压缩比高达10^48!清华药学院张数一团队仅用82个“锚点”即可表示高适应度序列空间
1220
Curr Opin Struc Biol|蛋白质设计的深度生成建模
5770
AI系统可以学习设计用于研究的RNA分子
6370
Nat. Com. Sci.|使用RaptGen发现生成核酸适配体
5130
Nat. Commun.| 使用自回归生成模型进行蛋白质设计和变体预测
1.2K0
Nat. Methods. | 高效数据优化Low-N蛋白质筛选工程
8110
相关推荐
Nat. Commun. | 理解RNA序列、结构与功能关系,IGI构建最新数据库进行分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文