首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

GPT模型在化学领域可以做些什么?

今天为大家介绍的是来自Xiangliang Zhang团队的一篇关于GPT能力讨论的论文。大型语言模型(LLMs)在自然语言处理任务中具有强大的能力,并迅速应用于科学、金融和软件工程等各种领域。然而,LLMs在推动化学领域的能力尚不清楚。作者建立了一个包含8个实际化学任务的全面基准,包括1)名称预测,2)属性预测,3)收率预测,4)反应预测,5)逆合成(从产物预测反应物),6)基于文本的分子设计,7)分子描述,和8)试剂选择。我们的分析基于广泛认可的数据集,包括BBBP、Tox21、PubChem、USPTO和ChEBI,有助于在实际化学背景下广泛探索LLMs的能力。作者评估了三个GPT模型(GPT-4、GPT-3.5和Davinci-003)在每个化学任务中以零样本和少样本上下文学习设置下的性能。作者的研究的主要结果是:1)在三个评估模型中,GPT-4的性能优于其他两个模型;2)在需要精确理解分子SMILES表示的任务(如反应预测和逆合成)中,GPT模型表现出较弱的竞争性能;3)GPT模型在与文本相关的解释任务(如分子描述)中展示出强大的能力;4)在可转化为分类或排序任务的化学问题(如属性预测和收率预测)中,GPT模型展现出与经典机器学习模型相当或更好的性能。

01

Knowledge-based BERT: 像计算化学家一样提取分子特征的方法

今天介绍一篇浙江大学智能创新药物研究院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子计算实验室联合在Briefings in Bioinformatics发表的一篇论文“Knowledge-based BERT: a method to extract molecular features like computational chemists”。本文提出了一种新的预训练策略,通过学习由计算化学家预定义的分子特征和原子特征,使得模型能够像计算化学家一样从SMILES中提取分子特征。K-BERT在多个成药性数据集上表现了优异的预测能力。此外,由K-BERT 生成的通用指纹 K-BERT-FP 在 15个药物数据集上表现出与 MACCS 相当的预测能力。并且通过进一步预训练,K-BERT-FP还可以学习到传统二进制指纹(如MACCS和ECFP4)无法表征的分子大小和手性信息。

03

Briefings in Bioinformatics | 基于SMILES的药物分子表征深度模型和数据增强策略研究

今天给大家介绍国防科技大学吴诚堃副研究员、博士生张小琛、中南大学曹东升教授以及浙江大学侯廷军教授等人联合发表在Briefing in Bioinformatics上的一篇文章。作者利用深度模型,从分子的SMILES表示中学习面向分子性质预测的特征,从模型以及数据两个方面提出优化策略以提高预测能力。在模型方面使用双向LSTM模型以及多步注意力策略提高从SMILES表征中抽取隐含特征的能力。在数据方面,文章在训练阶段使用SMILES枚举策略增加数据的多样性并提高模型的泛化能力,同时预测阶段采用枚举平均的策略提高预测的准确性和稳定性。实验结果表明,文章所提出的方法能够显著提升模型预测性能,使得基于SMILES表征的分子性质预测模型在11个常用评测集合上(包括分类和回归两类任务)达到或超过SOTA水平。

04

IEEE|具有混合状态的强化分子生成

今天给大家介绍的是悉尼大学的Fangzhou Shi等人在2019年IEEE上发表的会议论文“Reinforced Molecule Generation with Heterogeneous States”。近年来,基于强化学习的方法利用图来表示并生成分子。然而,分子图表示可能忽略了分子的内在上下文信息,并相应地限制了生成性能。在本文中,作者提出用SMILES上下文向量来增强原始图的状态。SMILES表示很容易被简单的语言模型处理,这样就可以提取分子的一般语义特征;图表示在处理每个原子的拓扑关系方面表现得更好。此外,作者还提出了一个结合监督学习和强化学习算法的框架,以更好地考虑分子的这两种状态表示,它可以融合来自两者的信息,并提取更全面的特征,从而使策略网络能够做出更复杂的决策。模型还引入了两种注意机制,即动作注意和图注意,以进一步提高性能。作者在数据集ZINC上进行了实验,实验结果表明,此框架在分子生成和化学性质优化的学习性能方面优于其他基线方法。

01

Nat. Methods | MSNovelist:从质谱生成小分子结构的新方法

今天给大家介绍来自苏黎世联邦理工学院和耶拿弗里德里希-席勒-耶拿大学团队发表在Nature Methods上的文章,文章提出了一种基于encoder-decoder神经网络的从质谱生成小分子结构的新方法:MSNovelist,它首先使用SIRIUS和CSI:FingerID来分别从质谱中预测出分子的指纹和表达式,然后将其输入到一个基于encoder-decoder的RNN模型来生成分子的SMILES。作者使用来自Global Natural Product Social Molecular Networking网站上的3863个质谱数据集进行评估,MSNovelist重现出了61%的分子结构,这些重现的分子结构都是未在训练集中见过的;并且使用CASMI2016数据集进行了评估,MSNovelist重现了64%的分子结构。最后,本文将MSNovelist应用在苔藓植物质谱数据集上进行验证,结果表明MSNovelist非常适合在分析物类别和新化合物表现不佳的情况下注释质谱对应的分子。

03

王理团队开发大规模小分子预训练方法“S2DV”用于抗HBV药物研发

近日,由南通大学信息科学技术学院、南通大学智能信息技术研究中心的王理教授为通讯作者在Briefing in Bioinformatics杂志发表了其团队最新研究成果:该作者提出了“S2DV”方法,这是一个用于对小分子药物进行表示学习的方法。该方法通过对小分子SMILES字符处理,提取小分子结构信息,将其转化为嵌入表达,同时创新性地在预训练过程中结合了Ising模型梯度矫正以提高预训练效果。以大规模的预训练为基础的分类模型能够较为准确地预测小分子化合物HBV抑制率和肝细胞毒性。作者团队还通过湿实验对模型准确率进行了验证并开发出了基于web的小工具用于在线对抗HBV化合物的预测。

02
领券