本文介绍一篇来自浙江大学宋明黎教授课题组和侯廷军教授课题组联合发表的一篇文章。该文章提出了一种用于化学反应预测的紧凑的分子字符串表示。该方法基于分子的SMILES字符串表示和Transformer语言翻译模型,通过在预处理阶段对训练集中的输入输出字符串进行对齐操作,来约束输入与输出之间的编辑距离并保证两者的一一对应关系。这使得模型能从学习复杂的SMILES语法中解脱出来,而专注于学习与化学反应相关的化学知识。
可以将一个分子视为一个以原子为节点,结合为边的图。图形可以表示一个原子如何连接到另一个原子。如果已知原子之间的键数,则可以在以后添加氢原子,因此在计算机上表示分子时通常会省略氢原子。
SMILES (Simplified Molecular Input Line Entry System)是一种分子描述语言,由Daylight C.I.S.的创始人 Dr. David Weininger 博士发明。它简单,易于理解,且广泛使用的分子描述方法。
2022年12月15日,中南大学湘雅药学院曹东升团队,国防科技大学吴诚堃团队,浙江大学侯廷军团队以及湖南大学曾湘祥教授团队合作在Research期刊上发表论文“Pushing the Boundaries of Molecular Property Prediction for Drug Discovery with Multitask Learning BERT Enhanced by SMILES Enumeration”。
2024年3月14日,韩国科学技术院Jinho Chang等人在Nature Communications上发表文章Bidirectional generation of structure and properties through a single molecular foundation model。
今天为大家介绍的是来自Xiangliang Zhang团队的一篇关于GPT能力讨论的论文。大型语言模型(LLMs)在自然语言处理任务中具有强大的能力,并迅速应用于科学、金融和软件工程等各种领域。然而,LLMs在推动化学领域的能力尚不清楚。作者建立了一个包含8个实际化学任务的全面基准,包括1)名称预测,2)属性预测,3)收率预测,4)反应预测,5)逆合成(从产物预测反应物),6)基于文本的分子设计,7)分子描述,和8)试剂选择。我们的分析基于广泛认可的数据集,包括BBBP、Tox21、PubChem、USPTO和ChEBI,有助于在实际化学背景下广泛探索LLMs的能力。作者评估了三个GPT模型(GPT-4、GPT-3.5和Davinci-003)在每个化学任务中以零样本和少样本上下文学习设置下的性能。作者的研究的主要结果是:1)在三个评估模型中,GPT-4的性能优于其他两个模型;2)在需要精确理解分子SMILES表示的任务(如反应预测和逆合成)中,GPT模型表现出较弱的竞争性能;3)GPT模型在与文本相关的解释任务(如分子描述)中展示出强大的能力;4)在可转化为分类或排序任务的化学问题(如属性预测和收率预测)中,GPT模型展现出与经典机器学习模型相当或更好的性能。
今天给大家介绍的是Journal of Cheminformatics上的文章 " Transformer-CNN: Swiss knife for QSAR modeling and interpretation"
SMILES表达式是化学里面常用的用于标定元素之间关系的字符串,旨在用最简短的语句来完整的表达一个分子体系内所蕴含的基本信息,比如元素、连接性以及连接属性等。由于SMILES表达式的定义种类太多,需要完整介绍的可以阅读这篇博客或者是opensmiles的官方网站。这里我们简单介绍几种常见的情况:
今天介绍一篇浙江大学智能创新药物研究院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子计算实验室联合在Briefings in Bioinformatics发表的一篇论文“Knowledge-based BERT: a method to extract molecular features like computational chemists”。本文提出了一种新的预训练策略,通过学习由计算化学家预定义的分子特征和原子特征,使得模型能够像计算化学家一样从SMILES中提取分子特征。K-BERT在多个成药性数据集上表现了优异的预测能力。此外,由K-BERT 生成的通用指纹 K-BERT-FP 在 15个药物数据集上表现出与 MACCS 相当的预测能力。并且通过进一步预训练,K-BERT-FP还可以学习到传统二进制指纹(如MACCS和ECFP4)无法表征的分子大小和手性信息。
今天给大家介绍国防科技大学吴诚堃副研究员、博士生张小琛、中南大学曹东升教授以及浙江大学侯廷军教授等人联合发表在Briefing in Bioinformatics上的一篇文章。作者利用深度模型,从分子的SMILES表示中学习面向分子性质预测的特征,从模型以及数据两个方面提出优化策略以提高预测能力。在模型方面使用双向LSTM模型以及多步注意力策略提高从SMILES表征中抽取隐含特征的能力。在数据方面,文章在训练阶段使用SMILES枚举策略增加数据的多样性并提高模型的泛化能力,同时预测阶段采用枚举平均的策略提高预测的准确性和稳定性。实验结果表明,文章所提出的方法能够显著提升模型预测性能,使得基于SMILES表征的分子性质预测模型在11个常用评测集合上(包括分类和回归两类任务)达到或超过SOTA水平。
同时其提供了相对应的JAVA接口供各用户使用。今天就给大家介绍下在R语言中是如何利用其接口进行相应的化合物数据获取的。
今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章。该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型。发现该模型可以从更少的例子中学习到健壮的模型。同时,本文还确定了低数据下,得到等学习效果和等质量模型的策略;特别是通过枚举非规范SMILES进行数据增强,并通过学习细菌、植物和真菌代谢组模型来证明这些策略的可用性。并且,本文还对评估生成模型的指标进行了基准测试,发现该领域中许多最广泛使用的指标未能捕获模型质量,同时确定了一些表现良好的指标。
今天为大家介绍的是来自Yanshan Wang团队的一篇论文。药物分子够改变生物体精神或身体状态。每种被批准的药物都有一个适应症,这指的是该药物用于治疗特定医疗条件的治疗用途。尽管大型语言模型(LLM)最近在将分子及其文本描述之间进行翻译方面显示出了有效性,但在利用这些模型帮助实现药物分子与适应症之间,或反之亦然的翻译方面,研究仍存在空白。这种能力对药物发现过程大有裨益,能够根据给定的适应症生成药物,这将允许发现针对特定疾病或靶点的药物,并最终为患者提供更好的治疗方案。
今天给大家介绍的是瑞典制药公司阿斯利康,伯尔尼大学和广州再生医学与健康中心广东省实验室于2020年2月4日联合发表在Journal of Cheminformatics的一篇论文,这篇文章提出了一种新的基于SMILES的分子生成模型,该模型可从骨架中生成分子,并且可以从任意分子集中进行训练。作者认为这种基于SMILES的生成模型将成为对已经存在的基于SMILES的体系结构的有用补充,并且可以替代基于图的装饰方法。
用DS2019读取这些sdf文件后,全部visible,然后保存为sdf格式,即可将所有小分子保存到一个sdf文件中。
今天给大家介绍湖南大学刘元盛老师团队发表在Briefings in Bioinformatics 2021上的一篇文章“Molecular design in drug discovery: a comprehensive review of deep generative models”。文章回顾了深度生成模型,并根据计算机中的分子表征将这些模型分为两类,详细分析这两种经典类型的模型并讨论其优缺点,同时还指出了de novo分子设计的深度生成模型当前面临的挑战。
当通过深度学习输入有机物质中结构式的二维图像时,需要解决寻找分子式的问题。这是一个回归问题,需要计算结构式图像中包含的碳、氢、氧和氮等原子数。
今天给大家介绍的是NATURE COMMUNICATIONS上有关数据增强的文章"State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis"
2022年12月1日,来自日本东京大学的学者在Journal of Chemical Information and Modeling上发表论文“Exploration of Chemical Space Guided by PixelCNN for Fragment-Based De Novo Drug Discovery”。论文中,作者提出了像素卷积神经网络PixelCNN,将SMILES字符串转换为2维矩阵数据,应用掩蔽神经网络层建立模型。作者对PixelCNN的性能进行了多方面的分析,并将其与RNN在生成期望性质的分子方面和基于片段生长优化的化学空间探索方面进行了详尽的比较。
2022年7月1日,来自华东理工大学的李洪林等人在Journal of Cheminfomatics上发表文章,提出了SwinOCSR,这是一种基于Swin Transformer的端到端模型。该模型使用Swin Transformer作为骨干来提取图像,以将化学结构信息从出版物转换为SMILES。实验结果表明,模型明显优于所比较的方法,证明了模型的有效性。此外,作者使用focal loss来解决化学结构图的文本表示中的标签不平衡问题。
2023年11月6日,来自阿斯利康(瑞典)的Hannes Loeffler等人在ChemRxiv发表文章REINVENT4: Modern AI–Driven Generative Molecule Design。
#======================================================= #======================================================= rm(list=ls()) library(ChemmineR) library(BioMedR) dt <- data.frame(name=c(1:1604), smie =c(1:1604)) sdfset <- read.SDFset("drug_fda.sdf")
今天给大家介绍的是悉尼大学的Fangzhou Shi等人在2019年IEEE上发表的会议论文“Reinforced Molecule Generation with Heterogeneous States”。近年来,基于强化学习的方法利用图来表示并生成分子。然而,分子图表示可能忽略了分子的内在上下文信息,并相应地限制了生成性能。在本文中,作者提出用SMILES上下文向量来增强原始图的状态。SMILES表示很容易被简单的语言模型处理,这样就可以提取分子的一般语义特征;图表示在处理每个原子的拓扑关系方面表现得更好。此外,作者还提出了一个结合监督学习和强化学习算法的框架,以更好地考虑分子的这两种状态表示,它可以融合来自两者的信息,并提取更全面的特征,从而使策略网络能够做出更复杂的决策。模型还引入了两种注意机制,即动作注意和图注意,以进一步提高性能。作者在数据集ZINC上进行了实验,实验结果表明,此框架在分子生成和化学性质优化的学习性能方面优于其他基线方法。
简化分子线性输入规范(SMILES)是一种用ASCII字符串明确描述分子结构的规范。
今天给大家介绍瑞士知名药企阿斯利康和伯尔尼大学的 Esben Jannik Bjerrum团队在Nature Machine Intelligence上的一篇论文。该研究提出基于分子SMILES表示的条件循环神经网络,输入目标性质,模型可直接生成具有对应性质的分子。
ScaffoldGraph是一个开放源代码化学信息库,使用RDKit和NetworkX构建,用于生成和分析骨架网络和支架树。
2021年9月15日,Chemical Engineering Journal杂志发表了兰州大学姚小军课题组和腾讯量子实验室谢昌谕博士等人合作的研究文章,该文章提出一种基于Transformer模型的新方法RetroPrime,用于同时解决基于Transformer模型的方法在逆合成预测中反应多样性不足和化学上不合理输出的问题。
学习药化的同志们应该都了解化合物分子的特征描述有很多计算软件,今天我们来给大家展示下在R语言中如何实现分子特征描述的计算。主要以MACCS分子指纹的实现作为案例。
2021年7月6日,Molecular Informatics杂志发表文章,介绍了一种利用生成对抗网络从头设计分子的方法。
不用chemdraw画分子,截图即刻识别;支持复杂天然产物的识别;可抵抗低分辨率、扭曲变形、无关字符、彩色背景等干扰;支持pdf批量自动定位自动识别
今天给大家介绍的是被誉为“欧陆第一名校”苏黎世联邦理工学院(ETH Zurich)化学与应用生物科学系博士生Francesca Grisoni和制药行业顾问Gisbert Schneider教授于2020年6月发表在Journal of Chemical Information and Modeling的一篇论文,作者受双向RNN和SMILES本身的结构特性启发,提出一种可用于SMILES生成和数据增强的新的双向RNN分子生成模型——BIMODAL。该模型通过交替学习进行双向分子设计,并且该模型与其他双向RNN,单向RNN模型对比,在分子新颖性,骨架多样性和生成分子的化学生物相关性方面表明了基于SMILES的分子de novo设计双向方法是可取的,并显示了优越的实验结果。
近日,「德睿智药」与帝国理工学院联合发布了基于AI大语言模型的光响应分子生成技术框架UVGPT,验证了将AI大语言模型应用于智能药物递送领域的可行性,有望加速新型光响应分子设计与研究应用。该论文以“A Smart Strategy for Photoresponsive Molecules: Utilizing Generative Pre-trained Transformer and TDDFT Calculations in Drug Delivery”为题在ChemRxiv上预发表。
所以 sid cid 和aid其实都是一些化合物的id,我们可以通过请求这个id来获得与其对应的属性:
利用化合物的结构与活性数据,基于RDKit和Python3的机器学习活性预测模型小示例。
现有的高通量筛选实验用于确定药物和靶标之间的生物活性是一个昂贵费时的步骤。因此,基于已经在临床实验中测量的相互作用,使用统计学和机器学习模型来估计新的药物-靶标的相互作用的强度是重要的替代方案。澳大利亚Deakin大学的Svetha Venkatesh课题组提出了GraphDTA,一种基于图神经网络的药物-靶标结合亲和力的预测方法。
近年来,分子表征学习方法进展迅速,尤其是那些将自然语言处理模型应用于SMILES的技术。然而,关于这些模型如何理解化学结构的研究却很少。
今天给大家介绍来自苏黎世联邦理工学院和耶拿弗里德里希-席勒-耶拿大学团队发表在Nature Methods上的文章,文章提出了一种基于encoder-decoder神经网络的从质谱生成小分子结构的新方法:MSNovelist,它首先使用SIRIUS和CSI:FingerID来分别从质谱中预测出分子的指纹和表达式,然后将其输入到一个基于encoder-decoder的RNN模型来生成分子的SMILES。作者使用来自Global Natural Product Social Molecular Networking网站上的3863个质谱数据集进行评估,MSNovelist重现出了61%的分子结构,这些重现的分子结构都是未在训练集中见过的;并且使用CASMI2016数据集进行了评估,MSNovelist重现了64%的分子结构。最后,本文将MSNovelist应用在苔藓植物质谱数据集上进行验证,结果表明MSNovelist非常适合在分析物类别和新化合物表现不佳的情况下注释质谱对应的分子。
作者/凯霞 「有机化合物怎么命名啊?」、「有机化合物命名规则是什么?」、「这个药物的有效成分叫什么?」、「有没有查找有机化合物命名的软件或程序?」、「某某命名软件还花钱。」、「某软件命名不准确。」...... 注:部分来自知乎问题。 总之,有机化合物命名太难、规则太繁琐、还没有开源软件...... AI 发展「风生水起」,能否解决以上问题? 现在,来自莫斯科罗蒙诺索夫国立大学和 Syntelly 初创公司的研究人员开发了一种基于 Transformer 的人工神经方法,可根据 IUPAC 命名系统生成
今天介绍苏黎世联邦理工大学Gisbert Schneider团队在nature machine intelligence 2020上发表的论文,该论文利用分子语言模型,结合三种优化方法,可以用少量分子作为数据集训练出一个分子生成模型。
今天给大家介绍一篇来自浙江大学侯廷军教授课题组和中南大学曹东升教授课题组合作发表在2021年5月份发表在Briefings in Bioinformatics上的一篇文章《MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction》。本文使用了无监督原子表达学习来进行分子的性质预测。
文件名structure_links.csv,CSV格式,逗号分割,下载自drugbank
今天为大家介绍的是来自Giuseppe Felice Mangiatordi团队的一篇论文。此项研究引入了一种名为"GENERA"的全新设计算法,它将自动药物类似物设计的深度学习算法"DeLA-Drug"的能力与生成具有目标定向性质分子的遗传算法相结合。GENERA被应用于血管紧张素转化酶2(ACE2)靶点,该靶点与许多病理条件(包括COVID-19)有关。通过两个分子对接程序,PLANTS和GLIDE,评估了GENERA在为特定靶点全新设计有前景的候选分子的能力。
针对化学分子结构,可以用SMILES (用ASCII字符串明确描述分子结构的规范)来定义。
JTNN :Junction Tree Variational Autoencoder for Molecular Graph Generation
近日,由南通大学信息科学技术学院、南通大学智能信息技术研究中心的王理教授为通讯作者在Briefing in Bioinformatics杂志发表了其团队最新研究成果:该作者提出了“S2DV”方法,这是一个用于对小分子药物进行表示学习的方法。该方法通过对小分子SMILES字符处理,提取小分子结构信息,将其转化为嵌入表达,同时创新性地在预训练过程中结合了Ising模型梯度矫正以提高预训练效果。以大规模的预训练为基础的分类模型能够较为准确地预测小分子化合物HBV抑制率和肝细胞毒性。作者团队还通过湿实验对模型准确率进行了验证并开发出了基于web的小工具用于在线对抗HBV化合物的预测。
尝试使用新的DGL--LifeSci并建立Attentive FP模型并可视化其预测结果。
今天给大家介绍的是浙江工业大学智能制药研究院的段宏亮教授研究团队发表在《Organic Chemistry Frontiers》上的一篇文章《Data augmentation and transfer learning strategies for reaction prediction in low chemical data regimes》。
论文:Convolutional Networks on Graphs for Learning Molecular Fingerprints 图卷积网络用于学习分子指纹 链接:http://arxiv.org/pdf/1509.09292.pdf 作者:David Duvenaud†, Dougal Maclaurin†, Jorge Aguilera-Iparraguirre (哈佛大学) 来源:NIPS 2015 代码:https://github.com/HIPS/neural-fingerprint
2022年12月21日,IBM的Jerret Ross等人在Nature Machine Intelligence上发表文章Large-scale chemical language representations capture molecular structure and properties。作者提出了MolFormer:一个基于Transformer的大规模化学语言模型表征分子结构与性质。
领取专属 10元无门槛券
手把手带您无忧上云