2022年2月3日,西南交通大学计算机与人工智能学院的林小惠/江永全*/杨燕等人在Journal of Molecular Structure杂志发表文章,提出了一种基于图卷积网络预测原子间两两距离的模型,以解决传统计算方法在确定分子结构时实验成本高、计算成本高的问题。
新药研发领域长期以来都以耗时长、成本高、风险大、回报率低而著称,一款新药的平均研发成本已经高达 26 亿美元,而平均耗时需要十年。尽管付出了如此高昂的研发成本和漫长的研发周期,却依然无法保证所研发的药物能够顺利通过全部临床实验而投放市场。即便是难度较低的仿制药研发,其研发的进程也是十分缓慢。
今天给大家介绍中南大学曹东升教授/国防科技大学吴城堃教授/浙江大学侯廷军教授团队共同在国际期刊Briefings in Bioinformatics上发表的分子图片识别的文章《ABC-Net: a divide-and-conquer based deep learning architecture for SMILES recognition from molecular images》。该文章基于分而治之的思想提出把分子识别问题转换为其组成元素的识别,包括分子键线与原子字符标识,然后使用关键点识别技术进行相关元素的识别并重新组装恢复分子结构。该方法在构造的数据集以及基准测试集上较以前的方法取得了显著的提升。
在本文中研究团队提出了一种基于深度学习的可解释方法,用于发现新型抗生素结构。通过神经网络学到的抗生素活性相关的化学亚结构被用于预测抗生素的结构类别。研究团队通过图神经网络预测了超过1200万个化合物的抗生素活性和毒性,并通过可解释的图算法确定了具有高抗生素活性和低毒性的化合物的亚结构理由。实验验证表明,具有特定亚结构的化合物对金黄色葡萄球菌具有抗生素活性,其中一种结构类别对耐药性较强的金黄色葡萄球菌和肠球菌具有选择性。这一方法为深度学习引导的抗生素结构类别发现提供了新途径,并强调了机器学习在药物发现中的可解释性和对选择性抗生素活性的化学基础的洞察力。
RDKit在2000-2006年期间在Rational Discovery开发和使用,用于构建吸收、分布、代谢、代谢、毒性和生物活性的预测模型。2006年6月Rational Discovery被关闭,但该工具包在BSD许可证下作为开源发布。目前,RDKit的开源开发由诺华积极贡献,其中包括诺华捐赠的源代码。
聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。
从分子相似性评估到使用机器学习技术的定量构效关系分析各种建模方法已应用于不同大小和组成的数据集(阻断剂和非阻滞剂的数量)。本研究中使用从公共生物活性数据开发用于预测hERG阻断剂的稳健分类器。随机森林被用来开发使用不同分子描述符,活性阈值和训练集合成的预测模型。与先前提取数据集的研究报告相比,该模型在外部验证中表现出优异的性能。
2022年7月4日,加拿大布鲁克大学Yifeng Li团队在Frontiers in Pharmacology期刊上发表一篇题为《Multi-Objective Drug Design Based on Graph-Fragment Molecular Representation and Deep Evolutionary Learning》的论文。论文将药物设计建模为一个多目标优化问题,将基于片段的连接树变分自编码器这一深度生成模型融入深度进化学习框架中,取得了良好的实验结果。
介绍RDKit相关知识点和运用以及RDKit作为处理化学、生物、药学和材料学科中分子数据作为可输入机器学习和深度学习模型的重要工具应用。内容涵盖了基于RDKit的Python3的分子的读写、化合物的分子指纹和分子描述符计算、化合物的2D/2D比对、化合物相似性搜索、化合物骨架分析和亚结构搜索、RMSD计算与构象生成优化、分子相似图与聚类分析、化学反应处理、可视化与化学空间探索及RDkit相关的机器学习、深度学习应用过程详解
今天给大家介绍的是美国橡树岭国家实验室的Andrew E. Blanchard等人于2021.2.23发表在Journal of Cheminformatics上的文章Using GANs with adaptive training data to search for new molecules。药物发现的过程涉及到对所有可能的化合物的空间进行搜索,生成对抗网络(GAN)为探索化学空间和优化已知化合物提供了一个有力工具。然而,训练GANs的标准方法可能导致模式崩溃,其中生成器主要产生与训练数据的一小部分密切相关的样本。相反,寻找新化合物需要超越原始数据的探索。在本文中,作者提出了一种训练GANS的方法,它促进增量探索,并利用遗传算法的概念限制模式崩溃的影响。在此方法中,来自生成器的有效样本被用来替换来自训练数据的样本。在替换过程中,作者考虑随机和引导选择以及重组。通过跟踪训练过程中产生的新化合物的数量,结果表明,对训练数据的更新大大优于传统的方法,增加了GANs在药物发现中的潜在应用。
成药靶点中必定存在着能与药物结合的特异性结合位点。对某个靶点发挥活性的化合物在结构特征上必定有相似之处。这些化合物的最普遍的共有特性被定义为药效团(pharmacophore)
Morgan Fingerprints (CircularFingerprints)
纽约大学、纽约大学上海分校、AWS上海研究院以及AWS MXNet Science Team共同开源了一个面向图神经网络及图机器学习的全新框架,命名为Deep Graph Library(DGL)。
CDK是结构化学信息学和生物信息学的开源Java库。 该项目由Christoph Steinbeck,Egon Willighagen与Jmol和JChemPaint的开发人员Dan Gezelter于2000年发起。迄今为止,它是在科学界广泛支持下开展的最活跃的开源化学信息学项目之一。
USRCAT是基于形状的方法,它的工作速度非常快。代码是免费提供的,如果要使用代码,用户需要安装它。
今天给大家介绍来自苏黎世联邦理工学院和耶拿弗里德里希-席勒-耶拿大学团队发表在Nature Methods上的文章,文章提出了一种基于encoder-decoder神经网络的从质谱生成小分子结构的新方法:MSNovelist,它首先使用SIRIUS和CSI:FingerID来分别从质谱中预测出分子的指纹和表达式,然后将其输入到一个基于encoder-decoder的RNN模型来生成分子的SMILES。作者使用来自Global Natural Product Social Molecular Networking网站上的3863个质谱数据集进行评估,MSNovelist重现出了61%的分子结构,这些重现的分子结构都是未在训练集中见过的;并且使用CASMI2016数据集进行了评估,MSNovelist重现了64%的分子结构。最后,本文将MSNovelist应用在苔藓植物质谱数据集上进行验证,结果表明MSNovelist非常适合在分析物类别和新化合物表现不佳的情况下注释质谱对应的分子。
RDkit的安装与使用 简介 RDkit著名的开源化学信息学工具之一,基于BSD协议,核心数据结构与算法由C++编写。支持Python2与Python3,支持KNIME,支持机器学习方面的分子描述符的产生。 安装 1:Conda模式 官方建议使用Conda进行安装与管理,Conda可以使用清华的源进行下载,安装完成后,再次更换其安装源,同样更换为清华的源。换源的教程参考 安装命令: conda install rdkit 2:Pycharm模式 Pycharm并不能直接安装RDkit,当使用上一步Conda
RDKit提供各种功能,如不同的化学I/O格式,包括SMILES/SMARTS,结构数据格式(SDF),Thor数据树(TDT),Sybyl线符号(SLN),Corina mol2和蛋白质数据库(PDB)。子结构搜索; 标准SMILES; 手性支持;化学转化;化学反应;分子序列化;相似性/多样性选择;二维药效团;分层子图/片段分析; Bemis和Murcko骨架;逆合成组合分析程序(RECAP); 多分子最大共同亚结构;功能图;基于形状的相似性;基于RMSD的分子分子比对;基于形状的对齐;使用Open3-DALIGN算法的无监督分子-分子比对;与PyMOL进行3D可视化集成;功能组过滤;分子描述符库;相似图;机器学习等。
- GetHashedAtomPairFingerprint(与GetAtomPairFingerprint相同)
2022年12月6日,中南大学湘雅药学院曹东升教授团队和浙江大学药学院侯廷军教授团队合作在Journal of Chemical Information and Modeling期刊上发表论文“Structural Analysis and Prediction of Hematotoxicity Using Deep Learning Approaches”。
今天给大家介绍来自苏黎世联邦理工学院的José Jiménez-Luna、Gisbert Schneider,以及勃林格殷格翰药业有限公司的Miha Skalic、Nils Weskamp四人联合发表在JCIM期刊上的一项研究成果《Coloring Molecules with Explainable Artificial Intelligence for Preclinical Relevance Assessment》。该研究通过将积分梯度可解释人工智能(XAI)方法应用于图神经网络模型,提高了理性分子设计的建模透明度,并基于四个药理学相关ADME终点的实验,验证了所提出的方法能够突出与已知药效团基序一致的分子特征和结构元素,正确识别性质断崖,并提供了对非特异性配体-靶标相互作用的见解。
SMILES (Simplified Molecular Input Line Entry System)是一种分子描述语言,由Daylight C.I.S.的创始人 Dr. David Weininger 博士发明。它简单,易于理解,且广泛使用的分子描述方法。
人工智能作为一种新兴技术,是新药研发实现降本增效的重要方式之一,『人工智能+新药研发』成为国内外医药企业加速创新转型的重要驱动力,一个更快、更便宜、更有效的新药物研发时代已经到来。
DrugBank数据库是唯一将详细的药品数据(即化学,药理学和制药)与综合药物靶点信息(即序列,结构和作用通路)相结合的“生物信息学和化学信息学”资源.DrugBank由加拿大卫生研究院,亚伯达省创新 - 健康解决方案和代谢组学创新中心(TMIC)提供支持,该中心是国家资助的研究以及支持广泛的尖端技术代谢组学研究的核心.DrugBank数据库查询包含以下信息:药品类型,药品简介,化学结构,药品成分,临床试验,药物靶点,酶,转运体,载体,药品图片,批准情况,批准的处方药,国外上市商品名,药物相互作用,制造商,包装商等。
2022年9月24日,青岛大学计算机科学技术学院李臻教授团队在Drug Discovery Today上发表文章“Deep learning methods for molecular representation and property prediction”。在论文中,作者回顾并总结了现有的分子表示与性质预测的深度学习方法,并讨论了深度学习方法在分子表示和性质预测方面的挑战和机遇。
Deep Graph Library (DGL) 是一个在图上做深度学习的框架。在0.3.1版本中,DGL支持了基于PyTorch的化学模型库。如何生成分子图是我感兴趣的。
图卷积神经网络(Graph Convolutional Networks, GCN )
https://russodanielp.github.io/exploring-drugbank-using-rdkit.html
今天给大家介绍的是NeurIPS 2021上一篇来自MIT的论文。在化学信息学和药物发现领域中,从分子图中预测分子的三维构象集具有关键的作用,但现有的生成模型存在严重的问题,这包括缺乏对重要分子几何元素的建模,优化阶段容易出现累积误差,需要基于经典力场或计算代价昂贵的方法进行结构微调。作者团队提出GEOMOL模型,一种端到端、非自回归和SE(3)不变的机器学习方法来生成低能分子三维构象的分布。利用消息传递神经网络(MPNN)捕捉局部和全局信息的能力,我们能预测局部原子的3D结构和扭转角,这样的局部预测即可用于计算训练损失,也可用于测试时的完整构象。作者团队设计了一个非对抗性的基于损失函数的最优传输来促进多样的构象生成。GEOMOL优于流行的开源、商业或最先进的ML模型,同时速度得到了显著提升。我们希望这种可微的三维结构生成器能对分子建模和相关应用产生重大影响。
反正,你要做药物,或者不管做什么,都需要顾及到各种各样的条件,我们总是在所处的条件环境下进行选择或者进行实验。
今天为大家介绍的是来自James J. Collins和Jonathan M. Stokes团队的一篇关于抗生素发现的论文。鲍曼不动杆菌(Acinetobacter baumannii)是一种常表现出多重药物抗性的医院内革兰氏阴性病原体。通过传统的筛选方法发现针对鲍曼不动杆菌的新抗生素一直具有挑战性。幸运的是,机器学习方法可以快速探索化学空间,增加了发现新抗菌分子的可能性。在这项研究中,作者筛选了大约7500种分子,以找出能够体外抑制鲍曼不动杆菌生长的分子。
分子片段在药物研发中具有重要作用,如通过基于片段的从头药物设计获得高活性化合物、通过基于分子片段的骨架跃迁获得新颖结构。将化合物按照预先定义的规则进行拆分,是获得分子片段的有效途径。然而,作为基础工具,分子片段化方法的创新研究近年来并未引起足够的重视。
今天介绍一篇浙江大学智能创新药物研究院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子计算实验室联合在Briefings in Bioinformatics发表的一篇论文“Knowledge-based BERT: a method to extract molecular features like computational chemists”。本文提出了一种新的预训练策略,通过学习由计算化学家预定义的分子特征和原子特征,使得模型能够像计算化学家一样从SMILES中提取分子特征。K-BERT在多个成药性数据集上表现了优异的预测能力。此外,由K-BERT 生成的通用指纹 K-BERT-FP 在 15个药物数据集上表现出与 MACCS 相当的预测能力。并且通过进一步预训练,K-BERT-FP还可以学习到传统二进制指纹(如MACCS和ECFP4)无法表征的分子大小和手性信息。
QED代表类药分子的定量估计,这一概念由Richard Bickerton及其同事首次提出的。QED测量的经验基本原理反映了分子性质的基本分布,包括分子量,logP,拓扑极性表面积,氢键供体和受体的数量,芳环和可旋转键的数量,以及有害化学官能团分布。
JTNN :Junction Tree Variational Autoencoder for Molecular Graph Generation
今天为大家介绍的是来自JunJie Wee和Kelin Xia团队的一篇关于抗生素发现的论文。人工智能(AI)技术在改变抗生素发现行业方面具有巨大潜力。高效和有效的分子特征化是实现高准确性学习用于抗生素发现的模型的关键。作者提出了一种通过结合基于序列的2D指纹和基于结构的图表示的指纹增强的图注意力网络(FinGAT)模型。在特征学习过程中,序列信息转化为指纹向量,结构信息通过GAT模块编码为另一个向量。这两个向量被连接并输入到多层感知机(MLP)进行抗生素活性分类。模型经过广泛的测试并与现有模型进行比较。研究发现, FinGAT在抗生素发现中可以胜过各种最先进的GNN模型。
实例中使用SMILES文件,该分析可以以相同的方式从分子的SDF或其他格式文件中加载数据,只需确保使用适当的方法将分子加载到RDKit中。
RDKit一个用于化学信息学的python库。使用支持向量回归(SVR)来预测logP。 分子的输入结构特征是摩根指纹,输出是logP。
简化分子线性输入规范(SMILES)是一种用ASCII字符串明确描述分子结构的规范,由David Weininger和Arthur Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司修改和扩展。
好久不更,博主日忙,大概下次更就好过年了吧,给大家拜个早年,88。 import rdkit from rdkit import Chem #导入一个分子 smi = 'c1ccccc1' #rdkit读取 mol = Chem.MolFromSmiles(smi) #获取分子中的原子数目 atom_num = mol.GetNumAtoms() #获取分子中的键数目 bond_num = mol.GetNumBonds() nei_atom = [] nei_bond = [] #获取分子中的原子的相邻原
QED(quantitative estimate of drug-likeness)是一种将药物相似性量化为介于0和1之间的数值的方法。
当一个化合物合成出来之后,化学工作者常常关心的是分子中某一部分(如功能团)的有关信息,因而,亚结构(substructure)检索,从某种角度上讲,对于化学工作者来说是最为重要的手段。
BRICS provides another method for fragmenting molecules along synthetically accessible bonds
今天为大家介绍的是来自Giuseppe Felice Mangiatordi团队的一篇论文。此项研究引入了一种名为"GENERA"的全新设计算法,它将自动药物类似物设计的深度学习算法"DeLA-Drug"的能力与生成具有目标定向性质分子的遗传算法相结合。GENERA被应用于血管紧张素转化酶2(ACE2)靶点,该靶点与许多病理条件(包括COVID-19)有关。通过两个分子对接程序,PLANTS和GLIDE,评估了GENERA在为特定靶点全新设计有前景的候选分子的能力。
2021年7月6日,Molecular Informatics杂志发表文章,介绍了一种利用生成对抗网络从头设计分子的方法。
无论如何获得先导化合物,评估候选先导化合物的合成难度都很重要。无论该化合物在计算机上的应用前景如何,实际上并未对其进行合成和评估。
2019年8月13日JMC(Journal of Medicinal Chemistry)刊登了一篇文章“Pushing the Boundaries of Molecular Representation for Drug Discovery with the Graph Attention Mechanism”,介绍了一种基于注意力机制的图神经网络模型(Attentive FP)。该模型可以用于分子表征,在多个药物发现相关的数据集上的预测表现达到当前最优,并且该模型所学到的内容具有可解释性。
计算机辅助药物设计方法,例如:对接,药效团搜索,3D数据库搜索以及3D-QSAR模型的创建,需要构象集合来处理小分子的灵活性。Conformator,这是一种基于知识的算法,用于生成构象集合。在测试分子的99.9%的情况下,Conformator凭借其在输入格式,分子几何结构和大环化合物处理方面的鲁棒性而脱颖而出。有了一组扩展的扭转角采样规则,一种用于生成大环构象异构体的新算法以及一种用于构象异构体装配的新聚类算法,Conformator达到了中位数最小均方根偏差(在蛋白质结合的配体构象之间测量)且最多包含250个集合为0.47Å,与排名最高的商业算法OMEGA没有显着差异,并且比包括RDKit DG算法在内的7种免费算法明显更高的准确性。
领取专属 10元无门槛券
手把手带您无忧上云