首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

pysmiles:一个用于读写SMILES表达式的python库

技术背景 SMILES表达式是化学里面常用的用于标定元素之间关系的字符串,旨在用最简短的语句来完整的表达一个分子体系内所蕴含的基本信息,比如元素、连接性以及连接属性等。...由于SMILES表达式的定义种类太多,需要完整介绍的可以阅读这篇博客或者是opensmiles的官方网站。...这里我们简单介绍几种常见的情况: 在SMILES表达式中,往往会去掉 H 元素,比如甲烷 CH_4 用SMILES表达式来表达的话就是 C ; 双键用 = 来表示,比如 C(=O)=O 表示一个二氧化碳...import networkx as nx import matplotlib.pyplot as plt smiles = 'N#CC#N' # 给定的SMILES表达式 mol = read_smiles...总结概要 本文介绍了一款基于python语言的SMILES化学表达式的读写SDK,使用openSMILES表达式所定义的分子结构是非常精简的,但是其中的规则又非常的多,因此使用一款友好的SMILES表达式能够大大的缩减解析的成本

2K30

. | 基于SMILES的利用骨架的分子生成模型

作者认为这种基于SMILES的生成模型将成为对已经存在的基于SMILES的体系结构的有用补充,并且可以替代基于图的装饰方法。...在这些模型中,常用两种方式来表示分子数据,一类是利用SMILES字符串,一类是利用分子图。...基于SMILES字符串的模型因为SMILES字符串的简单结构可以使得模型更快的进行训练,并且2019年Josep Arús‑Pous等人提出的在分子生成模型中引入Randomized SMILES可以大大改善生成结果...半装饰分子的随机SMILES表示在每个步骤都会改变,因此会移动SMILES字符串中连接点的相对位置。这个过程允许在装饰带有n个连接点的分子时考虑所有可能的排序。...5 总结 作者提出了一种新的基于SMILES的分子生成模型,该模型可以从骨架生成分子。

1K40

J.Cheminform| MACCS密钥:在逆合成预测中弥补SMILES的局限性

分子结构的SMILES表示是基于序列到序列模型的典型输入。然而,以前报告的模型都没有关注子结构、片段、级别上的翻译。...他们还用RDKit删除了780个由于SMILES标准化失败的反应。数据固有的局限性是绝大多数的条目都是单个产品的反应。因此,本研究只使用了对应92%数据集的单个产品案例。...SMILES符号用字母、数字和符号组成的线性序列表示分子结构。因此,从语言学的角度来看,SMILES是一种具有语法规范的语言。...在基于SMILES的方法中,网络不仅要理解SMILES的复杂语法,而且要理解规范表示,才能综合预测正确的序列。SMILES符号语法结构学习的困难可能会导致出现问题的结果,如无效的SMILES字符串。...根据设计,模型预测的是MACCS密钥表示,而不是SMILES字符串。将预测的结构指纹序列转换为有效分子需要一个字典来查找匹配指纹的候选反应物。

1.4K10

Briefings in Bioinformatics | 基于SMILES的药物分子表征深度模型和数据增强策略研究

在模型方面使用双向LSTM模型以及多步注意力策略提高从SMILES表征中抽取隐含特征的能力。...这极大的限制了基于SMILES的深度神经网络模型的学习与预测能力,导致基于SMILES的模型无法达到传统模型以及基于分子图的模型的效果。...在数据层面,作者使用SMILES 枚举策略增加扩增训练样本数量以及多样性(图1)。 图1....分子SMILES表征通常由分子图通过深度优先搜索展开得到,由于起始点以及方向的不同,同一分子通常有多种SMILES分子格式。...进一步的,作者把SMILES枚举策略应用到测试阶段,通过对化学分子生成多种形式SMILES进行预测并融合预测结果以获得最终预测。测试增强策略有助于纠正预测偏差并提供更可靠的预测。

2.6K41

|Root-aligned SMILES:为化学反应预测而设计的一种紧凑表示

由于SMILES是由深度优先遍历而生成的,所以一个分子往往可以通过枚举的方式,来获得多个有效的SMILES表示形式,称之为randomized SMILES。...SMILES之间的关系。...如图1所示,与前人使用的randomized SMILES和 canonical SMILES不同,本研究提出的Root-aligned SMILES(R-SMILES),通过将输入和输出的根原子进行对齐的方式...R-SMILES 在逆向反应的P2R阶段中,获得R-SMILES的流程如表1所示,其中包含以下主要步骤:(1)随机挑选一个带有原子映射的反应SMILES作为原始数据;(2)在生成物SMILES中随机挑选一个原子作为根原子...(5)从左往右遍历新的生成物SMILES的原子映射,如果该原子映射在某一个反应物分子的SMILES中出现,那么这个原子映射就作为该反应物SMILES的根原子。

68420

Research | 使用无监督学习、多任务学习的分子性质预测新方法

同时,在预训练、微调和测试阶段将SMILES枚举用作数据增强策略,以大幅增加数据多样性并帮助从复杂的SMILES字符串中学习关键相关模式。...因此,每个训练样本都可以通过不同数量的SMILES表示进行扩展,以增加数据多样性并帮助学习隐藏在SMILES字符串的复杂语法中的关键相关模式。...然后,这些SMILES字符串被标记化并进一步随机屏蔽以进行预训练预测。SMILES增强策略可以显着增加数据多样性并有效地从SMILES字符串中学习语义信息。...然后,这些数据集通过随机SMILES枚举增加了20倍。在预测阶段,本文对来自同一分子的枚举SMILES进行所有预测的融合操作,以获得最终预测。...SMILES枚举作为一种有效的数据增强策略,可以显着增加训练数据的多样性,并有助于关注更重要的特征,这些特征可以用于预训练和微调以从 SMILES 字符串中提取关键相关特征。

77230

GPT模型在化学领域可以做些什么?

为了研究GPT模型是否具有基本的化学名称理解能力,作者构建了4个化学名称预测任务,包括SMILES到IUPAC名称的转换(smiles2iupac)、IUPAC名称到SMILES的转换(iupac2smiles...)、SMILES到分子式的转换(smiles2formula)和分子式到SMILES的转换(formula2smiles)。...在所有四个名称预测任务中,最佳方法的准确率非常低(iupac2smiles任务为0.014,smiles2formula任务为0.086),甚至为0(smiles2iupac和formula2smiles...然而,有几个问题使得LLM难以准确理解和解释SMILES字符串:1)氢原子在SMILES字符串中没有明确表示,因为它们可以根据标准的键合规则进行推断。...第一种类型发生在输入以SMILES格式给出的情况下(例如,名称预测);GPT模型偶尔会在正确解释这些SMILES时遇到困难。

31510

Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

随机在ZINC 数据库中抽取1,000 到 500,000 个 SMILES 字符串样本来训练模型,每个训练模型中采样 500,000 个 SMILES(图 1c)。...数据增强对 CLM 的矛盾影响 按照惯例,每个化学结构都有一个单一的、“规范的” SMILES 表示。然而,通过改变分子中原子的遍历顺序,也可以列举数百个“非规范”SMILES 表示(图 4h)。...非规范 SMILES 的枚举已被用于通过训练序列到序列模型来学习化学结构的连续表示,并且最新研究表明 SMILES 枚举可以提高生成模型的质量。...作者测试了 SMILES 枚举是否可以减少学习 CLM 所需的训练示例数量(图 4h)。在枚举 SMILES 上训练的模型以显着更高的速率生成有效分子,尤其是在最小的训练数据集中(图 4i)。...量化SMILES 枚举的性能影响发现(图 4l、m),在结构化的大型数据集中存在“过度枚举”的可能性,反映了SMILES 枚举的矛盾影响。

68620

Knowledge-based BERT: 像计算化学家一样提取分子特征的方法

与主流的基于描述符和图的分子特性预测方法相比,基于 SMILES 的方法无需人类专家知识即可直接从 SMILES 中提取分子特征,但它们需要更强大的特征提取算法和更大量的数据进行训练,这使得基于 SMILES...SMILES形式。...使用RDKit 计算 CHEMBL 中每个分子的一个canonical SMILES和4个随机生成的 SMILES,用于预训练任务3。...Data augmentation: 每个分子的SMILES,通过rdkit随机扩充到5个不同的SMILES。在训练集中,每个SMILES都被当做是单独(不同的)分子。...对比学习任务能够让模型更好的“理解”SMILES 作者比较了同一分子不同SMILES通过模型生成的embedding的平均Tanimoto相似度。

72831

药物发现中的分子设计:深度生成模型的全面回顾

SMILES形式的分子示例如图中A所示,从分子结构到文本的转换使得SMILES易于被计算机处理,易于用于训练机器学习模型。...SMILES既有优点,也有缺点:(1)SMILES未能捕捉到分子结构的相似性,两个相似结构之间的微小变化可能会导致SMILES字符串有很大不同,这导致从生成模型中学习到的潜在空间不平滑。...(2)SMILES 字符串是非唯一的,一个分子可以编码成多个SMILES表示。这些问题在目前的工作中或多或少都得到了解决。...SMILES。...值得注意的是,尽管近年来基于SMILES的模型激增 ,仍然面临有效性问题,而且SMILES的非结构化性质使得两个相似的分子极有可能完全不同。

2.9K31

Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型

分子的SMILES表示方式是模棱两可的(虽然存在标准化过程),但已有研究证明,在训练和推理过程中使用一批随机(扩增)SMILES可以提高模型精度。...N>1,除了一个规范的SMILES之外,还包含(N-1)个相同反应的实例,这些实例是扩增产物的SMILES(输入数据)。反应物和反应物的SMILES是标准的。...xNR:产物为标准SMILES,对于反应物/试剂,只选择了一个可能的扩增SMILES。...xNF:每个反应的第一个实例都包含标准的SMILES,而其他(N-1)个实例则针对输入(产物)和输出(反应物和试剂)数据进行了扩增。输出数据中SMILES的顺序没有改变。...因此,最频繁出现的SMILES的频率可以表明Transfromer在预测中的置信度。

73720
领券