首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

科研人再也不担心有机物命名不规范了:基于Transformer的开源工具自动起名

研究人员构建了一个基于 Transformer 的神经网络,可以分子从 SMILES(简化分子线性输入规范) 表示转换为 IUPAC 名称,反之亦然。...研究结果表明: SMILES 字符串转换为 IUPAC 名称的 Struct2IUPAC 模型在 PubChem 的测试集上达到了98.9% 的准确率。...训练了两个模型: SMILES 字符串转换为 IUPAC 名称的 Struct2IUPAC 和执行反向转换的IUPAC2Srtuct。...在线可用 新的解决方案已经在 Syntelly 平台上实现,并可在线使用。研究人员希望他们的方法可以用于化学符号之间的转换,以及其他与技术符号相关的任务,例如数学公式的生成软件程序的翻译。...期刊论文里提到:「可以分子从 SMILES 表示转换为 IUPAC 名称,反之亦然。」

1.1K20

GPT模型在化学领域可以做些什么?

化学名预测 表 2 对于一个分子来说,存在不同类型的化学名称,比如SMILES、IUPAC名称和分子式。...为了研究GPT模型是否具有基本的化学名称理解能力,作者构建了4个化学名称预测任务,包括SMILES到IUPAC名称的转换(smiles2iupac)、IUPAC名称到SMILES的转换(iupac2smiles...这表明GPT模型缺乏基本的化学名称理解能力。Davinci-003的准确率明显低于其他模型。...最后,为了评估生成的分子是否有效,使用RDKIT 来检查生成的分子的有效性,并报告有效分子的百分比。结果见表9。...由于化学信息学中的许多任务依赖于SMILES字符串对分子的准确表示,GPT模型在结构转换为SMILES字符串(反之亦然)方面的非竞争性性能影响到反向合成、反应和命名预测等下游任务。

35010
您找到你想要的搜索结果了吗?
是的
没有找到

Elsevier的Greg Landrum访谈 | 成功的开源化学信息软(RDKit)的要素是什么?

许多其他公司也在使用RDKit。...Python社区语言的创造者Guido van Rossum称为 "Benevolent dictator for life"(简称BDFL)。目前,RDKit或多或少地遵循了这种模式。...其他三个开发者分别来自Schrodinger、Novartis和Relay。 RDKit在什么许可证下运行? Greg指出,操作系统许可证是非常重要的,也是有争议的。RDKit使用的是BSD许可证。...Schrodinger和Cresset在计算化学代码中使用RDKitRDKit的目的是用于计算软件,这些公司不需要向GregRDKit社区传达任何信息。此外,还有使用RDKit的已申请专利。...例如,截至2020年10月,在谷歌专利搜索中,有168个结果使用RDKit。 当人们向 RDKit 贡献时,是否有任何知识产权版权? 显然,在某些情况下可能会很棘手。

78950

Brief. Bioinform. | 从直觉到人工智能:药物发现中的小分子表征演变

小分子的数字化表征 在分子表示的演变历程中,最初使用通用名称对分子进行命名,但随着化学领域的发展,1919年IUPAC的成立标志着对化学命名法和术语的规范化。...RDKit是基于C++的流行包,提供Python接口,可计算208个描述符和5个指纹。CDK是用Java开发的另一种软件,可计算275个描述符和9个指纹图谱。...首先,小分子的字符串表示转换为数字表示,通常是整数标记2D二进制独热编码矩阵。使用SMILES字符串来表示小分子在深度神经网络中的能力被证明在捕捉分子图方面具有优势。...(B) 转换器架构,全部由预处理和位置嵌入步骤组成,然后是多个顺序编码器和/解码器模块。上图:序列到序列的原始 BART 样式的 Transformer,其中编码器输出可以聚合为学习嵌入表示。...在化学文献等领域,这些模型提取信息的能力尤为有趣。然而,它们在处理化学问题时可能存在准确性不足的问题,例如对分子结构和IUPAC名称的处理。

25410

RDKit相关文章汇总

RDKit简介: ---- RDKit在2000-2006年期间在Rational Discovery开发和使用,用于构建吸收、分布、代谢、代谢、毒性和生物活性的预测模型。...子结构搜索; 标准SMILES; 手性支持;化学转化;化学反应;分子序列化;相似性/多样性选择;二维药效团;分层子图/片段分析; Bemis和Murcko骨架;逆合成组合分析程序(RECAP); 多分子最大共同亚结构...描述符计算及可视化: RDKit toolkit实战:描述符计算及可视化 RDKit分子间RMSD计算: RDKit:计算不同分子构象之间的RMSD RDKit:计算不同小分子构象之间的RMSD...RMSD:通过旋转计算两个分子间的最小rmsd RDKit分子格式转换sdfsmiles: 基于RDKitPython脚本:SDF格式SMILES格式 RDKit小分子聚类: 聚类小分子数据集...(基于RDKitPython脚本) RDKit形状相似性: RDKit:运用RDKit计算USRCAT(形状相似性) RDKit化合物骨架分析: RDKit:化合物骨架分析 基于RDKit的QSAR

54140

Nucleic Acids Research | PROTAC-DB:PROTACs在线数据库

PROTAC-DB可以通过两种常用的搜索方法进行查询:基于文本的(靶点名称、化合物名称ID)和基于结构的。 ?...使用RDKIT工具包(http://www.rdkit.org)和ALOGPS计算了与类药物相关的10个重要理化性质,包括分子量、精确质量、分配系数(LogP)、水溶性(Log)、重原子计数、环计数、氢键受体计数...基于文本的搜索是在整个PROTAC-DB中进行搜索的一种简单方式,只需输入单个术语,如目标名称、化合物名称ID。...可视化和过滤数据表中的结果 查询浏览结果显示为数据表,包含2D结构和其他信息,如化合物ID、目标蛋白质和生物活性(图2)。点击该结构的图像可以获得放大的图像。...Representation:包含IUPAC名称、InChI、InChI键、正则化SMILES和分子式。

2.5K41

SMILES & InChI | 化学结构的线性表示法

Simplified Molecular Input Line Entry System: SMILES SMILES表示法规则 SMILES标记根据某些规则将化学结构转换为字符串: 原子由各自原子符号表示...为此,发现该化合物应该有一个与该化合物名称IUPAC名称相对应的SMILES标记。这种SMIELS表示法称为“ Canonical SMILES ”。...当使用Daylight软件时,会生成相同的SMILES,但是其他开源软件使用独特的算法,即使使用相同的化合物也可以获得不同的SMILES。...SMARTS中增加的一点是,它允许使用通配符表示原子和化学键。因此,它在化合物数据库中广泛用于结构的计算机化搜索。...由于每种化合物都具有不同的InChI,因此可以认为它与化合物名称IUPAC名称相似。如前所述,与Canonical SMILES的不同之处在于生成算法是非盈利性的,可以自由使用

3K70

J. Chem. Inf. Model. | 基于Transformer的分子生成模型用于抗病毒药物设计

相反地,我们构建了基于规则的IUPAC标记化器,其中IUPAC名称中的标记类似于众所周知的功能团和基团。 图1....为了获得这些属性值标记,我们属性值的分布离散化为三个区间。第二点是最大似然目标的输出作为IUPAC嵌入表示获取。...首先,TransAntivirus利用属性控制的Transformer模型以及预训练和微调的训练模式来学习IUPAC名称的内部关系。...图2 使用TransAntivirus模型进行虚拟筛选和分子设计的分子化学空间的高效增强采样 结果与讨论 模型性能比较 表1....融合更多维度的数据,满足更多目标的要求对于开发这样的AI模型至关重要;例如,可以化学习方法与TransAntivirus相结合,使用基于提示的方法进行微调。

42450

开源化学信息学工具包(Open Access Cheminformatics Toolkits)

Open Babel 官网:http://openbabel.org/wiki/Main_Page Open Babel是一款开源自由软件,使用Open Babel可以一种化学结构类型的文件格式转换成另一种文件格式...Cinfony 官网:http://cinfony.github.io/index.html Cinfony是一个Python模块,它通过一种简单而强大的方法为Open Babel、RDKit和CDK提供了一个通用接口...它是Pybel的扩展,Pybel是一个只提供Open Babel访问权限的Python模块。它允许在应用程序编程接口(API)级别的互操作性,其优点是不需要对现有软件进行任何更改。...Indigo是一个基于C ++语言的库,主要关注性能和基本化学特性。 围绕Python,Java和C#语言构建高级包装器绑定。 这个库也允许多线程使用。...最近的增加还包括快速和高效的指纹搜索,支持使用原子对PubChem指纹,并通过新的SMIset对象类和SMILES导入/导出功能改进SMILES支持。

2K31

生物信息中的Python 02 | 用biopython解析序列

上一篇文章生物信息中的Python 01 | 从零开始处理基因序列自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是...接下来我们试着使用它来实现简单的序列处理。 一、准备工作 1、 按照上一篇下载fasta文件的步骤,可以同理得到GeneBank的数据格式 ?...IUPAC (International Union of Pure and Applied Chemistry ) 是一个制定化学相关标准的组织,Biopython 所使用的编码表就是由它制定的,想了解详细细节可以参考...http://www.bioinformatics.org/sms2/iupac.html ,详细定义如下: 名称 编码表 ambiguous_dna_letters GATCRYWSMKHBVDN unambiguous_dna_letters...GC含量愈高,DNA的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行DNA的分离测定。

1.7K10

JCIM|VenomPred2.0:基于AI的药物分子毒性预测工具

Morgan和RDKit的FPs是使用RDKit python库生成的,而PubChem的FPs是使用PyBioMedpython模块计算的。...特别地,网格搜索交叉验证包括训练集划分为几个子集折叠,并在这些折叠的不同组合上迭代地训练和评估模型。...可靠性 对在开发VenomPred中生成的模型进行了性能分析,观察到基于PubChem、RDKit和Morgan指纹的机器学习模型在统计上表现优于使用LINGO和Pharm2D指纹的其他模型。...、RDKit和Morgan指纹的模型的平均性能似乎明显高于其他模型。...这种小分子可以自发聚合使用催化剂(如紫外光),形成非常耐用的聚合物。丙烯酸单体是强力的致敏化学品,会引起接触性皮炎。

24410

RDKit | 通过评估合成难度筛选化合物

在这种情况下,如果优先考虑其他指标(例如活性)并在最后考虑“合成的难易程度”,则倾向于选择具有相似化学型和骨架的化合物。为了防止这种情况,期望从筛选的初期就通过均等地处理“合成可及性”来评价化合物。...经验丰富的合成化学家可以通过查看化合物的结构来确定合成的难度,但是它不能解决数百万种化合物的筛选问题。因此,有必要使用计算机来评估“合成的容易性”。...值标准化为1(简单)到10(困难)。...---- 导入库 from rdkit import rdBase, Chem from rdkit.Chem import AllChem, Draw, PandasTools from rdkit.Chem.Draw...smiles转换为RDKit 的Mol对象 PandasTools.AddMoleculeColumnToFrame(frame=df, smilesCol='smiles') df.head() ?

1.2K40

BIB |基于分而治之的分子图片识别深度学习框架

该文章基于分而治之的思想提出把分子识别问题转换为其组成元素的识别,包括分子键线与原子字符标识,然后使用关键点识别技术进行相关元素的识别并重新组装恢复分子结构。...基于分而治之的原则,作者提出原子键建模为中心的单个点。通过这种方式,作者可以利用全卷积神经网络生成一系列热图来识别这些点并预测相关属性,例如原子类型、原子电荷、键类型和其他属性。...幸运的是,两个不同的化学信息学库(RDKit和Indigo)提供了一些API,可在绘制分子图期间进行自动标注。因此,作者开发了一个Python程序,可以在绘图时自动记录所需的标注信息。...然后RDKit图像数据集和Indigo图像数据集以8:1:1的比例分成三组(训练、验证和测试)。此外,作者还通过RDkit和Indigo数据集组合在一起构建了一个混合数据集。...为了训练模型,作者使用了两个开源 Python 库(RDKit 和 Indigo)来绘制分子图像并在绘图过程中对这些图像进行注释。

77520

RDKit | 基于不同描述符和指纹的机器学习模型预测logP

但是,该数据库中的大多数化合物并不高度代表药物样化学空间。不幸的是,当前缺乏可用于训练更好的预测工具的公开可用的实验log P数据集。...到目前为止,用于log P预测的许多可用工具都基于物理描述符,例如原子类型计数极性表面积拓扑描述符。...SMILES转换为RDKit的Mol对象 data_logp['molecules'] = data_logp.SMILES.apply(Chem.MolFromSmiles)data_logp.head...因此,首先尝试使用上面生成的RDKit物理描述符训练我们自己的简单logP模型。...描述符与scikit-learn的默认随机森林配合使用,可以使获得比RDKit log P预测值更高的R2和MSE性能。但是,这很可能是由于使用的训练集与他们用来开发模型的训练集之间的差异。

3.8K30

Nat. Mach. Intell. | 利用条件循环神经网络生成特定性质分子

由于分子线性输入规范(SMILES)可将分子以字符串形式表达,有一部分自回归式生成模型利用循环神经网络对SMILES表达式进行序列建模和预训练,以生成满足基本物化性质的分子,随后结合迁移学习化学习技术生成分子引导至具有目标属性的化学空间...此外,有研究人员目标分子的化学性质和图结构进行编码,作为条件变分自编码器和条件对抗生成网络的输入条件,生成对应分子。...图1 基于不同条件的条件循环神经网络 (A)基于物理化学性质的模型(PCB)接受由RDKIT Python库计算的六个分子描述符与由QSAR预测的具有生物活性的概率。...输入条件向量后,首先使用具有六层全连接层,每层256个神经元,以ReLU为激活函数的神经网络条件向量转换为循环神经网络中每层网络的hidden statecell state。...两个基准模型与条件循环神经网络具有相同的网络结构,且网络的hidden statecell state置零。 3.2 数据集的负对数似然分布 ?

59751
领券