SMILES - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Chem. Sci.｜Root-aligned SMILES：为化学反应预测而设计的一种紧凑表示

本文介绍一篇来自浙江大学宋明黎教授课题组和侯廷军教授课题组联合发表的一篇文章。该文章提出了一种用于化学反应预测的紧凑的分子字符串表示。该方法基于分子的SMILES字符串表示和Transformer语言翻译模型，通过在预处理阶段对训练集中的输入输出字符串进行对齐操作，来约束输入与输出之间的编辑距离并保证两者的一一对应关系。这使得模型能从学习复杂的SMILES语法中解脱出来，而专注于学习与化学反应相关的化学知识。

02

SMILES & InChI | 化学结构的线性表示法

可以将一个分子视为一个以原子为节点，结合为边的图。图形可以表示一个原子如何连接到另一个原子。如果已知原子之间的键数，则可以在以后添加氢原子，因此在计算机上表示分子时通常会省略氢原子。

07

您找到你想要的搜索结果了吗？

是的

没有找到

RDKit | 基于RDKit和SMARTS的化学反应处理

SMILES (Simplified Molecular Input Line Entry System)是一种分子描述语言，由Daylight C.I.S.的创始人 Dr. David Weininger 博士发明。它简单，易于理解，且广泛使用的分子描述方法。

04

Research | 使用无监督学习、多任务学习的分子性质预测新方法

2022年12月15日，中南大学湘雅药学院曹东升团队，国防科技大学吴诚堃团队，浙江大学侯廷军团队以及湖南大学曾湘祥教授团队合作在Research期刊上发表论文“Pushing the Boundaries of Molecular Property Prediction for Drug Discovery with Multitask Learning BERT Enhanced by SMILES Enumeration”。

03

Nat Commun｜通过单一基础模型双向生成分子的结构和特性

2024年3月14日，韩国科学技术院Jinho Chang等人在Nature Communications上发表文章Bidirectional generation of structure and properties through a single molecular foundation model。

01

GPT模型在化学领域可以做些什么？

今天为大家介绍的是来自Xiangliang Zhang团队的一篇关于GPT能力讨论的论文。大型语言模型（LLMs）在自然语言处理任务中具有强大的能力，并迅速应用于科学、金融和软件工程等各种领域。然而，LLMs在推动化学领域的能力尚不清楚。作者建立了一个包含8个实际化学任务的全面基准，包括1）名称预测，2）属性预测，3）收率预测，4）反应预测，5）逆合成（从产物预测反应物），6）基于文本的分子设计，7）分子描述，和8）试剂选择。我们的分析基于广泛认可的数据集，包括BBBP、Tox21、PubChem、USPTO和ChEBI，有助于在实际化学背景下广泛探索LLMs的能力。作者评估了三个GPT模型（GPT-4、GPT-3.5和Davinci-003）在每个化学任务中以零样本和少样本上下文学习设置下的性能。作者的研究的主要结果是：1）在三个评估模型中，GPT-4的性能优于其他两个模型；2）在需要精确理解分子SMILES表示的任务（如反应预测和逆合成）中，GPT模型表现出较弱的竞争性能；3）GPT模型在与文本相关的解释任务（如分子描述）中展示出强大的能力；4）在可转化为分类或排序任务的化学问题（如属性预测和收率预测）中，GPT模型展现出与经典机器学习模型相当或更好的性能。

01

Transformer-CNN：用于 QSAR 建模和解释的先进工具

今天给大家介绍的是Journal of Cheminformatics上的文章 " Transformer-CNN: Swiss knife for QSAR modeling and interpretation"

02

pysmiles：一个用于读写SMILES表达式的python库

SMILES表达式是化学里面常用的用于标定元素之间关系的字符串，旨在用最简短的语句来完整的表达一个分子体系内所蕴含的基本信息，比如元素、连接性以及连接属性等。由于SMILES表达式的定义种类太多，需要完整介绍的可以阅读这篇博客或者是opensmiles的官方网站。这里我们简单介绍几种常见的情况：

03

Knowledge-based BERT: 像计算化学家一样提取分子特征的方法

今天介绍一篇浙江大学智能创新药物研究院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子计算实验室联合在Briefings in Bioinformatics发表的一篇论文“Knowledge-based BERT: a method to extract molecular features like computational chemists”。本文提出了一种新的预训练策略，通过学习由计算化学家预定义的分子特征和原子特征，使得模型能够像计算化学家一样从SMILES中提取分子特征。K-BERT在多个成药性数据集上表现了优异的预测能力。此外，由K-BERT 生成的通用指纹 K-BERT-FP 在 15个药物数据集上表现出与 MACCS 相当的预测能力。并且通过进一步预训练，K-BERT-FP还可以学习到传统二进制指纹（如MACCS和ECFP4）无法表征的分子大小和手性信息。

03

Briefings in Bioinformatics | 基于SMILES的药物分子表征深度模型和数据增强策略研究

今天给大家介绍国防科技大学吴诚堃副研究员、博士生张小琛、中南大学曹东升教授以及浙江大学侯廷军教授等人联合发表在Briefing in Bioinformatics上的一篇文章。作者利用深度模型，从分子的SMILES表示中学习面向分子性质预测的特征，从模型以及数据两个方面提出优化策略以提高预测能力。在模型方面使用双向LSTM模型以及多步注意力策略提高从SMILES表征中抽取隐含特征的能力。在数据方面，文章在训练阶段使用SMILES枚举策略增加数据的多样性并提高模型的泛化能力，同时预测阶段采用枚举平均的策略提高预测的准确性和稳定性。实验结果表明，文章所提出的方法能够显著提升模型预测性能，使得基于SMILES表征的分子性质预测模型在11个常用评测集合上（包括分类和回归两类任务）达到或超过SOTA水平。

04

R语言实现分子信息获取

同时其提供了相对应的JAVA接口供各用户使用。今天就给大家介绍下在R语言中是如何利用其接口进行相应的化合物数据获取的。

02

Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章。该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型。发现该模型可以从更少的例子中学习到健壮的模型。同时，本文还确定了低数据下，得到等学习效果和等质量模型的策略；特别是通过枚举非规范SMILES进行数据增强，并通过学习细菌、植物和真菌代谢组模型来证明这些策略的可用性。并且，本文还对评估生成模型的指标进行了基准测试，发现该领域中许多最广泛使用的指标未能捕获模型质量，同时确定了一些表现良好的指标。

02

利用大型语言模型在药物分子与适应症之间进行翻译

今天为大家介绍的是来自Yanshan Wang团队的一篇论文。药物分子够改变生物体精神或身体状态。每种被批准的药物都有一个适应症，这指的是该药物用于治疗特定医疗条件的治疗用途。尽管大型语言模型（LLM）最近在将分子及其文本描述之间进行翻译方面显示出了有效性，但在利用这些模型帮助实现药物分子与适应症之间，或反之亦然的翻译方面，研究仍存在空白。这种能力对药物发现过程大有裨益，能够根据给定的适应症生成药物，这将允许发现针对特定疾病或靶点的药物，并最终为患者提供更好的治疗方案。

01

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型

今天给大家介绍的是瑞典制药公司阿斯利康，伯尔尼大学和广州再生医学与健康中心广东省实验室于2020年2月4日联合发表在Journal of Cheminformatics的一篇论文，这篇文章提出了一种新的基于SMILES的分子生成模型，该模型可从骨架中生成分子，并且可以从任意分子集中进行训练。作者认为这种基于SMILES的生成模型将成为对已经存在的基于SMILES的体系结构的有用补充，并且可以替代基于图的装饰方法。

04

R语言之分子指纹(1)计算分子指纹及批量保存sdf格式

用DS2019读取这些sdf文件后，全部visible，然后保存为sdf格式，即可将所有小分子保存到一个sdf文件中。

02

药物发现中的分子设计：深度生成模型的全面回顾

今天给大家介绍湖南大学刘元盛老师团队发表在Briefings in Bioinformatics 2021上的一篇文章“Molecular design in drug discovery: a comprehensive review of deep generative models”。文章回顾了深度生成模型，并根据计算机中的分子表征将这些模型分为两类，详细分析这两种经典类型的模型并讨论其优缺点，同时还指出了de novo分子设计的深度生成模型当前面临的挑战。

03

RDKit | 基于化合物结构式图像估算分子式

当通过深度学习输入有机物质中结构式的二维图像时，需要解决寻找分子式的问题。这是一个回归问题，需要计算结构式图像中包含的碳、氢、氧和氮等原子数。

05

Nat Commun｜增强的用于直接合成和单步逆合成的NLP的Transfermer模型

今天给大家介绍的是NATURE COMMUNICATIONS上有关数据增强的文章"State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis"

02

JCIM丨像素卷积神经网络引导的化学空间探索用于基于片段的从头药物发现

2022年12月1日，来自日本东京大学的学者在Journal of Chemical Information and Modeling上发表论文“Exploration of Chemical Space Guided by PixelCNN for Fragment-Based De Novo Drug Discovery”。论文中，作者提出了像素卷积神经网络PixelCNN，将SMILES字符串转换为2维矩阵数据，应用掩蔽神经网络层建立模型。作者对PixelCNN的性能进行了多方面的分析，并将其与RNN在生成期望性质的分子方面和基于片段生长优化的化学空间探索方面进行了详尽的比较。

01

J Cheminform｜基于Swin Transformer的端到端光学化学结构识别

2022年7月1日，来自华东理工大学的李洪林等人在Journal of Cheminfomatics上发表文章，提出了SwinOCSR，这是一种基于Swin Transformer的端到端模型。该模型使用Swin Transformer作为骨干来提取图像，以将化学结构信息从出版物转换为SMILES。实验结果表明，模型明显优于所比较的方法，证明了模型的有效性。此外，作者使用focal loss来解决化学结构图的文本表示中的标签不平衡问题。

03

ChemRxiv｜阿斯利康REINVENT4：现代AI驱动的分子设计

2023年11月6日，来自阿斯利康（瑞典）的Hannes Loeffler等人在ChemRxiv发表文章REINVENT4: Modern AI–Driven Generative Molecule Design。

01

利宾斯基规则筛选小分子

#======================================================= #======================================================= rm(list=ls()) library(ChemmineR) library(BioMedR) dt <- data.frame(name=c(1:1604), smie =c(1:1604)) sdfset <- read.SDFset("drug_fda.sdf")

02

IEEE｜具有混合状态的强化分子生成

今天给大家介绍的是悉尼大学的Fangzhou Shi等人在2019年IEEE上发表的会议论文“Reinforced Molecule Generation with Heterogeneous States”。近年来，基于强化学习的方法利用图来表示并生成分子。然而，分子图表示可能忽略了分子的内在上下文信息，并相应地限制了生成性能。在本文中，作者提出用SMILES上下文向量来增强原始图的状态。SMILES表示很容易被简单的语言模型处理，这样就可以提取分子的一般语义特征；图表示在处理每个原子的拓扑关系方面表现得更好。此外，作者还提出了一个结合监督学习和强化学习算法的框架，以更好地考虑分子的这两种状态表示，它可以融合来自两者的信息，并提取更全面的特征，从而使策略网络能够做出更复杂的决策。模型还引入了两种注意机制，即动作注意和图注意，以进一步提高性能。作者在数据集ZINC上进行了实验，实验结果表明，此框架在分子生成和化学性质优化的学习性能方面优于其他基线方法。

01

DIT | 简化分子线性输入规范SMILE

简化分子线性输入规范（SMILES）是一种用ASCII字符串明确描述分子结构的规范。

02

Nat. Mach. Intell. | 利用条件循环神经网络生成特定性质分子

今天给大家介绍瑞士知名药企阿斯利康和伯尔尼大学的 Esben Jannik Bjerrum团队在Nature Machine Intelligence上的一篇论文。该研究提出基于分子SMILES表示的条件循环神经网络，输入目标性质，模型可直接生成具有对应性质的分子。

05

开源化学信息学库：ScaffoldGraph

ScaffoldGraph是一个开放源代码化学信息库，使用RDKit和NetworkX构建，用于生成和分析骨架网络和支架树。

04

Chem Eng J | 一种独特的基于Transformer模型的单步逆合成预测方法

2021年9月15日，Chemical Engineering Journal杂志发表了兰州大学姚小军课题组和腾讯量子实验室谢昌谕博士等人合作的研究文章，该文章提出一种基于Transformer模型的新方法RetroPrime，用于同时解决基于Transformer模型的方法在逆合成预测中反应多样性不足和化学上不合理输出的问题。

03

R语言中的分子描述的计算

学习药化的同志们应该都了解化合物分子的特征描述有很多计算软件，今天我们来给大家展示下在R语言中如何实现分子特征描述的计算。主要以MACCS分子指纹的实现作为案例。

02

Mol Inform｜基于生成对抗网络的从头分子设计

2021年7月6日，Molecular Informatics杂志发表文章，介绍了一种利用生成对抗网络从头设计分子的方法。

02

Sci. China Life Sci. | 生物医药文献中化学信息的自动提取系统

不用chemdraw画分子，截图即刻识别；支持复杂天然产物的识别；可抵抗低分辨率、扭曲变形、无关字符、彩色背景等干扰；支持pdf批量自动定位自动识别

02

JCIM| 基于双向RNN的分子生成模型

今天给大家介绍的是被誉为“欧陆第一名校”苏黎世联邦理工学院（ETH Zurich）化学与应用生物科学系博士生Francesca Grisoni和制药行业顾问Gisbert Schneider教授于2020年6月发表在Journal of Chemical Information and Modeling的一篇论文，作者受双向RNN和SMILES本身的结构特性启发，提出一种可用于SMILES生成和数据增强的新的双向RNN分子生成模型——BIMODAL。该模型通过交替学习进行双向分子设计，并且该模型与其他双向RNN,单向RNN模型对比，在分子新颖性，骨架多样性和生成分子的化学生物相关性方面表明了基于SMILES的分子de novo设计双向方法是可取的，并显示了优越的实验结果。

04

AI大模型助力智能化药物递送研发

近日，「德睿智药」与帝国理工学院联合发布了基于AI大语言模型的光响应分子生成技术框架UVGPT，验证了将AI大语言模型应用于智能药物递送领域的可行性，有望加速新型光响应分子设计与研究应用。该论文以“A Smart Strategy for Photoresponsive Molecules: Utilizing Generative Pre-trained Transformer and TDDFT Calculations in Drug Delivery”为题在ChemRxiv上预发表。

01

使用python爬取pubchem药物分子数据

所以 sid cid 和aid其实都是一些化合物的id，我们可以通过请求这个id来获得与其对应的属性：

01

基于机器学习的化合物活性预测模型

利用化合物的结构与活性数据，基于RDKit和Python3的机器学习活性预测模型小示例。

03

GraphDTA | 基于图卷积网络预测药物-靶标结合亲和力

现有的高通量筛选实验用于确定药物和靶标之间的生物活性是一个昂贵费时的步骤。因此，基于已经在临床实验中测量的相互作用，使用统计学和机器学习模型来估计新的药物-靶标的相互作用的强度是重要的替代方案。澳大利亚Deakin大学的Svetha Venkatesh课题组提出了GraphDTA，一种基于图神经网络的药物-靶标结合亲和力的预测方法。

04

Nat Commun｜Transformer在识别分子手性时存在困难，如何解决

近年来，分子表征学习方法进展迅速，尤其是那些将自然语言处理模型应用于SMILES的技术。然而，关于这些模型如何理解化学结构的研究却很少。

01

Nat. Methods | MSNovelist:从质谱生成小分子结构的新方法

今天给大家介绍来自苏黎世联邦理工学院和耶拿弗里德里希-席勒-耶拿大学团队发表在Nature Methods上的文章，文章提出了一种基于encoder-decoder神经网络的从质谱生成小分子结构的新方法：MSNovelist，它首先使用SIRIUS和CSI：FingerID来分别从质谱中预测出分子的指纹和表达式，然后将其输入到一个基于encoder-decoder的RNN模型来生成分子的SMILES。作者使用来自Global Natural Product Social Molecular Networking网站上的3863个质谱数据集进行评估，MSNovelist重现出了61%的分子结构，这些重现的分子结构都是未在训练集中见过的；并且使用CASMI2016数据集进行了评估，MSNovelist重现了64%的分子结构。最后，本文将MSNovelist应用在苔藓植物质谱数据集上进行验证，结果表明MSNovelist非常适合在分析物类别和新化合物表现不佳的情况下注释质谱对应的分子。

03

科研人再也不担心有机物命名不规范了：基于Transformer的开源工具自动起名

作者/凯霞「有机化合物怎么命名啊？」、「有机化合物命名规则是什么？」、「这个药物的有效成分叫什么？」、「有没有查找有机化合物命名的软件或程序？」、「某某命名软件还花钱。」、「某软件命名不准确。」...... 注：部分来自知乎问题。总之，有机化合物命名太难、规则太繁琐、还没有开源软件...... AI 发展「风生水起」，能否解决以上问题？现在，来自莫斯科罗蒙诺索夫国立大学和 Syntelly 初创公司的研究人员开发了一种基于 Transformer 的人工神经方法，可根据 IUPAC 命名系统生成

02

Nat. Mach. Intell. | 少量数据的生成式分子设计

今天介绍苏黎世联邦理工大学Gisbert Schneider团队在nature machine intelligence 2020上发表的论文，该论文利用分子语言模型，结合三种优化方法，可以用少量分子作为数据集训练出一个分子生成模型。

07

MG-BERT:利用无监督原子表示学习来预测分子性质

今天给大家介绍一篇来自浙江大学侯廷军教授课题组和中南大学曹东升教授课题组合作发表在2021年5月份发表在Briefings in Bioinformatics上的一篇文章《MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction》。本文使用了无监督原子表达学习来进行分子的性质预测。

05

Rdkit与Pandas连用处理CSV文件

文件名structure_links.csv，CSV格式，逗号分割，下载自drugbank

02

J. Chem. Inf. Model. | 一种综合遗传/深度学习算法用于多目标定向的分子设计

今天为大家介绍的是来自Giuseppe Felice Mangiatordi团队的一篇论文。此项研究引入了一种名为"GENERA"的全新设计算法，它将自动药物类似物设计的深度学习算法"DeLA-Drug"的能力与生成具有目标定向性质分子的遗传算法相结合。GENERA被应用于血管紧张素转化酶2（ACE2）靶点，该靶点与许多病理条件（包括COVID-19）有关。通过两个分子对接程序，PLANTS和GLIDE，评估了GENERA在为特定靶点全新设计有前景的候选分子的能力。

04

chemfig化学式转换为pdf

针对化学分子结构，可以用SMILES （用ASCII字符串明确描述分子结构的规范）来定义。

01

DGL | 基于JTNN可视化给定分子的邻居分子

JTNN ：Junction Tree Variational Autoencoder for Molecular Graph Generation

05

王理团队开发大规模小分子预训练方法“S2DV”用于抗HBV药物研发

近日，由南通大学信息科学技术学院、南通大学智能信息技术研究中心的王理教授为通讯作者在Briefing in Bioinformatics杂志发表了其团队最新研究成果：该作者提出了“S2DV”方法，这是一个用于对小分子药物进行表示学习的方法。该方法通过对小分子SMILES字符处理，提取小分子结构信息，将其转化为嵌入表达，同时创新性地在预训练过程中结合了Ising模型梯度矫正以提高预训练效果。以大规模的预训练为基础的分类模型能够较为准确地预测小分子化合物HBV抑制率和肝细胞毒性。作者团队还通过湿实验对模型准确率进行了验证并开发出了基于web的小工具用于在线对抗HBV化合物的预测。

02

Bioinformatics | GraphDTA: 基于图卷积网络预测药物-靶标结合亲和力

现有的高通量筛选实验用于确定药物和靶标之间的生物活性是一个昂贵费时的步骤。因此，基于已经在临床实验中测量的相互作用，使用统计学和机器学习模型来估计新的药物-靶标的相互作用的强度是重要的替代方案。澳大利亚Deakin大学的Svetha Venkatesh课题组提出了GraphDTA，一种基于图神经网络的药物-靶标结合亲和力的预测方法。

04

DGL-LifeSci：面向化学和生物领域的 GNN 算法库

尝试使用新的DGL--LifeSci并建立Attentive FP模型并可视化其预测结果。

04

数据增强和迁移学习策略解决小数据集化学反应预测问题

今天给大家介绍的是浙江工业大学智能制药研究院的段宏亮教授研究团队发表在《Organic Chemistry Frontiers》上的一篇文章《Data　augmentation and transfer learning strategies for reaction prediction in low chemical data regimes》。

01

图神经网络12-分子指纹GCN：Neural FPs

论文：Convolutional Networks on Graphs for Learning Molecular Fingerprints 图卷积网络用于学习分子指纹链接：http://arxiv.org/pdf/1509.09292.pdf 作者：David Duvenaud†, Dougal Maclaurin†, Jorge Aguilera-Iparraguirre (哈佛大学) 来源：NIPS 2015 代码：https://github.com/HIPS/neural-fingerprint

04

Nat Mach Intel｜MolFormer：大规模化学语言模型表征分子结构与性质

2022年12月21日，IBM的Jerret Ross等人在Nature Machine Intelligence上发表文章Large-scale chemical language representations capture molecular structure and properties。作者提出了MolFormer：一个基于Transformer的大规模化学语言模型表征分子结构与性质。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭