前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DIT | 简化分子线性输入规范SMILE

DIT | 简化分子线性输入规范SMILE

作者头像
机器学习炼丹术
发布2022-03-15 11:45:27
8760
发布2022-03-15 11:45:27
举报

1 概述

简化分子线性输入规范(SMILES)是一种用ASCII字符串明确描述分子结构的规范。

由于SMILES是用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。

SMILES对于每个结构的唯一性依赖于用来生成它的规范化算法,并被称为规范SMILES。规范SMILES的一个常见应用是索引和确保数据库中分子的唯一性。

2 描述方法

1.原子用在方括号内的化学元素符号表示。

例如:[Au]表示“金”,氢氧根离子是[OH-]。

有机物中的C、N、O、P、S、Br、Cl、I等原子可以省略方括号,其他元素必须包括在方括号之内。氢原子常被省略。对于省略了方括号的原子,用氢原子补足价数。

例如:水的SMILES就是O,乙醇是CCO。

2.双键用“=”表示;三键用“#”表示。

含有双键的二氧化碳则表示为O=C=O,含有三键的氰化氢表示为C#N。

3.如果结构中有环,则要打开。断开处的两个原子用同一个数字标记,表示原子间有键相连。

例如:环己烷(C6H12)表示为C1CCCCC1。需要注意,标志应该是数字(在此例中为1)而不是“C1”这个组合。扩展的表示是(C1)-(C)-(C)-(C)-(C)-(C)-1而不是(C1)-(C)-(C)-(C)-(C)-(C)-(C1)。

4.芳环中的C、O、S、N原子分别用用小写字母c,o,s,n表示。

5.碳链上的分支用圆括号表示。

例如:丙酸表示为CCC(=O)O,FC(F)F或者C(F)(F)F表示三氟甲烷。

双键两侧的结构分别用符号/和\表示

例如,F/C=C/F表示反二氟乙烯,它的两个氟原子位于双键的两侧,而F/C=C\F表示顺二氟乙烯,它的两个氟原子位于双键的同一侧。

3 DAVIS数据集

我们可以下载DAVIS数据,里面提供了90多个drug的SMILES标识和400多个蛋白质分子的氨基酸序列,并且提供了这90和400多个的drug和target的亲和度数值。

SMILE结构如图所示:

蛋白质的氨基酸序列如图:

亲和度矩阵如图:

下一次的内容,会讲解如何做一个简单的亲和度预测深度网络模型。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-01-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习炼丹术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 概述
  • 2 描述方法
  • 3 DAVIS数据集
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档