前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DTI特征工程 | iDTI-ESBoost | 2017 | REP

DTI特征工程 | iDTI-ESBoost | 2017 | REP

作者头像
机器学习炼丹术
发布2022-03-15 11:49:52
2970
发布2022-03-15 11:49:52
举报
文章被收录于专栏:机器学习炼丹术
  • 文章转自微信公众号:机器学习炼丹术
  • 论文名称:iDTI-ESBoost: Identifcation of Drug Target Interaction Using Evolutionary and Structural Features with Boosting
  • 作者:炼丹兄(欢迎交流共同进步)
  • 论文链接:https://github.com/farshidrayhanuiu/FRnet-DTI/

【前言】:我百度了一下,sci reports是四大水刊之一,发文量巨大一年几万的发文量,2021影响因子4点多。

0 摘要与intro

学习的目的,主要是看他们对数据集特征提取的方式。是从之前的FRnet-DTI的论文中,使用的数据集就是这一篇iDTI-ESBoost的特征提取。这一篇从标题看,应该是集成模型Boost类型的,所以重点放在特征工程而非Method。

1 Dataset

在特征提取阶段,drug的标识符(identifier)可以在KEGG数据集中查询到,然后相应的SMILES表示在DrugBank数据库中获取。之后的特征生成是基于SMILES data来生成的。

相似的,对于protein对象,现在KEGG中查询到对应的protein的序列,然后将序列输入到两个软件当中:

  • Position Specific Iterated PSI-BLAST:这个软件基于Position Specific Scoring Matric (PSSM)获取evolutionary sequence profile
  • SPIDER2:这个软件生成SPD file,其中包含了structural information。

SMILES Based Features

❝Several descriptors are used to represent the features or properties of drug com pounds. To this end, one of the most popular features is molecular fingerprints which is widely used for similarity searching, clustering, and classifcation. Each drug compound is represented by 881 chemical substructures defned in PubChem database. Te presence (absence) of a particular substructure is encoded as 1 (0). Thus the length of this molecular fingerprint based feature is 881.

这一段文件是解释molecular fingerprints分子指纹最好,我目前看到最好的说明了。基于SMILES的表示方法,由PubChem数据库提出了881个子结构。然后这个分子指纹其实就是881维度的0/1稀疏特征向量。

PSSM-binary

这里有400个特征。

Secondary Structure Composition

Accessible Surface Area Composition

Torsional Angles Composition

Torsional Angles Bigram

Structural Probabilities Bigram

Torsional Angles Auto-Covariance

Structural Probablities Auto-Covariance

这篇文章的特征工程的方式,还是不少的。相对于之前transformer单纯的直接用字典编码,这种特征工程加上字典编码肯定可以起到更好的效果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习炼丹术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0 摘要与intro
  • 1 Dataset
    • SMILES Based Features
      • PSSM-binary
        • Secondary Structure Composition
          • Accessible Surface Area Composition
            • Torsional Angles Composition
              • Torsional Angles Bigram
                • Structural Probabilities Bigram
                  • Torsional Angles Auto-Covariance
                    • Structural Probablities Auto-Covariance
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档