专栏首页生信修炼手册关于motif你需要知道的事

关于motif你需要知道的事

欢迎关注”生信修炼手册”!

在chip_seq数据分析中,motif分析是一项重要的分析内容。通过motif分析,我们可以对转录因子结合位点的序列模式有进一步的了解,那么什么是motif呢?

蛋白质中功能的基本单元是domain,是一种特殊的三维结构,不同结构的domain与其他分子特异性结合从而发挥功能。与此类似,转录因子在于DNA序列结合时,其结合位点的序列也由于一定的特异性,不同转录因子结合的DNA序列的模式是不同的。为了更好的描述结合位点序列的模式,科学家们提出了motif的概念。

motif表示特定碱基序列的模式,这种教科书式的名词解释不够直观难以理解,下面通过一个示例来看下

上图表示的是一个转录因子在多个基因上的结合位点的序列,在采用motif描述上面这段信息时,具体用到以下几个元素

1. 碱基频率分布

上述示例中结合位点的序列长度为12bp, 每个位置4种碱基的频数统计如下

2. consensus sequences

用一段序列来描述所有序列的碱基组成,称之为一致性序列,采用IUPAC标准的碱基表示法,不同字母对应的碱基如下所示

上述例子中的一致性序列如下

为了更加直观的描述motif, 结合所有序列中的碱基分布情况和一致性序列的特征,提出了sequence logo的表示方法, 上述例子中的碱基分布频数绘图如下

类似每个位置上碱基分布频数的堆积柱状图,而sequence logo则采用以下公式来计算位置碱基的高度

上述公式中的最大值为2,对应所有序列中该位置都是同一个碱基,比如示例中的第5个位置全部都是T碱基。通过这种表示方法,可以突出碱基的分布情况,示意如下

可以非常明显的看到,在第5,8,9三个位置上都只出现了T碱基。其他位置都是几种碱基混合出现,总的高度都比这里这些位置低很多。值得一提的是,之前我们说单一碱基最大值为2,而上图中单一碱基的位置比2小了一点,这是因为在原始公式的基础上进行了微调,详细情况如下

在原始公式的基础上减去了一个e值,在e值的计算公式中,对于DNA序列,s的值为4,n代表的是motif的长度,上述示例中就是12。减去e值后,最大值相比2自然会小一点。

有很多的软件可以进行motif分析,比如meme-chip, homer等,在后续的文章中会详细介绍。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • GATK BQSR的意义与作用

    BQSR 全称叫做 Base Quality Score Recalibration, 可以理解为碱基质量校正。对于变异位点的鉴定,碱基质量是非常重要的。比如测...

    生信修炼手册
  • 使用MEME-ChIP挖掘序列中的de novo motif

    适用于分析数据量较大的序列上的motif信息。首先通过MEME和DREME两款软件预测de novo motif, 然后利用CentriMo识别在序列的中心区域...

    生信修炼手册
  • 使用Trimmomatic对NGS数据进行质量过滤

    Trimmomatic 软件可以对NGS测序数据进行质量过滤,其去除adapter的功能只是针对illumina的序列,从reads的3’端识别adapter序...

    生信修炼手册
  • (小笔记)引物前面加酶切位点?

    举?:   我们需要在质粒上连一个序列,比如EGFP吧,那么我们应该怎么着手设计呢?

    liu_ll
  • ES查询常见问题

    YG
  • [AI新知] Azure机器学习正式推出时间序列预测功能

    微软为时间序列预测加入了多项新功能,包括考量时间序列资料的交叉验证,以及将资料加入时间处理,成为额外的资料特征

    阿泽
  • Swift3.0 - 对象和类

    1.对象中的所有变量或者常量在定义时如果不初始化,在对象初始化的时候,必须初始化,这个是swift安全性考虑,可选类型没有强制性要求初始化,因为系统默认给可选类...

    酷走天涯
  • 北京VS上海:“活着为了工作”还是“工作为了生活”?

    那么北京和上海,到底谁更适合你呢?我们建立了一套“青和力”的评估体系,从三个不同需求层次,建立了8个一级指标、24个二级指标、70个三级指标,来详细比较这两座城...

    华章科技
  • 大白话聊聊分布式事务

    什么是分布式事务 简单的来说就是,一个大的操作由两个或者更多的小的操作共同完成。而这些小的操作又分布在不同的网络主机上。这些操作,要么全部成功执行,要么全部不执...

    逸鹏
  • 前端自己动手使用nodejs上传打包文件到aliyun oss

    然后在根目录下新建 ali-oss.js 文件,并复制上面的代码到该文件中,并填写上各种配置信息,如图所示:

    前端人人

扫码关注云+社区

领取腾讯云代金券