前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >详解motif的PWM矩阵

详解motif的PWM矩阵

作者头像
生信修炼手册
发布2019-12-19 15:47:46
1.9K0
发布2019-12-19 15:47:46
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

通过一致性序列和sequence logo可以直观的表示某个motif的情况,但是在预测motif结合的位点时,只根据这些信息无法准确的判断查询序列上存在对应的motif。 预测输入序列上是否存在特定motif的位点的分析,称之为motif scanning, 示意如下

就是在输入序列上查找特定motif出现的位置。为了满足motif scanning分析的要求,对于motif而言,我们必须提供一个有效的能够代表motif又能够用于序列查找的一个信息,基于这样的出发点,提出了PWM矩阵的概念。

PWM矩阵在不同文章中有不同的叫法,以下3种矩阵其实都是PWM矩阵

  1. position weight matrix(PWM)
  2. position-specific weight matirx(PSWM)
  3. position-specific scoring matrix(PSSM)

PWM矩阵是在PFM矩阵的基础上发展而来,以下图所示PFM矩阵为例

根据碱基频数分布矩阵首先计算出碱基频率分布矩阵,称之为position probability matrixa, 简写为PPM矩阵,示意如下

在PPM矩阵中,碱基的频率被当做概率来使用,不同位置之间可以看做是一个独立事件。根据PPM矩阵,可以计算某个motif序列的概率。根据上述PPM矩阵,GAGGTAAAC出现的概率为

在PPM矩阵基础上,用背景序列的碱基分布频率来校正对应的值,就可以得到PWM矩阵,公式如下

就是将PPM矩阵中对应的值除了背景序列中对应碱基的频率,然后在取log2对数值。大多数情况下,我们认为在基因组上A,T,C,G这4种碱基的含量是相等的,所以每个碱基的背景频率就是0.25。以PPM矩阵第一行的0.3为例,首先将0.3除以背景序列中A碱基的频率0.25,然后在取log2对数,最终的取值越为0.26。

通过这种方式就构建出了如下所示的PWM矩阵

需要注意的是,背景序列中碱基的概率不是都为0.25, 在某些GC含量偏高或者偏低的物种中,4种碱基的分布频率是不相等的,此时就要根据真实的碱基分布来确定背景序列中的碱基频率。

根据PWM矩阵,可以对序列进行打分,以最终的得分值来判断是否为一个潜在的motif。根据上述PWM矩阵,GAGGTAAAC出现的得分值为

score >= 0, 说明这个序列是一个潜在的功能位点,score < 0, 说明是一个随机序列。根据PWM矩阵,可以有效的判断在输入序列中是否存在真实的motif位点。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档