专栏首页生信修炼手册详解motif的PWM矩阵

详解motif的PWM矩阵

欢迎关注”生信修炼手册”!

通过一致性序列和sequence logo可以直观的表示某个motif的情况,但是在预测motif结合的位点时,只根据这些信息无法准确的判断查询序列上存在对应的motif。 预测输入序列上是否存在特定motif的位点的分析,称之为motif scanning, 示意如下

就是在输入序列上查找特定motif出现的位置。为了满足motif scanning分析的要求,对于motif而言,我们必须提供一个有效的能够代表motif又能够用于序列查找的一个信息,基于这样的出发点,提出了PWM矩阵的概念。

PWM矩阵在不同文章中有不同的叫法,以下3种矩阵其实都是PWM矩阵

  1. position weight matrix(PWM)
  2. position-specific weight matirx(PSWM)
  3. position-specific scoring matrix(PSSM)

PWM矩阵是在PFM矩阵的基础上发展而来,以下图所示PFM矩阵为例

根据碱基频数分布矩阵首先计算出碱基频率分布矩阵,称之为position probability matrixa, 简写为PPM矩阵,示意如下

在PPM矩阵中,碱基的频率被当做概率来使用,不同位置之间可以看做是一个独立事件。根据PPM矩阵,可以计算某个motif序列的概率。根据上述PPM矩阵,GAGGTAAAC出现的概率为

在PPM矩阵基础上,用背景序列的碱基分布频率来校正对应的值,就可以得到PWM矩阵,公式如下

就是将PPM矩阵中对应的值除了背景序列中对应碱基的频率,然后在取log2对数值。大多数情况下,我们认为在基因组上A,T,C,G这4种碱基的含量是相等的,所以每个碱基的背景频率就是0.25。以PPM矩阵第一行的0.3为例,首先将0.3除以背景序列中A碱基的频率0.25,然后在取log2对数,最终的取值越为0.26。

通过这种方式就构建出了如下所示的PWM矩阵

需要注意的是,背景序列中碱基的概率不是都为0.25, 在某些GC含量偏高或者偏低的物种中,4种碱基的分布频率是不相等的,此时就要根据真实的碱基分布来确定背景序列中的碱基频率。

根据PWM矩阵,可以对序列进行打分,以最终的得分值来判断是否为一个潜在的motif。根据上述PWM矩阵,GAGGTAAAC出现的得分值为

score >= 0, 说明这个序列是一个潜在的功能位点,score < 0, 说明是一个随机序列。根据PWM矩阵,可以有效的判断在输入序列中是否存在真实的motif位点。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

本文分享自微信公众号 - 生信修炼手册(gh_0146e37a8a70),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用MEME-ChIP挖掘序列中的de novo motif

    适用于分析数据量较大的序列上的motif信息。首先通过MEME和DREME两款软件预测de novo motif, 然后利用CentriMo识别在序列的中心区域...

    生信修炼手册
  • 使用ggseqlogo可视化motif

    ggseqlogo是一个motif可视化的R包,可以看做是seqLogo的加强版。除了基本的创建sequence logo的功能,新增了许多自定义的选项,灵活性...

    生信修炼手册
  • GATK BQSR的意义与作用

    BQSR 全称叫做 Base Quality Score Recalibration, 可以理解为碱基质量校正。对于变异位点的鉴定,碱基质量是非常重要的。比如测...

    生信修炼手册
  • 国内知名的EMM厂商推荐

    随着黑莓收购Good,国外EMM厂商的格局已经形成,有能力的一线品牌被有钱的巨头们收购变得更强大,或者像mobileIron那样可以独立上市,其他的小众品牌只能...

    人称T客
  • 七日Python之路--第四天(之Django官方文档)

    源地址:http://django-chinese-docs-16.readthedocs.org/en/latest/intro/overview.html

    lpe234
  • 散列函数(哈希)(转)

    Hash一般翻译作散列也有直接音译作“哈希”。就是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。

    Oceanlong
  • 【报告】2015年移动ERP需求旺盛 用友、金蝶传统ERP厂商迎来发展良机

    移动信息化研究中心调研数据显示,在首次部署移动信息化方面,69.4%的用户选择将“移动CRM(包含销售管理、内部支持等应用)”作为首次部署的移动信息化应用;53...

    人称T客
  • 企业移动化这三年的坑你们都踩了吧?

    我们常说三十年河东三十年河西,对于中国企业移动化来说其实不用这么久,三年就像经历了三生三世。 T研究携2018年第二份回顾报告《2015—2017中国企业移动...

    人称T客
  • 移动转型之后,BAT 2015走向何方?

    文:罗超。封面图:李彦宏参加2015年极客公园创新大会。 第一次看到李彦宏真身是在2013年初的极客公园创新大会上,这是他目前唯一参加的媒体举办的年会。两年前百...

    罗超频道
  • BYOD涌入企业 CIO推荐的国内知名十大MDM平台

    随着BYOD涌入企业,关于信息的安全防护越来越受到企业的关注,当移动设备丢失后的数据擦除成为企业运维移动信息化最急需解决的问题,其次是作为企业管理者,在面对众多...

    人称T客

扫码关注云+社区

领取腾讯云代金券