前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >原核非已知转录因子结合位点和可能结合的基因预测

原核非已知转录因子结合位点和可能结合的基因预测

作者头像
Y大宽
发布2018-10-11 10:02:53
2.1K0
发布2018-10-11 10:02:53
举报
文章被收录于专栏:Y大宽

已有:

  • 知道某原核生物某转录因子的DNA序列
  • 目标基因的基因组测序数据
  • 另外还有这个转录因子的靶基因的ORF序列

目的: 1、分析该转录因子结合位点。 2、分析该转录因子可能作用的基因及信号通路

相对难的是两点

  • 1 转录因子未知
  • 2 原核生物尤其这个物种的数据库很少

理论基础,转录因子本质是蛋白质,结合在TSS上游的启动子序列(有的在gene内部) 1.由该TF的DNA序列得到其最大ORF 2.NCBI blastp发现其最大的hit序列(同时用另一个网站再次证实) 3.若去预测整个基因组中其结合的promoter区域不现实也不真实,只看一个已知ORF序列的可能的结合位点 4.得到该基因起始位点上游1000个nt序列作为扫描对象 5.得到转录因子结合的DNA的motif,然后用MEME对4中的序列进行扫描预测,得到结合的序列。此外对全基因组进行扫描,减小p值,看其作用位点。 6.最后,做了个不靠谱的这个启动子序列以人和小鼠作为训练模型的启动子结合位点预测。

--

1.由该TF的DNA序列得到其ORF

>aa MPVANVFSRTAAQRPAPLHTVVIALNVMKEMGVPAEVLLRGTGISPEEIEQANAMVTHAQEMVLFANALEATGNSAIGLHIGSSIPVTAYGLRGHAMLVSPTLGDAMRLAYEHPLMAISYFQITLGVNVDLARVTVGGYTYRADLLVLNTDMCLAAVRREIIDLIGRVPTFRRVGLAFPPPAHASVYSDIFDCEVTFDTEENFLEFDADLLDIRLPLAHSIEFEISRRACEKREFELSHWVPADLVGRLFGIMYDNPTCQDVVKLTGKLGMSPRSLQRKLKEMGTSFSALHDLVRRDIASRYLSENKSTKEIAARLGYKNTSAFSRAMKRWSKLAGD

2.NCBI blastp发现其最大的hit序列

image.png

specific hits为Arabinose_bd , HTH_ARAC,HTH_18,AraC

Arabinose-binding domain of AraC transcription regulator, N-term; AraC is a bacterial transcriptional regulatory protein with a DNA-binding domain at the C-terminus, HTH_AraC, pfam00165, and this dimerisation domain which harbours the arabinose-binding pocket at the N-terminus. AraC positively and negatively regulates expression of the proteins required for the uptake and catabolism of the sugar L-arabinose 其含有明显的两个转录因子特征domain,一个是蓝色的DNA结合结构域Helix-turn-helix,一个是粉红色的转录激活结构域。

然后又在https://prosite.expasy.org/scanprosite/进行预测 结果为

汗:HTH结合DNA序列特异性并不是很强,还很短。我并不知道用blast是否可以预测出其靶基因。当作不能吧。

3.反过来试试,去MEME上对可能的靶基因的启动子序列进行扫描,看是否有上述HTH_AraC的结合位点

首先去http://jaspar.genereg.net/matrix/MA0227.1/,下载其MEME格式的motif序列,悲催的是没有 换个地方 http://regulondb.ccg.unam.mx/regulon?term=ECK120012316&organism=ECK12&type=regulon AraC结合的DNA motif

image.png

这里无法直接下载meme格式文件,但MEME很人性化,不用那么复杂的格式准备,所以,把下面这些序列复制即可

转到MEME的FIMO

image.png

结果如下 该motif结合的DNA序列最佳匹配序列

image.png

具体序列为,自己都觉得这种预测可靠性很值得怀疑,还是需要实验验证

代码语言:javascript
复制
TATGGATTTTTCTGCTG

和启动子匹配的结果为,只有一个高分匹配,

把promoter往前2000nt,仍然是一样的结果。

4 把motif在整个genome扫描看其结合位点

虽然p值很小,但也已经不知道有几分可靠性了,这些序列很可能在编码区

---------------------

话外

5 下面这个原核的promoter预测网站很好,虽然没结果

http://www.prodoric.de/vfp/vfp_promoter.php 把promoter加到2000仍然没scan到可结合的序列。

6尝试在所测基因组范围内搜索前面的TF的DNA结合位点

耗时很长

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.10.09 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.由该TF的DNA序列得到其ORF
  • 2.NCBI blastp发现其最大的hit序列
  • 3.反过来试试,去MEME上对可能的靶基因的启动子序列进行扫描,看是否有上述HTH_AraC的结合位点
  • 4 把motif在整个genome扫描看其结合位点
    • ---------------------
      • 5 下面这个原核的promoter预测网站很好,虽然没结果
        • 6尝试在所测基因组范围内搜索前面的TF的DNA结合位点
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档