前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TBtools基因家族分析详细教程(1)

TBtools基因家族分析详细教程(1)

作者头像
Y大宽
发布2018-10-08 13:15:40
30.3K1
发布2018-10-08 13:15:40
举报
文章被收录于专栏:Y大宽Y大宽

写在前面: 非常感谢CJ开发出如此强大的TBtools工具,作者详细讲解了基因家族的分析过程和意义,课程购买地址,讲的很棒,可以试听。

一共分为4个部分

TBtools基因家族分析详细教程(1)

TBtools基因家族分析详细教程(2)基因家族成员的基本分析

TBtools基因家族分析详细教程(3)基因家族成员的进化分析1

TBtools基因家族分析详细教程(3)基因家族成员的进化分析2


Introduciton:什么是|为什么做(意义)| 辅助基因注释或矫正基因注释 为后续物种gene功能研究做铺垫 确定家族中可用的目标gene分支(包括挖掘新分支) 基础的生物信息学数据分析锻炼 充实论文内容或作为论文的主要内容 method:怎么做(涉及内容,已发表文献和自己理解),涉及序列保守,结构域定义,序列比对,进化树构建 内容见下面 结果:完成基因家族分析文章中的内容,甚至超过他们。 加深理解分子生物学和生物信息学 掌握部分TBtools工具的使用,加速生信下游数据分析 绘制漂亮的图片

Introduction

基因是染色体上一段可以发生转录的区域(内含子外显子启动子)

转录本才是基因的研究实体

基因家族来源于同一个祖先,由同一个gene通过基因重复而产生两个或更多的拷贝而构成的一组gene,其在结构和功能上就有明显的相似性,编码相似的蛋白质产物,同意家族gene可以紧密排列在一起,形成一个基因簇,但多数时候,他们分散在同一染色体的不同位置,或存在于不同的染色体上,各自有不同的表达调控模式

序列高度相似的序列,互为同源gene,归属于一个基因家族(拷贝数目多于1)

结构域的 角度来说,具有保守结构域(某个或多个)的序列,即为某个基因家族的序列(可能同时要不具有另外的某个结构域)

目录

1 基因家族成员的鉴定

  • 确定研究的基因家族
  • 家族成员的基本特征确定(参考已有物种)
  • 参考序列集合的准备
  • 目标物种序列和注释信息的下载或准备
  • 双向Blast比对获取可能的成员
  • 基于保守结构域进行进一步筛选

2 基因家族成员的基本分析

  • 成员的序列特征分析(分子量等电点等)
  • 基于motif分析成员序列保守特征与可视化(蛋白与核酸,可用于挖掘未知,尤其是核酸水平-非编码水平的保守)
  • 基于domain分析成员结构域的保守型与可视化(往往已知)
  • 基因结构分析(包括内含子模式)
  • 基因染色体分布情况可视化

3 基因家族成员的进化分析

  • 多序列比对与可视化
  • 进化树构建与可视化
  • 从进化水平分析motif模式
  • 从进化水平分析domain
  • 从进化水平分析基因结构变化
  • 合并分析以上三方面
  • 基因-共线性的定义与常见算法原理
  • 物种内的共线性分析
  • 基因家族成员的来源分析
  • 不同物种之间的共线性分析
  • 共线性分析结果可视化

内容

A 基因家族成员的鉴定

1目标物种序列和注释信息的下载或准备(genome的fasta格式和gff3或gtf)

基因组序列信息:fasta格式文件

基因组基因结构注释信息:制表符分隔,存储基因的外显子内含子,CDS等坐标信息的.gff3或.gtf文件(区分基因结构注释与基因功能注释)

  • 获取途径 基因组文章中对应的链接 常见的数据库Ensemble植物,动物,Phytozome NCBI 其他途径

1.1蛋白序列结合的整理与提取(TBtools)
1.1.1使用Gtf/Gff3 sequence extractor,基于基因结构注释信息,从基因组中提取出所有基因的CDS序列

image1.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

1.1.2使用CDS to protein Translator将所有CDS翻译为蛋白序列

image.png

fasta文件每个名称后面有+号,简化

2 确定研究的基因家族
  • 课题相关,MYB,bHLH,WD40,花青素
  • 研究热点甲基化 甲基化酶 去甲基化酶
  • 新家族 某蛋白很关键 有没有家族
3 家族成员的基本特征确定(参考已有物种)
  • 研究相对透彻的基因家族,可参考收录了基因家族特征的网站如TAIR,PlantTFdb(针对转录因子
  • 查阅文献(gras gene family为例),归纳总结 注意:保守的结构域(在哪段),几个分支,保守的aa位点,长度波动
4 参考序列集合的准备
  • 从已经收录的网站下载tari
  • UniProt动植物都有
  • 自行整理(基于文献或自行鉴定的新家族)
5 双向Blast比对获取可能的成员

image.png

image.png

image.png

比对得到的结果,去重复得到uniq ID。就是query序列匹配到上一步由CDS得到的protein序列(target)的结果。

下面再extract上述42个ID的protein sequence的fasta数据

接下来去NCBI blastp

image.png

用TBtools把xml格式转化为table格式

image.png

按Query_def删除重复项,保留的都是第一个hit,也就是最匹配的hit。为了判断是不是全部都家族成员,可以对可疑的基因进行文献搜索

通过初步筛选,上述42个基本都是基因家族成员,为了进一步确定,进行下一步基于保守结构域进一步筛选

6 基于保守结构域进行进一步筛选

ncib web cd search

或pfam

image.png

可视化

image.png

image.png

image.png

pineapple的(这个图有问题,可以直接在修改short name列名就可以,注意空格等,这里我就不再改了,后面改过来了)

直接删除,若严谨,重新截取此基因组序列的前后序列,具体

image.png

打开genePose文件,查找刚才可疑的某个gene比如Aco005453.1

image.png

image.png

复制上述序列到softberry FGENESH-M工具

image.png

image.png

image.png

结果说明该基因本来该两个结构域,现在却一个。基因组注释需要更加完善。可以替换信息进去。其余三个类似。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.10.07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 基因家族成员的鉴定
  • 2 基因家族成员的基本分析
  • 3 基因家族成员的进化分析
  • A 基因家族成员的鉴定
    • 1目标物种序列和注释信息的下载或准备(genome的fasta格式和gff3或gtf)
      • 1.1蛋白序列结合的整理与提取(TBtools)
        • 2 确定研究的基因家族
          • 3 家族成员的基本特征确定(参考已有物种)
            • 4 参考序列集合的准备
              • 5 双向Blast比对获取可能的成员
                • 接下来去NCBI blastp
                  • 6 基于保守结构域进行进一步筛选
                  • 可视化
                  相关产品与服务
                  对象存储
                  对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档