TBtools基因家族分析详细教程(3)基因家族成员的进化分析2

  • 基因-共线性的定义与常见算法原理
  • 物种内的共线性分析 文件准备(物种比对到自身的.blast文件,物种基因信息文件.gff文件),运行MCScanX,输出collinear和tandem文件
  • 基因家族成员的来源分析(如何复制得到)
  • 不同物种之间的共线性分析
  • 共线性分析结果可视化

1 共线性分析:与同线性的联系

用途:

  • 识别直系同源gene
  • 蛋白编码基因注释
  • 发现进化事件

2物种内的共线性分析

3基因家族来源分析

4不同物种之间的共线性分析

共线性分析

数据文件下载genome.fa,gff3,protein.fa

2数据文件格式转换(TBtools)

3共线性分析

4解读文本输出结果

-----开始----

1 下载菠萝,水稻,拟南芥,香蕉的基因组和注释文件

  • 通过TBtools由上述文件得到CDS和protein文件(前面已讲)
  • 把菠萝蛋白比对到自身(用时相对较长)得到blast结果文件

2 获得所有基因的位置信息

如下

下面可以把刚才得到的blast结果文件简化,也可以不做,做的话,下面

3 菠萝自身的比对的结果如下

image.png

可视化

先得到串联重复序列的link文件 上面得到的.tandem文件用excel打开并进行分列,另存为txt文件

image.png

结果

GRAS基因家族在染色体上的位置并显示串联重复序列

可以看到有串联重复序列 再把pineapple2pineapple.blast.tab.collinearity文件转换为link文件

获得基因间关系的link文件

结果如下

image.png

可以看出和视频中不一样,因为我和作者用的不是同一个基因家族 对于比对到自身的(单个基因组)的还可以做其他的

设置

结果

也可以选择性展示

circle gene view.300dpi.jpg

4不同物种之间的共线性分析

分析菠萝与水稻之间的共线性区块

  • 需要菠萝的所有蛋白序列比对到水稻的所有蛋白序列
  • 两个基因组的所有基因的位置关系

按前述步骤分别得到水稻的CDS和protein,方法不再赘述 这里需要说明的是,视频中CDS的总序列数为66338,我下载了几个水稻品种包括reference geonome均不是,就用以下信息吧

image.png

取最长的可变剪切本,以使下一步分析更加准确

接下来,这一步看具体请看需要不需要做

################################

下面开始两个基因组比较

开始菠萝和水稻比对

image.png

然后水稻比对菠萝

都比对完之后,开始merge两个比对后的blast文件

image.png

同样gff文件也要merge

image.png

然后

得到pineapple_rice.collinearity文件 然后

mutiple synteney plotter

mutiple synteney plotter

新建一个multiple文件夹

接下来在做菠萝和香蕉的比对 步骤按上面 提取cds,pro(考虑可变剪切,可以选择最大长度可变剪切序列),然后互相比对得到blast结果 上面个gff和blast结果分别merge,就可以比对了

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

【直播】我的基因组 35:bam格式转化为bw格式看测序深度分布

我们在之前说到过bam文件还有55G大小,这样的文件,在很多时候都不方便查看和转移。而有些时候,我们只需要我们的测序数据在全基因组的测序深度这一个值,并不需要具...

84780
来自专栏腾讯IVWEB团队的专栏

前端识别验证码思路分析

相信很多前端同学对于二维码识别、图像对比等这类高大上的图像识别技术望而生畏,觉得此类识别技术只能通过更加底仓的高级语言才能实现(诸如c等),本文试图从前端的角度...

1.3K00
来自专栏生信技能树

单细胞转录组3大R包之scater

scater 这个R包很强大,是McCarthy et al. 2017 发表的,包含的功能有: Automated computation of QC met...

1.8K100
来自专栏瓜大三哥

SD-SDI数据解析

凡是做模拟信号采集的,很少不涉及BT.656标准的,因为常见的模拟视频信号采集芯片都支持输出BT.656的数字信号,那么,BT.656到底是何种格式呢? 本文...

16950
来自专栏生信技能树

使用sequenza软件判定肿瘤纯度

发表该软件的文章当时使用了10 个 ovarian serous carcinomas (OVCA) 和 20 个clear-cell renal cell c...

54430
来自专栏生信宝典

DESeq2差异基因分析和批次效应移除

2.5K100
来自专栏生信技能树

你以为的可能不是你以为的

最近生信技能树管理员小朋友XZG跟我炫耀他植物的简化基因组的gvcf模式,两百个测序数据,我一直没用过这个gvcf功能,因为的确没有需求。癌症研究,关注的主要是...

15940
来自专栏Spark学习技巧

第2篇:数据库关系建模

第二篇:数据库关系建模 前言 ER建模环节完成后,需求就被描述成了ER图。之后,便可根据这个ER图设计相应的关系表了。 但从ER图到具体关系表的建立还需要经过两...

37460
来自专栏机器之心

业界 | Facebook 开源语音识别工具包wav2letter(附实现教程)

63880
来自专栏Java帮帮-微信公众号-技术文章全总结

Dubbo入门学习--负载均衡策略(4)

Dubbo入门学习--负载均衡策略 负载均衡 ? Random LoadBalance 随机,按权重设置随机概率。 在一个截面上碰撞的概率高,但调用量越大分布越...

36540

扫码关注云+社区

领取腾讯云代金券