序列提取-《-零命令行-生信下游数据分析》-第一弹

写在前面

《-零命令行-生信下游数据分析》的第一帖主题,定为序列提取。因为序列提取,可以说是目前最常见的生信下游数据分析需求,其主要见于场景:

1.物种基因组已公布,但没有对应的数据库,而我只是需要某个染色体的一个区段

2.手上有无参考转录组组装结果,需要从其中提取出一些我感兴趣的基因的序列,如某几个差异表达基因

场景有很多。而目的只有一个,即省时省事地得到我要的序列。本篇推文,可以让任何人在短时间内掌握并完成自己需要的序列提取,几乎没有学习成本。

准备数据

序列文件,Fasta格式(任何Fasta格式的序列文件,如genome.fa, unigenes.fa, proteins.fa, cds.fa....)

序列ID列表,或带需要的区间坐标信息(普通的tab分隔的文本文件)

如果是要提取某个序列的某个区段,那么可能ID后面加上区段信息,如果需要对提取出来的区段命名,则在ID前面添加信息

开始提取

1.首先打开TBtools,并选择对应的工具Amazing Fasta Extractor

2.设置序列库文件

一般TBtools提供两种数据输入方式 ,推荐直接使用鼠标拖拽

3. 提取序列

如果一次提取少量序列,只是快速使用,那么无需设置输出文件,直接勾选,使提取的序列显示在对话框,用于文本复制与黏贴

如果序列较多,或者要直接保存输出到文件中,那么可以设置一个输出文件

同样的方式 ,如果是要提取某个序列区段

4. 其他需求

关于序列提取,整体上,以上的操作应该是已经满足了大部分人的需求,当然还有其他需求,剩下的几个选项,可自行摸索

或者,建议加入TBtools使用交流群- QQ群,与其他在科研工作中使用TBtools的朋友交流

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180826G00K9100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券