首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >TBtools | 获取基因代表序列、基因序列模式定位

TBtools | 获取基因代表序列、基因序列模式定位

作者头像
生信real
发布2021-12-31 15:00:28
发布2021-12-31 15:00:28
4.8K0
举报
文章被收录于专栏:Linux基础入门Linux基础入门

本次介绍的是TBtools序列工具中的获取Fasta文件中的基因代表序列以及基因序列模式定位。进入TBtools界面,点击Sequence Toolkit进入Fasta Tools即可看到(如下图)。

首先是Fasta Get Representative,该功能可以帮助我们在一个有多条序列的Fasta文件中提取出最长的代表性序列,用于下游分析。

输入演示文件①

代码语言:javascript
复制
>CP60818.1
ACTAGCACGTGTGT
>CP60818.2
ACTAGCACGTGTGTGTGCATGCA
>CP60819.1
ACGATCGACTAGCATGCATCGAT
>CP60819.2
ACGATCGACTAGCAT

PS:在这里我们可以看到CP60818.1和CP60818.2、CP60819.1和CP60819.2都有一部分一样的序列;但是我们分析数据时一般只需要最长的CP60818.2和CP60819.1。

操作步骤:如下图。

输出结果:

代码语言:javascript
复制
>CP60818.2
ACTAGCACGTGTGTGTGCATGCA
>CP60819.1
ACGATCGACTAGCATGCATCGAT

重要提示:在这里最重要的一步是使用正确的正则表达式进行序列ID分组,即:用正则表达式将ID的相同部分表示出来,具有相同部分的归为一组。在本例中,CP60818.1和CP60818.2都有CP60818;CP60819.1和CP60819.2都有CP60819,所以两两归为一组。

如果正则表达式输入错误,输出文件则为空文件。

如果没有对正则表达式有准确地把握,推荐在输入时提前对正则表达式在线进行测试,网站如下。

代码语言:javascript
复制
http://tool.chinaz.com/regex

接下来介绍的是Sequence Pattern Locate,该功能可以在一个基因组文件中找到你需要的一段序列并定位其位置。

输入演示文件②

代码语言:javascript
复制
>Test
AACAGAAAAGCGATGAGAAAGAGATTGCGTTGCGAATCCATCGTTAATGTTCTCTGGTAT
CAAAGGTTTTTGGCGGCACAGGATCGTCACCACCCGGGTTCAAAGGGTGGCATTTTAATA
CGCGTTTTAAAGTCAACCAACTGCCTTTTATCAACCCGAACCTGCGCAAGGCCTCAATTC
CGTATTGAGAGCAGGTCGGATGAAACCGACAGTGTGGCCCCAGCAATGGACTGATGCCGC
GTTGATAGACGCGTATCAGGACGATCAGGAACCGCGCGCCAGGCGACAGTGACGACGCCA
TAATTTCTCCAACGCTTCCGATATATATATATATATATATTTCGGCACACCCTTCTTCGC
AACCACCACAAAGTCCATCGACGGCAATTCATGTTGACGCAGGCGAAAGCTTTCGCGGGT
CAATCGCTTGATCCGGTTGCGTTCGTGCGCGCGTTTCACATGTTTTTTCGCGACGGTCAG
ACCGATATATATATATATAGCGCGTTAAGGCGGCCGAGAATAGTAATTTGCGGCGTGCCA
AGCCCGTTGTGGCTGCTGAAAGACGAAAGTGAAATGAGTGGGAGTTAACAAACGTAACTC
CCTGGGAAATGCGAGCTTACCCATATATATATATATATTATTACTTAGAAACGGTCAGCG
GCGCGGCCTTTAGCACGACGACGTGCCAGAACCTGACGACCATTTTTAGTAGCCATACGA
GCACGGAAGCCGTGTGAACGGTTGCGCTTCAGTACGGACGGTTGAAAAGTGCGTTTCATG
GCGATTTCTACCTAAACTTGAAAAATATATATATATATATATGGTGACGCGTTTCCGGAC

操作步骤:

在这里我们使用正则表达式(AT){5,}来挖掘微卫星DNA。

输出结果:

代码语言:javascript
复制
Test    320 340 ATATATATATATATATATAT
Test    484 498 ATATATATATATAT
Test    622 638 ATATATATATATATAT
Test    804 822 ATATATATATATATATAT

提示:输出结果中一共4列,分别为序列ID、起始坐标、终止坐标、匹配到的序列。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信real 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档