
本次介绍的是TBtools序列工具中的获取Fasta文件中的基因代表序列以及基因序列模式定位。进入TBtools界面,点击Sequence Toolkit进入Fasta Tools即可看到(如下图)。

首先是Fasta Get Representative,该功能可以帮助我们在一个有多条序列的Fasta文件中提取出最长的代表性序列,用于下游分析。
输入演示文件①
>CP60818.1
ACTAGCACGTGTGT
>CP60818.2
ACTAGCACGTGTGTGTGCATGCA
>CP60819.1
ACGATCGACTAGCATGCATCGAT
>CP60819.2
ACGATCGACTAGCATPS:在这里我们可以看到CP60818.1和CP60818.2、CP60819.1和CP60819.2都有一部分一样的序列;但是我们分析数据时一般只需要最长的CP60818.2和CP60819.1。
操作步骤:如下图。

输出结果:
>CP60818.2
ACTAGCACGTGTGTGTGCATGCA
>CP60819.1
ACGATCGACTAGCATGCATCGAT重要提示:在这里最重要的一步是使用正确的正则表达式进行序列ID分组,即:用正则表达式将ID的相同部分表示出来,具有相同部分的归为一组。在本例中,CP60818.1和CP60818.2都有CP60818;CP60819.1和CP60819.2都有CP60819,所以两两归为一组。
如果正则表达式输入错误,输出文件则为空文件。
如果没有对正则表达式有准确地把握,推荐在输入时提前对正则表达式在线进行测试,网站如下。
http://tool.chinaz.com/regex接下来介绍的是Sequence Pattern Locate,该功能可以在一个基因组文件中找到你需要的一段序列并定位其位置。
输入演示文件②
>Test
AACAGAAAAGCGATGAGAAAGAGATTGCGTTGCGAATCCATCGTTAATGTTCTCTGGTAT
CAAAGGTTTTTGGCGGCACAGGATCGTCACCACCCGGGTTCAAAGGGTGGCATTTTAATA
CGCGTTTTAAAGTCAACCAACTGCCTTTTATCAACCCGAACCTGCGCAAGGCCTCAATTC
CGTATTGAGAGCAGGTCGGATGAAACCGACAGTGTGGCCCCAGCAATGGACTGATGCCGC
GTTGATAGACGCGTATCAGGACGATCAGGAACCGCGCGCCAGGCGACAGTGACGACGCCA
TAATTTCTCCAACGCTTCCGATATATATATATATATATATTTCGGCACACCCTTCTTCGC
AACCACCACAAAGTCCATCGACGGCAATTCATGTTGACGCAGGCGAAAGCTTTCGCGGGT
CAATCGCTTGATCCGGTTGCGTTCGTGCGCGCGTTTCACATGTTTTTTCGCGACGGTCAG
ACCGATATATATATATATAGCGCGTTAAGGCGGCCGAGAATAGTAATTTGCGGCGTGCCA
AGCCCGTTGTGGCTGCTGAAAGACGAAAGTGAAATGAGTGGGAGTTAACAAACGTAACTC
CCTGGGAAATGCGAGCTTACCCATATATATATATATATTATTACTTAGAAACGGTCAGCG
GCGCGGCCTTTAGCACGACGACGTGCCAGAACCTGACGACCATTTTTAGTAGCCATACGA
GCACGGAAGCCGTGTGAACGGTTGCGCTTCAGTACGGACGGTTGAAAAGTGCGTTTCATG
GCGATTTCTACCTAAACTTGAAAAATATATATATATATATATGGTGACGCGTTTCCGGAC操作步骤:
在这里我们使用正则表达式(AT){5,}来挖掘微卫星DNA。

输出结果:
Test 320 340 ATATATATATATATATATAT
Test 484 498 ATATATATATATAT
Test 622 638 ATATATATATATATAT
Test 804 822 ATATATATATATATATAT提示:输出结果中一共4列,分别为序列ID、起始坐标、终止坐标、匹配到的序列。