之前介绍很多基于序列分析的数据库的时候,都会提到FASTA序列。之后也会遇到很多基于序列分析的数据库。所以今天就把基因序列的格式单独拎出来说一下。
基因序列由 DNA/RNA 序列或者蛋白序列组成。其中 DNA/RNA 序列由 AT (U) CG 这四类组成。而蛋白序列则是有 20 种氨基酸的不同字母排列组成。例如,TP53这个基因的序列就是下面这样的。

基因序列的字母除了一对一的关系之外,在核苷酸序列当中也还会需要一些简并序列的情况。==简并序列==是通过一个字母来代表多个核苷酸的情况。目前有的简并序列有:
A --> adenosine M --> A C (amino)
C --> cytidine S --> G C (strong)
G --> guanine W --> A T (weak)
T --> thymidine B --> G T C
U --> uridine D --> G A T
R --> G A (purine) H --> A C T
Y --> T C (pyrimidine) V --> G C A
K --> G T (keto) N --> A G C T (any)
简并序列的用途是方便来记录不同核苷酸序列但行使相似功能的组合。比如某一个氨基酸的密码子。一般来说前两位是不变的。但是第三位就会发生变化。例如: 丙氨酸的密码子就是GCN 其中,N就代表是A,T,C,G都可以。
在上面介绍基因序列的基本内容的的时候提到了基因的序列的核苷酸/氨基酸形式就是一堆字母的排列。例如 TP53 的一段 DNA 序列。
GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC TAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG
只是看 👆这个序列的话根本不知道这个序列是什么意思。所以为了更好的对基因序列进行注释。也就有了fasta序列格式。
在 fasta 文件当中,每一个序列由两部分组成。
为了更好的区分哪一部分是 ID,哪一部分是具体序列。在 ID 那一行的开头加入">" 来表示是 ID 列。例如,TP53 DNA 的 fasta 序列。
>NG_017013.2:5001-24149 Homo sapiens tumor protein p53 (TP53), RefSeqGene (LRG_321) on chromosome 17 GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC TAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG CTTTCCACGACGGTGACACGCTTCCCTGGATTGGGTAAGCTCCTGACTGAACTTGATGAGTCCTCTCTGA GTCACGGGCTCTCGGCTCCGTGTATTTTCAGCTCGGGAAAATCGCTGGGGCTGGGGGTGGGGCAGTGGGG ACTTAGCGAGTTTGGGGGTGAGTGGGATGGAAGCTTGGCTAGAGGGATCATCATAGGAGTTGCATTGTTG GGAGACCTGGGTGTAGATGATGGGGATGTTAGGACCATCCGAACTCAAAGTTGAACGCCTAGGCAGAGGA GTGGAGCTTTGGGGAACCTTGAGCCGGCCTAAAGCGTACTTCTTTGCACATCCACCCGGTGCTGGGCGTA
在很多序列下载网站上,例如: [[如何快速的下载基因序列 | gene数据库序列下载]] 。下载到的序列文件基本上都是以"fa", "faa"等格式结尾的。这样的格式的文件,如果想要查看的话,只需要利用文本文档打开即可。例如,下面就是 TP53 蛋白序列的 fa 文件。在里面可以看到序列和序列之间都有不同的 ID 号。

TP53蛋白序列fa文件
了解了 fa 的具体格式。也就可以自己制作自己想要的 fa 序列。例如在 [[UFold-RNA二级结构预测工具]] 的工具当中,就需要输入自己想要预测的核苷酸序列的 fa 文件。这个时候如果只知道基本的序列。那就可以在这个序列前面加一个"> 自己命名的 ID" 即可。至于说 ID 是什么。自己认识即可。并不一定要是官方 ID。

一个基因的基因序列,不是单纯的只是有序列顺序信息,里面也会包括了这个基因的各种功能以及表达调控的信息等等。例如:
参考资料:
[1]: FASTA format: https://zhanggroup.org/FASTA/