生物信息学里常见的数据格式主要有fasta,fastq,gff/gtf。
FASTA是一种基于文本用于表示核酸序列或蛋白质的氨基酸序列的格式。
主要分为两部分,第一部分即第一行为id行,以“>”开头,包含注释信息;第二部分(不只有第二行)为序列信息,每个字母表示一个碱基或氨基酸,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。
下面举几个例子
我们以人类血红蛋白α亚基的mRNA序列为例
图源NCBI
点击红框中的FASTA可查看其FASTA格式,如下
>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGG
GGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCA
CCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAA
GGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGC
GACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGA
CCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTC
TGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG
G
注释信息
我在查询序列的时候发现,作为mRNA序列,没有出现碱基U,反而出现了碱基T。
知乎孟浩巍大佬解释说“这是为了保证数据的统一性,因为U只是在RNA中替换了原来的T,所以为了下游的方便分析处理,无论RNA序列还是DNA序列都是使用T而不是U。”
同样以人类血红蛋白α亚基的序列为例
图源NCBI
点上面的FASTA即可查看其FASTA格式,如下
>sp|P69905.2|HBA_HUMAN RecName: Full=Hemoglobin subunit alpha; AltName: Full=Alpha-globin; AltName: Full=Hemoglobin alpha chain
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNA
VAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSK
YR
注释信息
正如前面的介绍,FASTA格式非常简单,但相较于下面将要介绍的FASTQ格式来说,缺少了测序序列的质量信息。
FASTQ是一种存储了生物序列以及相应的质量评价的文本格式,共有四行。
以SRR2176381为例,在linux环境下使用prefetch命令将SRR2176381的sra格式测序数据下载下来,再通过fastq-dump命令将sra转换为fastq,转换后查看,如下
@SRR2176381.1 HWI-ST397:369:C3JLPACXX:8:1101:1635:2086 length=101
NGAGTAATCCGGCTGTCAGTTCCTGACGCTTGCAAAACTTCACCGATCCCACATTGCCTGAAATATCGCGGGTCTGTGCTTTAACCAATGCACCATCTCCC
+SRR2176381.1 HWI-ST397:369:C3JLPACXX:8:1101:1635:2086 length=101
#1=DDFFFFHHHHJJJJJJIIIJJIIIJJJJJJJJJJJJJEEIHFFGIJJJJJJJHHHHHBDFFFFFDDDDD9>D9@AACDDACCCDBCDDDDDDDCCCDD
第1行: id行,以“@”开头,主要储存序列测序时的坐标等信息。
第2行: 序列行,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。
第3行: 附加信息行,以“+”开始,一般为空或和第一行相同。
第4行: 碱基质量行,根据ASCII表,用一个字符代表碱基质量的好坏,与第二行的测序结果是一一对应的,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好。
GTF和GFF都是以\t分隔的用于基因注释的文件。
GTF文件和GFF文件可通过软件相互转化。
GTF:General Transfer Format
GFF:General Feature Format
一个GTF或GFF文件包含9列内容
chr1 hg19_ncbiRefSeq CDS 67000042 67000051 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 66999929 67000051 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67091530 67091593 0.000000 + 2 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67091530 67091593 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67098753 67098777 0.000000 + 1 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67098753 67098777 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67105460 67105516 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq exon 67105460 67105516 0.000000 + . gene_id "SGIP1"; transcript_id "NM_001308203.1";
chr1 hg19_ncbiRefSeq CDS 67108493 67108547 0.000000 + 0 gene_id "SGIP1"; transcript_id "NM_001308203.1";