1.Module 1 - Introduction to RNA sequencing
2.Module 2 - RNA-seq Alignment and Visualization
3.Module 3 - Expression and Differential Expression
4.Module 4 - Isoform Discovery and Alternative Expression
5.Module 5 - De novo transcript reconstruction
6.Module 6 - Functional Annotation of Transcripts
在本教程中,我们将仅对22号染色体使用从Ensembl (homo_sapiens.grch38.86 . gtl .gz)获得的注释。
wget http://genomedata.org/rnaseq-tutorial/annotations/GRCh38/chr22_with_ERCC92.gtf
看看gtf文件的内容。按“q”退出“less”显示。
less -p start_codon -S chr22_with_ERCC92.gtf
在gtf文件中有多少个基因id ?我们可以使用perl命令行命令来找出答案
perl -ne 'if ($_ =~ /(gene_id\s\"ENSG\w+\")/){print "$1\n"}' chr22_with_ERCC92.gtf | sort | uniq | wc -l
1318
现在查看GTF格式的单个转录本的结构。完成后按“q”退出“less”显示。
grep ENST00000342247 chr22_with_ERCC92.gtf | less -p "exon\s" -S
To learn more, see:
当运行HISAT2/StringTie/Ballgown流程时,已知的基因/转录注释被用于以下几个目的:
关于染色体命名的约定:
为了使RNA-seq分析工作,gtf文件中的染色体名称必须与参考基因组(即参考基因组fasta文件)中的染色体名称相匹配。如果得到一个StringTie结果,其中所有转录本的表达式值都为0,那么可能忽略了这一点。不幸的是,Ensembl、NCBI和UCSC不能在许多物种的染色体命名上达成一致,因此这个问题可能经常出现。你可以通过从相同的来源(例如,Ensembl)获得一个完整的参考基因组和基因注释包来避免这种情况。
关于参考基因组构建:
您的注释必须与您的参考基因组fasta文件相同的参考基因组构建相对应。例如,两者都对应UCSC的human build 'hg38', NCBI的human build 'GRCh38'等。即使你的参考基因组和注释都来自UCSC或Ensembl,它们仍然可能对应于该基因组的不同版本。这将在任何RNA-seq管道中引起问题。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。