生信技能树学习笔记
首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。
这个过程需要两种文件1.基因组文件:fasta
2.注释文件:gff/gtf
常用参考基因组数据库
Ensembl:www.ensembl.org(最常用)
NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml
UCSC:http://www.genome.ucsc.edu/
简单介绍Ensembl 官网
下载DNA信息
选择如下的文件,复制连接
参考基因组准备-ensembl下载
## 参考基因组准备:注意参考基因组版本信息下载,Ensembl:http://asia.ensembl.org/index.html http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/ |
---|
Nohup表示后台进行,>dna.log& 表示后台运行输出日志文件
# 下载基因组序列axel curl nohup wget -c http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log & |
---|
下载cDNA信息
cDNA下载红色部分显示链接
# 下载转录组序列nohup wget -c http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz >rna.log & |
---|
下载注释文件
Gff文件
Gtf文件
# 下载基因组注释文件nohup wget -c http://ftp.ensembl.org/pub/release-105/gtf/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gtf.gz >gtf.log & nohup wget -c http://ftp.ensembl.org/pub/release-105/gff3/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gff3.gz >gff.log& |
---|
解压
# 上述文件下载完整后,再解压;否则文件不完整就解压会报错# 再次强调,一定要在文件下载完后再进行解压!!!nohup gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz Homo_sapiens.GRCh38.cdna.all.fa.gz >unzip.log & |
---|
数据格式fasta介绍
注释文件介绍
GFF,全称为Generic Feature Format,主要用来描述基因的结构与功能信息,对基因组进行注释。现在流行的版本为GFF3。格式文件为文本文件,分为9列,以TAB分开。控制符使用RFC 3986 Percent-Encoding 编码。比如:%20 代表着ASCII的空格。
参考基因组注释gff格式
Gff文件第九列详解
Gtf文件
Ensembl基因组数据库
注:人类的数据中不显示物种信息
补充
fastq转换成fasta
# 方法1zless -S SRR1039511_1_val_1.fq.gz |awk '{ if(NR%4==1){print">" substr($0,2)} if(NR%4==2){print} }' | less -S # 方法2zless -S SRR1039510_1_val_1.fq.gz |paste - - - - |cut -f 1,2 |tr '@' '>' |tr '\t' '\n' |less -S |
---|
如何从gtf/gff文件中得到特定版本的ID和symbol的对应关系
应用:ID与symbol转换本地化,不依赖于第三方工具和软件包,并可以根据biotype类型区分mRNA,lncRNA以及miRNA等信息。
# 从gff或者gft文件中获取ID与symbol对应关系,以及biotype类型zless -S Homo_sapiens.GRCh38.104.chr.gtf.gz |awk -F'\t' '{if($3=="gene"){print$9}}' |awk -F';' '{print$1,$3,$5}' |awk '{print$2"\t"$4"\t"$6}' |sed 's/"//g' |grep 'protein_coding' >protein_coding_id2name.xls |
---|