Ensembl:www.ensembl.org
NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml
UCSC:http://www.genome.ucsc.edu/
ensembl下载
# 方式1:使用wget命令下载
如:nohup wget -c http://ftp.ensembl.org/pub/release- 104/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log &
# 方式2:使用其他工具如迅雷下载,然后上传到服务器
比对内容:
• 1.建索引
• 2.比对参考基因组
• 3.sam转bam
任务串联
cat ../../data/cleandata/trim_galore/ID | while read id
do
hisat2 -p 5 -x ${index} -1 ${inputdir}/${id}_1_val_1.fq.gz -2 ${inputdir}/${id}_2_val_2.fq.gz 2>${id}.log | samtools sort -@ 3 -o ${outdir}/${id}.Hisat_aln.sorted.bam - done
难点:- 占位符 表示前一个任务的输出结果通过管道符传递给后一个命令,并指定位置
关注点:
• 总比对率:一般都能在80%以上
• 唯一比对:69.80%,越高越好
MultiQC整理hisat2结果:multiqc *log
SAM(The Sequence Alignment/Map format)格式,即序列比对文件格式,详细
介绍见:http://samtools.github.io/hts-specs/SAMv1.pdf
BAM是SAM的二进制文件(B源自binary)
samtools工具:http://www.htslib.org/doc/samtools.html
Samtools常用命令的总结:
https://www.bioinfo-scrounger.com/archives/245/
https://www.cnblogs.com/xiaofeiIDO/p/6805373.html
参考文档:http://subread.sourceforge.net/
官网:http://bioinf.wehi.edu.au/featureCounts/
featureCounts的结果整理得到原始表达矩阵raw counts
Salmon可以快速从fastq快速得到基因表达
Salmon参考文档:https://salmon.readthedocs.io/en/latest/
salmon index -t Homo_sapiens.GRCh38.cdna.all.fa -i salmon_index
-t:参考基因组fasta文件,可以接受压缩格式
-i:存储索引的文件夹名
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。