这次没有拿到遗传病的室间质评的数据,直接从NCBI上找一些数据来分析。NCBI上搜索deaf,点击第一条搜索结果,最后几经跳转找到数据下载页面:https://trace.ncbi.nlm.nih.gov/Traces/sra/?study=SRP218677
可以看到:Targeted next generation sequencing of 139 known deafness-related genes in 44 deaf patients with mono-allelic GJB2 mutations
这里一共44个样本,有兴趣的可以全部下载来分析。
奇怪的是,这里不是sra下载,是直接下载fastq文件,不管了。使用下载工具,最后得到的文件是C261 R1.fastq.1这种文件名,这里首先改名为C261_R1.fastq,然后使用gzip,bgzip压缩得到 C261_R1.fastq.gz;C261_R2.fastq.gz也是同样.
也可以直接从一下链接下载:
C261_R1.fastq.gz bc72a0b02876273e2457c753a87241aa 54M
C261_R2.fastq.gz a5f6fcac16cbbe2b2a0c98982243a949 54M
名称 (点击下载) | 备注 |
---|---|
提供运行控制平台/社区版 | |
分析流程文件,可以一键导入分析平台(点击查看操作) <br />当然可以参照图片中运行脚本,shell里运行,效果也是一样 | |
hg19.exon.bed 用到的bed,intelval文件,因为没有原作者的150个基因的bed,这里用一个全外的替代,所以最后的QC结果计算也是不准确的 <br />GermlineSnvAnnotationFilter.py 过滤脚本 <br />GermlineSnvAnnotationFilter 使用pyinstaller编译的直接可执行文件<br />GermlineQcProcessor.py 获取整体QC数据的脚本 <br />GermlineQCProcessor 使用pyinstaller编译的直接可执行文件<br />blacklist.csv 记录了耳聋相关的基因和部分突变位点,用来过滤耳聋相关结果 | |
result.zip分析结果 |
变量名 | 变量值 | 类型 |
---|---|---|
refs.blacklist | /opt/ref/deaf/blacklist.csv | 文件 |
tools.fastp | /opt/ref/fastp | 程序 |
tools.samtools | /opt/samtools/samtools | 程序 |
tools.java | /opt/jdk1.8.0_162/bin/java | 程序 |
tools.bwa | /opt/bwa/bwa | 程序 |
tools.sambamba | /opt/ref/sambamba-0.7.0-linux-static | 程序 |
tools.gatk | /opt/ref/gatk-4.1.3.0/gatk | 程序 |
refs.gene | /opt/ref/hg19/hg19_refGene.txt | 文件 |
refs.dict | /opt/ref/hg19/ucsc.hg19.dict | 文件 |
refs.hum | /opt/ref/hg19/ucsc.hg19.fa | 文件 |
refs.interval | /opt/ref/projects/hg19.exon.interval_list | 文件 |
refs.dbsnp | /opt/ref/hg19/dbsnp_138.hg19.vcf | 文件 |
refs.mills | /opt/ref/hg19/Mills_and_1000G_gold_standard.indels.hg19.vcf | 文件 |
refs.1000G | /opt/ref/hg19/1000G_phase1.indels.hg19.vcf | 文件 |
refs.af_only | /opt/ref/hg19/af-only-gnomad.raw.sites.hg19.vcf.gz | 文件 |
refs.bed | /opt/ref/projects/hg19.exon.bed | 文件 |
refs.small.exac | /opt/ref/hg19/small_exac_common_3_b37.vcf | 文件 |
envis.threads | 32 | 数值 |
envis.memory | 32G | 字符 |
最后我们得到一个结果表格,根据Clinvar数据库的注释来判断的话,只有图中黄色一行的状态为:
Pathogenic/Likely_pathgenic(致病的/可能致病的);
其余行记录均为:NAN或者Benign/Like_benign(良性的/可能良性的)
这与下载数据的内容相匹配:Targeted next generation sequencing of deaf patients with mono-allelic GJB2 mutations
说明我们的分析结果准确度还可以。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。