如何批量从多个基因组区间中得到位于其间的所有gene list

Low pass CNV-seq、arrayCGH、SNParray等用于CNV分析时,通常会得到一些基因组区域(genomic intervals),通常遗传咨询师需要对这些区域的致病性做解读,需要把这些得到的区域注释到OMIM、ClinGen、Clinvar、ExAC cnv、DGV、Decipher等CNVdatabase,最基本的的需求就是得到这些区域的gene Symbol list

本人从ucsc golden path 下载到了hg19版本的refGene(http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/refGene.txt.gz),已经存储到了本地数据库(这不做具体描述)。然后用c语言实现了毫秒级的快速检索。以下是一个CNVseq segment Calling得到的两个copy number gain区间,经过短暂的运行,我们得到了这两个区间的所有gene Symbol list及其基因组坐标(如果一个gene Symbol 有多个refGene records,则取其基因组坐标的并集)。

本人有偿提供此工具,对于企业也可提供REST API

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171210G0I6GO00?refer=cp_1026

相关快讯

扫码关注云+社区