【直播】我的基因组62:用Delly检测SV

人类单体型(Haplotype)及单核苷酸多态性位点(Single Nucleotide Polymorphism, SNP),能够揭示对药物和环境因子的个体反应差异,是将健康和疾病研究深入到分子水平的重要遗传信息。

以前我对全基因组重测续的研究也大多是找到SNV即可。但这次毕竟是我自己的基因,虽然以前没有做过SV,但还是想看看。

SV(结构变异)指基因组水平上大片段的插入、缺失、倒置、易位等序列。

详细的生物学解释,还有图文并茂的讲述大家可以自行阅读下面的课件和综述。人类基因组中很多结构变异(Structure Variation, SV)是正常的,这种良性 SV 不会导致疾病发生。

http://www.mi.fu-berlin.de/wiki/pub/ABI/GenomicsLecture10Materials/structural-variation.pdf

工具也挺多,去omictools搜索可以看到一大把,而且看最新的综述(Structural variation detection using next-generation sequencing data A comparative technical review) 里面也有详细列出这些工具和工具的比较!

插入(Insertion, INS)

缺失(Deletion, DEL)

反转(Inversion, INV)

染色体内部易位(Intra-chromosomal Translocation, ITX)

染色体间易位(Inter-chromosomal Translocation, CTX)

我们就是要从PE150bp的测序数据里面找到上面的5种的现象!

使用Delly检测SV

Delly软件的下载地址为https://github.com/dellytools/delly,下载后可以直接使用,无需安装,同时delly支持多线程运算,只需在运行命令行前加 export OMP_NUM_THREADS=8

我的代码如下:

export OMP_NUM_THREADS=5
bam=/home/jianmingzeng/data/project/myGenome/fastq/jmzeng.filter.rmdup.bam
excl=/home/jianmingzeng/biosoft/delly/delly/excludeTemplates/human.hg19.excl.tsv
genome=/home/jianmingzeng/reference/genome/hg19/hg19.fa
~/biosoft/delly/delly_v0.7.6_linux_x86_64bit call -t DEL -g $genome -o DEL.bcf -x $excl $bam
~/biosoft/delly/delly_v0.7.6_linux_x86_64bit call -t DUP -g $genome -o DUP.bcf -x $excl $bam
~/biosoft/delly/delly_v0.7.6_linux_x86_64bit call -t INV -g $genome -o INV.bcf -x $excl $bam
~/biosoft/delly/delly_v0.7.6_linux_x86_64bit call -t TRA -g $genome -o TRA.bcf -x $excl $bam
~/biosoft/delly/delly_v0.7.6_linux_x86_64bit call -t INS -g $genome -o INS.bcf -x $excl $bam
ls *bcf|while read id ;do bcftools view $id >${id%%.*}.vcf ;done

不大记得耗时多久了,反正时间对我来说无所谓,因为读懂它的结果耗时更长,结果如下:

对检测到的SV进行genomic feature的注释

根据样品检测得到的SV变异在参考基因组上的位置信息,对比参考基因组的基因、CDS位置等信息(一般在gff文件中),可以注释SV变异是否发生在基因间区、基因区或CDS区等。对缺失(DEL)、插入(INS)、反转(INV)3种类型的结构变异注释进行注释!

这里我选择的是Bioconductor 的intansv包!

https://bioconductor.org/packages/release/bioc/html/intansv.html

反正我只会用了软件,会跑流程,至于结果怎么看,我真心不懂,还需要持续学习,估计等过了100讲,我会推出SV的续集,敬请期待~

这个,就后续再介绍咯!

文:Jimmy

图文编辑:吃瓜群众

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小白课代表

2月7日软件目录+有需求

1102
来自专栏即时通讯技术

调皮的程序员:Linux之父雕刻在Linux内核中的故事

因为LINUX操作系统的流行,Linus 已经成为地球人都知道的名人。虽然大家可能都听过钱钟书先生的名言:“假如你吃个鸡蛋觉得味道不错,又何必认识那个下蛋的母鸡...

614
来自专栏玉树芝兰

如何用Python提取中文关键词?

本文一步步为你演示,如何用Python从中文文本中提取关键词。如果你需要对长文“观其大略”,不妨尝试一下。

982
来自专栏生信宝典

生信宝典之傻瓜式 (三) 我的基因在哪里发光 - 如何查找基因在发表研究中的表达

还在为不会分析大数据发愁吗? 还在为无法查询和比较发表文章中感兴趣基因表达值抱怨吗? 使用genevestigator,高效利用已经有研究结果,轻松与同行研究结...

2046
来自专栏生信技能树

比对到hg19和hg38对somatic变异的寻找影响很大

其中B是正常组织的WES数据,使用varscan找somatic mutation的时候作为normal,然后对另外两个样本(D和T)计算。 从这个bam文件可...

1233
来自专栏逸鹏说道

2018年码文方向统计

昨天发图片,琢磨着发送成功了,就把图片素材删了(占空间),然后发现不能看了,今天还是发下吧:

974
来自专栏PPV课数据科学社区

用R进行文本分析初探——以《红楼梦》为例

一.写在前面的话~   刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细...

3935
来自专栏生信技能树

单细胞转录组3大R包之monocle2

主要是针对单细胞转录组测序数据开发的,用来找不同细胞类型或者不同细胞状态的差异表达基因。分析起始是表达矩阵,作者推荐用比较老旧的Tophat+Cufflinks...

1.6K9
来自专栏Y大宽

Cytoscape插件6:CluoGO+Cluepedia

大多数的富集工具都是以列表和复杂等级树显示。Cluoego可视化归纳相似的过程或通路。主要是GO和KEGG ,并且作者可以设置自己的阈值动态改变网络。 Clu...

1763
来自专栏数据科学与人工智能

【Python环境】python的nltk中文使用和学习资料汇总帮你入门提高

nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具. 1....

3466

扫码关注云+社区