Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >IGV查看拷贝数变异需要的segment文件格式解析

IGV查看拷贝数变异需要的segment文件格式解析

作者头像
生信技能树
发布于 2022-06-08 12:38:59
发布于 2022-06-08 12:38:59
1.3K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

有小伙伴委托我们做肿瘤外显子数据分析,主要是后面的统计可视化部分,因为前面的测序fastq文件基本上公司就随便走流程拿到了snp或者indel,如果是肿瘤外显子通常是maf格式的somatic突变信息文件。

但是绝大部分小伙伴其实并不会给很标准的文件格式给我们,还好我们的数据清洗技术还不错,就是费一点功夫,慢慢整理每个样品的snp或者indel,基本过滤和格式转换后,就可以出全景图,比如2021的文章:《Correlation of mutational landscape and survival outcome of peripheral T-cell lymphomas》,就是

  • 测序:150-bp pair-end reads on the NovaSeq
  • 比对:Sequence reads were aligned using BWA
  • 找突变SNVs :Single nucleo- tide variants (SNVs) were called using MuTect
  • 找突变Indels:Small insertions and deletions (Indels) were determined by GATK

有了Indels和SNV就可以进行如下所示的肿瘤队列突变全景图:

肿瘤队列突变全景图

但是它仅仅是Indels和SNV,并不是拷贝数变异信息,IGV查看拷贝数变异需要的segment文件格式。巧妇难为无米之炊,如果不给我们segment文件格式拷贝数变异信息记录文件,我们没办法进行可视化的。比如文章:《Patient-Derived Organoids Can Guide Personalized-Therapies for Patients with Advanced Breast Cancer》,就是挑选了几个病人进行类似于IGV一样的CNV可视化:

类似于IGV一样的CNV可视化

那它到底是需要什么样的文件呢?其实IGV软件就给出来了标准,而且有一个示例文件:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
'ID chrom loc.start loc.end num.mark seg.mean
GenomeWideSNP_416532 1 51598 76187 14 -0.7116
GenomeWideSNP_416532 1 76204 16022502 8510 -0.029
GenomeWideSNP_416532 1 16026084 16026512 6 -2.0424
GenomeWideSNP_416532 1 16026788 17063449 424 -0.1024
GenomeWideSNP_416532 1 17067742 17134834 61 -0.6868
GenomeWideSNP_416532 1 17148828 17965202 543 0.0072
GenomeWideSNP_416532 1 17971140 17977142 2 -2.3959
GenomeWideSNP_416532 1 17977404 25455928 4786 -0.0199

就是标准的6列:

  • 第一列是样品名字,每个segment文件可以有多个样品。
  • 第二列是染色体,一般来说就是 1-22号染色体,性染色体通常是不需要看的
  • 第三列和第四列就是每个 拷贝数变异区域的起始终止坐标,拷贝数变异范围动态变化很大,几百万个碱基是很正常的。
  • 第五列是可有可无的,至少IGV软件是可以忽略它,后续的gistic软件也似乎是不需要这个信息
  • 第六列是重点,拷贝数变化的情况,0代表是正常的二倍体,一般来说正负0.3范围内都是可以接受的接近二倍体。

有了这样的segment文件格式拷贝数变异信息记录文件,基本上你看到的文献里面的图表,我们都可以帮忙制作 出来。

参考:

  • 官方文档1 https://software.broadinstitute.org/software/igv/SegmentedData
  • 官方文档2 https://software.broadinstitute.org/software/igv/SEG
  • IGV效果:https://software.broadinstitute.org/software/igv/DefaultDisplay
  • 文件案例:https://software.broadinstitute.org/software/igv/sites/cancerinformatics.org.igv/files/linked_files/example.seg
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
评估肿瘤纯度的方法(三): 基于拷贝数变异 ABSOLUTE和DoAbsolute
我们在对肿瘤样本进行研究的时候,为了保证研究质量,通常会选择肿瘤纯度高的样本,那么一般在分析前这样就需要评估样本纯度,接下来我们会介绍一些评估样本纯度的方法。
作图丫
2022/03/29
4.7K0
评估肿瘤纯度的方法(三): 基于拷贝数变异 ABSOLUTE和DoAbsolute
肿瘤拷贝数变异的差异分析应该以这个肺癌脑转移为标准
粉丝的问题很朴素,就是想把TCGA数据库里面的非小细胞肺癌里面的肺鳞癌区分成为是否有TP53这个基因的somatic突变的两个分组,然后去比较这两个组别里面的病人的肿瘤拷贝数变异,做一个差异分析。
生信技能树
2021/12/10
6470
肿瘤拷贝数变异的差异分析应该以这个肺癌脑转移为标准
评估肿瘤纯度的方法(二):基于单核苷酸变异 TPES
对肿瘤样本进行基因组和分子分析时,首先需要定量肿瘤和混合的正常细胞的比例[肿瘤纯度(TP)或肿瘤细胞性],用以评估体细胞损伤检测边界并进行适当的比较分析。接下来我们会介绍一些评估样本纯度的方法。之前我们有介绍基于甲基化评估肿瘤纯度的R包InfiniumPurify。
作图丫
2022/03/29
1.4K0
评估肿瘤纯度的方法(二):基于单核苷酸变异 TPES
拷贝数变异(CNV)分析全家桶
本文比较长,长到需要个目录 1.定义 2.TCGA拷贝数变异数据处理流程 2.1 数据下载 2.2 数据整理 3.GISTIC2.0 4.maftools可视化 找出感兴趣的区域里面的基因 5.基因层面的分析 5.1 文件和数值大小意义 5.2 差异CNV基因鉴定 5.3 棒棒糖图 6.与基因表达量联合分析 6.1 与表达量画箱线图 6.2 与表达量的相关性 7.生存分析
用户11414625
2024/12/20
1.1K1
拷贝数变异(CNV)分析全家桶
玩转基因组浏览器之查看CNV分析结果
在TCGA项目中,使用Affymetrix SNP 6.0芯片来分析CNV, 首先使用DNACopy这个R包来计算拷贝数,然后用GISTIC2根据CNV来评估基因的变化情况,识别loss还是gain, 流程示意如下
生信修炼手册
2020/05/07
2.6K0
单细胞水平的肿瘤拷贝数分析新方法
它提出来了 single-cell inferred chromosomal copy number variation (sciCNV), a tool for inferring single-cell CNVs from scRNA-seq at 19-46 Mb resolution.
生信技能树jimmy
2023/08/31
4470
单细胞水平的肿瘤拷贝数分析新方法
vcf文件
VCF 是生物信息分析中非常重要的一种格式。主要用来描述基因组突变的信息,无论是检测出来的 SNP,indel,cnv,还是 SV,都可以存储格式都为 vcf 格式。从比对生成的 bam 文件中,将潜在变异信息筛选出来,就是 vcf 格式。vcf 是一种列表格式,里面包含很多的内容。需要掌握每一列的信息,并能使用相对应的软件对 vcf 进行处理。处理 VCF 格式软件主要包括 bcftools,vcftools,gatk,python pyvcf,plink 等。
生信喵实验柴
2023/09/04
1.9K0
vcf文件
【生信文献200篇】25 2433个乳腺癌患者的173个基因的突变全景图
英文标题:The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes
生信菜鸟团
2021/04/29
1.1K0
【生信文献200篇】25 2433个乳腺癌患者的173个基因的突变全景图
Control-Freec:检测拷贝数变异的神器
Control-Freec 既可以检测拷贝数变异CNV,还可以分析杂合性缺失LOH。官网如下
生信修炼手册
2020/05/11
2.3K0
Nat Comm:如何推断结构变异癌细胞分数
今天跟大家分享的是2020年2月发表在Nature Communications(IF=11.878)杂志上的一篇文章Inferring structural variant cancer cell fraction。文章中作者推断了结构变异癌细胞分数。
生信菜鸟团
2020/08/11
3.4K0
Nat Comm:如何推断结构变异癌细胞分数
提供数据代码,想学基因组分析,看看这篇刚发在 Nature 的胃突变图谱分析就够了
◉ 这项研究的概述。从30名捐赠者身上采集了胃腺。◉ 对来自正常、发炎和/或化生胃组织的217个微解剖单个腺体以及21个胃癌腺体进行了全基因组测序,另外对829个微解剖(每个包含几个相邻的腺体)进行了深度靶向基因测序(seq.)。◉ 三个捐赠者的胃腺微解剖体中体细胞突变的VAF分布,按中位VAF着色。◉ 所有全基因组测序单个胃腺微解剖体(n=217)的中位VAF直方图。◉ 非癌症捐赠者胃腺的SNVs和indels数量与捐赠者年龄的关系图(n=79)。红色虚线表示基于混合效应模型的最大似然估计年龄和SNV突变负荷关系,灰色阴影区域表示95%置信区间。◉ d图中的P值是通过双侧方差分析测试获得的。◉ a图中的胃轮廓改编自Servier Medical Art(https://smart.servier.com/),采用国际CC BY 4.0许可。◉ a图中的激光捕获显微切割轮廓改编自参考文献8,Springer Nature Limited。◉ M代表男性;F代表女性。
生信菜鸟团
2025/04/11
330
提供数据代码,想学基因组分析,看看这篇刚发在 Nature 的胃突变图谱分析就够了
图文详解 VCF 生信格式 (变异信息)
vcf (Variant Call Format)是一种用于存储基因组序列中的变异信息
白墨石
2023/11/10
3.5K1
图文详解 VCF 生信格式 (变异信息)
使用FACETS对ngs数据找CNV
肿瘤样本拷贝数变异 (CNV,copy number variation),即 somatic CNV 是最主要的体细胞突变之一。
生信技能树
2018/12/07
6.8K0
使用FACETS对ngs数据找CNV
玩转基因组浏览器之查看MAF文件
对于基因组变异位点的存储,除了VCF外,还有一种常见的文件格式——MAF,是专门针对human突变位点注释信息的存储而定义的一种文件格式,最早在TCGA项目中广泛使用,在一个文件中同时包含所有样本的SNV和对应的注释信息,详细的格式介绍可以查看以下文章
生信修炼手册
2020/05/07
1.3K0
外显子拷贝数分析之cnvkit
CNVkit使用on-target reads和非特异性捕获的off-target reads来计算每个样本基因组的log2拷贝比。简而言之,off-target bin是从目标区域之间的基因组位置分配的,off-target bin的平均大小比平均on-target bin大得多,以匹配它们的read counts.然后分别使用目标位置和非目标位置来计算每个间隔内的平均reads深度。然后将目标reads深度和非目标reads深度结合起来,将其归一化为来自对照样本的参考,并对几个系统偏差进行校正,从而得到 log2 copy ratios的最终表。内置的segmentation algorithm可以在log2 copy ratios上运行,以推断discrete copy number segments。
追风少年i
2024/05/26
4210
外显子拷贝数分析之cnvkit
这篇最近发在Nature上的肿瘤进化有什么不一样?
今天跟大家分享的是2020年2月发表在Nature(IF=43.07)杂志上的一篇文章。文章中作者讨论了2,658种癌症的进化史,说明了早期癌症检测的可能性。
生信菜鸟团
2020/07/29
2.6K0
这篇最近发在Nature上的肿瘤进化有什么不一样?
肿瘤panel测序研究不应该公开基因列表吗
数据分析我们一般希望是从fastq的测序数据文件开始,但是因为并不是常规肿瘤外显子,所以使用agilent的v6不管用,很多流程都需要其panel对应的个性化的bed文件。但是找那些公司索取的时候,居然说是保密的???
生信技能树
2021/07/06
7350
aCGH芯片分析简介
aCGH芯片是一种双色芯片,通过红绿两种荧光的比值,通常称之为log2 ratio, 来反应测试样本相对对照样本的DNA拷贝数变化。aCGH芯片的分析,通常包含以下三个步骤
生信修炼手册
2019/12/19
1.2K0
aCGH芯片分析简介
Nature 新文: 转移性实体瘤全基因组泛癌分析
Pan-cancer whole-genome analyses of metastatic solid tumours
作图丫
2022/03/29
9260
Nature 新文: 转移性实体瘤全基因组泛癌分析
为什么胃癌并不使用拷贝数来判断恶性的肿瘤上皮细胞呢
并非所有恶性肿瘤上皮细胞都表现出拷贝数变化(Copy Number Variations, CNVs),但拷贝数变化是许多癌症的共同特征。以下是一些相关的要点:
生信技能树
2024/11/21
840
为什么胃癌并不使用拷贝数来判断恶性的肿瘤上皮细胞呢
推荐阅读
相关推荐
评估肿瘤纯度的方法(三): 基于拷贝数变异 ABSOLUTE和DoAbsolute
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验