前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >比对到hg19和hg38对somatic变异的寻找影响很大

比对到hg19和hg38对somatic变异的寻找影响很大

作者头像
生信技能树
发布2018-07-27 14:35:55
1.2K0
发布2018-07-27 14:35:55
举报
文章被收录于专栏:生信技能树

我的bam文件如下:

代码语言:javascript
复制
4.0G Mar 29 06:18 B_marked_fixed.bam
3.8G Mar 29 13:22 D_marked_fixed.bam
4.5G Mar 29 07:26 T_marked_fixed.bam

其中B是正常组织的WES数据,使用varscan找somatic mutation的时候作为normal,然后对另外两个样本(D和T)计算。 从这个bam文件可以看到这个WES测序深度不够高,可能平均就 50X吧,如果是 200X的WES数据的bam应该是有20G左右文件大小。

了解hg19和hg38参考基因组异同

需要知道hg38这个新版参考基因组到底进步在哪里。(自行搜索咯)

首先看somatic mutation个数

统计得到的统计学显著的somatic mutation个数如下:

代码语言:javascript
复制
  278 D_varscan.snp.Somatic.hc
  222 T_varscan.snp.Somatic.hc
  200 d_varscan.snp.Somatic.hc
  174 t_varscan.snp.Somatic.hc

如果只看有可能是somatic mutation个数如下:

代码语言:javascript
复制
  1426 D_varscan.snp.Somatic
  1375 T_varscan.snp.Somatic
  1071 d_varscan.snp.Somatic
  1001 t_varscan.snp.Somatic

其中大写字母的文件代表是比对到了hg19,小写字母的文件是我比对到hg38后跑varscan得到的。可以看到,如果是比对到hg38参考基因组的,那么找到的变异位点要稍微少一点点,不过我意识到参考基因组的有一些是非染色体的片段,所以我重新看了看染色体个数分布情况。

hg38

hg19

chr

hg38

hg19

chr

10

18

1

8

16

1

8

12

2

8

14

2

5

9

3

4

7

3

7

20

4

8

22

4

6

7

5

6

9

5

4

7

6

10

19

6

5

6

7

2

13

7

4

5

8

2

4

8

2

8

9

1

12

9

7

15

10

3

14

10

6

10

11

4

5

11

7

10

12

9

10

12

1

5

13

0

1

13

1

4

14

2

7

14

2

6

15

2

4

15

9

7

16

4

15

16

2

16

17

9

13

17

2

5

18

1

3

18

1

6

19

16

18

19

2

7

20

7

6

20

7

10

21

1

14

21

1

2

22

3

2

22

1

3

X

22

28

X

4

17

Y

4

20

Y

104

215

sum

136

276

sum

左边的是T样本,右边的是D样本,可以看到,换成hg38这个新版人类的参考基因组之后,找到统计学显著的somatic mutation个数显著减少了。

当然了,仅仅是看个数,意义不大,我们需要仔细分析位点。

然后具体到位点

首先可以借用一系列网页工具:

  • 用Mutation-Assessor软件来看突变位点对基因或者蛋白功能的影响 比如输入 hg19,13,19447703,C,T 但是一般是看protein-coding基因上面的情况
  • snp-nexus 网页略微有点复杂
  • 或者把位点当做peaks来注释:http://52.32.26.75:3838/peaks_annotation/
  • 可以使用homer来进行注释

其实如果这个位点位于dbSNP数据库,那么接下来一切查询都可以基于rs ID号来进行关联,虽然 rs ID号 也会有些微变化。

因为具体到位点,就涉及到课题组信息了,不便公布,但是思路给大家了,可以是坐标转换,或者以 rs ID号 进行关联比较。最终其实要载入IGV去一对一比较,而且varscan软件给的high confidence的somatic mutation也需要注意,它默认P值卡的是0.05,其实一刀切并不好。

更多

以上我仅仅是比较了在50X这个测序深度下,VARSCAN软件基于不同参考基因组版本的表现问题。

还可以探索不同的软件,或者不同的测序深度。

我这里只是想说,对配对的WES数据来说,找somatic mutation这件事,值得仔细检查,假阳性问题比较严重。

测序深度太低的数据,找somatic突变真是头疼

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 了解hg19和hg38参考基因组异同
  • 首先看somatic mutation个数
  • 然后具体到位点
  • 更多
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档