前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Preseq评估文库复杂度

使用Preseq评估文库复杂度

作者头像
生信修炼手册
发布2020-05-07 16:17:03
1.1K0
发布2020-05-07 16:17:03
举报
文章被收录于专栏:生信修炼手册生信修炼手册

评估文库复杂度有不同的算法,除了picard外,还有其他工具可以用,Preseq就是其中最常用的一款工具,文章发表在nature methods上,对应的链接如下

https://www.nature.com/articles/nmeth.2375

Preseq是一款通用的评估二代测序文库复杂度的方法,官网如下

http://smithlabresearch.org/software/preseq/challenge/

该软件还有对应的R包版本preseqR, 链接如下

https://cran.r-project.org/web/packages/preseqR/index.html

通过对序列进行随机抽样,计算不同抽样数据量下的文库复杂度,然后绘制文库复杂度曲线,以此来评估当前测序量是否满足复杂度的需求,是否需要加测数据量,其用法如下

# 第一步,对bam文件排序
samtools sort input.bam -o input.sorted.bam
# 第二步,运行preseq
preseq lc_extrap \
-s 10000 \
-o preseq.output.txt \
-B \
-P \
input.sorted.bam

-s指定抽样的reads数目,-o指定输出结果文,-B表示输入文件为bam文件,-P表示输入文件为双端测序,输出文件内容示意如下

-s参数的值为步长,计算每次抽样对应的unique fragment数目,以及对应的95%置信区间。对该结果进行可视化,代码如下

输出的图片如下所示

上图实际上是一种饱和度曲线,曲线末端斜率上升越趋近于平缓,说明再增加测序量新发现的fragment也不会多很多,当前测序量已经能够满足要求,如果曲线末端斜率非常陡峭,说明还需进一步增加数据量。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档