首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用picard评估文库复杂度

欢迎关注”生信修炼手册”!

文库复杂度对应的英文如下

Library Complexity

表示的是文库中unique的分子数目,unique分子数目越多,文库复杂度越高。在数据分析中,重复序列会对下游分析造成影响,在snp calling, peak caling等分析前都需要去除文库中的重复序列。

只有一个复杂度高的文库,才能确保挖掘出更多有效的信息,所以在数据分析中,需要对文库的复杂度进行评估。本文主要介绍下通过picard这个工具来评估文库复杂度,用法如下

基本用法非常简单,只需要指定输入输出即可,输入文件为比对产生的bam文件,输出文件记录了文库复杂度信息,其内容如下

为了方便展示,这里我截取了部分重点内容并进行了转置,其中有3个指标识别需要重点关注

READ_PAIRS_EXAMINED, bam文件中包含的序列数,这里以fragment为单位,默认会根据MAPQ值对bam文件中的reads进行过滤,这里统计的是过滤之后的序列数

READ_PAIR_DUPLICATES,bam文件中包含的重复序列数

ESTIMATED_LIBRARY_SIZE, 预测出来的文库中unique分子的数目

通过序列数和重复序列数,有对应的公式来计算unique分子数目,公式如下

其中表示bam文件中的序列数,表示bam文件中的unique序列数,用序列数减去重复序列数即可得到,就是文库中unique分子数目,即library size。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200116A0SMLW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券