首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

算法(一)截取reads的算法

正因为二代测序是有一定的错误率的,所以我们在进行下游分析之前,常常要对fastq文件中的reads进行修剪(trim),将一条reads中测序质量不高的部分截掉。...那么截取reads常用的策略有两种,Fixed-length-trimming以及Phred-based-trimming。...一般来说,一条reads的头几个碱基和末尾几个碱基的测序质量比较差,所以你可以不加区分地将所有reads的前m个碱基以及后n个碱基去除。这种方法简单直接,但是不够精细。为什么这么说呢?...因为每条reads测序质量差的区域长度并不固定,用一个固定的参数去截取reads两端往往会出出现“截取过度”或者“截取不足”的情况。 ?...另外,有时候一条reads的非末端区域也会出现测序质量很差的碱基序列,那么这种从两头截取序列的策略就显得捉襟见肘了。综上,我们需要一种更为精细的截取方法。

1K20

duplicated是重复的reads,那deduplicated又是什么?

在数据准确有效的情况下,每检测到一种独特的reads,该项目的reads类型计数增加1,N_reads表示该项目共检测到了N种独特的reads。...n_deduped_reads表示在N种独特的reads之中,有n种reads仅被检测到了1次。...测序饱和度是指至少被检测到2次的reads占比,也就是1 - (n_deduped_reads / N_reads) 1减去唯一reads占比就是饱和度: 1 - (12435096 / 24451006...N种独特的reads 公式计算中所有的reads都应该是独特的reads来进行计算,至于是唯一还是重复都只是这个独特read的属性 如(A、A、B、B、B、C)中独特reads(A[重复]、B[重复]、...Count 网页结果解析公式关于N_reads需要理解他前面说的“N_reads表示该项目共检测到了N种独特的reads” duplicates则是所有独特重复reads数,并不是所有重复reads

31830

RNA-seq(6): reads计数,合并矩阵并进行注释

值得注意的是不同工具对multimapping reads处理方式也是不同的,例如HTSeq-count就直接当它们不存在。而Qualimpa则是一人一份,平均分配。...请看Jimmy文章 # 首先将bam文件按reads名称进行排序(前期是按照默认的染色体位置进行排序的,所以要重新进行排序),这里我们主要以小鼠的数据为例子,不进行人类的测序数据。...计数,得到表达矩阵 数据准备已经完成,接下来要使用htseq-count对数据进行reads 计数。...positional arguments: samfilenames Path to the SAM/BAM files containing the mapped reads....另外双端测序数据必须进行排序,看-r选项,即支持染色体位置排序(pos),又支持reads name排序,但name排序会更好。

6.5K61

巧用TagAlign格式来进行ATAC中的shift reads操作

由于Tn5转座酶的特性,在ATAC数据分析中,首选需要对bam文件中reads的比对位置进行shift, 然后再进行peak calling。那么如何进行这一操作呢?...直接修改bam文件中reads的比对区域吗? 当然你可以这样操作,但是bam文件的读写是一个非常费时的操作,因为bam文件中包含了序列,比对位置等完整信息,文件非常大。...对于下游分析而言,其核心信息是reads比对到参考基因组上的位置,就是坐标,我们只需要提取这个坐标,然后进行shift操作就可以了,此时可以借助TagAlign这一格式来操作,更加简单方便。...前三列表示reads比对上的染色体位置,第四列为reads的名称,第五列代表比对的质量值MAPQ,第六列代表正负链信息。...bedpe格式在一行中显示了R1和R2两个reads的比对情况,列数为10列。 对于单端序列。直接用bed格式就可以;对于双端序列,推荐用bedpe格式。

1.3K20
领券