前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TPM格式搜索错了,好尴尬

TPM格式搜索错了,好尴尬

作者头像
生信技能树
发布2018-07-27 09:49:48
1.1K0
发布2018-07-27 09:49:48
举报
文章被收录于专栏:生信技能树生信技能树

网上的答案经常不靠谱

通常情况下我会使用 featureCounts 得到表达矩阵是 raw counts, 但总是有人需要我转换成各种形式,比如 RPKM, FPKM and TPM

概念见: https://statquest.org/2015/07/09/rpkm-fpkm-and-tpm-clearly-explained/

想偷一下懒,就搜索到了 这个答案: http://ny-shao.name/2016/11/18/a-short-script-to-calculate-rpkm-and-tpm-from-featurecounts-output.html

代码语言:javascript
复制
## functions for rpkm and tpm
## from https://gist.github.com/slowkow/c6ab0348747f86e2748b#file-counts_to_tpm-r-L44
## from https://www.biostars.org/p/171766/
rpkm <- function(counts, lengths) {
  rate <- counts / lengths
  rate / sum(counts) * 1e9
}

tpm <- function(counts, lengths) {
  rate <- counts / lengths
  rate / sum(rate) * 1e6
}

朋友提醒我,其实错了,因为很明显 colSums(exprSet_tpm) 并不是一百万。

其实我老早就写过TPM公式,就是RPKM的百分比的百万倍扩大值,所以还是自己动手重新写了代码。

代码语言:javascript
复制
rpkm <- function(counts, lengths) {
  rate <- counts / lengths
  rate / sum(counts) * 1e9
}

exprSet_rpkm=rpkm(exprSet,len) 
exprSet_tpm=1e6*exprSet_rpkm/colSums(exprSet_rpkm)

不过,比较奇怪的是这个时候 colSums(exprSet_tpm) 是接近一百万,而不是精确的一百万,我还没有想清楚具体缘由,是不是R的计算小数点问题。

有关的讨论: http://blog.nextgenetics.net/?e=51#body-anchor

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档