问在一个巨大的数据帧中计算pvalue需要很长的时间
EN

Stack Overflow用户

提问于 2018-08-22 16:26:17

回答 1查看 121关注 0票数 5

我正在尝试用学生t-test在一个非常大的数据框架内计算p.values。因为我的原始数据帧在数据帧内有大约几条线，所以p.values的计算花费了很长时间(大约花了100分钟)。

我正在尝试加快这一过程，但我不确定数据帧是否是提高速度的最佳格式，或者我是否应该重塑数据并可能使用matrix。

下面是一些可重复使用的示例，最后是一个小数据帧和一个基准测试。

library(dplyr)

my.t.test <- function (x, y = NULL) {
  nx <- length(x)
  mx <- mean(x)
  vx <- var(x)
  ny <- length(y)
  my <- mean(y)
  vy <- var(y)
  stderrx <- sqrt(vx/nx)
  stderry <- sqrt(vy/ny)
  stderr <- sqrt(stderrx^2 + stderry^2)
  df <- stderr^4/(stderrx^4/(nx - 1) + stderry^4/(ny - 1))
  tstat <- (mx - my - 0)/stderr
  pval <- 2 * pt(-abs(tstat), df)
  return(pval)
}

cont <- c("A", "B")
set.seed(1)
df1 <- data.frame(id=rep(1:1000, each=8),
                  replicate=1:4,
                  A=rnorm(8000, mean=26, sd=5),
                  B=rnorm(8000, mean=25, sd=7))

completeDF <- function() {
  df1 %>%
  group_by(id) %>%
  summarise(Comparison=paste(cont, collapse=' - '),
            p.value=t.test(get(cont[1]), get(cont[2]))$p.value,
            log10.p.value=-log10(p.value),
            log2.foldchange=mean(get(cont[1]), na.rm=TRUE) - mean(get(cont[2]), na.rm=TRUE)
  )}
noPvalue <- function() {
  df1 %>%
    group_by(id) %>%
    summarise(Comparison=paste(cont, collapse=' - '),
              log2.foldchange=mean(get(cont[1]), na.rm=TRUE) - mean(get(cont[2]), na.rm=TRUE)
    )}
myPvalue <- function() {
  df1 %>%
    group_by(id) %>%
    summarise(Comparison=paste(cont, collapse=' - '),
              p.value=my.t.test(get(cont[1]), get(cont[2])),
              log10.p.value=-log10(p.value),
              log2.foldchange=mean(get(cont[1]), na.rm=TRUE) - mean(get(cont[2]), na.rm=TRUE)
    )}
microbenchmark::microbenchmark(
  completeDF(), noPvalue(), myPvalue()
)

我的基准：

Unit: milliseconds
         expr       min        lq      mean    median        uq      max neval
 completeDF() 358.38330 365.09423 424.60255 369.20453 377.40354 655.2009   100
   noPvalue()  57.42996  58.89978  81.86222  59.66851  60.96582 337.2346   100
   myPvalue() 216.04812 220.98277 318.09568 224.19516 493.74908 609.4516   100

因此，使用我非常精简(无需测试等)的t.test函数，我已经节省了一些时间。但我想知道这是否可以通过矢量化以某种方式进一步改善。

performance

dplyr

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51962691

复制

相似问题

问在一个巨大的数据帧中计算pvalue需要很长的时间
EN

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在一个巨大的数据帧中计算pvalue需要很长的时间EN

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在一个巨大的数据帧中计算pvalue需要很长的时间
EN