问使用dplyr从dataframe中抽取子组的样本行
EN

Stack Overflow用户

提问于 2014-01-21 18:24:14

回答 4查看 21K关注 0票数 31

如果我想从不同的组中随机选择一些样本，我可以使用plyr包和下面的代码

require(plyr)
sampleGroup<-function(df,size) {
  df[sample(nrow(df),size=size),]
}

iris.sample<-ddply(iris,.(Species),function(df) sampleGroup(df,10))

这里从每个物种中选择10个样本。

我的一些数据帧非常大，我的问题是，我可以在dplyr包中使用相同的sampleGroup函数吗？或者有其他方法可以在dplyr中做同样的事情吗？

编辑

dplyr包的0.2版引入了两个新函数，用于从表sample_n和sample_frac中选择随机行

dplyr

sample

回答 4

Stack Overflow用户

发布于 2014-04-21 15:48:56

是的，您可以通过do()函数优雅地使用dplyr。下面是一个示例：

mtcars %>% 
    group_by(cyl) %>%
    do(sample_n(.,2))

结果是这样的

Source: local data frame [6 x 11]
Groups: cyl

   mpg cyl  disp  hp drat    wt  qsec vs am gear carb
1 24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
2 26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
3 21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
4 17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
5 14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
6 15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8

更新：

在较新版本的dplyr中，sample_n不再需要do函数。当前用于每组随机抽样两行的代码：

mtcars %>% 
    group_by(cyl) %>% 
    sample_n(2)

票数 62

Stack Overflow用户

发布于 2014-01-21 20:16:34

使用data.table很容易做到这一点，对于大型表格也很有用。

注意：正如特洛伊在评论中提到的，使用data.table有一种更有效的方法来实现这一点，但我想尊重答案中的OP示例函数和格式。

require(data.table)
DT <- data.table(x = rnorm(10e6, 100, 50), y = letters)

sampleGroup<-function(df,size) {
  df[sample(nrow(df),size=size),]
}

result <- DT[, sampleGroup(.SD, 10), by=y]
print(result)

# y         x y
# 1: a  30.11659 m
# 2: a  57.99974 h
# 3: a  58.13634 o
# 4: a  87.28466 x
# 5: a  85.54986 j
# ---              
# 256: z 149.85817 d
# 257: z 160.24293 e
# 258: z  26.63071 j
# 259: z  17.00083 t
# 260: z 130.27796 f

system.time(DT[, sampleGroup(.SD, 10), by=y])
# user  system elapsed 
# 0.66    0.02    0.69 

Using the iris dataset:
iris <- data.table(iris)
iris[,sampleGroup(.SD, 10), by=Species]

票数 9

Stack Overflow用户

发布于 2014-01-21 20:22:51

这是个好问题！我看不到任何简单的方法来使用dplyr的文档化语法来完成这项工作，但是如何解决这个问题呢？

sampleGroup<-function(df,x=1){

  df[
    unlist(lapply(attr((df),"indices"),function(r)sample(r,min(length(r),x))))
    ,]

}

sampleGroup(iris %.% group_by(Species),3)

#Source: local data frame [9 x 5]
#Groups: Species
#
#    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
#39           4.4         3.0          1.3         0.2     setosa
#16           5.7         4.4          1.5         0.4     setosa
#25           4.8         3.4          1.9         0.2     setosa
#51           7.0         3.2          4.7         1.4 versicolor
#62           5.9         3.0          4.2         1.5 versicolor
#59           6.6         2.9          4.6         1.3 versicolor
#148          6.5         3.0          5.2         2.0  virginica
#103          7.1         3.0          5.9         2.1  virginica
#120          6.0         2.2          5.0         1.5  virginica

编辑-性能比较

下面是针对1m行、26个组使用data.table (根据示例使用本机和函数调用)的测试。

原生data.table的速度大约是dplyr变通方法的两倍，也比使用callout调用的data.table快2倍。因此，dplyr / data.table可能具有相同的性能。

希望dplyr的人很快就能给我们一些采样的本机语法！(或者更好的是，它可能已经存在)

sampleGroup.dt<-function(df,size) {
  df[sample(nrow(df),size=size),]
}

testdata<-data.frame(group=sample(letters,10e5,T),runif(10e5))

dti<-data.table(testdata)

# using the dplyr workaround with external function call
system.time(sampleGroup(testdata %.% group_by(group),10))
#user  system elapsed 
#0.07    0.00    0.06 

#using native data.table
system.time(dti[dti[,list(val=sample(.I,10)),by="group"]$val])
#user  system elapsed 
#0.04    0.00    0.03 

#using data.table with external function call
system.time(dti[, sampleGroup.dt(dti, 10), by=group])
#user  system elapsed 
#0.06    0.02    0.08

票数 7

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21255366

复制

相似问题

问使用dplyr从dataframe中抽取子组的样本行
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用dplyr从dataframe中抽取子组的样本行EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用dplyr从dataframe中抽取子组的样本行
EN