R:使用dplyr过滤data.table失败

在使用 dplyr 包过滤 data.table 对象时可能会遇到一些问题，主要是因为 dplyr 和 data.table 在处理数据时有一些不同的方法和优化。以下是一些基础概念、可能的原因以及解决方案。

基础概念

dplyr: 是一个用于数据操作的 R 包，提供了简洁且一致的语法来进行数据筛选、转换和汇总。
data.table: 是另一个用于高效数据处理的 R 包，特别适合处理大型数据集，提供了快速的数据操作功能。

可能的原因

数据结构差异: dplyr 和 data.table 在内部处理数据的方式不同，可能导致某些操作不兼容。
环境问题: 如果 data.table 对象是在一个特定的环境中创建的，而 dplyr 在另一个环境中操作，可能会出现问题。

解决方案

方法一：转换为 data.frame

将 data.table 对象临时转换为 data.frame，然后使用 dplyr 进行操作：

library(dplyr)
library(data.table)

# 假设 dt 是你的 data.table 对象
dt <- data.table(x = 1:10, y = letters[1:10])

# 转换为 data.frame 并使用 dplyr 进行过滤
filtered_df <- as.data.frame(dt) %>%
  filter(x > 5)

# 如果需要，可以将结果转换回 data.table
filtered_dt <- as.data.table(filtered_df)

方法二：直接使用 data.table 的语法

如果你主要使用 data.table，建议直接使用其提供的过滤功能：

library(data.table)

# 假设 dt 是你的 data.table 对象
dt <- data.table(x = 1:10, y = letters[1:10])

# 使用 data.table 的语法进行过滤
filtered_dt <- dt[x > 5]

方法三：使用 dplyr 的 tbl_df

如果你希望保持 data.table 的性能优势，同时使用 dplyr 的语法，可以尝试将 data.table 转换为 tbl_df：

library(dplyr)
library(data.table)

# 假设 dt 是你的 data.table 对象
dt <- data.table(x = 1:10, y = letters[1:10])

# 转换为 tbl_df 并使用 dplyr 进行过滤
filtered_tbl <- as.tbl(dt) %>%
  filter(x > 5)

# 如果需要，可以将结果转换回 data.table
filtered_dt <- as.data.table(filtered_tbl)

应用场景

大型数据集: 对于大型数据集，data.table 通常比 dplyr 更高效。
复杂操作: 如果需要进行复杂的过滤和转换，dplyr 提供了更直观和简洁的语法。

示例代码

以下是一个完整的示例，展示了如何在不同情况下进行过滤：

library(dplyr)
library(data.table)

# 创建一个 data.table 对象
dt <- data.table(x = 1:10, y = letters[1:10])

# 方法一：转换为 data.frame 并使用 dplyr 进行过滤
filtered_df <- as.data.frame(dt) %>%
  filter(x > 5)
filtered_dt_1 <- as.data.table(filtered_df)

# 方法二：直接使用 data.table 的语法
filtered_dt_2 <- dt[x > 5]

# 方法三：使用 dplyr 的 tbl_df
filtered_tbl <- as.tbl(dt) %>%
  filter(x > 5)
filtered_dt_3 <- as.data.table(filtered_tbl)

# 查看结果
print(filtered_dt_1)
print(filtered_dt_2)
print(filtered_dt_3)

通过这些方法，你应该能够成功地在 data.table 对象上使用 dplyr 进行过滤操作。

R:使用dplyr过滤data.table失败

、、

我在Windows上使用R 4.0.2、data.table 1.13.0和dplyr 1.0.0 这是一个如此奇怪的bug，以至于我不能制作可重现的示例。library(data.table) -1L),

浏览 20提问于2020-07-27得票数 2

2回答

使用data.table按组选择所有值都为真的行

、

library(data.table) logic = c(TRUE, TRUE, FALSE, TRUE, TRUE, TRUE),) 我想过滤组，其中“逻辑”列中的all值是TRUE。dplyr按预期工

浏览 2提问于2015-12-21得票数 12

回答已采纳

2回答

R:当试图转换data.table时出错

、、

在最近升级R之后，我开始在尝试转换一个data.table时得到一个错误，说明:=只能用于一个准引用的参数。我已经找过解决办法了，但最后还是失败了。下面是使用R 3.5.1的可重现性示例。library(dplyr) #0.7.8library(dtplyr) #0.0.2 transmute(set1 ,mpg2 =

浏览 0提问于2018-12-18得票数 2

1回答

基于R中两个嵌套条件的最有效过滤算法？

、、、

我想要做的是将整个DF过滤成一个新的DF，只考虑“航班”，因此大约一半的条目匹配每个起飞与其相应的降落基于始发机场和目的地机场的机场代码。我真的不习惯数据科学，也不习惯R。任何帮助都将不胜感激。提前感谢！

浏览 18提问于2021-10-25得票数 0

1回答

在我的基准测试项目中，Base R对数据集进行排序的速度比dplyr或data.table快得多。为什么会这样呢？我们都应该使用base R吗？

、、、

library(dplyr)library(rbenchmark) iris_big|0.00| | data.table | 30

浏览 0提问于2021-10-29得票数 0

1回答

导入包的所有功能，构建包时除外

、、、

我正在构建一个R包(mypackage)，它导入data.table和另一个包(我们称之为data.table)Warning: replacing previousimport ‘data.table::fir

浏览 2提问于2018-08-17得票数 9

回答已采纳

2回答

data.table等效于dplyr::%in%！(非)操作者

、、

在R中的data.table包语法中是否有以下代码的等效版本？mtcars %>% filter(!(cyl %in% c(4,6))) 在data.table中是否有执行%操作中的%的等效语法？不是在表中过滤行的操作符吗？

浏览 1提问于2020-02-20得票数 1

回答已采纳

2回答

在R包中安装缺少的依赖项

、

我正在分发一个需要其他软件包的R包。)以下错误：

浏览 1提问于2020-07-22得票数 3

回答已采纳

2回答

按给定年份的子集数据( dd/mm/yyyy

、、

我正在尝试按年数对我的数据进行子集，但我每天都会得到一些积分，就像下面给我的一样。0.00 25.00 AA 17/03/20059.09 45.45 AA 16/04/2009我想要2004年的子集，应该得到18.18 27.27 AA 18/11/2004有没有可以做到这一点的代码或函数？

浏览 2提问于2016-05-13得票数 0

3回答

排除具有相同值的数据帧中具有相同变量的行。

、

我想在这个数据框架中挖掘出在A和B游戏中没有区别的玩家。Sam 13 ASam 15 ASam 11 BMax 12 AMax 13 AMax 17 BTom 15 ATom 15 ATom 15 BJoe 16 AJoe 15 AJoe 17 B我知道，我可以简单地

浏览 2提问于2016-07-21得票数 1

回答已采纳

1回答

Data.table中的dplyr : filter > group > count

、、

我通常使用dplyr，但是面对相当大的数据集，而且我的方法非常慢。基本上，我需要按日期筛选df组，并计算在library(data.table)res <- setkey(df2[,c(k=1,.SD)],k)[df[,c(k=1,.SD)],allow.cartesian=TRUE][,k:=NULL] 我的dplyr知识是有限

浏览 0提问于2019-07-19得票数 1

回答已采纳

1回答

简单函数/应用组合不起作用

feat_88 feat_89 feat_90 target 0 2 3 Class_1 2 1 0 Class_2 0 2 0 Class_3你好。需要按类分组，然后计算每个feat_变量的零数。对于feat_88，类1的结果应该

浏览 1提问于2015-04-21得票数 0

4回答

dplyr n_distinct有条件

、

使用dplyr对数据集进行汇总，我想调用n_distinct来计算列中唯一出现的次数。但是，我还想对满足另一列中的条件的列中的所有唯一出现的情况进行另一次总结()。结果应该是： 2count_all count_BisY用dplyr

浏览 9提问于2016-01-06得票数 15

回答已采纳

1回答

当通过dplyr::filter管道传输时，如何保留data.table类？

、、、

我有一个data.table对象，我通过管道传递了几个dplyr函数。 mtcars_dt %>%

浏览 8提问于2018-03-19得票数 1

1回答

data.table、readr和dplyr之间的冲突？

、、

我在Windows7上使用RStudio (版本0.98.1103)和R版本3.2.0。当使用以下代码将data.table加载到R中时，会出现问题： read_csv("my_file.csv", col_types =然而，需要readr加上dplyr才能得到错误。如果我只使用data.table和readr而不加载dplyr，那么就不会

浏览 2提问于2015-06-09得票数 4

1回答

使用行中的元素在data.frame中打印行

、

16,19,21,22,19,21,27,31),PTS = c(75,69,66,66,62,61,51,50)) 如何打印“蒙特利尔”整行(不使用

浏览 2提问于2022-10-23得票数 1

1回答

在R data.table中对diff进行筛选

、、

我想根据diff()函数的结果进行过滤，并使用data.table的效率。不会做这项工作，因为结果集比源文件短。DT[, filter := diff(timestamp) > 10] 我可以使用dplyr或其他工具，但我想要data.table的效率。有什么建议吗？

浏览 7提问于2018-08-03得票数 0

回答已采纳

2回答

数据集使用和变量选择

我上传了数据集。但我该如何向那些在欧洲死去的人展示。europe <-- df[df$region =="Europe"]

浏览 2提问于2020-05-03得票数 0

回答已采纳

1回答

粘贴属于同一id的数据帧行

、

我试图将当前按名称组织在不同行中的同一用户的文本数据粘贴在一起："katy" "tomorrow I go""katy" "to the store"产生以下结果： df2 <- read.table(header=TRUE, t

浏览 1提问于2015-11-19得票数 6

回答已采纳

3回答

在具有重复测量的(长)数据集中完成病例分析

我们使用的是完整的案例分析。我们的终点评估从基线到第3个月、从基线到第6个月以及干预和对照组之间变量的减少。但是，由于我的数据是长格式的--我不希望将其转换为宽格式--如果我只是使用drop_na()，我可能只会删除一个时间点丢失数据的行，尽管如果该ID没有另一个时间点的数据，那么它也应该被设置为丢失。

浏览 13提问于2021-07-07得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R:使用dplyr过滤data.table失败

基础概念

可能的原因

解决方案

方法一：转换为 data.frame

方法二：直接使用 data.table 的语法

方法三：使用 dplyr 的 tbl_df

应用场景

示例代码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐