提高data.table性能为列分配新值

、、

我有一个巨大的data.table，并且我需要基于现有列中的条件创建新列。假设我的数据是这样的： library(data.table) dt=data.table(ID=rep(1:3,1000000),LABEL=rep(c("A","A","B"),1000000),COND=rep(c("C","D","D"),1000000),VALU

浏览 11提问于2019-01-08得票数 1

回答已采纳

1回答

data.table将生成的多个列分配为新的data.table (或列表)而不重复名称

、、

我的问题是在将多个列分配给data.table时代码的错误倾向/可维护性。我有一个返回data.table的函数，如下所示：{} 我将此函数应用于另一个data.table

浏览 1提问于2018-08-15得票数 5

2回答

使用分位数箱的ID在data.table中的新列值

、

quantile(X, prob = seq(0, 1, length = 5), type = 5) 如何将其转换为data.table操作，使用:=添加一个新列，并为每个ID分配一个值，如果该值位于回收箱内，则为每个ID分配一个适当的有序值，如25%=1、50%=2等。

浏览 5提问于2013-10-18得票数 3

回答已采纳

1回答

为了减小分配的大小，我从表中去掉了所有可以从其他列计算得到的列。例如，星期几可以从日期计算出来，所以我从包数据集中省略了星期几。但是，我想让使用该包的任何人都能方便地以标准方式重新计算这些列。为了提高效率，我想使用data.table就地赋值。我遇到的问题是，新列的就地赋值似乎发生在较低级别的环境中，并且我传递给函数的data.table实际上并没有被修改。有人知道如何存储新列的完整公式吗?只需对用户传递给该函数的

浏览 0提问于2017-06-20得票数 0

1回答

使用'lapply‘和' by’通过引用修改data.table将为分组列创建重复的行

、、

我尝试按每个月的日期按列val进行分组。据我所知，在下面代码中的场景1中，由于我没有通过:=将lapply的值赋给任何新列，因此将打印data.table。但是，在场景2中，当我使用:=通过引用分配新的列变量时，会创建新的列(使用正确的值)，但在一天中的每个小时都会重复该值，而我只需要每天的值。场景3也提供了所需的结果，但需要创建一个新的

浏览 1提问于2018-11-06得票数 0

1回答

带分组的数据表中多行和多列的中值

、

我有一个包含90000多个观察值和1201个变量的数据表。除了最后一列以外的所有列都存储数值，最后一列是源文件的名称(超过100)的列。下面是数据表的一个小示例： library(data.table)V2=sample(0:100,20replace=TRUE), V7=sample(0:100,20,replace=TRUE), file=rep(c(&

浏览 6提问于2019-06-12得票数 1

回答已采纳

2回答

在1.8.3版本之前的R {data.table}中使用`:=`时如何抑制输出？

、

有没有办法防止data.table在通过引用赋值新列后打印新的data.table？我猜标准的行为是example(data.table)# x y v# 2: a 3 42#3: a 6 42 3# 5: b 3 11 5# 7: c 1 7 7# 9: c 6 9

浏览 0提问于2012-07-06得票数 28

回答已采纳

1回答

将向量赋值给R中特定的现有数据表行

、

我一直在阅读教程和文档，但还没有弄清楚如何将所有列的值向量分配给data.table中的一个现有行。我从一个空的data.table开始，它已经有正确的列和行数：现在，我为data.table之外的一行计算一些值，并将它们放在向量vec中，例如：我如何在获得良好性能的同时将vec的值<e

浏览 8提问于2016-06-04得票数 6

回答已采纳

1回答

R data.table:检查哪一列不是NA，并获取该列的值

、

我有一个类似于这个的data.table： 1: 1136NA #FEE6CE NA NA它有一个ID列(gnr)和一些包含颜色代码的列。在每一行中，只有一个列有一个颜色值，其余的都是NA。我想要的是一个只有两列的新</em

浏览 0提问于2016-07-22得票数 1

回答已采纳

1回答

在data.table中使用set更改多列

、

为了提高效率，我试图在data.table中使用set更改行和列。set上的文档指出，参数j是：“列名称(S)(字符)或数字(S)(整数)在列(S)已经存在时被赋值，如果要创建列名，则只有列名(S)。”这是我正在犯的错误： set中的错误(iris，i= 1L，j= as.integer(1:3)，value = list(1:3))：提供了3项，分配</

浏览 4提问于2020-04-17得票数 1

回答已采纳

1回答

日期间的时间差取决于id

、、

我正在为一个简单的问题寻找一个data.table解决方案:我有这样的数据：data1 <- data.table( date= as.Date(c("2016-03-30", "2016-03-31", "2016-04-05")) id = rep(2,2), date= as.Date(c("2016-

浏览 5提问于2022-02-11得票数 0

1回答

最低对顺序组合数据表

、、

我有一套两列的。行是值对(a，b)。require(data.table) 我想给每一对值分配最低的数字，但如果其中一个值再次出现在新行中，则必须再次将其与新对进行比较，并选择历史记录的最低值。其结果必须是： res.dt<-data.table(a=

浏览 2提问于2016-12-15得票数 2

回答已采纳

1回答

检查列是否包含列表中的值，并将该值分配给新列

、

然后我有一个data.table，我想在其中查找该值是否包含任何其他模式，然后将该值分配给一个新列： library(data.table)base_patters<- c("pat1","pat2","pat3") transformations <- data.table(mynames = c("HI_pat1_jo"

浏览 12提问于2019-09-30得票数 1

回答已采纳

1回答

如果输出和data.table，r-分配

我正在尝试根据条件(如果其他)将datatable分配给一个新变量。为什么第一种选择不起作用？library(data.table) DT1 = data.table(x=rep(c("a","b","c"),each=3),y=c(1,3,6),

浏览 0提问于2018-04-11得票数 0

回答已采纳

2回答

R:从data.table中的字符列中提取最后N个单词

、、

我希望能得到一些帮助，从data.table的一列中提取最后的N个单词。然后将其分配给一个新列。test <- data.table(original = c('the green shirt totally brings out your eyes', 'ford focus hatchback'))original 1: the green shirt totally brings

浏览 0提问于2016-04-20得票数 1

回答已采纳

1回答

data.table列上的R-递归

、

我得到了data-table，其中(i+1)-th列依赖于前一个列，并且需要递归计算。data-table的头部由一个从0.`开始的序列组成。0 1 2 32: 2 NA NA NAdt <- data.table("0"=c(1,2,3),&quo

浏览 14提问于2019-06-07得票数 1

回答已采纳

1回答

使用data.table* x[y]语法复制dplyr::left_join()列顺序*

、、

由于性能的提高，我将我的很多数据操作管道从dplyr转换到data.table。我喜欢用于连接的a[b]语法的简洁性。dplyr::left_join(x, y)对应于data.table中的y[x]。但是，在这两种情况下，列顺序是不同的。有没有一种方法可以复制从dplyr left_join获得的列顺序，其中来自y的新列被添加到x的右侧，使用y[x]的data.table语法？示例library(<e

浏览 2提问于2021-05-21得票数 1

回答已采纳

3回答

根据从现有列派生的TRUE/FALSE设置新列值

、

我希望在data.table对象中创建一个新列，并且应该根据匹配范围内的数字来设置值。范围的from和to是现有data.table对象中的两列。数据set.seed(1)2: 3721 104874: 9080 10193 5:

浏览 0提问于2015-08-05得票数 3

回答已采纳

1回答

在R中组合data.tables

、

我们使用机器学习预测职业代码，现在希望将预测的代码与预测的职业代码结合起来，这些代码不是在措辞上，而是在职业活动的相似性方面与预测的代码相似，以提高这些代码的准确性，这些代码将在稍后的面试中使用id<-rep(c(1:4), each=25) table<- data.table,

浏览 12提问于2018-01-18得票数 0

回答已采纳

2回答

data.table bug:当使用get()时，在.SD上重新排序列。可能的解决办法？

、

我发现data.table有一种奇怪的行为。我想知道是否有办法避免它，或一个解决办法。library(data.table)cols <- c("y",&quo

浏览 1提问于2019-12-04得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

data.table将生成的多个列分配为新的data.table (或列表)而不重复名称

使用分位数箱的ID在data.table中的新列值

作为存储函数的data.table列赋值

使用'lapply‘和' by’通过引用修改data.table将为分组列创建重复的行

带分组的数据表中多行和多列的中值

在1.8.3版本之前的R {data.table}中使用`:=`时如何抑制输出？

将向量赋值给R中特定的现有数据表行

R data.table:检查哪一列不是NA，并获取该列的值

在data.table中使用set更改多列

日期间的时间差取决于id

最低对顺序组合数据表

检查列是否包含列表中的值，并将该值分配给新列

如果输出和data.table，r-分配

R:从data.table中的字符列中提取最后N个单词

data.table列上的R-递归

使用data.table* x[y]语法复制dplyr::left_join()列顺序*

根据从现有列派生的TRUE/FALSE设置新列值

在R中组合data.tables

data.table bug:当使用get()时，在.SD上重新排序列。可能的解决办法？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐