R data.table中的矢量化表操作

文章/答案/技术大牛

发布

1回答

使用R中的矢量化函数填充数据表

、、

我正在尝试使用矢量化操作来填充R中的数据表：x = 5Foo = data.table(Bar = 1:x)我认为对于每一行，rnorm(y，，Bar)将生成一个y长度向量(使用该行的Bar作为标准差)，将其乘以该行的Bar值，然后填

浏览 2提问于2017-12-13得票数 0

1回答

R中序贯计算步骤的矢量化

、

我有以下问题，如果可能的话，我想在R中用data.table向向量表示。由于R对于for循环来说是相当慢的，我认为在我的例子中，矢量化是必须的(超过500次观测)。下面，我展示了一个我想要向量化的虚拟例子。考虑以下代码：

浏览 1提问于2018-09-27得票数 0

回答已采纳

0回答

、

基于给定的平均值和标准差，我正在尝试用各种样本运行来填充列。我现在有的是：A[, paste0("scenario", c(1:3)) := rnorm(2, ave0.1 20.2377 20.2377 20.2377很明显，它在一个向量上运行rnorm，然后对每一列重复相同的向量我试过像这样的东西 matrix(r

浏览 3提问于2017-12-19得票数 0

2回答

基于pandas中的其他列内容对列进行操作

、、、、

来自R，我不知道如何通过利用其他列在一个数据帧列上进行某种向量化操作，例如：df = pd.DataFrame({'s':['Big bear eats cat','cute cat sleeps'],'a':['bear','cat']})0

浏览 4提问于2018-08-08得票数 2

回答已采纳

1回答

使用函数与data.table进行Crossproduct/join

、

我想知道，对于某些特定的任务，是否有可能对数据表进行有效的交叉连接。somevector <- rnorm(10, 5) return(x-somevector)是否可以用data.table生

浏览 1提问于2012-11-09得票数 3

2回答

对于一个列的每个值，查找哪个值是另一个向量的最后一个值，该值较低。

找到小于给定值的向量的最后位置相当简单(例如，参见 )。set.seed(123)# [1] 6 8 15 16 17#

浏览 4提问于2018-01-09得票数 3

回答已采纳

1回答

如何循环遍历整个数据帧/ R中的每个单元？

、、、、

我需要对表中的每个单元格值执行for循环和true或false操作，如果操作返回true，则函数将用0替换该值。但每当我试图运行代码时，R都会抛出错误 for (j in xxx(a number){ y[i,j] <- NA } [.data.table</

浏览 0提问于2019-07-26得票数 0

1回答

聚合和计数符合条件的行，按唯一值和转换表分组

、、

在使用data.table包的R中，必须有一种简单而优雅的方法来实现这一点，但我很难搞清楚。矢量化手术更佳。library(data.table) d2 <- as.Date("12-31-2013", '%m-%- - 2 26 -

浏览 3提问于2013-06-05得票数 1

回答已采纳

4回答

在data.table列中处理富对象

、

假设我有一个data.table，其中一列包含线性模型：set.seed(1014) g = c(1, 1, 2, 2runif(7),) 现在我想从每个模型中提取r平方的值models[, list(rsq = summary(mod[[1]])$<

浏览 1提问于2014-04-10得票数 4

1回答

意外地-来自data.table::frollmean()的高内存使用率

、

我有一个由20M行和20个列组成的数据表，对其应用矢量化操作，返回列表，它们本身是通过引用数据表中的其他列来分配的。在所有这些操作中，内存使用量都会以可预见和适度的方式增加，直到我使用一个自适应窗口将(想必是高效的) frollmean()函数应用于包含长度为10的列表的列。在Windows 10 x64上运行R4.1.2<em

浏览 1提问于2022-01-08得票数 3

回答已采纳

3回答

对数据表中的选择列进行重分类

、

我希望使用矢量化操作来更改数据表中选定变量的类。我是data.table语法的新手，正在努力学习尽可能多的知识。我现在的问题是基本的，但它会帮助我更好地理解数据表的思维方式！require(data.table) ### Create pseudo

浏览 0提问于2013-04-26得票数 6

回答已采纳

1回答

R:通过对函数的引用传递data.frame

、、

我将一个data.frame作为参数传递给一个想要更改内部数据的函数：f <- function(d){ d$value[i] <-0 }} value2 04 0 但是，我传递的原始da

浏览 0提问于2015-10-17得票数 8

回答已采纳

2回答

组中每个成员子集向量上的r data.table计算函数

、、、

我有一个数据表，它与 diag=sample(LETTERS[1:7],50,T),val=sample(1:100,50,F)) 对于相同的val，我想要计算任何比val大的概率，并将其放入表的新列，比如prob (我知道这个概率不一定是正常的)。(dt大约是800 k行，大约有2k级别)，所以我想要矢量化而不是循环。'

浏览 2提问于2015-06-26得票数 4

回答已采纳

3回答

R中读取和比较CSV文件的最快方法

、、

我知道堆栈溢出中还有其他关于以最快的方式读取R中的csv文件的问题--而且它们已经得到了回答；data.table似乎是最好的选择。但我还有额外的要求。我需要找到一个脚本来设置两个向量组之间的diff操作(以找到两个向量中匹配的值的计数)。这两组向量将从两个不同目录( dirA和dirB )中的csv文件<em

浏览 4提问于2021-08-11得票数 0

回答已采纳

1回答

使用with对高频时间序列进行子集(用data.table替换data.table功能)

、、

我想所有的数据之间每天的特定时间使用data.table。 R.data.table[Time > as.POSIXct('2016-09-18 08:00:00') & Time < as.POSIXct('2016-09-18

浏览 4提问于2016-09-18得票数 5

2回答

快速搜索符合两个条件的行，例如哪一行(...&.)在R中

我希望加快R中搜索与table2匹配的表1元素的行#的一小段代码(见下文)。注意，哪个条件有一个&，因为我需要两个元素x&y是相同的，以便选择行。我的数据集很大，这个循环非常慢。

浏览 1提问于2019-01-11得票数 0

回答已采纳

2回答

优化嵌套for循环中的处理时间-R

我使用嵌套的for循环来重写一些数据...然而，它永远需要计算运算。for(i in 1:length(data$kolicina)){ if(data$LIXcode[i] ==df$LIXcode[j]){ }}df <- data[grepl("

浏览 1提问于2016-10-07得票数 0

1回答

data.table中循环R的矢量化

、

我正在为不同的机器构建一个维护程序员，我有一些特定活动的例程，这些活动应该在特定的日期执行，由频繁事件和开始日期定义。我已经有了一个data.table，它的频率(以星期为单位)，大型维护的最后一个已知日期，以及每个例程的预计日期，根据其频率和最后日期。简化后的版本如下所示： dt <- structure(list(id = c(1, 2, 3, 4, 5, 6, 7, 8, 9),

浏览 0提问于2019-03-17得票数 4

回答已采纳

1回答

如何影响通过引用在R中传递的对象？

、、、

我在R中使用data.table包，除其他外，data.table会通过引用传递表。} AddSquares(DT) x x22: 2 4x2是在DT byRef中创建的，因此我不必返回修改过的表= 0] x x22: 2 4<-操

浏览 2提问于2015-04-02得票数 2

回答已采纳

1回答

用dplyr进行行向操作

、、、

我正在研究一个大的数据，在R中有2300万条记录，其中包含用户在具有启动和停止时间的位置上的事务。我的目标是创建一个新的dataframe，其中包含每个用户/每个位置连接的时间。下面的代码显示了如何开发最终的数据，尽管总的代码要复杂得多。在Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz上运行整个代码需要9个小时，16核128 v3内存。H")

浏览 2提问于2016-01-26得票数 15

点击加载更多

使用R中的矢量化函数填充数据表

R中序贯计算步骤的矢量化