R和Data.table -对多个列应用rollapply

R是一种流行的编程语言，用于数据分析和统计计算。它提供了丰富的数据处理和可视化功能，广泛应用于各个领域。

Data.table是R语言中的一个强大的数据处理包，它提供了高效的数据操作和计算能力。Data.table使用了类似于SQL的语法，可以轻松地处理大型数据集。

对多个列应用rollapply是Data.table中的一个功能，它允许我们在多个列上应用滚动计算。滚动计算是指在数据集中滑动一个窗口，并在每个窗口上执行特定的计算操作。

使用rollapply函数，我们可以指定滚动窗口的大小和计算操作。它可以应用于多个列，以便在每个窗口上执行相同的计算。

优势：

高效性：Data.table是R中处理大型数据集的一种高效方法，它使用了内存映射技术和优化的算法，可以快速处理大量数据。
灵活性：rollapply函数可以在多个列上应用滚动计算，使得数据处理更加灵活和方便。
易用性：Data.table提供了简洁而直观的语法，使得数据操作和计算变得简单易懂。

应用场景：

金融数据分析：rollapply函数可以用于计算滚动平均、滚动总和等金融指标，帮助分析师进行股票价格预测、风险管理等工作。
时间序列分析：滚动计算在时间序列分析中非常常见，可以用于计算滚动相关系数、滚动标准差等指标，帮助分析时间序列数据的趋势和波动性。
数据预处理：滚动计算可以用于数据的平滑处理和异常值检测，帮助清洗和准备数据用于后续的建模和分析。

推荐的腾讯云相关产品：腾讯云提供了丰富的云计算产品和服务，以下是一些与数据处理和分析相关的产品：

云服务器（ECS）：提供可扩展的计算资源，用于运行R和Data.table等数据处理工具。
云数据库MySQL：提供高性能的关系型数据库服务，用于存储和管理数据。
云对象存储（COS）：提供安全可靠的对象存储服务，用于存储和管理大规模的数据集。
数据万象（CI）：提供图像和视频处理服务，可用于多媒体数据的处理和分析。
人工智能平台（AI Lab）：提供丰富的人工智能算法和模型，可用于数据分析和模型训练。

更多腾讯云产品和服务的详细介绍，请参考腾讯云官方网站：https://cloud.tencent.com/

相关·内容

R语言数据分析利器data.table包 —— 数据框结构处理精讲

sep2，分隔符内再分隔的分隔符，功能还没有应用； nrow，读取的行数，默认-l全部，nrow=0仅仅返回列名； header第一行是否是列名； na.strings,对NA的解释； file...(y)] #返回y列，返回data.table DT[, sum(y)] #对y列求和 DT[, ....(sum(y)), by=x] # 对x列进行分组后对各分组y列求总和 DT[, sum(y), keyby=x] #对x列进行分组后对各分组y列求和，并且结果按照x排序 DT[, sum(y)..., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的...然后.SD就包括了页写选定的特定列，可以对这些子集应用函数处理 allow.cartesian FALSE防止结果超出nrow(x)+nrow(i)行，常常因为i中有重复的列而超出。

5.6K2 0

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。...在这篇文章中，我们将比较Pandas 和data.table，这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好，我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...data.table) melb <- fread("datasets/melb_data.csv") 示例1 第一个示例是关于基于数据集中的现有列创建新列。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。data.table中使用减号获得降序结果。

3K3 0

能不能让R按行处理数据？

事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。大猫除了进行翻译，也会在其中增加一些相关知识点，相信掌握了这些问题，一定会对你的研究工作大有裨益。 1....这些问题大多数涉及到用data.table包处理数据。data.table是目前R中人气最高的数据处理包。 2....如果要自己寻找Stackoverflow上与R或是data.table相关的问题，可以在搜索栏输入[R] [data.table] Your question。提出问题好啦，开始上课！...eddi大神的意思是，原来inti_total_asset和issuing_scale是两个变量，现在要把他们stack起来，“堆成”一列，也就是这样： ?...对，这个步骤和cast和melt函数的作用类似，只不过这里直接用了data.table自己的语句。

1.3K2 0

R数据框如何取交集

前面给大家介绍过了 ☞R批量预测miRNA和靶基因之间的调控关系-ENCORI篇 ☞R批量预测miRNA和靶基因之间的调控关系-TargetScan篇有小伙伴拿自己的数据试了一下，反馈预测结果太多了。...那么我们怎么利用R代码来对miRNA预测结果取交集呢？我们知道一般在R里，对向量取交集，直接用intersect函数就可以了。..."a","b","c") b=c("b","c","g") intersect(a,b) #[1] "b" "c" a=1:4 b=3:7 intersect(a,b) #[1] 3 4 那么如果想对R...intersect函数来对数据框取交集，结果是不对的而我们希望得到的结果是对两列都取交集。...下面给大家介绍三种对R数据框取交集的方法方法一、我们将各列的信息合并成一个字符串，然后取交集 #将各列的信息用_连接起来 combine1=apply(df1,1,function(x) paste

1.6K2 0

R语言基因组数据分析可能会用到的data.table函数整理

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...，会传递给setkey showProgress TRUE会显示脚本进程，R层次的C代码 data.table TRUE返回data.table，FALSE返回data.frame 可见...； sep2 对于是list的一列，写出去时list成员间以sep2分隔，它们是处于一列之内，然后内部再用字符分开； eol 行分隔符，默认Windows是"\r\n",其它的是"\n"...，y需要设置key，x并不需要设置key； by.x,by.y 用来计算重叠的列名或者列号的矢量，by.x和by.y的最后两列都应该对应各自的(x,y的）start和end区间列，并且start...manual: https://cran.r-project.org/web/packages/data.table/data.table.pdf

3.3K1 0

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在着性能和效率的绝大差异...其实很早就接触过data.table,之所以一直没有深入应用，因为它的理念与其他数据处理包偏离太远，可以说迁移成本很高，几乎就是技能重构而非迁移。...不过随着视野的开阔，发现确实有必要深入了解这个高性能包，尽管有点儿颠覆R的传统风格，但是性能和效率的提升可以弥补这一点。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑，其实是在按照carrier,origin,dest三个维度分组的基础上，对每个子块特定列进行均值运算。

3.6K8 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[].../R/dataset/product-toy-tests.csv") 如果查看表格信息，你会发现它和data.frame没什么两样： product_info #> id name...这样挺麻烦的，因此data.table包提供了对列进行原地赋值的符号:=，例如product_stats开始是这样的： product_stats #> id material size weight...我们可以将多个[]按顺序连接起来，形成工作流（类似管道%>%）。...的动态作用域我们不仅可以直接使用列，也可以提前定义注入.N、.I和.SD来指代数据中的重要部分。

6K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?....SDcols常于.SD用在一起，他可以指定.SD中所包含的列，也就是对.SD取子集。...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列...参考文献：些许案例，代码参考自以下博客，感谢你们的辛勤： 1、R语言data.table简介 2、超高性能数据处理包data.table 3、R语言data.table速查手册 4、R高效数据处理包...dplyr和data.table，你选哪个？

7.7K4 3

data.table包使用应该注意的一些细节

rowname as.matrix作用于data.table时会调用as.matrix.data.table，有一个rownames参数可以指定保留为行名的列矩阵转换成data.table时可以保留列名... 在as.data.table函数中同样有一个rownames参数，设置为T可以将行名保留下来作为data.table的一列不建议set和for循环一起使用虽然set可以在内存上直接改变数值...，但在R中用for循环比批量列运算慢的多，因此首选:=或者apply等在处理浮点数时会有一些准确性的问题比如用seq函数numeric类型的数值时，会存在不准确的问题，比如seq(0,1,by=... 类似于集合运算，data.table中fintersect, fsetdiff, funion，fsetequal函数能对不同数据框的行求交集，差集，并集等可以直接对列按分隔符进行分割应用...分隔，分割成c1，c2两列支持类似于SQLs的分组运算带有rollup， cube， groupingsets函数参考资料 data.table 1.11.2 manual：https://cran.r-project.org

1.5K1 0

R语言与python对数据框的操作(对比笔记)

这篇主要比较R语言的data.talbe和python的pandas操作数据框的形式，学习两者的异同点，加深理解两者的使用方法。...1. data.table VS pandas 这里使用R语言的data.tablet包和python的pandas进行对比....主要分为三部分: 新建数据库行列选择行列筛选 2. data.table操作数据框 data.table介绍: ?...使用R语言, 通过data.table创建数据框. library(data.table) set.seed(123) DT <- data.table(V1=c(1,2),V2=c("A","B","...如果使用多个列名，要用[] df[["V1","V2"]] # 用两个[][] ? 效果同上。 df.iloc[:,0:2] ?

2.9K2 0

R练习50题 - 第一期

关于data.table的神奇之处以及它和其他工具（例如pandas）的比较，欢迎大家戳它的官网：github.com/Rdatatable/data.table....值得说明的有一下几点：数据集为“面板数据”：包含多个股票（横截面），而每个股票则有多个按照日期排序的变量（时间序列）股票代码symbol 和日期date共同组成了数据集的key，也即每个唯一的symbol...在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。练习2：每天上涨和下跌的股票各有多少?...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....如果你愿意，data.table允许你把所有的代码都写在同一行，就像这样：下期预告在下一期，我们会继续带来剩余题目的解答~ 大猫的R语言课堂我是大猫，一个高中读文科但却在代码、数学的路上狂奔不止的

2.4K4 0

CSV数据读取，性能最高多出R、Python 22倍

浮点型数据集第一个数据集包含以1000k行和20列排列的浮点值。 ? Pandas需要232毫秒来加载此文件。首先在单线程下，data.table（fread）比CSV.jl快1.6倍。...字符串数据集 I 此数据集在且具有1000k行和20列，并且所有列中不存在缺失值。 ? Pandas需要546毫秒来加载文件。使用R，添加线程似乎不会导致任何性能提升。...苹果股价数据集该数据集包含50000k行和5列，大小为2.5GB。这些是AAPL股票的开盘价、最高价、最低价和收盘价。价格的四个列是浮点值，并且有一个列是日期。 ?...单线程CSV.jl比从data.table中读取的R速度快约1.5倍。而多线程，CSV.jl的速度提高了约22倍！ Pandas的read_csv需要34秒才能读取，这比R和Julia都要慢。...房利美收购数据集从房利美网站上下载的数据集，有4000k行和25列，数据类型为：Int、String、Float，Missing。 ? 单线程data.table比CSV.jl快1.25倍。

2K6 3

开发ETL为什么很多人用R不用Python

对比python中的datatable、pandas、dask、cuDF、modin，R中data.table以及spark、clickhouse 3....(id4, id5)] modin用时174秒，由于modin暂不支持多列的groupby，实际上还是用的pandas的groupby x.groupby([‘id4’,‘id5’]).agg({‘v3...DataFrame.groupby_on_multiple_columns defaulting to pandas implementation. 3.长宽表变换测试内容：id1, id4不动，对id5...横向展开，值为对v3求均值 data.table用时3.3秒 dcast.data.table(ans, id1 + id4 ~ id5, value.var = “v3”, fun.aggregate...下图是个简易版R的ETL框架，可处理G以下数据， ################################################## 2020年1月14号更新：关于应用场景，再次说明下

1.8K3 0

Matt Dowle 演讲节选（一）

虽然不像 Hadley Wickham （请大家猛戳大猫上期的《Hadley Wickham 采访节选》）那样多产（Hadley目前已经在CRAN上发布了40多个包了），但是 Matt 凭着自己的 data.table...data.table 也是 github 中第八大受关注的 R 开源项目。此外，data.table是目前 RStudio CRAN 镜像中下载最多包。...在这段21分33秒的演讲中，Matt 回顾了自己在伦敦大投行的工作经历（雷曼兄弟以及所罗门兄弟）、自己与 R 的偶遇以及开发 data.table 的动机。...每一列的长度都相同，但是可以是不同的数据类型！...客服：嗯……你是对的。我们会修复的，谢谢反馈！ Matt：太棒了，什么时候？客服：下个版本出来我们第一时间修复。 Matt：呃……下个版本是什么时候？客服：六个月后。

6372 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

一、日期分组 1、关于时间的包都有很多很好的日期分组应用。...介绍一种按照日期范围——例如按照周、月、季度或者年——对其进行分组的超简便处理方式：R语言的cut()函数。...##按照已有的类别数据，分类 g<-split(Cars93,Cars93$Origin) #按照cars93数据集，按照origin进行分组 ##例2：对矩阵分组（按列） m<-cbind...在base包里和split功能接近的函数有cut(对属性数据分划)，strsplit(对字符串分划)以及subset（对向量，矩阵或数据框按给定条件取子集）等。...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?

20.6K3 2

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...，V3升序排序，对V2降序排序 ※arrange的语法非常简单，功能也很强大，我们再也不要用order()函数了 select( ) 选择列 select(df,V1,V2,V3) 选择V1，V2，V3...官网上面有关于data.table包对于dplyr的提升和改进： ?...作为课代表的我来帮大家简单的总结一下：我们都知道R有个令人诟病的缺点就是跑起来耗内存，data.table相对于dplyr 更快、更节省内存了！...data.table把我们刚刚用group_by和summarise组合才能实现的功能，直接在一句代码里面就实现了，而且代码的可读性和可扩展运用性非常强！

2.4K7 0

「r」dplyr 里的 join 与 base 里的 merge 存在差异

::data.table(r1 = c("S1", "S2"), r3 = c("S2", "S1")), b = data.table::data.table(r1 = c("S1", "S2")...r4 r1 r3 r2 #> 1 S1 S2 S2 S1 S1 #> 2 S2 S1 S1 S2 S2 看起来似乎有点不可理喻，但实际上上面我构造的数据集是有点特别的：前 2 个子集和第 3 个子集是没有可以连接的列的...merge.data.table(out, elt, ...): Elements listed in `by` must be valid column names in x and y 两个函数操作都报错了，说明对...如果 be_join 不为空，进行如下的循环：如果存在，则将这个子集和 to_join 按共同列合并如果不存在，使用循环位移一位，将当前 be_join 的第 2 个子集移动为第 1 个。...检查 be_join 第一个子集的列与 to_join 存在共同列等待循环结束我们可以查看结果： to_join[, c("r1", "r2", "r3", "r4", "r5")] #> r1

1.5K3 0

Matt Dowle 演讲节选（二）

所以 Matt 对 Pat（Matt 在所罗门兄弟的上司，S-PLUS 的坚定支持者）这么说到： Matt：嗨伙计，既然 R 是开源的，我是不是能自己写一个包来实现上面提到的那个命令呢？...例如代码DF[2:3, sum(B), by = group]，其中i的部分为2:3，表示对行的选择；j的部分为sum(B)，表示对列进行运算；by的部分对应by = group，表示按照变量group...因为任何对列的处理都必须导致数据集在内存中的复制，也即假如我们的内存是 4G，那么在使用data.frame的情况下，我们最大就只能处理 2G 的数据集！...（大猫：在最新版本的 R 中，这个问题已经明显缓解，但是这时已经过去了5年多）而在data.table中，一切都是那么自然： > DF[, colToDelete := NULL] 哪怕你的数据集有...他想首先按照gene_id分组，然后分别计算特定变量的极值和均值。这个用户一开始使用lapply和do.call函数，不仅计算时间很长（30 min！），而且代码特别难看： ?

1.1K4 0

数据流编程教程：R语言与DataFrame

当然你可以用它来做简单的爬虫应用，如果需要更高级的爬虫，我们需要投入rvest的怀抱来支持诸如xpath等高级爬虫特性。 3. DBI DBI是一个为R与数据库通讯的数据库接口。...tidyr主要提供了一个类似Excel中数据透视表(pivot table)的功能，提供gather和spread函数将数据在长格式和宽格式之间相互转化，应用在比如稀疏矩阵和稠密矩阵之间的转化。...此外，separate和union方法提供了数据分组拆分、合并的功能，应用在nominal数据的转化上。...data.table完美兼容data.frame，这意味着之前对data.frame的操作我们可以完全保留，并且支持更多方便的数据操作方法。...对比操作对比data.table 和 dplyr 的操作： 3. apply函数族 4. join 操作 5. 拼接操作更多操作详情可查看data.table速查表。八.

3.8K12 0

用data.table语句批量处理变量

问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...批量处理法：用lapply批量处理变量在此时lapply的妙用就显现出来了，在R中lapply用来对list中每一个element进行相同处理，如何把它运用到data.table，话不多说先上代码：...我们知道在data.table包中，.SD是经过i和by处理之后剩下的那部分数据集，它的格式是一个data.table，同时它是一个list。...而我们要处理的变量是第3个到第34个，所以在.SD中选出3至34列，运用lapply对选中的.SD[, 3:34]里面每一个element使用as.Date函数。再看，':='的左边。...下期预告下期的大猫R语言课堂还是由村长来进行撰写和推送，届时将会给大家带来一个比较有趣的data.table发现，敬请期待！！ ?

1.1K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云