开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在data.table apply()中为多个列组合rollapply()和weighted.mean()

在data.table中，apply()函数用于对数据表的每一行或每一列应用指定的函数。在apply()函数中，可以使用rollapply()函数和weighted.mean()函数来实现对多个列的组合操作。

rollapply()函数：rollapply()函数用于在指定的窗口大小内对数据进行滚动操作。它可以在data.table中的多个列上进行滚动操作，并返回每个窗口的结果。
- 概念：rollapply()函数是一个滚动操作函数，它可以在指定的窗口大小内对数据进行操作。
- 分类：rollapply()函数属于数据处理函数。
- 优势：rollapply()函数可以方便地对数据进行滚动操作，适用于处理时间序列数据或需要基于窗口进行计算的场景。
- 应用场景：rollapply()函数适用于计算移动平均、滚动求和、滚动标准差等需要基于窗口进行计算的场景。
- 推荐的腾讯云相关产品：腾讯云数据万象（COS）提供了强大的数据处理能力，可以与data.table结合使用，实现高效的数据处理和分析。详情请参考腾讯云数据万象产品介绍：腾讯云数据万象。

weighted.mean()函数：weighted.mean()函数用于计算加权平均值。它可以在data.table中的多个列上进行加权平均操作，并返回结果。
- 概念：weighted.mean()函数是一个加权平均函数，用于计算加权平均值。
- 分类：weighted.mean()函数属于数据处理函数。
- 优势：weighted.mean()函数可以方便地计算加权平均值，适用于需要考虑权重的场景。
- 应用场景：weighted.mean()函数适用于计算加权平均成绩、加权平均价格等需要考虑权重的场景。
- 推荐的腾讯云相关产品：腾讯云数据万象（COS）提供了强大的数据处理能力，可以与data.table结合使用，实现高效的数据处理和分析。详情请参考腾讯云数据万象产品介绍：腾讯云数据万象。

综上所述，通过在data.table中使用apply()函数结合rollapply()函数和weighted.mean()函数，可以实现对多个列的组合操作，包括滚动操作和加权平均操作。腾讯云数据万象（COS）是一个推荐的腾讯云相关产品，可以提供强大的数据处理能力，与data.table结合使用，实现高效的数据处理和分析。

相关搜索:R和Data.table -对多个列应用rollapply 使用apply在pandas中添加多个列如何像这样在R data.table中组合两列：在Pandas中组合多个列，不包括NaN 在一个查询中组合多个列在SQL中为WHERE子句组合两列如何使用apply和lambda在Dataframe中应用多个if/else条件？在python中为字典组合字段和值在julia中组合和堆叠列中的数组在data.table中为向量中的每个值创建一列在SQL Server中，使用逗号和其他列组合列值使用apply和ggplot在R中制作多个条形图将列中的值分隔为多个列名和列值如何使用.apply和用户定义函数在pandas df中创建列如何在Pandas DataFrame中基于1和多个列的组合创建新列使用自定义列或jsonpath在kubectl中组合多个列输出当开始和结束在不同的行和列中时，为不同的id组合日期在rxjava中为edittext组合文本更改和去抖动 Pandas:在同一函数调用中组合聚合列和非聚合列在列中的唯一值上为多个列创建假人

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言学习笔记之——数据处理神器data.table

合理选择一套自己的数据处理工具组合算是挺艰难的选择，因为这个涉及到使用习惯和迁移成本的问题，比如你先熟知了R语言的基础绘图系统，在没有强大的驱动力的情况下，你可能不太愿意画大把时间去研究ggplot2，...然后根据自己掌握的现状选择最熟练的一套，随着时间的推移慢慢发现现有工具组合的不足，开始尝试往更加高效、简介的工具迁移，这样以需求为推动力的技能升级和迁移更为彻底和明确。...data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

3.6K8 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...3、Lapply 是 apply 函数族 Lapply 是 apply 函数族的一份子，类似的函数还有 sapply 和 tapply。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。

20.8K3 2

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...在dplyr分组求和的过程中，还是挺有用的。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...除了行，就是列的问题了。在data.table操作列，真的是费劲。。。常规来看， data[，....dplyr和data.table，你选哪个？

8.6K4 3

R数据框如何取交集

前面给大家介绍过了 ☞R批量预测miRNA和靶基因之间的调控关系-ENCORI篇 ☞R批量预测miRNA和靶基因之间的调控关系-TargetScan篇有小伙伴拿自己的数据试了一下，反馈预测结果太多了。...你可以在查询miRNA靶基因的时候限定使用哪些预测软件（如下图红圈所示），这样得到的结果就是多个预测软件预测结果的交集。...我们知道一般在R里，对向量取交集，直接用intersect函数就可以了。...下面给大家介绍三种对R数据框取交集的方法方法一、我们将各列的信息合并成一个字符串，然后取交集 #将各列的信息用_连接起来 combine1=apply(df1,1,function(x) paste...(x,collapse = "_")) combine2=apply(df2,1,function(x) paste(x,collapse = "_")) #查看合并后的字符串向量1和字符串向量2的交集

1.7K2 0

data.table包使用应该注意的一些细节

因此对于不是非常巨大的文件，建议设置为1，不要使用全部核心 fread中sep是自动检测的所以在循环读入文件的过程中，就算不同文件的分隔符不同，也可以循环一次性方便的读入；还有就算后续改变了文件的分隔符... as.matrix作用于data.table时会调用as.matrix.data.table，有一个rownames参数可以指定保留为行名的列矩阵转换成data.table时可以保留列名在...as.data.table函数中同样有一个rownames参数，设置为T可以将行名保留下来作为data.table的一列不建议set和for循环一起使用虽然set可以在内存上直接改变数值，但在R...中用for循环比批量列运算慢的多，因此首选:=或者apply等在处理浮点数时会有一些准确性的问题比如用seq函数numeric类型的数值时，会存在不准确的问题，比如seq(0,1,by=0.2)...中的0.6就不等于0.6，虽然很费解，但这是因为计算机在存储浮点数时出现的一些问题。

1.5K1 0

「R」数据操作（三）：高效的data.table

data.table中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table...重塑data.table data.table扩展包为data.table对象提供了更强更快得dcast()和melt()函数。...的动态作用域我们不仅可以直接使用列，也可以提前定义注入.N、.I和.SD来指代数据中的重要部分。...为演示，我们先创建新的data.table，命名为market_data，其中date列是连续的。...，并且组合中的列是由动态变化的名称决定的。

6.3K2 0

R练习50题 - 第一期

虽然具有明显的金融背景，但是它和其他学科所遇到的数据集是相通的：在我们的数据集中，每个股票代码symbol和日期date的组合都决定了唯一的一个观测，相当于数据集的key，这种由“横截面”与“时间序列”...值得说明的有一下几点：数据集为“面板数据”：包含多个股票（横截面），而每个股票则有多个按照日期排序的变量（时间序列）股票代码symbol 和日期date共同组成了数据集的key，也即每个唯一的symbol...和date组合决定了一个唯一的观测。...在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。练习2：每天上涨和下跌的股票各有多少?...我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。

2.5K4 0

数据流编程教程：R语言与DataFrame

tidyr主要提供了一个类似Excel中数据透视表(pivot table)的功能，提供gather和spread函数将数据在长格式和宽格式之间相互转化，应用在比如稀疏矩阵和稠密矩阵之间的转化。...y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分（3）集合操作 intersect(x, y): x 和 y 的交集（按行） union(x, y): x 和 y...的并集（按行） setdiff(x, y): x 和 y 的补集（在x中不在y中）更多详细操作可以参考由SupStats翻译的数据再加工速查表，比Python的老鼠书直观很多。...data.table还参考了NoSQL中流行的Key-Value形式，引入了setkey()函数,为数据框设置关键字索引。...对比操作对比data.table 和 dplyr 的操作： 3. apply函数族 4. join 操作 5. 拼接操作更多操作详情可查看data.table速查表。八.

3.9K12 0

《高效R语言编程》6--高效数据木匠

整洁是个广泛的概念，也包括重构数据，以便有利于数据分析和建模。R语言运行几个长列比运行一些短列快，所以一般认为宽数据（不整洁），长数据（整洁）。...用法是：gather(data,key,value，-religion),分别是数据框，要转换成分类的列名,单元值的列名和清除收集的变量使用seperate()分割联合变量分割是指将一个实际由两个变量组成的变量分割成两个独立列...滤除行 filter() ##　键操作数据聚合基于组合变量生成数据汇总，以前称为split-apply-combine。summarize是一个多面手，用于返回自定义范围的汇总统计值。...非标准计算代码中没有引号包裹的原始名字，这种方式叫做非标准计算（NSE），高效交互使用函数，减少键盘输入，允许Rstudio中自动完成。还是函数名多个_。...这里建议不要把数据库密码和API密钥等放在命令中，而要放大.Renviron文件中。dbConnect()函数连接数据库，dbSendQuery()查询，dbFetch()加载到R中。

1.9K2 0

「Workshop」第五期：使用data.table操作数据

data.table 按相同的列内容进行data.table组合 ?...(b = y, c > z)] a b c x 1: 3 b 4 3 2: 1 c 5 2 3: NA a 8 1 bind组合两个data.table ?...输出R环境中名为dt的数据框为.csv文件 foverlaps() foverlaps() 格式 foverlaps(x, y, by.x = if (!...foverlaps(x, y, type="any", mult="first") ⚠️：如果x和y索引的列名称不同时，在foverlaps()内加上一行参数 by.x =c("", "", "")...对应y中列的名称数据的拆分和合并 melt() dcast() > reshape_dt <- data.table(kinds = c(rep("peach", 2), rep("grape",

3.3K5 0

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

/counts/counts.txt', header = T,data.table = F)#载入counts，第一列设置为列名 colnames(a1) counts <...和primed fix(nlgl)编辑构建样品名和分组信息 2. counts与TPM转换基因表达量一般以TPM或FPKM为单位来展示，所以还需要进行，若还想转化为FPKM或CPM可参见Counts...在转换时经常会出现多个Ensembl_id对应一个gene symbol的情形，此时就出现了重复的gene symbol。此时就需要我们在进行基因ID转换前去除重复的gene symbol。...geneid),"symbol"] #匹配counts行名对应的symbol table(duplicated(symbol)) #统计重复基因名 ###使用aggregate根据symbol列中的相同基因进行合并...counts矩阵需要用到tximport包从salmon输出文件中获取counts矩阵，在tximport函数中输入quant.sf文件路径、转换类型type = "salmon"、以及转录本与基因名

18.5K4 5

R语言数据分析利器data.table包 —— 数据框结构处理精讲

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...showProgress，在工作台显示进程，当用file==""时，自动忽略此参数 verbose，是否交互和报告时间 data.table数据框结构处理语法 data.table[ i , j ,...比如此例取出DT 中 X 列为"a"的行，和"a"进行merge。on参数的第一列必须是DT的第一列 DT[....(sv=sum(v))] #对y列求和，输出sv列，列中的内容就是sum(v) DT[, ...., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的

5.9K2 0

Matt Dowle 演讲节选（一）

虽然不像 Hadley Wickham （请大家猛戳大猫上期的《Hadley Wickham 采访节选》）那样多产（Hadley目前已经在CRAN上发布了40多个包了），但是 Matt 凭着自己的 data.table...截至2016年12月30日，data.table 是 StackOverflow上有关 R 的第三大 tag，下面一共4912个帖子，而 dplyr 为4063。...在实战中，data.table 获得了 Kaggle 排名第一的 Gilberto 的青睐，他的原话很直接—— data.table is COOL!!!...在这段21分33秒的演讲中，Matt 回顾了自己在伦敦大投行的工作经历（雷曼兄弟以及所罗门兄弟）、自己与 R 的偶遇以及开发 data.table 的动机。...后来我下载了 R，在几乎没有任何改动的情况下把 S-PLUS 的代码粘贴了过去。代码的主要任务是生成许多随机资产组合，因此它包含一个很长的 for 循环。

6512 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...以外的所有列 distinct( ) 去重 distinct(df,V1,V2) 根据V1和V2两个条件来进行去重在基础包里面也有一个去重函数unique() ※注意distinct()可以针对某些列进行去重...mutate( ) 为数据增加新列 mutate(df,vnew1=v1-v2,vnew2=vnew1+v3) 与基础包里的transform()函数接近，但mutate可以使用你刚刚创建的column...data.table把我们刚刚用group_by和summarise组合才能实现的功能，直接在一句代码里面就实现了，而且代码的可读性和可扩展运用性非常强！...以上讲的这些只是我工作中data.table用得最多的功能，它的强大之处还远远不止这些！如果你想深入，可以去官网下载文档，你绝对值得拥有！

2.4K7 0

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

查找和下载数据以GSE7305为例网站点击链接下载代码下载 #打破下载时间的限制,改前60秒，改后10w秒 options(timeout = 100000) options(scipen =...acc=GPL570 代码下载 #获取表格下载链接 get_gpl_txt(gpl_number) 如何读取表格并提取子集，以GPL28098为例 #读取表格 a = data.table::fread...首先确认是不是基因表达芯片，可能是RNA芯片然后看看别的列，基因名称可能包含在里面。...singleDoc# 《一个有点难的探针注释》包含在ENTREZ_GENE_ID中 library(tinyarray) find_anno("GPL30971") get_gpl_txt("GPL30971...") #网址复制到浏览器下载到文件，放在工作目录下 f = data.table::fread("GPL30971.txt",data.table = F) colnames(f) ids = f[,

3022 1

128-R茶话会21-R读取及处理大数据

前言最近要处理一个100K*1M 左右大小的矩阵，这个矩阵的行为病人记录，列则是每个突变位点的突变信息，记录为0,1,2。这个矩阵单纯大小就有300多G，我该如何去读取它、处理它呢？...毫无疑问的指向data.table 包中的fread。它有两个优点：效率飞速，自带多线程操作； data.table 格式很好地节约内存。可是，300多G 对我来说还是有些大了。...而如snowfall 等并行处理的包，似乎无法处理readLines 这种文件链接，在我的测试中，每次并行循环都会重建链接，也就是若干个前N 行的文件。 1.2-将数据拆分那么该如何来并行呢？...使用apply？来点多线程，mapply? no,no,no。还记得[[125-R编程19-请珍惜R向量化操作的特性]] 吗？...我们将它们直接转型成对应矩阵就好，相当于重新创建了矩阵，接着将矩阵设计成和原矩阵相同的长宽属性。

4212 0

5个例子比较Python Pandas 和R data.table

在这篇文章中，我们将比较Pandas 和data.table，这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好，我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...data.table) melb <- fread("datasets/melb_data.csv") 示例1 第一个示例是关于基于数据集中的现有列创建新列。...这个子集包括价值超过100万美元，类型为h的房子。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。

3.1K3 0

能不能让R按行处理数据？

这些问题都是在平日的工作中有很高可能性出现并且看似容易实则让人抓狂的问题，在Stackoverflow上他们有着很高的人气。事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。...eddi大神的意思是，原来inti_total_asset和issuing_scale是两个变量，现在要把他们stack起来，“堆成”一列，也就是这样： ?...对，这个步骤和cast和melt函数的作用类似，只不过这里直接用了data.table自己的语句。...事实上，data.table也整合了reshape中的cast和melt函数，并且将cast函数升级为dcast，感兴趣的小伙伴可以去研究一番。在拉直数据后，接下来要做的工作就很简单了。...本期总结本期大猫带领大家学习了如何在R中按照行进行处理。R的数据处理哲学是向量，是列，但这并不妨碍我们按照行进行处理，其中的关键，就在于运用 c() 函数把不同的向量拼接成一个向量。

1.4K2 0

【测评】提高R运行效率的若干方法

本文中所有的计算都在配置了2.6GHz 双核CPU和8GB DDR3内存的MAC OS X中运行。...首先，我们看看最花费时间的这段函数：第一招：用apply函数代替For循环其实我们知道在R里面最能提升效率的一个方法就是少用For循环，多用apply，因为R是面向数组的语言，apply面向数组遍历...第四招：利用data.table数据结构既然计算相关性耗时不是决定性因素，有没有可能是因为数据结构的问题，因为最典型的例子就是read.csv和fread的读写文件的巨大差异：由于data.table...被誉为神包，在数据索引上的效率远远高于dataframe，因此我们继续尝试直接把lung.csv读取为data.table，然后直接用函数操作，结果如下：可以看到有一定效果，但不是很明显，仅仅提升了...，因此parallel和data.table只能二选一。

1.3K1 0

获取基因有效长度的N种方法

FPKM/RPKM或是TPM来进行后续的展示或分析，其定义和计算公式在前面的分享是：Counts FPKM RPKM TPM CPM 的转化提到了。...featureCounts和Salmon了，在这两类软件的输出结果中，除了基因（或转录本）的counts信息外，也包含了基因有效长度信息，如featureCounts输出文件的Length这一列对应的就是基因有效长度...针对featureCounts的输出文件在R中读取featureCounts的输出文件，提取Length和对应的geneid信息，再按照counts中的rowname（geneid）匹配排序，即可进行后续的...) #可多核读取文件 a1 <- fread('counts.txt', header = T, data.table = F)#载入counts，第一列设置为列名 ### counts矩阵的构建...library(tximport) #t2s为从gtf文件中提取的transcript_id和symbol的对应关系文件 t2s <- fread("t2s_vm29_gencode.txt", data.table

4.7K1 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭