R data.table使用rleid对第一行、最后一行和中间行进行分组 - 腾讯云开发者社区

包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。...比如此例取出DT 中 X 列为"a"的行，和"a"进行merge。on参数的第一列必须是DT的第一列 DT[....(sum(y)), by=x] # 对x列进行分组后对各分组y列求总和 DT[, sum(y), keyby=x] #对x列进行分组后对各分组y列求和，并且结果按照x排序 DT[, sum(y)..., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的...=FALSE] 和x[, .SD, .SDcols=cols]一样 mult 当有i 中匹配到的有多行时，mult控制返回的行，"all"返回全部（默认），"first",返回第一行，"last"返回最后一行

5.9K2 0

Matt Dowle 演讲节选（二）

写在前面也许很多小伙伴都注意到了，这一期的文章和往期的排版有所不同，因为从这一期开始，大猫将使用markdown来进行写作，并在最后用css来进行渲染输出。...难道还要另起一行？这样就生成太多无用的中间数据集了啊……”于是 Matt 心生一计：“把他们都串起来！”...这里的关键在于，在第一种方法中，每为新的一行赋值，data.table就要重新复制一遍DT，也就是说，第一种方法的运行过程中，DF被复制了1000遍！...的帖子中，一个用户需要处理以下数据集（这里只显示前6行） ? 他想首先按照gene_id分组，然后分别计算特定变量的极值和均值。...这个用户一开始使用lapply和do.call函数，不仅计算时间很长（30 min！），而且代码特别难看： ? 而使用data.table,则简直是一阵春风： ?

1.1K4 0

您找到你想要的搜索结果了吗？

是的

没有找到

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...（data_one数据必须设置key，data_two默认第一行为Key）。...—————————————————————————————————————————————— 六、额外的参数（来源：R语言data.table速查手册） 1、mult参数 mult参数是用来控制i匹配到的哪一行的返回结果默认情况下会返回该分组的所有元素...在data.table行操作跟data.frame很像，可以data[1,]就可以获得第一行的数据，同时也可以用，data[1]来获得行信息，这个是data.table特有的。...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列

9.3K4 3

R练习50题 - 第一期

在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。练习2：每天上涨和下跌的股票各有多少?...(date, updown = ifelse(close - pre_close > 0, "UP", "DOWN"))] 代码第一行只有一个逗号。...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....代码第二行生成了一个新变量num。由于在keyby语句中我们已经按照日期与涨跌进行了分组，所以这一步我们只需要统计每个组有多少个股票就可以了。我们在这里使用了uniqueN这个函数。...整个代码的执行顺序是：先选择行（逗号空白行），再分组（keyby语句），最后进行组间统计（num语句）。我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。

2.5K4 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

介绍一种按照日期范围——例如按照周、月、季度或者年——对其进行分组的超简便处理方式：R语言的cut()函数。...2.aggregate函数不能对分组后的数据进行多种汇总计算，因此要用两句代码分别实现sum和max算法，最后再用cbind拼合。显然，上述代码在性能和易用性上存在不足。...a[row(a)==1&col(a)==2] #将返回6，第一行第二列 2、一个网络例子： ?...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?

20.9K3 2

关于data.table中i, j, by都为数字的理解

在往期的公众号文章，都提到了data.table的主要语句DT[i, j, by], 简而言之，i 用来选择或者排序，by 用来分组，j 用来运用函数进行处理。...以mtcars这个R自带的数据集为例，我们知道mtcars[1]的运行结果，是选择这个数据集的第一行，结果如下： ? mtcars[1,1]的运行结果，是选择第一行第一列的元素，结果如下： ?...看到这个结果大家是不是还有点一头雾水，下面就让笔者来对这个结果进行分析讲解。...可见，在DT的i中输入一个数字和用一般的提取符号`[`只输入一个数字的结果完全一样，就是提取这个数据集中的某一行。...结果分析从这样一段拆解当中，我们大致就可以明白为什么会出现这样的结果了，整体的运行思路就是：首先选出了第一行，而后在by中以一个变量名默认为NA的变量为基准，最后在j中生成了一个默认变量名为V1的变量

1.3K3 0

一行代码搞定分组回归

写在前面在目前为止所有小伙伴们向大猫请教过的R问题中，大猫总结了最常遇见同时也是比较难的三个问题，分别是（1）事件研究法；（2）分组回归；（3）滚动回归。...事件研究法在第一期中已经讲述，本期我们就来瞧瞧如何做分组回归~ PS：由于微信的限制，给大猫留言的小伙伴超过48小时后大猫就不能回复你们了。所以如果想联系大猫，可以按照文章最后的微信号加大猫微信哦。...T), y = rnorm(100), x = rnorm(100)) 要实现一行代码完成分组回归，需要用到data.table包！...现在我们逐一分析这一行代码。 keyby语句为data.table包中的分组语句，它能够对keyby中的每一个不同的值（这里为abcde）都分别跑一次回归。...如果我们的回归不是单自变量而是双自变量，那么每个分组就会有三行观测了，一行是截距，还有两行是系数。

3.6K4 0

35行代码搞定事件研究法（下）

注意 I，本代码主要使用data.table包完成，关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中，我们会重点介绍data.table这个包。...请观察在上面这个抽象后的代码，大家应该可以看出我们对event数据集做了三件事情，具体分别为：选取event中所有的行（第一行代码）。此处，我们没有添加任何条件，因此默认选中event的所有行。...对选中的变量进行操作（第二行代码）。此处，所有的操作都用大括号{}包裹了起来。对event按照stk.id进行分组（第三行代码）。...加了这一行代码后，第二行代码中所有的操作都会对每个stk.id分组运行一遍（这一步很关键！）。讲到这，大家一定会发现，上述代码的关键部分就在大括号{...}所括起来的内容。...注意，此时最终得到的cunsum应该是一个和ars长度相等的向量。如果我们希望对每个股票的CAR进行T检验，那么代码就为： ttest <- car[, .

1.2K4 0

一行代码对日期插值

如何只用一行代码就高效优美地把这些缺失的日期补上呢？...附：生成样例数据集的文件： # sample dataset # id变量用于分组 dt data.table(id = c(1, 1, 1, 2, 2), date = c(as.Date("2000...拓展等等，你不是说可以在一行当中搞定的吗？当然没问题，以上文提到的第二种情况为例，我们可以把两行合并为一行： # 把两行代码合并成一行 dt[dt[, ....(id, date), nomatch = NA] 这也是大猫喜欢data.table的一个原因：由于语法的灵活性，可以少生成很多中间数据集，这样也就不用绞尽脑汁为那些中间数据集命名了。...处女座无数次为了给数据集取一个合适的名字心力交瘁…… 下期预告根据官网公告，Microsoft R Open 3.4版本将会“coming soon in May”，大猫会在第一时间给大家发布号外~

1.4K3 0

【进阶】Next N rows when condition is TRUE

例如，在以上数据集第4行的condition是1，那么我们能够标记出第5行以及第6行。又由于第6行的分组从a变成了b，所以只有第5行被标记了出来。...# a是分组变量； dt data.table(a = rep(c("a", "b", "c"), each = 5)) # condition是条件；desireOutcome是希望获得的结果...shift函数它能够对向量进行lag与lead操作。参数0:2的意思是分别滞后0期、1期、2期。参数fill的意思是对于leading missing value，使用0进行补齐。...在使用shift函数后，我们实际上生成了三个向量，第一个向量只有条件成立时才为1，第二个向量条件成立后的“滞后一期”才为1，第三个向量只有条件成立后的“滞后两期”才为1。...于是很自然的，如果我们能将这三个向量相加，那么所有符合要求的行就都是1，不符合的就都是0了。关键问题在于如果给我们一个list，使用什么方法能够把list的每个元素“一一对应”地加总呢？

5531 0

R Tricks: 如何巧为观测标记序号

其实这些问题基本上都是大猫自己在数据处理过程中实际遇到的，看了SO上的答案不禁拍案叫绝，忍不住和大家分享。第一期的主题是：如何巧为观测标记序号？...其实只需要一行就够啦！...在R中，求差分的函数diff非常适合完成这个任务。它可以计算当前观测和上一行观测相比变化了多少。我们试着用一下： ▶ dt[, diff := c(0, diff(group))] 结果如下： ?...例如，对于上面的第一行和第二行观测来说，他们同属于cumsum=0这组。因为这组一共只有两行，所以.N=2，而seq(.N)就产生{1, 2}这样一个整数序列，并最终赋值给n。...如果把上面三步写成一行代码就是这个样子： ▶ dt[, n := seq(.N), by = list(cumsum(c(0, abs(diff(group)))))] 本期总结本期大猫带领大家学习了一个为分组观测进行编号的小技巧

1K1 0

能不能让R按行处理数据？

事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。大猫除了进行翻译，也会在其中增加一些相关知识点，相信掌握了这些问题，一定会对你的研究工作大有裨益。 1....现在我想做的是对于每一行，找出非NA的值，填充到“mean.scale”这个新的变量；如果有多个非NA，那么就计算其平均值。也就是说，我希望最终得到如下数据集： ?...对，这个步骤和cast和melt函数的作用类似，只不过这里直接用了data.table自己的语句。...我们只要把数据按照fund_name分组，然后对每组求scale的均值。唯一需要注意的有两点。首先，别忘了mean中的na.rm = T参数，它能够让函数忽略缺失值。...事实上，大猫把整个过程分解成了好几步，如果对于data.table包比较熟悉，完全可以在一行之内搞定所有事情，根本不需要把进行数据集的拆分、合并： ▶ t.final <- t1[, ":="(mean.scale

1.4K2 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...data.table的基本语法是dt[i, j, by]，简单说就是使用i选择行，用by分组，然后计算j。接下来我们看看data.table继承了什么，增强了什么。...N是最常用的符号之一，它表示当前分组中，对象的数目（就不用调用nrow函数啦）。在[]使用它指提取最后一行。...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...下面的例子中，首先使用通用键id将product_info和product_tests连接起来，然后筛选已发布的产品，再按type和class进行分组，最后计算每组的quality和durability

6.4K2 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...以上这段代码我们使用group_by和summarise的结合实现了对数据集分组分析，并进行统计量计算的一个功能。...如果你的日常处理数据量非常大，有上亿行的数据处理需求，这个时候你完全可以放心大胆的使用data.table 这个包异常的高效，速度非常的快！！...，用by进行分组，然后在列上面进行计算。...(v1,v2)] 回顾一下我们在上一节最后保留的一段代码： group_by() grouped进行分组 newdata<-summarise

2.5K7 0

R Tricks: 如何处理Gaps & Islands问题？

每一行都有ID、起始时间（stime）、结束时间（etime）。...” 我们的思路很简单，分成四步： ▶ 将数据集按照ID与起始时间（stime）进行排序 ▶ 找到结束时间（etime）的累计最大值 ▶ 一旦完成以上两步，那么重叠的行即为当前结束时间（etime)累计最大值仍旧大于下一行的观测...上一行代码中，使用的关键函数是累计最大值函数cummax。此外，由于cummax不能直接处理日期格式，所以需要先将日期转化为数字进行比较，完了再转换回日期。...关于如何巧用cumsum函数，大猫在上一期的《R Tricks：如何巧为分组观测编号》中也有详细讲解哦最后，我们只要把每个grp组中起始时间（stime）的最小值和结束时间（etime）的最大值找出来就行啦...我们灵活使用了cummax与cumsum函数，他们在处理分组数据的时候尤其有用。关于如何巧用cumsum函数，大猫在上一期的《R Tricks：如何巧为分组观测编号》中也有详细讲解哦。

1.1K2 0

「R」data.table 包功能特性学习

语法格式： DT[i, j, by] 释义为对data.table对象DT，使用i选择行，然后按照by计算j。...# 对V1的每一组计算V4的和 DT[, ....(V1.01=sign(V1-1))] ## V1.01 V4.sum ## 1: 0 36 ## 2: 1 42 # 先取前5行，然后对V1的每组求V4的和 DT...(0 rows) of 1 col: V2 # 选择第一行与最后一行 DT[, .SD[c(1, .N)], by=V2] ## V2 V1 V3 V4 ## 1: A 1 0.341...(V4.sum=sum(V4)), by=V1] # 选择和>40的行 DT2[V4.sum>40] ## V1 V4.sum ## 1: 2 42 # 按V1分组，V1排序计算V4和

1.9K1 0

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

pd$group = rep(c("group1","group2","group3"),times = c(6,6,8)) #假如需要从多个分组里面取两个分组对应的行 library(stringr...如果三种办法都不适用，可以继续往后写else if if(F){ # 第一种方法，有现成的可以用来分组的列 Group = pd$ #列名 }else if(F){ # 第二种方法，眼睛数，...}else if(T){ # 第三种方法，使用字符串处理的函数获取分组 k = str_detect(pd$title,"Normal");table(k) Group = ifelse(k...("GPL28098.txt",data.table = F) # 提示丢了一行，所以换个读取函数 b = read.delim("GPL28098.txt",check.names = F,skip...------------------------------------------------- g = names(tail(sort(apply(exp,1,sd)),1000)) #apply对每一行

3612 1

R语言基因组数据分析可能会用到的data.table函数整理

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。...\n")； sep 列之间的分隔符； sep2 分隔符内再分隔的分隔符，功能还没有应用； nrow 读取的行数，默认-l全部，nrow=0仅仅返回列名； header 第一行是否是列名...; verbose 是否交互和报告运行时间； autostart 机器可读这个区域任何行号，默认1L,如果这行是空，就读下一行; skip 跳过读取的行数，为1则从第二行开始读，...key 设置key，用一个或多个列名，会传递给setkey showProgress TRUE会显示脚本进程，R层次的C代码 data.table TRUE返回data.table

3.4K1 0

文章复现—bulkRNA转录组结合机器学习等进行相关疾病研究01—多数据集去除批次效应后联合分析以及火山图标准绘制

这个矩阵按行操作，取每一行的中位数，将结果给到median这一列的每一行 ids$median=apply(dat,1,median) #对ids$symbol按照ids$median中位数从大到小排列的顺序排序...(dat)=ids$symbol#把ids的symbol这一列中的每一行给dat作为dat的行名 dat[1:4,1:4] #保留每个基因ID第一次出现的信息}save(gse_number,dat...这个矩阵按行操作，取每一行的中位数，将结果给到median这一列的每一行 ids$median=apply(dat,1,median) #对ids$symbol按照ids$median中位数从大到小排列的顺序排序...(dat)=ids$symbol#把ids的symbol这一列中的每一行给dat作为dat的行名 dat[1:4,1:4] #保留每个基因ID第一次出现的信息} save(gse_number,dat...这个矩阵按行操作，取每一行的中位数，将结果给到median这一列的每一行 ids$median=apply(dat,1,median) #对ids$symbol按照ids$median中位数从大到小排列的顺序排序

1792 0

这种作者只提供了每组多个重复样本合并后数据的怎么办

但是感觉这个时候 kimi 不是很智能，他并没有给出一个很好的处理方式：对于您提到的高通量RNA测序数据分析，其中包含三个时间节点和一个对照组，每个分组有5个生物学重复样本，且这些样本的RNA在测序前进行了...差异表达分析：在数据预处理之后，可以进行差异表达分析，以识别在不同时间点或对照组之间表达显著变化的基因。可以使用如DESeq2、edgeR或limma等R包来进行分析。...数据解释和验证：最后，对分析结果进行解释，并可能需要通过实验（如qPCR）来验证关键基因的表达变化。...早期分享的关于mfuzz 分析的帖子： Mfuzz做转录变化的时间趋势分析后对每个趋势分组挑一个代表性基因使用Mfuzz包做时间序列分析关闭利用Mfuzz包对转录变化的时间趋势进行分析（学徒作业参考...rpkm <- rpkm[,c(2,grep("Sample",colnames(rpkm)))] rownames(rpkm) <- rpkm[,1] rpkm 第一行

501 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R语言数据分析利器data.table包 —— 数据框结构处理精讲

Matt Dowle 演讲节选（二）

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R练习50题 - 第一期

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

关于data.table中i, j, by都为数字的理解

一行代码搞定分组回归

35行代码搞定事件研究法（下）

一行代码对日期插值

【进阶】Next N rows when condition is TRUE

R Tricks: 如何巧为观测标记序号

能不能让R按行处理数据？

「R」数据操作（三）：高效的data.table

懒癌必备-dplyr和data.table让你的数据分析事半功倍

R Tricks: 如何处理Gaps & Islands问题？

「R」data.table 包功能特性学习

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

R语言基因组数据分析可能会用到的data.table函数整理

文章复现—bulkRNA转录组结合机器学习等进行相关疾病研究01—多数据集去除批次效应后联合分析以及火山图标准绘制

这种作者只提供了每组多个重复样本合并后数据的怎么办

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐