如何使用data.table按多列分组并选择前1个值 - 腾讯云开发者社区

data.table为了加快速度，会直接在对象地址修改，因此如果需要就要在修改前copy，直接修改的命令有:=添加一列，set系列命令比如下面提到的setattr,setnames,setorder等；...,neworder) 重新安排列的顺序，neworder字符矢量或者行数 set(DT,rownum,colnum,value)直接修改某个位置的值，rownum行号，colnum，列号，行号列号推荐使用整型...函数画图，对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组，直接在DT上再添加一列m,m的内容是mean(v)，直接修改并且不输出到屏幕上 DT[, m:=mean...(v), by=x] [] #加[]将结果输出到屏幕上 DT[,c("m","n"):=list(mean(v),min(v)), by=x][] # 按x分组后同时添加m,n 两列，内容是分别是mean...(y=max(y)), lapply(.SD, min)), by=x, .SDcols=y:v] #对DT取y:v之间的列，按x分组，输出max(y),对y到v之间的列每列求最小值输出。

5.9K2 0

「R」data.table 包功能特性学习

语法格式： DT[i, j, by] 释义为对data.table对象DT，使用i选择行，然后按照by计算j。...(4), 4), V4 = 1:12) 使用索引i取子集 # 选择第3到5行 DT[3:5, ] ## V1 V2 V3 V4 ## 1: 1 C...1 C -0.380 3 ## 2: 2 A -0.746 4 ## 3: 1 B 0.341 5 # 选择第二列V2有值为A的列 DT[V2=="A"] ## V1 V2...V2 V3 V4 ## 1: A -1.49 22 ## 2: B -1.49 26 ## 3: C -1.49 30 链 # 按V1分组求V4列的和 DT2 <- DT[, ....(V4.sum=sum(V4)), by=V1] # 选择和>40的行 DT2[V4.sum>40] ## V1 V4.sum ## 1: 2 42 # 按V1分组，V1排序计算V4和

1.9K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

「R」数据操作（三）：高效的data.table

data.table的基本语法是dt[i, j, by]，简单说就是使用i选择行，用by分组，然后计算j。接下来我们看看data.table继承了什么，增强了什么。...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...接下来，我们学习如何通过by以简便的方式实现数据的分组汇总。...(year = year(date))] } 这里我们使用.SD[[x]]提取x列的值，这跟通过名字从列表中提取成分或元素相同。...，而是使用market_data[, (columns) := list(...)]来动态设定列，其中columns是一个包含列名的字符向量，list(...)是每个列对应的值： price_cols

6.4K2 0

R练习50题 - 第一期

unique：找出symbol中不重复的值。在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....(date, updown)这个结构，他的意思是，把整个数据集按照date和updown两个变量进行分组，并依次排序。...其中，updown是我们新建的字符变量，用来表示分组，它只取两个值：UP, DOWN。这其中的难点是建立updown这个变量。我们使用了ifelse这个函数。...整个代码的执行顺序是：先选择行（逗号空白行），再分组（keyby语句），最后进行组间统计（num语句）。我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。

2.5K4 0

R语言学习笔记之——数据处理神器data.table

data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

3.6K8 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...DT数据集按照x分组，然后计算v变量的和、最小值、最大值。（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...(x)] 还有 data$x 如果有很多名字很长的指标，data.table中如果按列进行遍历呢？ data[,1]是不行的，选中列的方式是用列名。...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列

9.3K4 3

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...select(Hdma_dat,pclass,survived) ##选择pclass变量 ?...##按照已有的类别数据，分类 g分组 ##例2：对矩阵分组（按列） m列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...在使用data.table时候，需要预先布置一下环境： datadata.table(data) 如果不布置环境，很多内容用不了。

20.9K3 2

懒癌必备-dplyr和data.table让你的数据分析事半功倍

select(df,V1,V2,V3) 选择V1，V2，V3列数据 select(df,V1:V3) 选择V1到V3列的所有数据 t选择除了V1，...找到合适的packages并学习使用它，绝对会让我们数据分析工作事半功倍！我们有没有发现dylyr包中函数使用的一些规律？有的！...以上这段代码我们使用group_by和summarise的结合实现了对数据集分组分析，并进行统计量计算的一个功能。...data.table这个包的语法用起来稍微有点奇怪（哈哈~），但是速度亲妈快啊！！小伙伴们一定不能错过的绝世好包！铺垫了这么多，来来来，数据分析神器data.table走起来！！..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢

2.5K7 0

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

library(stringr) # 标准流程代码是二分组，多分组数据的分析后面另讲 # 生成Group向量的三种常规方法，三选一，选谁就把第几个逻辑值写成T，另外两个为F。...}else if(T){ # 第三种方法，使用字符串处理的函数获取分组 k = str_detect(pd$title,"Normal");table(k) Group = ifelse(k...,"Normal","Disease") } data.frame(pd$title,Group)# 检查分组对不对转换为因子 # 需要把Group转换成因子，并设置参考水平，指定levels，对照组在前...package:hgu133plus2.db") #列出R包里都有啥 ids <- toTable(hgu133plus2SYMBOL) #把R包里的注释表格变成数据框 } 方法2 读取GPL网页的表格文件，按列取子集...acc=GPL570 代码下载 #获取表格下载链接 get_gpl_txt(gpl_number) 如何读取表格并提取子集，以GPL28098为例 #读取表格 a = data.table::fread

3642 1

Matt Dowle 演讲节选（二）

例如代码DF[2:3, sum(B), by = group]，其中i的部分为2:3，表示对行的选择；j的部分为sum(B)，表示对列进行运算；by的部分对应by = group，表示按照变量group...Matt 是这样想的：在data.frame中，如果我们想要选择region这个变量为特定值的关泽，那么代码就会是下面这样： > DF[DF$region == "US", sum(population...选择、运算、分组，三个截然不同的命令被完美的整合到了DF[i, j, by]的语法中，更妙的是，上一步运算的结果可以直接作为下一步的输入数据集！...（大猫：在最新版本的 R 中，这个问题已经明显缓解，但是这时已经过去了5年多）而在data.table中，一切都是那么自然： > DF[, colToDelete := NULL] 哪怕你的数据集有...的帖子中，一个用户需要处理以下数据集（这里只显示前6行） ? 他想首先按照gene_id分组，然后分别计算特定变量的极值和均值。

1.1K4 0

data.table包使用应该注意的一些细节

as.data.table函数中同样有一个rownames参数，设置为T可以将行名保留下来作为data.table的一列不建议set和for循环一起使用虽然set可以在内存上直接改变数值，但在R...中用for循环比批量列运算慢的多，因此首选:=或者apply等在处理浮点数时会有一些准确性的问题比如用seq函数numeric类型的数值时，会存在不准确的问题，比如seq(0,1,by=0.2)... 类似于集合运算，data.table中fintersect, fsetdiff, funion，fsetequal函数能对不同数据框的行求交集，差集，并集等可以直接对列按分隔符进行分割应用...tstrsplit函数可以将一列按照分隔符分成多列，函数返回的是一个列表，举例：DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][]，将x列按照/...分隔，分割成c1，c2两列支持类似于SQLs的分组运算带有rollup， cube， groupingsets函数参考资料 data.table 1.11.2 manual：https://cran.r-project.org

1.5K1 0

「Workshop」第五期：使用data.table操作数据

banana 3 6 4: banana 4 1 5: orange 5 3 6: orange 6 6 对行 i 进行操作按条件选择行...j 进行操作按条件选取列 > dt[,2] money 1: 1 2: 2 3: 3 4: 4 5: 5 6: 6 > dt[, -2]...6 > dt[max(number),] d e c name money number 1: 2 1 expensive orange 6 6 选择或删除某列...> dt[, sum(number), by =name] name V1 1: apple 4 2: banana 7 3: orange 9 组合data.table 按相同的列内容进行...读取或写出文件 fread(".csv", select = c("a","b")) 读取.csv或.tsv格式的文件，可以选择特定列读取 fwrite(dt, ".csv")

3.3K5 0

媲美Pandas？Python的Datatable包怎么用？

如果你是 R 的使用者，可能已经使用过 data.table 包。...这里展示的是如何选择数据集中前5行3列的数据，如下所示： datatable_df[:5,:3] ?...▌删除行/列下面展示如何删除 member_id 这一列的数据： del datatable_df[:, 'member_id'] ▌分组 (GroupBy) 与 Pandas 类似，datatable...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%time for i in range(100...下面就来展示如何过滤掉 loan_amnt 中大于 funding_amnt 的值，如下所示。

7.2K1 0

媲美Pandas？Python的Datatable包怎么用？

如果你是 R 的使用者，可能已经使用过 data.table 包。...这里展示的是如何选择数据集中前5行3列的数据，如下所示： datatable_df[:5,:3] ?...▌删除行/列下面展示如何删除 member_id 这一列的数据： del datatable_df[:, 'member_id'] ▌分组 (GroupBy) 与 Pandas 类似，datatable...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%timefor i in range(100...下面就来展示如何过滤掉 loan_amnt 中大于 funding_amnt 的值，如下所示。

6.7K3 0

从一件数据清洗的小事说起

村长，数据科学、指弹吉他及录音工程爱好者，浙大金融学博士在读，在data.table包和MongoDB的使用上有较多经验。...实际上，for循环“只会在不恰当使用时”降低性能。然而大佬毕竟是大佬，用科学的态度做了实验并给出了结论： ?...其实这一期这么扯淡的讲这么多事情，只是为了说明一点，data.table真的有很好的性能，尤其在处理海量数据方面（在分组特别多的时候，相比dplyr和pandas有2x~10x的提升，来自官方文档）。...相较之下，data.table则通过把数据处理中最常见的“选取行”、“修改列”、“分组”三大操作通过dt[i,j,by]的语法统一了一起来。...关于如何学习data.table包，大家可以查看本公众号前几期的文章。R语言的data.table包是一个被大多数人远远低估的存在，在这里想强烈推荐给大家！！

6901 0

GEO—芯片GSE3292 _pd 中无法找到分组信息—火山图中添加目标基因

#选择性代替第8行eSet = eSet[[1]] class(eSet)#(1)提取表达矩阵expexp 列数=样本数，dim(exp)#二个要检查的地方...可以看到这个数据集pd中是不包含分组信息（HPV阳性和阴性）的。在网页中找到分组信息，如下。可以看到分组信息对应的ID号是pd表格中title列中内容的后面的数字。...GPL网页的表格文件，按列取子集#library(tinyarray)#get_gpl_txt(gpl_number) #获取表格文件的下载链接# 接下来是复制网址去浏览器下载、放在工作目录下、读取、提取探针...id和基因symbol(没有现成的需要拆分和转换)# 注意:最终的数据ids只能有两列，第一列列名是probe_id,第二列列名是symbol,且都是字符型，否则后面代码要报错# 方法3 官网下载注释文件并读取...ishot截图工具，指针指向哪里，就会显示哪里的色号；如何在图中添加p值阈值的水平线，和logFC阈值的竖直线；geom_hline(yintercept = -log10(p_t), lty=4, col

901 0

媲美Pandas？一文入门Python的Datatable操作

如果你是 R 的使用者，可能已经使用过 data.table 包。...这里展示的是如何选择数据集中前5行3列的数据，如下所示： datatable_df[:5,:3] ?...▌删除行/列下面展示如何删除 member_id 这一列的数据： del datatable_df[:, 'member_id'] ▌分组 (GroupBy) 与 Pandas 类似，datatable...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%timefor i in range(100...下面就来展示如何过滤掉 loan_amnt 中大于 funding_amnt 的值，如下所示。

7.7K5 0

5个例子比较Python Pandas 和R data.table

我们将使用Kaggle上提供的墨尔本住房数据集作为示例。我将使用谷歌Colab(Pandas )和RStudio(data.table)作为开环境。让我们首先导入库并读取数据集。...Price > 1000000 & Type == "h"] 对于pandas，我们提供dataframe的名称来选择用于过滤的列。...另一方面，data.table仅使用列名就足够了。示例3 在数据分析中使用的一个非常常见的函数是groupby函数。它允许基于一些数值度量比较分类变量中的不同值。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。

3.1K3 0

热图到底是横向基因层面归一化还是依据纵向的样品呢？

data.table = F) data=data[!...，然后每个组里面的5个重复其实也略微有一点点分组，可能是先做了3个重复然后补了2个样品。...上面的热图代码是： dat[1:4,1:4] cg=names(tail(sort(apply(dat,1,sd)),1000))#apply按行（'1'是按行取，'2'是按列取）取每一行的方差，从小到大排序...但是我们如何相信作者给出来的文件是否准确无误呢？...反正我基本上没有遇到过这样的需求，上面的热图就是没有选择横向基因层面归一化，而是直接可视化log的CPM值，其实也可以做依据纵向的样品的归一化，但是因为巨噬细胞和树突细胞特异性基因并不多，而且表达量差异悬殊

681 0

用data.table语句批量处理变量

村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！...问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...批量处理法：用lapply批量处理变量在此时lapply的妙用就显现出来了，在R中lapply用来对list中每一个element进行相同处理，如何把它运用到data.table，话不多说先上代码：...而我们要处理的变量是第3个到第34个，所以在.SD中选出3至34列，运用lapply对选中的.SD[, 3:34]里面每一个element使用as.Date函数。再看，':='的左边。...如何把处理好的这些变量与变量名进行对应，这里就用到了colnames()这个函数，提取出我们这个data.table第3到第34个变量的名字，这样就可以将变量名和更改格式后的变量按顺序进行一一匹配。

1.2K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R语言数据分析利器data.table包 —— 数据框结构处理精讲

「R」data.table 包功能特性学习

「R」数据操作（三）：高效的data.table

R练习50题 - 第一期

R语言学习笔记之——数据处理神器data.table

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

懒癌必备-dplyr和data.table让你的数据分析事半功倍

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

Matt Dowle 演讲节选（二）

data.table包使用应该注意的一些细节

「Workshop」第五期：使用data.table操作数据

媲美Pandas？Python的Datatable包怎么用？

媲美Pandas？Python的Datatable包怎么用？

从一件数据清洗的小事说起

GEO—芯片GSE3292 _pd 中无法找到分组信息—火山图中添加目标基因

媲美Pandas？一文入门Python的Datatable操作

5个例子比较Python Pandas 和R data.table

热图到底是横向基因层面归一化还是依据纵向的样品呢？

用data.table语句批量处理变量

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐