首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言数据分析利器data.table包 —— 数据框结构处理精讲

data.table为了加快速度,会直接在对象地址修改,因此如果需要就要在修改前copy,直接修改的命令有:=添加一列,set系列命令比如下面提到的setattr,setnames,setorder等;...,neworder) 重新安排列的顺序,neworder字符矢量或者行数 set(DT,rownum,colnum,value)直接修改某个位置的值,rownum行号,colnum,列号,行号列号推荐使用整型...函数画图,对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组,直接在DT上再添加一列m,m的内容是mean(v),直接修改并且不输出到屏幕上 DT[, m:=mean...(v), by=x] [] #加[]将结果输出到屏幕上 DT[,c("m","n"):=list(mean(v),min(v)), by=x][] # 按x分组后同时添加m,n 两列,内容是分别是mean...(y=max(y)), lapply(.SD, min)), by=x, .SDcols=y:v] #对DT取y:v之间的列,按x分组,输出max(y),对y到v之间的列每列求最小值输出。

5.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    「R」数据操作(三):高效的data.table

    data.table的基本语法是dt[i, j, by],简单说就是使用i选择行,用by分组,然后计算j。接下来我们看看data.table继承了什么,增强了什么。...对数据进行分组汇总 by是data.table中另一个重要参数(即方括号内的第3个参数),它可以将数据按照by值进行分组,并对分组计算第2个参数。...接下来,我们学习如何通过by以简便的方式实现数据的分组汇总。...(year = year(date))] } 这里我们使用.SD[[x]]提取x列的值,这跟通过名字从列表中提取成分或元素相同。...,而是使用market_data[, (columns) := list(...)]来动态设定列,其中columns是一个包含列名的字符向量,list(...)是每个列对应的值: price_cols

    6.4K20

    R练习50题 - 第一期

    unique:找出symbol中不重复的值。 在data.table的语法中,先进行列选择操作,再对列进行处理。所以上述语句会先执行str_detect,再执行unique。...这是因为data.table的第一个语句用来对列进行选择,由于我们这里需要对所有列进行统计,所以不需要进行任何操作。 keyby用来进行分组,是整个代码的核心。先来看keyby = ....(date, updown)这个结构,他的意思是,把整个数据集按照date和updown两个变量进行分组,并依次排序。...其中,updown是我们新建的字符变量,用来表示分组,它只取两个值:UP, DOWN。这其中的难点是建立updown这个变量。我们使用了ifelse这个函数。...整个代码的执行顺序是:先选择行(逗号空白行),再分组(keyby语句),最后进行组间统计(num语句)。 我们的答案中,行、列以及分组三条语句各占一行,实际上这仅仅是为了让代码更直观。

    2.5K40

    R语言学习笔记之——数据处理神器data.table

    data.table 1、I/O性能: data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指,这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何,...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...data.table列索引 列索引与数据框相比操作体验差异比较大,data.table的列索引摒弃了data.frame时代的向量化参数,而使用list参数进行列索引。...注意以上新建列时,如果只有一列,列名比较自由,写成字符串或者变量都可以,但是新建多列,必须严格按照左侧列名为字符串向量,右侧为列表的模式,当然你也可以使用第二种写法。...当整列和聚合的单值同时输出时,可以支持自动补齐操作。 当聚合函数与data.table中的分组参数一起使用时,data.table的真正威力才逐渐显露。 mydata[,.

    3.6K80

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    data.table中,还有一个比较特立独行的函数: 使用:=引用来添加或更新一列(参考:R语言data.table速查手册) DT[, c("V1","V2") := list(round(exp(V1...DT数据集按照x分组,然后计算v变量的和、最小值、最大值。 (2)dplyr函数利用%>%(链式操作)来改进: 链式操作是啥意思呢?...—————————————————————— 实战一:在data.table如何选中列,如何循环提取、操作data.table中的列?...(x)] 还有 data$x 如果有很多名字很长的指标,data.table中如果按列进行遍历呢? data[,1]是不行的,选中列的方式是用列名。...2016-11-28补充: 留言区大神给了一个比较好的选中列的方式,其中主要就是对with的使用: data.table取列时,可以用data[,1,with=FALSE]取data的第一列

    9.3K43

    懒癌必备-dplyr和data.table让你的数据分析事半功倍

    select(df,V1,V2,V3) 选择V1,V2,V3列数据 select(df,V1:V3) 选择V1到V3列的所有数据 t选择除了V1,...找到合适的packages并学习使用它,绝对会让我们数据分析工作事半功倍! 我们有没有发现dylyr包中函数使用的一些规律? 有的!...以上这段代码我们使用group_by和summarise的结合实现了对数据集分组分析,并进行统计量计算的一个功能。...data.table这个包的语法用起来稍微有点奇怪(哈哈~), 但是速度亲妈快啊!!小伙伴们一定不能错过的绝世好包! 铺垫了这么多,来来来,数据分析神器data.table走起来!!..."B")] 使用j DT[,v1] #选择v1列 那如果我要选择多列呢,大家注意一下这里不是用c()来选取了, 而是通过.()来选取,注意前面有一个”.”号,所以我说data.table的语法有点奇怪呢

    2.5K70

    生信技能树 Day8 9 GEO数据挖掘 基因芯片数据

    library(stringr) # 标准流程代码是二分组,多分组数据的分析后面另讲 # 生成Group向量的三种常规方法,三选一,选谁就把第几个逻辑值写成T,另外两个为F。...}else if(T){ # 第三种方法,使用字符串处理的函数获取分组 k = str_detect(pd$title,"Normal");table(k) Group = ifelse(k...,"Normal","Disease") } data.frame(pd$title,Group)# 检查分组对不对 转换为因子 # 需要把Group转换成因子,并设置参考水平,指定levels,对照组在前...package:hgu133plus2.db") #列出R包里都有啥 ids <- toTable(hgu133plus2SYMBOL) #把R包里的注释表格变成数据框 } 方法2 读取GPL网页的表格文件,按列取子集...acc=GPL570 代码下载 #获取表格下载链接 get_gpl_txt(gpl_number) 如何读取表格并提取子集,以GPL28098为例 #读取表格 a = data.table::fread

    36421

    Matt Dowle 演讲节选(二)

    例如代码DF[2:3, sum(B), by = group],其中i的部分为2:3,表示对行的选择;j的部分为sum(B),表示对列进行运算;by的部分对应by = group,表示按照变量group...Matt 是这样想的:在data.frame中,如果我们想要选择region这个变量为特定值的关泽,那么代码就会是下面这样: > DF[DF$region == "US", sum(population...选择、运算、分组,三个截然不同的命令被完美的整合到了DF[i, j, by]的语法中,更妙的是,上一步运算的结果可以直接作为下一步的输入数据集!...(大猫:在最新版本的 R 中,这个问题已经明显缓解,但是这时已经过去了5年多)而在data.table中,一切都是那么自然: > DF[, colToDelete := NULL] 哪怕你的数据集有...的帖子中,一个用户需要处理以下数据集(这里只显示前6行) ? 他想首先按照gene_id分组,然后分别计算特定变量的极值和均值。

    1.1K40

    data.table包使用应该注意的一些细节

    as.data.table函数中同样有一个rownames参数,设置为T可以将行名保留下来作为data.table的一列 不建议set和for循环一起使用   虽然set可以在内存上直接改变数值,但在R...中用for循环比批量列运算慢的多,因此首选:=或者apply等 在处理浮点数时会有一些准确性的问题   比如用seq函数numeric类型的数值时,会存在不准确的问题,比如seq(0,1,by=0.2)...  类似于集合运算,data.table中fintersect, fsetdiff, funion,fsetequal函数能对不同数据框的行求交集,差集,并集等 可以直接对列按分隔符进行分割   应用...tstrsplit函数可以将一列按照分隔符分成多列,函数返回的是一个列表,举例:DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][],将x列按照/...分隔,分割成c1,c2两列 支持类似于SQLs的分组运算   带有rollup, cube, groupingsets函数 参考资料 data.table 1.11.2 manual:https://cran.r-project.org

    1.5K10

    从一件数据清洗的小事说起

    村长,数据科学、指弹吉他及录音工程爱好者,浙大金融学博士在读,在data.table包和MongoDB的使用上有较多经验。...实际上,for循环“只会在不恰当使用时”降低性能。 然而大佬毕竟是大佬,用科学的态度做了实验并给出了结论: ?...其实这一期这么扯淡的讲这么多事情,只是为了说明一点,data.table真的有很好的性能,尤其在处理海量数据方面(在分组特别多的时候,相比dplyr和pandas有2x~10x的提升,来自官方文档)。...相较之下,data.table则通过把数据处理中最常见的“选取行”、“修改列”、“分组”三大操作通过dt[i,j,by]的语法统一了一起来。...关于如何学习data.table包,大家可以查看本公众号前几期的文章。R语言的data.table包是一个被大多数人远远低估的存在,在这里想强烈推荐给大家!!

    69010

    GEO—芯片GSE3292 _pd 中无法找到分组信息—火山图中添加目标基因

    #选择性代替第8行eSet = eSet[[1]] class(eSet)#(1)提取表达矩阵expexp 列数=样本数,dim(exp)#二个要检查的地方...可以看到这个数据集pd中是不包含分组信息(HPV阳性和阴性)的。在网页中找到分组信息,如下。可以看到分组信息对应的ID号是pd表格中title列中内容的后面的数字。...GPL网页的表格文件,按列取子集#library(tinyarray)#get_gpl_txt(gpl_number) #获取表格文件的下载链接# 接下来是复制网址去浏览器下载、放在工作目录下、读取、提取探针...id和基因symbol(没有现成的需要拆分和转换)# 注意:最终的数据ids只能有两列,第一列列名是probe_id,第二列列名是symbol,且都是字符型,否则后面代码要报错# 方法3 官网下载注释文件并读取...ishot截图工具,指针指向哪里,就会显示哪里的色号;如何在图中添加p值阈值的水平线,和logFC阈值的竖直线;geom_hline(yintercept = -log10(p_t), lty=4, col

    9010

    5个例子比较Python Pandas 和R data.table

    我们将使用Kaggle上提供的墨尔本住房数据集作为示例。我将使用谷歌Colab(Pandas )和RStudio(data.table)作为开环境。让我们首先导入库并读取数据集。...Price > 1000000 & Type == "h"] 对于pandas,我们提供dataframe的名称来选择用于过滤的列。...另一方面,data.table仅使用列名就足够了。 示例3 在数据分析中使用的一个非常常见的函数是groupby函数。它允许基于一些数值度量比较分类变量中的不同值。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。 默认情况下,这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。 示例5 在最后一个示例中,我们将看到如何更改列名。例如,我们可以更改类型和距离列的名称。

    3.1K30

    用data.table语句批量处理变量

    村长继续为大家奉上data.table使用案例心得,希望大家能够继续支持村长!!...问 题:批量处理表中变量 正式开始说问题之前,我们先回顾一下data.table的基本语句DT[i, j, by],简而言之,"i"是对行进行选择,"j"是对列进行操作,"by"是分组。...批 量处理法:用lapply批量处理变量 在此时lapply的妙用就显现出来了,在R中lapply用来对list中每一个element进行相同处理,如何把它运用到data.table,话不多说先上代码:...而我们要处理的变量是第3个到第34个,所以在.SD中选出3至34列,运用lapply对选中的.SD[, 3:34]里面每一个element使用as.Date函数。 再看,':='的左边。...如何把处理好的这些变量与变量名进行对应,这里就用到了colnames()这个函数,提取出我们这个data.table第3到第34个变量的名字,这样就可以将变量名和更改格式后的变量按顺序进行一一匹配。

    1.2K30
    领券