首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言数据分析利器data.table包 —— 数据框结构处理精讲

版权声明:本文为博主原创文章,转载请注明出处     R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。...将一个R对象转化为data.table,R可以时矢量,列表,data.frame等,keep.rownames决定是否保留行名或者列表名,默认FALSE,如果TRUE,将行名存在"rn"行中,keep.rownames...="id",行名保存在"id"行中。...,默认FALSE,如果TRUE,跳过空白行 key,设置key,用一个或多个列名,会传递给setkey showProgress,TRUE会显示脚本进程,R层次的C代码 data.table,TRUE...的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来,各组分别对定义的行中的y求和 DT[, .N, by=x] #用by对DT 用x分组后,取每个分组的总行数

5.9K20

R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时,data.table与data.frame数据呈现方面,还有有所不同的。...data.table中,还有一个比较特立独行的函数: 使用:=引用来添加或更新一列(参考:R语言data.table速查手册) DT[, c("V1","V2") := list(round(exp(V1...返回匹配到键值所在列(V2列)所有包含变量值A或D的所有行: DT[c("A","D"), nomatch = 0] V1 V2 V3 V4 1: 1 A -1.1727 1 2: 2 A...在data.table行操作跟data.frame很像,可以data[1,]就可以获得第一行的数据,同时也可以用,data[1]来获得行信息,这个是data.table特有的。...参考文献: 些许案例,代码参考自以下博客,感谢你们的辛勤: 1、R语言data.table简介 2、超高性能数据处理包data.table 3、R语言data.table速查手册 4、R高效数据处理包

9.3K43
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    「R」数据操作(三):高效的data.table

    接「R」数据操作(一)和「R」数据操作(二) 使用data.table包操作数据 data.table包提供了一个加强版的data.frame,它运行效率极高,而且能够处理适合内存的大数据集,它使用[]...data.table和data.frame,也就是说data.table继承了data.frame的一些行为,但增强了其他部分。...N是最常用的符号之一,它表示当前分组中,对象的数目(就不用调用nrow函数啦)。在[]使用它指提取最后一行。...中,by所对应的组合中的值是唯一的,虽然实现了目标,但结果中没有设置键: key(type_class_test0) #> NULL 这种情况下,我们可以使用keyby来确保结果的data.table自动将...内部或外部预定义的符号。

    6.4K20

    Matt Dowle 演讲节选(二)

    上期回顾 上次讲到 Matt 在转移到 R 阵营之后,开始思考下面那个无法在 S-PLUS 上面实现的命令,能否在 R 中实现呢?...在2004年的第一天,Matt 离开了所罗门兄弟,也离开了 S-PLUS。他开始不断尝试,终于用自己的方式重写了[.data.frame这个函数,从而让sum(B)在 R 中也能得以运行。...Matt 将这个包取名为data.table,意味源于data.frame,但又不仅仅是data.frame。 ?...这里的关键在于,在第一种方法中,每为新的一行赋值,data.table就要重新复制一遍DT,也就是说,第一种方法的运行过程中,DF被复制了1000遍!...(大猫:在最新版本的 R 中,这个问题已经明显缓解,但是这时已经过去了5年多)而在data.table中,一切都是那么自然: > DF[, colToDelete := NULL] 哪怕你的数据集有

    1.1K40

    R语言 数据框、矩阵、列表的创建、修改、导出

    数据框数据框的创建数据框来源主要包括用代码新建(data.frame),由已有数据转换或处理得到(取子集、运算、合并等操作),读取表格文件(read.csv,read.table等)及R语言内置数据函数...data.frame生成指定数据框的列名及列的内容,如代码所示,此时列名不需添加"",df1为变量名,格式为列名=列的向量*matrix矩阵与向量一样只允许同一种数据类型,否则会被转换,可以理解为二维的向量.../则为上一级)#文件是由生成它的函数决定的,不是由后缀决定的,save为csv实际上还是一个Rdata#readr包可以实现base包中的类似功能library(data.table)#其中的fread...函数可以避免此前的错误adata.table = F)class(a)#但其不会有行名,且其会有一个data.table的数据结构多出来,可以设置data.table...3.筛选test中,Species列的值为a或c的行test[test$Species %in% c("a","c"),]#注意本题至少有三个问题,第一是值a,c为字符型,要加"",第二是向量是c()不是

    7.9K00

    手把手教你用R语言读取CSV文件

    读取大CSV文件和其他文本文件的两个主流的函数是read_delim和fread,前者在readr包中由Hadley Wickham实现,后者在data.table包中由Matt Dowle实现。...readr包中的所有数据提取函数返回的是tibble,该数据类型是data.frame的扩展。最明显的变化是打印的元数据,比如行列数和每列的数据类型。...注意,数据读取为tbl_df对象,它是tbl的扩展,也是data.frame的扩展。tbl是data.frame的特殊类型,它在dplyr包中定义。每列的数据类型显示在列名的下面,这是个很好的功能。...02 fread函数 另一个读取大量数据的函数是data.table包的fread函数。第一个参数是读取的文件路径或者URL。header参数表示文件的第一行是列名,sep指定分隔符。...该函数读取速度比read.table函数快,结果为data.table对象。data.table对象是data.frame的扩展,其是data.frame的优化。

    22.4K21

    R语言day5:文件的读取

    title: "day5note"output: html_documentdate: "2024-03-11"csv格式可用excel、记事本、sublime、R打开r语言读取 读入r语言得到一个数据框...,对数据框的修改不会对该表修改分隔符号 :逗号 空格 制表符(\t)纯文本文件后缀没有意义,不起决定性作用1.表格文件读入r语言,成为数据框1.1直接读取read.table() #通常读取txt格式read.csv..."2.将数据框导出#csv格式write.csv(test,file = "example.csv")#txt格式write.table()3.R特有的数据保存格式:Rdata#只能用R打开#保存的是变量...#不要检查文件列名的特殊字符5.注意:数据框不允许重复的行名rod = read.csv("rod.csv",row.names = 1)## Error in read.table(file = file...)## [1] "data.table" "data.frame"ex1 = data.table::fread("ex1.txt",data.table = F)class(ex1)## [1] "data.frame

    29610

    R语言基因组数据分析可能会用到的data.table函数整理

    版权声明:本文为博主原创文章,转载请注明出处 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。...因此,在对大数据处理上,使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...; blank.lines.skip 默认FALSE,如果TRUE,跳过空白行 key 设置key,用一个或多个列名,会传递给setkey showProgress TRUE会显示脚本进程...,R层次的C代码 data.table TRUE返回data.table,FALSE返回data.frame 可见1.8GB的数据读入94秒,读入文件速度非常快 fwrite 对数据框数据进行处理后...,比如data.frame和data.table等; file 输出文件名,""意味着直接输出到操作台; append 如果TRUE,在原文件的后面添加; quote 如果"auto

    3.4K10

    Day05 生信马拉松-文件的读写

    文件的读取1.1 R能读取的文件格式图片1.2 .txt文件的读取常见错误:read.table("ex1.txt"), read.table函数默认header = F,因此会自动加列名"V1","V2...data.frame,在R中对data.frame的修改不会同步到表格1.4 读取非工作目录下的文件read.csv("import/gene.csv") import为工作目录下的子文件夹名,不要漏了.../"为上一级文件,可叠加1.6 补充内容1.6.1 数据框不允许重复的行名图片解决方案: ①先不加row.names参数读取 ②处理第1列重复值(去重、均值、合并为一行等) ③将第1列设为行名1.6.2...数据框列中数据缺失图片错误解决方式soft 的错列图片正确使用:soft2 的读取/导出的packages图片3.1 data.table:soft = data.table::fread("soft.txt",data.table = F)每次要默认标注“data.table

    20920

    数据流编程教程:R语言与DataFrame

    其中最亮眼的是,R中的DataFrame和数据库之前可以以整个数据框插入的形式插入数据而不需要再拼接SQL语句。 以下是一个官方文档的示例: 三....(x, y): 所有 x 在 y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分 (3)集合操作 intersect(x, y): x 和 y 的交集(按行) union...(x, y): x 和 y 的并集(按行) setdiff(x, y): x 和 y 的补集 (在x中不在y中) 更多详细操作可以参考由SupStats翻译的 数据再加工速查表,比Python的老鼠书直观很多...DataFrame优化 1. data.table 众所周知,data.frame的几个缺点有: (1)大数据集打印缓慢 (2)内部搜索缓慢 (3)语法复杂 (4)缺乏内部的聚合操作 针对这几个问题,data.table...data.table完美兼容data.frame,这意味着之前对data.frame的操作我们可以完全保留,并且支持更多方便的数据操作方法。

    3.9K120

    R语言学习笔记之——数据处理神器data.table

    data.table 1、I/O性能: data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指,这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何,...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...DT[i,j,by] 如果这个过程是SQL中是由select …… from …… where …… groupby …… having 来完成的,在R的其他基础包中起码也是分批次完成的。...data.table列索引 列索引与数据框相比操作体验差异比较大,data.table的列索引摒弃了data.frame时代的向量化参数,而使用list参数进行列索引。...左手用R右手Python系列——数据合并与追加 长宽转换: 长宽转换仍然支持plyr中的melt/dcast函数以及tidyr中的gather/spread函数。

    3.6K80

    经验总结 | 最有效的R学习路径(一)

    写 在前面 在小伙伴问大猫的所有关于R的问题中,“如何最快学R”应该是呼声最高的话题了。以前大猫曾经把自己的经验总结成一篇万字长文发在人大经济论坛中,但是由于篇幅太长,很少有小伙伴有时间看完。...“在所有数据挖掘工作中,70%~80%的时间都用在了枯燥无谓的前期数据清洗与处理中,而只有剩下的20%~30%的时间是用在建模和计算上。”...首先大猫告诉大家:不要使用内置的data.frame,不要使用内置的data.frame,不要使用内置的data.frame!重要的事情说三遍!...因为内置的data.frame不仅语法很冗长,而且速度非常慢(有兴趣的小朋友请搜索“the copy on modify mechanisim of R)。...在这里大家会提出自己在R编程中遇到的问题,很多vote数比较高的问题相当有代表性,小伙伴们完全可以拿来当练习题,思考自己的答案,然后和下面网友给出的答案进行对比。

    1.1K20

    Matt Dowle 演讲节选(一)

    data.table 也是 github 中第八大受关注的 R 开源项目。此外,data.table是目前 RStudio CRAN 镜像中下载最多包。...在实战中,data.table 获得了 Kaggle 排名第一的 Gilberto 的青睐,他的原话很直接—— data.table is COOL!!!...2014年洛杉矶会议上的演讲。在这段21分33秒的演讲中,Matt 回顾了自己在伦敦大投行的工作经历(雷曼兄弟以及所罗门兄弟)、自己与 R 的偶遇以及开发 data.table 的动机。...1999年,我跳槽到伦敦的所罗门兄弟(也是当时最大的投行之一),在所罗门兄弟的第一天,我遇到了 S Poertry (R 的某个祖先)的作者 Patrick Burns——这个男人就是以后所有故事的起点...更重要的是,我有了那么多第三方开源包。 也是在那时,三年前的那个想法再次冒了出来:我能够让下面的代码在 R 中运行吗?

    65320

    转录组GSE157718_Tpm与Count差异分析的比较

    注:有count矩阵就用count矩阵1 Count形式以count给出的表达矩阵是我们最为熟悉的形式,这里只稍加记录下数据整理的代码,具体的差异富集分析,与其他的流程并无不同。...1 以fread函数导入的数据形式为data.table,设置行名很麻烦,这里先转化为data.frame形式2 行名或(GeneID列)为ENTREZID,需要转化为SYMBOL3 归根结底是表达矩阵的形式需要行名为基因名...> 5 ES2 ES#> 6 ES3 ES以logFC_t = 2,pvalue_t = 0.05为阈值,以DEseq2,edgeR,limma三个R包分别进行差异分析..._gene_tpm_matrix.txt")#data.table转化为data.framedat [1] "data.frame"rownames...ID_type = "ENSEMBL", species =#> species): 0.13% of input IDs are fail to annotate...基因过滤与分组信息重点是基因过滤后(或之前

    33510
    领券