首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言数据分析利器data.table包 —— 数据框结构处理精讲

(y)] #返回y列,返回data.table DT[, sum(y)] #对y列求和 DT[, ....(sv=sum(v))] #对y列求和,输出sv列,列中的内容就是sum(v) DT[, ...., by=x][order(x)] #和上面一样,采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来,各组分别对定义的行中的...函数画图,对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组,直接在DT上再添加一列m,m的内容是mean(v),直接修改并且不输出到屏幕上 DT[, m:=mean...=FALSE] 和x[, .SD, .SDcols=cols]一样 mult 当有i 中匹配到的有多行时,mult控制返回的行,"all"返回全部(默认),"first",返回第一行,"last"返回最后一行

5.9K20

R语言学习笔记之——数据处理神器data.table

我自己也遇到过这种困惑,为了避免注意力分散,我的做法是先做可能性罗列——罗列一个可以实现同类功能的所有工具清单并做一套功能卡(也算是初步了解)。...以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑,其实是在按照carrier,origin,dest三个维度分组的基础上,对每个子块特定列进行均值运算。...(carrier,origin,dest) 先按照三个维度进行全部的分组; .SDcols=c("arr_delay","dep_delay")则分别在筛选每一个子数据块儿上的特定列; lapply(....SD, mean)则将各个子块的对应列应用于均值运算,并返回最终的列表。...当然你要是特别不习惯这种用法,还是习惯使用merge的话,data.table仍然是支持的,因为他本来就继承了数据框,支持所有针对数据框的函数调用。

3.6K80
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    由于业务中接触的数据量很大,于是不得不转战开始寻求数据操作的效率。于是,data.table这个包就可以很好的满足对大数据量的数据操作的需求。...—————————————————————————————————————————————— 六、额外的参数(来源:R语言data.table速查手册) 1、mult参数 mult参数是用来控制i匹配到的哪一行的返回结果默认情况下会返回该分组的所有元素...返回匹配到键值所在列(V2列)所有行中的第一行 > DT["A", mult ="first"] V1 V2 V3 V4 1: 1 A -1.1727 1 2、nomatch参数——未匹配样本处理...返回匹配到键值所在列(V2列)所有包含变量值A或D的所有行: DT[c("A","D"), nomatch = 0] V1 V2 V3 V4 1: 1 A -1.1727 1 2: 2 A....SDcols常于.SD用在一起,他可以指定.SD中所包含的列,也就是对.SD取子集。

    9.3K43

    「R」数据操作(三):高效的data.table

    首先,我们仍然载入之前用到的产品数据,不过这里我们使用data.table包提供的fread()函数,它非常高效和智能,默认返回data.table。...例如,使用setkey()将id设置为product_info中的一个键: setkey(product_info, id) 同样的,函数无任何返回,但我们已经为原始数据设置了键,而且原来的数据看起来也没变化...对数据进行分组汇总 by是data.table中另一个重要参数(即方括号内的第3个参数),它可以将数据按照by值进行分组,并对分组计算第2个参数。...举例,我们定义一个函数,计算market_data中由用户定义的列的年度均值: average = function(column){ market_data[, ....,这是为了让.SD中的列只是我们想要的那些价格列。

    6.4K20

    R语言:通过jiebaR提升正则匹配效率

    具体方法 1.正则表达式 对于文本的分析首先会想到的是正则表达式,利用正则表达式进行处理的主要思想在于: 通过构建正则标准,对每一个特征文本在每一个目标文本中的存在性进行遍历。...相比于普通的str_extract函数,在进行字符串提取时,不会仅仅只匹配第一个相关的项目,而是会把判断条件中的所有的潜在选项都进行匹配,从而对每一个目标文本生成一个相应的提取向量,最后以list形式输出...” 对如下代码进行解读可以发现三个关键点: 需要将特征文本添加为词典中的词。...需要利用分词函数进行分词。利用分词函数segment,导入分词引擎cutter,对TitleKeyWords进行分词。 需要将原有的特征文本与分词后的目标文本文件进行匹配。...利用data.table包中的表合并语法进行操作,最后没有匹配的项目不显示nomatch = 0。

    44910

    《高效R语言编程》6--高效数据木匠

    broom包提供了模型结果的标准输出格式bit.ly[1] P.s,不知道为啥,这网站还得过墙,难道这是架设在了谷哥的服务器上。...使用broom::tidy()广泛应用于模型数据,并以标准数据框格式返回模型输出。使用变量名非标准化求值更高效,见R语言 dplyr传递参数_自由 平等~忠诚 奉献-CSDN博客[2]。...summarize是一个多面手,用于返回自定义范围的汇总统计值。...非标准计算 代码中没有引号包裹的原始名字,这种方式叫做非标准计算(NSE),高效交互使用函数,减少键盘输入,允许Rstudio中自动完成。还是函数名多个_。...数据库与dplyr 必须使用src_*()函数创建一个数据源。# 使用data.table()处理数据 是dplyr的替代,两个哪个好存在争议,最好学一个一直坚持下去。

    1.9K20

    data.table包使用应该注意的一些细节

    fread中nThread 参数的使用   注意默认nThread=getDTthreads(),即使用所有能用的核心,但并不是核心用的越多越好,本人亲自测试的情况下,其实单核具有较强的性能,只有在数据大于...as.data.table函数中同样有一个rownames参数,设置为T可以将行名保留下来作为data.table的一列 不建议set和for循环一起使用   虽然set可以在内存上直接改变数值,但在R...现在只发现seq函数会出现这种情况,manual中提供了一个函数解决这个问题,setNumericRounding(2) ,去除最后两个字节,这样运行的更快,也不会出现0.6不等于0.6的问题 支持数据框取交集和并集...  类似于集合运算,data.table中fintersect, fsetdiff, funion,fsetequal函数能对不同数据框的行求交集,差集,并集等 可以直接对列按分隔符进行分割   应用...tstrsplit函数可以将一列按照分隔符分成多列,函数返回的是一个列表,举例:DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][],将x列按照/

    1.5K10

    R练习50题 - 第一期

    例如股票600128,如果它一共有100天的观测,那么我们会出现100个重复结果。为了去重,我们需要借助于data.table中的unique函数。 我们希望最终的输出是一个字符串向量: ?...unique:找出symbol中不重复的值。 在data.table的语法中,先进行列选择操作,再对列进行处理。所以上述语句会先执行str_detect,再执行unique。...这是因为data.table的第一个语句用来对列进行选择,由于我们这里需要对所有列进行统计,所以不需要进行任何操作。 keyby用来进行分组,是整个代码的核心。先来看keyby = ....它是data.table内置函数之一,和unique几乎执行相同的操作,唯一不同的是,unique返回的是不重复的item(是一个向量),而uniqueN返回的是不重复的数量(是一个数字)。...整个代码的执行顺序是:先选择行(逗号空白行),再分组(keyby语句),最后进行组间统计(num语句)。 我们的答案中,行、列以及分组三条语句各占一行,实际上这仅仅是为了让代码更直观。

    2.5K40

    R语言基因组数据分析可能会用到的data.table函数整理

    包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度。...因此,在对大数据处理上,使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...显示没有联合成功的行列 value.var 填充值的列,默认会猜测 现在我需要取数据DT的v1,v2两列相同的情况作为汇总的一类,对它们的v4值取平均,转换如下,...之间的geneID,可以用beween foverlaps 寻找重叠的区域,返回index对,x是数据很大但都是小区域的data.table,用来检索,y是检索用的资料,数据较小,都是大区域。...x和y行的联合,当是TRUE时,如果mult=“all”,返回两列,一列x列号,一列相对应的y,如果nomatch=NA,不匹配的返回y的NA,如果nomatch=0,则跳过该列,设置mult="first

    3.4K10

    懒癌必备-dplyr和data.table让你的数据分析事半功倍

    (V2),V3) 对V1,V3升序排序,对V2降序排序 ※arrange的语法非常简单,功能也很强大,我们再也不要用order()函数了 select( ) 选择列 select(df,V1,V2,V3...) 选择V1,V2,V3列数据 select(df,V1:V3) 选择V1到V3列的所有数据 t的所有列 distinct(...找到合适的packages并学习使用它,绝对会让我们数据分析工作事半功倍! 我们有没有发现dylyr包中函数使用的一些规律? 有的!...①第一个参数都是数据集df ②查询条件都是关于如何操作数据集的,在列上面进行操作 ③返回的都是新的数据集,不会改变原始数据集 在介绍下一个包之前,我们先来引入一个dplyr包的综合运用: grouped...以上讲的这些只是我工作中data.table用得最多的功能,它的强大之处还远远不止这些!如果你想深入,可以去官网下载文档,你绝对值得拥有!

    2.5K70

    手把手教你用R语言读取CSV文件

    read.table函数返回的结果为data.frame。 read.table函数的第一个参数为文件所在路径,可以是本地文件,也可以是网页上的文件。本书主要是从网页读取文件。...stringAsFactors参数也可以用在data.frame中。再次创建“Sport”列。...读取大CSV文件和其他文本文件的两个主流的函数是read_delim和fread,前者在readr包中由Hadley Wickham实现,后者在data.table包中由Matt Dowle实现。...readr包中的所有数据提取函数返回的是tibble,该数据类型是data.frame的扩展。最明显的变化是打印的元数据,比如行列数和每列的数据类型。...readr包有一些对read_delim函数封装(预置分隔符)的辅助函数,比如read_csv函数和read_tsv函数。

    22.3K21

    数据流编程教程:R语言与DataFrame

    (x, y): 所有 x 在 y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分 (3)集合操作 intersect(x, y): x 和 y 的交集(按行) union...(x, y): x 和 y 的并集(按行) setdiff(x, y): x 和 y 的补集 (在x中不在y中) 更多详细操作可以参考由SupStats翻译的 数据再加工速查表,比Python的老鼠书直观很多...数据建模 broom 1. broom 在机器学习的本质其实就是各种姿势的回归,而在R中的各种回归分析往往不会返回一个整齐的data frame 结果。...data.table完美兼容data.frame,这意味着之前对data.frame的操作我们可以完全保留,并且支持更多方便的数据操作方法。...值得一提的是data.table引入了全新的索引形式,大大简化了data frame的分片形式,提供接近于原生矩阵的操作方式并直接利用C语言构造底层,保证操作的速度。 2.

    3.9K120
    领券