开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

R Data.table。需要使用分组和复杂条件过滤来修改列

R Data.table是一个在R语言中用于数据处理和分析的高效工具。它提供了一种快速、灵活和内存高效的方法来处理大型数据集。

R Data.table的主要特点包括：

高速处理：Data.table使用了一种高度优化的数据结构和算法，可以在处理大型数据集时提供出色的性能。它通过使用内存映射技术和基于矩阵的计算来加速数据操作。
分组和聚合：Data.table提供了强大的分组和聚合功能，可以根据指定的条件对数据进行分组，并对每个组进行聚合操作，如计数、求和、平均值等。这使得在数据集中进行统计分析变得更加简单和高效。
复杂条件过滤：Data.table支持使用复杂条件来过滤数据。可以使用逻辑运算符（如AND、OR）和比较运算符（如等于、大于、小于）来定义过滤条件，从而根据特定的要求筛选出所需的数据。

使用Data.table进行列修改的步骤如下：

加载Data.table库：首先需要加载Data.table库，可以使用library(data.table)命令来加载。
创建Data.table对象：可以使用data.table()函数将一个数据框转换为Data.table对象，或者直接使用data.table()函数创建一个新的Data.table对象。
列修改：使用:=操作符可以对Data.table对象的列进行修改。可以通过指定列名和新的值来修改列的值。例如，DT[, col := new_value]可以将列col的值设置为new_value。
分组和复杂条件过滤：可以使用by参数对Data.table对象进行分组操作，并使用i参数对Data.table对象进行复杂条件过滤。例如，DT[, col := new_value, by = group]可以对分组后的每个组的列col进行修改。

以下是一个示例代码，演示如何使用Data.table进行列修改：

# 加载Data.table库
library(data.table)

# 创建Data.table对象
DT <- data.table(col1 = c(1, 2, 3), col2 = c("A", "B", "C"))

# 列修改
DT[, col1 := col1 * 2]

# 分组和复杂条件过滤的列修改
DT[col2 == "A", col1 := col1 + 1, by = col2]

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

懒癌必备-dplyr和data.table让你的数据分析事半功倍

它相对于R自带的筛选方法会更高效，我们不需要花很多时间去等待机器反应。...) 去重 distinct(df,V1,V2) 根据V1和V2两个条件来进行去重在基础包里面也有一个去重函数unique() ※注意distinct()可以针对某些列进行去重，而unique()只能对整个数据框进行去重...以上这段代码我们使用group_by和summarise的结合实现了对数据集分组分析，并进行统计量计算的一个功能。...作为课代表的我来帮大家简单的总结一下：我们都知道R有个令人诟病的缺点就是跑起来耗内存，data.table相对于dplyr 更快、更节省内存了！..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢

2.5K7 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

网络上充斥的是data.table很好，很棒，性能棒之类的，但是从我实际使用来看，就得泼个水，网上博客都是拿一些简单的案例数据，但是实际数据结构很复杂的情况下，批量操作对于data.table编码来说，...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...),2), LETTERS[4:6])] DT[, c("V1","V2") := NULL] 通过list的方式来更新了数据，以及使用null的方式来删除列。...(x,y)来分组，而且可以设定x/y两种分组，来求new_car的平均值。（1）data.table多种方式混合输出： mydata[,....DT数据集按照x分组，然后计算v变量的和、最小值、最大值。（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？

9.3K4 3

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...tapply 只对单字段分组适用，在进行双字段联合分组时其结果为二维矩阵，用户还需要进行复杂的处理才行，比如 tapply(orders$AMOUNT, orders[,c("SELLERID","CLIENT...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...在使用data.table时候，需要预先布置一下环境： datadata.table(data) 如果不布置环境，很多内容用不了。

20.9K3 2

R语言数据分析利器data.table包 —— 数据框结构处理精讲

data.table为了加快速度，会直接在对象地址修改，因此如果需要就要在修改前copy，直接修改的命令有:=添加一列，set系列命令比如下面提到的setattr,setnames,setorder等；...当使用dt_names = names(DT)的时候，修改dt_names会修改原data.table的列名，如果不想被修改，这个时候应copy原data.table，也可以使用dt_names 列号，行号列号推荐使用整型，保证最快速度，方法是在数字后面加L，比如1L，value是需要赋予的值。...，不要其它的； drop,需要取掉的列名或者列号，要其它的； colClasses，类字符矢量，用于罕见的覆盖而不是常规使用，只会使一列变为更高的类型，不能降低类型； integer64,读如64...函数画图，对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组，直接在DT上再添加一列m,m的内容是mean(v)，直接修改并且不输出到屏幕上 DT[, m:=mean

5.9K2 0

R语言学习笔记之——数据处理神器data.table

在实际应用场景下，虽然SQL（SQL类专业的etl语言）是数据处理的首选明星语言，性能佳、效率高、容易培养数据思维，但是SQL没法处理构建全流程的数据任务，之后仍然需要借助其他数据分析工具来对接更为深入的分析任务...data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,....以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑，其实是在按照carrier,origin,dest三个维度分组的基础上，对每个子块特定列进行均值运算。

3.6K8 0

5个例子比较Python Pandas 和R data.table

Price > 1000000 & Type == "h"] 对于pandas，我们提供dataframe的名称来选择用于过滤的列。...为了使示例更复杂一些，我们还对房子类型应用一个过滤器。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。...这两个库都提供了简单有效的方法来完成这些任务。在我看来，data.table比pandas简单一点。需要指出的是，我们在本文中所做的示例只代表了这些库功能的很小一部分。...它们提供了许多函数和方法来执行更复杂的操作。感谢您的阅读。如果你有什么反馈，请告诉我。

3.1K3 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...data.table来完成这个任务，使用setDT()将数据框转换为data.table，该函数可以原地转换，不需要复制，并可以设定键。...我们知道R存在复制修改机制，这在进行大数据计算时开销很大，data.table提供了一系列支持语义的set函数，它们可以原地修改data.table，因此避免不必要的复制。...的动态作用域我们不仅可以直接使用列，也可以提前定义注入.N、.I和.SD来指代数据中的重要部分。...并且需要对它们的子集进行一些计算，也可以用类似的语法来解决。

6.4K2 0

Matt Dowle 演讲节选（二）

写在前面也许很多小伙伴都注意到了，这一期的文章和往期的排版有所不同，因为从这一期开始，大猫将使用markdown来进行写作，并在最后用css来进行渲染输出。...的帖子中，一个用户需要处理以下数据集（这里只显示前6行） ? 他想首先按照gene_id分组，然后分别计算特定变量的极值和均值。...这个用户一开始使用lapply和do.call函数，不仅计算时间很长（30 min！），而且代码特别难看： ? 而使用data.table,则简直是一阵春风： ?...假设你有100列，难道你要每列的class都指定一遍？这时你就需要fread("test.csv")！不需要输入任何其他的参数，你猜要运行多久？ 3秒！...现在我们再玩得大点，假设你有 20G 的 csv 文件，2亿行，16列，哪怕你为每个列都指定了class，read.csv("test.csv")也需要好几个小时才能运行完，而fread只要—— 8 分钟

1.1K4 0

这种作者只提供了每组多个重复样本合并后数据的怎么办

但是感觉这个时候 kimi 不是很智能，他并没有给出一个很好的处理方式：对于您提到的高通量RNA测序数据分析，其中包含三个时间节点和一个对照组，每个分组有5个生物学重复样本，且这些样本的RNA在测序前进行了...pooling，以下是一些建议的分析步骤：数据预处理：首先，需要对测序数据进行质量控制和标准化处理。...可以使用如DESeq2、edgeR或limma等R包来进行分析。这些工具能够处理重复样本，并考虑到生物学变异和测序技术变异。...在分析时，需要考虑到这一点，并可能需要使用更复杂的统计模型来估计生物学变异。数据解释和验证：最后，对分析结果进行解释，并可能需要通过实验（如qPCR）来验证关键基因的表达变化。...= F) head(tmp) gid data.table = F)[,2] head(gid) # 批量读取并按照列合并 rpkm <- do.call(cbind

501 0

R语言高级数据结构data.table

as.data.table 将R对象转化为data.table格式的数据，其对象可以为列表，向量，data.frame。...setDT(x) 其直接将R对象转化为data.table数据类型，从而不改变数据地址。...3. data.table中数据函数的调用以及并行运算的加入： DT[,sum(y)] DT[,.(sum(y),sum(v))] ? 4. 自定义函数的执行，需要用{}包裹所有的命令。...分组计算的运算，可以单列分组也可以多列分组： DT[,.(sum=sum(y)),by=x] DT[,.(sum=sum(v)),by=.(x,y)] ? 6....各分组的计数函数.N，例： DT[,.N,by=x] 7. 其中数据各列的增加，删除，修改，用到的函数是:=。 DT[,y1:=y] DT[,y:=NULL] DT[,y:=(y+1)] ?

2.1K3 0

「Workshop」第五期：使用data.table操作数据

要快，是以传地址的方式直接修改对象 > fruit = data.frame(x=rep(c("apple","banana","orange"),each=2), y=c(1,3,6), z=1: 6...的部分函数在使用的过程中会直接对原来的数据进行改写，为了防止原来的数据被改变，使用拷贝的文件。...j 进行操作按条件选取列 > dt[,2] money 1: 1 2: 2 3: 3 4: 4 5: 5 6: 6 > dt[, -2]...c("", "")和....输出R环境中名为dt的数据框为.csv文件 foverlaps() foverlaps() 格式 foverlaps(x, y, by.x = if (!

3.3K5 0

媲美Pandas？一文入门Python的Datatable操作

前言 data.table 是 R 中一个非常通用和高性能的包，使用简单、方便而且速度快，在 R 语言社区非常受欢迎，每个月的下载量超过 40 万，有近 650 个 CRAN 和 Bioconductor...如果你是 R 的使用者，可能已经使用过 data.table 包。...datatable 和Pandas 来计算每列数据的均值，并比较二者运行时间的差异。...诸如矩阵索引，C/C++，R，Pandas，Numpy 中都使用相同的 DT[i，j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%timefor i in range(100

7.7K5 0

媲美Pandas？Python的Datatable包怎么用？

前言 data.table 是 R 中一个非常通用和高性能的包，使用简单、方便而且速度快，在 R 语言社区非常受欢迎，每个月的下载量超过 40 万，有近 650 个 CRAN 和 Bioconductor...如果你是 R 的使用者，可能已经使用过 data.table 包。...datatable 和Pandas 来计算每列数据的均值，并比较二者运行时间的差异。...诸如矩阵索引，C/C++，R，Pandas，Numpy 中都使用相同的 DT[i，j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%time for i in range(100

7.2K1 0

媲美Pandas？Python的Datatable包怎么用？

前言 data.table 是 R 中一个非常通用和高性能的包，使用简单、方便而且速度快，在 R 语言社区非常受欢迎，每个月的下载量超过 40 万，有近 650 个 CRAN 和 Bioconductor...如果你是 R 的使用者，可能已经使用过 data.table 包。...datatable 和Pandas 来计算每列数据的均值，并比较二者运行时间的差异。...诸如矩阵索引，C/C++，R，Pandas，Numpy 中都使用相同的 DT[i，j] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%timefor i in range(100

6.7K3 0

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

矩阵；样品的重命名和分组；初步过滤低表达基因与保存counts数据承接上节RNA-seq入门实战（二）：上游数据的比对计数——Hisat2与Salmon之前已经得到了featureCounts与Salmon...一般为了对样品进行分组注释我们还需要在GEO网站下载样品Metadata信息表SraRunTable.txt，接下来就需要在R中对输出结果进行操作，转化为我们想要的基因表达counts矩阵。.../counts/counts.txt', header = T,data.table = F)#载入counts，第一列设置为列名 colnames(a1) counts 和分组信息 2. counts与TPM转换基因表达量一般以TPM或FPKM为单位来展示，所以还需要进行，若还想转化为FPKM或CPM可参见Counts FPKM RPKM TPM 的转化与...(counts,'Group.1') tpm 使用aggregat 将symbol列中的相同基因进行合并

20.2K5 6

用data.table语句批量处理变量

写在前面本期“大猫R语言公众号”仍由“村长”供稿。村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！...问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...我们现在要对列进行操作（转换类型），因此本期是关于“j”的内容。下面正式开始，笔者在帮他人处理数据时遇到了需要同时为一系列变量进行相同处理，先来看数据结构： ?...而我们要处理的变量是第3个到第34个，所以在.SD中选出3至34列，运用lapply对选中的.SD[, 3:34]里面每一个element使用as.Date函数。再看，':='的左边。...下期预告下期的大猫R语言课堂还是由村长来进行撰写和推送，届时将会给大家带来一个比较有趣的data.table发现，敬请期待！！ ?

1.2K3 0

R练习50题 - 第一期

我们的所有答案都将使用data.table这个包。我们认为data.table是最优秀的数据处理工具，没有之一。...在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。练习2：每天上涨和下跌的股票各有多少?...问题分析这一题需要引入分组的概念，并且按照“先分组，后统计”两步走。首先按照题意，我们需要为每个交易日date建立一个“组”。...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....由于在keyby语句中我们已经按照日期与涨跌进行了分组，所以这一步我们只需要统计每个组有多少个股票就可以了。我们在这里使用了uniqueN这个函数。

2.5K4 0

「Workshop」第二期：程序控制与数据操作流

涉及编程的数据和代码都会放到 https://github.com/XSLiuLab/Workshop 推荐图书《R for Data Science》[1] 《R 语言编程指南》《R 实战》其他推荐见...字符处理 substr stringr包与正则表达式略微复杂，可以单独讲一次转换 tidyr Tidy 数据格式 ? ?...拓展表格 expand complete 分割和连接 separate separate_rows unite 数据导出 write_* data.table 与 base 数据导入 fread 数据导出...fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致，也可以使用 tidyverse 处理整数索引逻辑索引命名索引进一步的学习参考小抄、...文档和《R 语言编程指南》后几期主题本期未讲述的内容？？？

1.6K3 0

从一件数据清洗的小事说起

” 本期“大猫的R语言公众号”由“村长”供稿。村长，数据科学、指弹吉他及录音工程爱好者，浙大金融学博士在读，在data.table包和MongoDB的使用上有较多经验。...需要将这个数据集转换成如下格式： ? 进展 “ 如果你以为这一期我们会非常正经的讲一个技术问题，那么你错了！！！233333333！！！...其实这一期这么扯淡的讲这么多事情，只是为了说明一点，data.table真的有很好的性能，尤其在处理海量数据方面（在分组特别多的时候，相比dplyr和pandas有2x~10x的提升，来自官方文档）。...相较之下，data.table则通过把数据处理中最常见的“选取行”、“修改列”、“分组”三大操作通过dt[i,j,by]的语法统一了一起来。...关于如何学习data.table包，大家可以查看本公众号前几期的文章。R语言的data.table包是一个被大多数人远远低估的存在，在这里想强烈推荐给大家！！

6901 0

转录组测序结果分析

其他来源的转录组数据和TCGA的转录组数据的差别？整理输入数据的过程不同，差异分析无差别。数据下载方式不同，是否是count矩阵，行名需要是基因名，分组信息如何获取。...三大R包差异分析输入数据都是count矩阵和对应的分组信息。...，也同样适用，不需要自己修改代码。...###参数是一个数据框，对他的行名取子集，取出change列是UP的行名。###三个R包差异分析结果都有统一的change列，所以可以用相同的函数取子集。...需要先排序，再画图如何调整表达矩阵的顺序，让tumor和normal各成一簇。

2102 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭