汇总名称在data.table中具有特定模式的列

在data.table中，可以使用正则表达式来筛选具有特定模式的列。具体而言，可以使用grep()函数来实现这一功能。

grep()函数接受两个参数：正则表达式模式和要搜索的字符向量。它返回一个整数向量，其中包含与模式匹配的元素的索引。

以下是一个示例，演示如何在data.table中查找具有特定模式的列：

library(data.table)

# 创建一个示例data.table
dt <- data.table(
  col1 = c(1, 2, 3),
  col2 = c(4, 5, 6),
  col3 = c(7, 8, 9),
  column4 = c(10, 11, 12)
)

# 使用grep()函数查找具有特定模式的列
pattern <- "col"  # 模式为以"col"开头的列名
matching_cols <- grep(pattern, names(dt), value = TRUE)

# 输出匹配的列名
print(matching_cols)

输出结果为：

[1] "col1"   "col2"   "col3"   "column4"

在这个例子中，我们使用grep()函数和正则表达式模式"col"来查找data.table中以"col"开头的列。最终，我们得到了匹配的列名。

对于data.table中具有特定模式的列，可以使用这个方法进一步进行各种操作，例如筛选、计算、重命名等。

相关·内容

Notepad++的列编辑功能，多列粘贴：在列模式中选中才能在粘贴到列模式中；notpad 中文乱码

notpad 中文乱码多列粘贴：在列模式中选中才能在粘贴到列模式中 3.6. Notepad++的列编辑功能下面来解释Notepad++中的强大且好用的列编辑功能。 3.6.1....什么是列编辑模式普通编辑器，编辑文本的时候，选中一部分内容，都是在一行或多行的范围内操作，从左到右的，所以，可以看做是行模式。与此相对应的，就是上下方向的列模式了。...Notepad++的列编辑模式的基本操作在Notepad++中，按住Alt键之后，就处于列（编辑）模式了。比如，按住Alt键，此处从上到下，选择多列：例 3.20....列编辑：同时复制和粘贴多列然后在Notepad++中，新建一个页面，将拷贝的内容，粘贴到新建页面中：然后再用列模式去选取此部分内容：然后Ctrl+C复制所选内容，再回到要粘贴的地方，同样先是进入列模式...：后再按Ctrl+V，这样才可以正确的将通过列模式选取的内容通过（Ctrl+V）粘贴到列模式所选取的范围内，即所选取的每一行的内容，粘贴到目标的每一行的位置：

1K0 0

R语言基因组数据分析可能会用到的data.table函数整理

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...前面三个选项都是用新的特定C代码写的，较快; buffMB 每个核心给的缓冲大小，在1到1024之间，默认80MB; nThread 用的核心数; showProgress 在工作台显示进程...代表无变量； fun.aggregate 是否在铸造之前汇总，应提供函数list（比如mean，sum或者c(sum,mean))，默认length； sep 铸造的时候连接字符变量的连接符...显示没有联合成功的行列 value.var 填充值的列，默认会猜测现在我需要取数据DT的v1,v2两列相同的情况作为汇总的一类，对它们的v4值取平均，转换如下，...by ]语法做但是如果我要将上述DT中的v3作为一个影响因素，作为tag，先按v1、v2汇总，再将对应的v4值分为v3=1和v3=2两类，查看v1、v2取值相同v3不同对应v4的情况，这个时候用dcast

3.4K1 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

2.aggregate函数不能对分组后的数据进行多种汇总计算，因此要用两句代码分别实现sum和max算法，最后再用cbind拼合。显然，上述代码在性能和易用性上存在不足。...三、split – apply – combine模式——分组处理模式对数据的转换，可以采用split – apply – combine模式来进行处理： split：把要处理的数据分割成小片断； apply...可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。

20.9K3 2

R语言学习笔记之——数据处理神器data.table

DT[i,j,by] 如果这个过程是SQL中是由select …… from …… where …… groupby …… having 来完成的，在R的其他基础包中起码也是分批次完成的。...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...如果想要运行的同时进行输出则可以在结尾加上[] setorder(mydata,carrier,-arr_delay)[] ? 这个功能有点儿类似于基础函数中，在语句外部加上圆括号。...以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑，其实是在按照carrier,origin,dest三个维度分组的基础上，对每个子块特定列进行均值运算。...就是如此简单，连接的执行逻辑是，内侧是左表，外侧是右表，所以是DX left join DT 如果没有设置主键，需要显式声明内部的on参数，指定连接主键，单主键必须在左右表中名称一致。

3.6K8 0

MR应知应会：MungeSumstats包

Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...strand_ambig_filter 应删除具有链模糊等位基因的 SNP。默认为FALSE。 allele_flip_check 是否应根据参考基因组检查等位基因列以推断是否需要翻转。...有时，汇总统计信息可以在一行上有多个 RSID（即与一个 SNP 相关），例如“rs5772025_rs397784053”。...imputation_ind 应该为每个插补步骤添加一列，以显示哪些 SNP 对不同字段具有插补值。这包括表示 SNP 等位基因翻转（翻转）的字段。...但是，如果 youf 文件中的列标题丢失，我们提供的映射不正确，您可以提供自己的映射文件。必须是 2 列数据框，列名称为“未更正”和“已更正”。

2.5K1 1

开发ETL为什么很多人用R不用Python

对比python中的datatable、pandas、dask、cuDF、modin，R中data.table以及spark、clickhouse 3....探讨R中的ETL体系 ETL在数据工作中起着至关重要的作用，主要用途有两个：（1）数据生产（2）为探索性数据分析与数据建模服务。...做过建模的小伙伴都知道，70%甚至80%的工作都是在做数据清洗；又如，探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此，ETL效率在整个项目中起着举足轻重的作用。...测试内容：对于id3, id4两列分类汇总求v3的中位数与标准差 data.table用时10.5秒 data[, ....目前本人工作中负责一个项目的数据生产，大致流程如下。首先，用presto从hive中读取数据，从ADB读取数据，数据量在5G左右。

1.9K3 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。...前面三个选项都是用新的特定C代码写的，较快 buffMB,每个核心给的缓冲大小，在1到1024之间，默认80MB nThread,用的核心数。...比如此例取出DT 中 X 列为"a"的行，和"a"进行merge。on参数的第一列必须是DT的第一列 DT[....(sv=sum(v))] #对y列求和，输出sv列，列中的内容就是sum(v) DT[, ...., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的

5.9K2 0

「R」数据操作（八）：dplyr 的 do, do, do

与data.table类似，dplyr也提供了do()函数来对每组数据进行任意操作。例如将diamonds按cut分组，每组都按log(price) ~ carat拟合一个线性模型。...和data.table不同的是，我们需要为操作指定一个名称，以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算，我们需要使用.来表示数据。...该列不是典型的原子向量，每个元素都是模型的结果，包含线性回归对象的列表。...~ carat, data = .) #> #> Coefficients: #> (Intercept) carat #> 6.78 1.25 在需要完成高度定制的操作时...假如我们需要分析toy_tests数据，要对每种产品的质量和耐久性进行汇总。如果只需要样本数最多的3个测试记录，并且每个产品的质量和耐久性是经样本数加权的平均数，下面是做法。

1.7K3 1

「R」数据操作（三）：高效的data.table

N是最常用的符号之一，它表示当前分组中，对象的数目（就不用调用nrow函数啦）。在[]使用它指提取最后一行。...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...接下来，我们学习如何通过by以简便的方式实现数据的分组汇总。...然后在每个子集data.table的语义中计算j表达式。...("volume") #> year average #> 1: 2015 4000 #> 2: 2016 4003 我们可以利用此包专门的语法创造一个列数动态变化的组合，并且组合中的列是由动态变化的名称决定的

6.4K2 0

数据流编程教程：R语言与DataFrame

在实际使用中，data.talbe::fread()的读取速度可以比原生的read.csv有3-10倍的提升速度。...(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合...y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分（3）集合操作 intersect(x, y): x 和 y 的交集（按行） union(x, y): x 和 y...的并集（按行） setdiff(x, y): x 和 y 的补集（在x中不在y中）更多详细操作可以参考由SupStats翻译的数据再加工速查表，比Python的老鼠书直观很多。...3. purrr purrr向Scala这样的具有高级类型系统的函数式编程语言学习，为data frame的操作提供更多的函数式编程方法，比如map、lambda表达式。

3.9K12 0

【技巧】如何快速按照日期分组

问题的提出在处理数据的时候，我们常常需要按照日期对数据进行分类汇总，例如每周、每月、每年汇总等。常见的做法是建立一个用于分类的变量，然后再按照这个变量进行汇总。...再次，这种常规方法很难处理一些不规则的日期间隔，例如我希望每隔3天对数据汇总一次；或者再变态一点，我希望把数据分成两组：一组是周三，另一组是非周三。遇到这种情况，我们该怎么办呢？...本期大猫将教大家使用 data.table包的 keyby语句完成上述任务。...按照“是否为周三”进行分类如果我们想把样本分成两组，一组是周三（True），一组是非周三（False），则只要使用 wday(date)==3来生成一列值为 True或者 False的向量就行。...按照“每个三天”分类为了按照任意间隔进行分类，我们需要用到 data.table包中的 ceiling_date函数。

2.5K3 0

For循环与向量化（Vectorization）

通过对水友们问题的汇总，我们发现大多数水友存在一些R语言的应用误区，在此出一期关于该问题的解读。问题提出首先思考一个典型的增长率的计算的例子。假设我们有一列时间序列，每个都记录着时刻的值。...向量作为最基本的数据结构，其在进行底层编写的时候，进行了很大程度的优化设计。向量有时候作为一种基本的编写思路，是具有很高效率的。有鉴于此，我们通过R语言最底层的向量思维进行函数编写。...由于我们需要做的是向量中某一个元素与前一个元素的处理结果，那么只需要将元素往后进行移位，与原来的向量进行一一对应的处理即可，这样便达到了以向量进行处理的模式。...关于For循环和Vectorization的深入思考 Vectorization在更多包的拓展现在有很多的R包会对底层的一些函数进行优化，也即是对向量化的进一步优化，我们选择效率较为强大的data.table...通过运行结果可以发现，Rcpp调用的底层循环略优于data.table的向量化，运行时间在0.03s左右。

1.9K3 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...除了行，就是列的问题了。在data.table操作列，真的是费劲。。。常规来看， data[，....(x)] 还有 data$x 如果有很多名字很长的指标，data.table中如果按列进行遍历呢？ data[,1]是不行的，选中列的方式是用列名。

9.3K4 3

5个例子比较Python Pandas 和R data.table

data.table) melb <- fread("datasets/melb_data.csv") 示例1 第一个示例是关于基于数据集中的现有列创建新列。...Price > 1000000 & Type == "h"] 对于pandas，我们提供dataframe的名称来选择用于过滤的列。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。

3.1K3 0

「Workshop」第五期：使用data.table操作数据

的部分函数在使用的过程中会直接对原来的数据进行改写，为了防止原来的数据被改变，使用拷贝的文件。...按相同的列内容进行data.table组合 ?...读取或写出文件 fread(".csv", select = c("a","b")) 读取.csv或.tsv格式的文件，可以选择特定列读取 fwrite(dt, ".csv")...foverlaps(x, y, type="any", mult="first") ⚠️：如果x和y索引的列名称不同时，在foverlaps()内加上一行参数 by.x =c("", "", "")...对应y中列的名称数据的拆分和合并 melt() dcast() > reshape_dt data.table(kinds = c(rep("peach", 2), rep("grape",

3.3K5 0

人工智能大模型的好处之任意数据结构的转换

这里有两种方法来做到这一点，并且将原始的列表元素名称作为新数据框的一个列。...选择哪种方法取决于你的具体需求和偏好。如果你已经在使用data.table包进行数据处理，那么使用rbindlist可能是一个更直接的选择。...如果列表中的向量长度不相等，直接使用 rbindlist 或者 Reduce 结合 cbind 会遇到困难，因为这些函数通常要求所有向量具有相同的长度以便能够形成一个规则的数据框。...，可以手动将每个向量转换为数据框，然后添加一个表示原始向量名称的列，最后使用 bind_rows 合并它们。...df <- bind_rows(df_list) # 查看结果 print(df) 在这些方法中，data.table 的 rbindlist 方法提供了一个简单且直接的解决方案，特别是当你希望保持原始列表中向量名称的顺序时

891 0

Matt Dowle 演讲节选（二）

换句话说，哪怕在 global environment 中存在一个叫做 B 的变量，那么data.talbe在运行的时候也会“认” DF 中的那个叫做 B 的列，而不是 global environment...Matt 是这样想的：在data.frame中，如果我们想要选择region这个变量为特定值的关泽，那么代码就会是下面这样： > DF[DF$region == "US", sum(population...因为任何对列的处理都必须导致数据集在内存中的复制，也即假如我们的内存是 4G，那么在使用data.frame的情况下，我们最大就只能处理 2G 的数据集！...一个更极端的例子是，加入你在 4G 内存中装下了一个 3G 的数据集，这时你想要删去其中的一列都是不可能的，因为在data.frame中，哪怕删除操作都会导致数据集的复制！...在这个2012年（注意dplyr的最早版本在2016年！）的帖子中，一个用户需要处理以下数据集（这里只显示前6行） ? 他想首先按照gene_id分组，然后分别计算特定变量的极值和均值。

1.1K4 0

好强一个Julia！CSV数据读取，性能最高多出R、Python 22倍

单线程CSV.jl是没有多线程的Pandas（Python）的1.5倍，而多线程的CSV.jl可以达到11倍。字符串数据集 I 此数据集在且具有1000k行和20列，并且所有列中不存在缺失值。 ?...单线程CSV.jl比data.table快2.5倍，而在10个线程中，CSV.jl则大约比data.table快14倍。字符串数据集 II 该数据集的大小与字符串数据集 I 中相同。...单线程中，CSV.jl比R快2倍，而使用10个线程则快了10倍。按揭贷款风险数据集从Kaggle取得的按揭贷款风险数据集是一种混合型的数据集，具有356k行和2190列。...在Julia，Python和R的测试中，引发了网友们更多关于“技术更新”的热烈讨论。...有些网友对于Julia给予了极大的期待：在过去的十年中，大多数生态系统在Python上都具有巨大的价值，尤其是将MATLAB抛在脑后。

2K6 3

R语言进阶笔记2 | 长数据与ggplot2

之前介绍了如何将多个性状的箱线图放在一个图上，比如learnasreml包中的fm数据，它有h1~h5五年的株高数据，想对它进行作图。...问题来了，什么是「长数据」，什么是「宽数据」（不是短数据，这不是反义词，谢谢）「宽数据：」 ❝即变量是多列数据，每一列都是一个值，比如株高数据，第一年的株高是一列，第二年的株高是一列，第三年的株高是一列...现在我用melt函数时，就不用载入reshape2了，直接用data.table包就行 tidyverse中的tidyr中的pivot_longer函数，这个更简单，用过这个函数，再也没有迷路过。...第三个names_to是变量的名称，这里定义为Year 第四个values_to是保存的性状名，这里是Height 可以看到，长数据有3列，分别是： TreeID Year Height 3. ggplot2...作图怎么搞之前我使用ggplot2作图时，想做什么图，就在网上copy代码，然后根据自己的数据名称，修改代码，然后运行代码。

9642 0

CMap数据库学习及结果可视化

揭示基因功能和病理学机制:通过将特定基因的基因敲除或过表达实验的基因表达谱与 CMap 数据库中的药物处理基因表达谱进行比较，研究人员可以推断出该基因在特定生物过程中或疾病中的作用。4....疾病关联研究:CMap 可以用于研究不同疾病的分子机制。通过比较不同疾病的基因表达特征，可以识别出与特定疾病相关的分子标志物或潜在的治疗靶点。5....工作原理：CMap 数据库的核心是大量的基因表达谱，这些表达谱是通过微阵列或 RNA-seq 技术获得的，记录了细胞在不同化合物、基因干扰或基因过表达处理后的基因表达变化。...网页及代码分析流程1、进入官网(https://clue.io/)，注册登录后点击tools中的Query(主要用这个，其他的可自行探索) 2、查看工作界面左侧(1)红框代表设置的项目名称；(2)红框代表选择上传数据的情况...# Name：指定将作为“宽格式”数据的列名的变量。# 这意味着dcast会将input数据框中具有相同Description的行聚合在一起，并为每个Name创建单独的列。

5032 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云