开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何通过将条件与向量匹配来选择data.table中的行

在data.table中，可以使用条件与向量匹配的方式来选择行。具体步骤如下：

创建一个data.table对象，可以使用data.table()函数或fread()函数从文件中读取数据。
使用条件语句来筛选行，条件语句可以使用逻辑运算符（如>、<、==等）和逻辑操作符（如&、|等）组合多个条件。例如，选择age列大于等于18且gender列为"Male"的行可以使用以下代码：
使用条件语句来筛选行，条件语句可以使用逻辑运算符（如>、<、==等）和逻辑操作符（如&、|等）组合多个条件。例如，选择age列大于等于18且gender列为"Male"的行可以使用以下代码：
如果需要选择特定的列，可以在选择行的语句后面使用逗号分隔列名。例如，选择age列大于等于18且gender列为"Male"的行，并只返回name和city列，可以使用以下代码：
如果需要选择特定的列，可以在选择行的语句后面使用逗号分隔列名。例如，选择age列大于等于18且gender列为"Male"的行，并只返回name和city列，可以使用以下代码：
如果需要对选择的行进行排序，可以使用order()函数指定排序的列。例如，按照age列降序排列选择的行，可以使用以下代码：
如果需要对选择的行进行排序，可以使用order()函数指定排序的列。例如，按照age列降序排列选择的行，可以使用以下代码：
如果需要选择满足多个条件的行，可以使用%in%运算符和向量来匹配。例如，选择gender列为"Male"或"Female"的行，可以使用以下代码：
如果需要选择满足多个条件的行，可以使用%in%运算符和向量来匹配。例如，选择gender列为"Male"或"Female"的行，可以使用以下代码：
在data.table中，还可以使用特殊的符号".N"来表示行数。例如，选择前10行可以使用以下代码：
在data.table中，还可以使用特殊的符号".N"来表示行数。例如，选择前10行可以使用以下代码：

以上是通过将条件与向量匹配来选择data.table中的行的方法。根据具体的需求和条件，可以灵活运用这些方法来筛选和选择data.table中的数据。

腾讯云相关产品和产品介绍链接地址：

腾讯云云服务器（CVM）：提供弹性计算能力，满足各类业务需求。详情请参考：https://cloud.tencent.com/product/cvm
腾讯云云数据库MySQL版：提供高性能、可扩展的MySQL数据库服务。详情请参考：https://cloud.tencent.com/product/cdb_mysql
腾讯云对象存储（COS）：提供安全、稳定、低成本的云端存储服务。详情请参考：https://cloud.tencent.com/product/cos
腾讯云人工智能：提供丰富的人工智能服务和解决方案，包括图像识别、语音识别、自然语言处理等。详情请参考：https://cloud.tencent.com/product/ai

相关搜索:R data.table:如何通过引用以向量的形式提供列名来更新行？R data.table根据字符向量中的部分字符串匹配选择行使用GROUP BY时选择与排序条件匹配的行如何从数据帧中选择与向量中的任何元素相匹配的行？如何查找与条件匹配的行DataGridView的编号如何获取与条件匹配的行的总和如何选择与向量中的值匹配的行如何选择与连接表中定义的条件匹配的记录？如何通过concat选择有条件的行？如何通过group应用条件来子集data.table中的行？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

2、按条件行筛选从前用subset的方式进行筛选比较多， new=14,select=a:f) （1）单变量现在data.table与dplyr from_dplyr =...还有nomatch的设置可以见第六小节。 nomatch用来设置未匹配到的数据如何处理，nomatch=0则认为未匹配到的删除。 melt用来设置是否都显示匹配内容。...返回匹配到键值所在列(V2列)所有行中的第一行 > DT["A", mult ="first"] V1 V2 V3 V4 1: 1 A -1.1727 1 2、nomatch参数——未匹配样本处理...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...在data.table行操作跟data.frame很像，可以data[1,]就可以获得第一行的数据，同时也可以用，data[1]来获得行信息，这个是data.table特有的。

7.7K4 3

R语言学习笔记之——数据处理神器data.table

data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...(carrier,tailnum)] #但心里要清楚列索引接受的条件是含有列表的列表，而且这里的列表作为变量给出，而非data.frame时代的字符串向量。行列同时索引毫无压力。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

3.6K8 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

在base包里和split功能接近的函数有cut(对属性数据分划)，strsplit(对字符串分划)以及subset（对向量，矩阵或数据框按给定条件取子集）等。...")],function(x) sum(x)) 4、subset()函数利用subset()函数进行访问和选取数据框的数据更为灵活，subset函数将满足条件的向量、矩阵和数据框按子集的方式返回。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。...data.table比较简洁一步搞定，dplyr花了两步，不过也dplyr也可以通过%>%来实现一步搞定。%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

20.6K3 2

「R」数据操作（三）：高效的data.table

data.table的基本语法是dt[i, j, by]，简单说就是使用i选择行，用by分组，然后计算j。接下来我们看看data.table继承了什么，增强了什么。...接下来，我们学习如何通过by以简便的方式实现数据的分组汇总。...中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table自动将...可以自动将id值与质量分类连接起来。...，每条记录了钻石的10个属性，现在我们队cut列中的每种切割类型都你拟合一个线性回归模型，由此观察每种切割类型中carat与depth是如何反映log(price)的信息。

5.9K2 0

能不能让R按行处理数据？

写在前面 Hello亲爱的小伙伴们，大猫课堂又回来啦。从今天开始大猫会选择一些Stackoverflow.com上有关R数据处理的问答摘录给大家。...如果要自己寻找Stackoverflow上与R或是data.table相关的问题，可以在搜索栏输入[R] [data.table] Your question。提出问题好啦，开始上课！...事实上，data.table也整合了reshape中的cast和melt函数，并且将cast函数升级为dcast，感兴趣的小伙伴可以去研究一番。在拉直数据后，接下来要做的工作就很简单了。...事实上，大猫把整个过程分解成了好几步，如果对于data.table包比较熟悉，完全可以在一行之内搞定所有事情，根本不需要把进行数据集的拆分、合并： ▶ t.final <- t1[, ":="(mean.scale...(fund_name)][is.finite(mean.scale)] 提示：把所有步骤打包成一步<em>的</em>关键在于“:=”符号<em>的</em>运用。本期总结本期大猫带领大家学习了<em>如何</em>在R<em>中</em>按照行进行处理。

1.3K2 0

「R」data.table 包功能特性学习

来自很久之前的官网文档。 data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。...语法格式： DT[i, j, by] 释义为对data.table对象DT，使用i选择行，然后按照by计算j。...0.703 10 ## 5: 1 C -0.380 3 ## 6: 2 C -0.703 6 ## 7: 1 C 0.341 9 ## 8: 2 C -0.746 12 # V2列为A的第一个匹配行...(0 rows) of 1 col: V2 # 选择第一行与最后一行 DT[, .SD[c(1, .N)], by=V2] ## V2 V1 V3 V4 ## 1: A 1 0.341...(V4.sum=sum(V4)), by=V1] # 选择和>40的行 DT2[V4.sum>40] ## V1 V4.sum ## 1: 2 42 # 按V1分组，V1排序计算V4和

1.9K1 0

35行代码搞定事件研究法（下）

Hello亲爱的小伙伴们，上期已经讲到如何对单一事件日计算超额收益，本期将会教大家如何针对多个股票多个事件日计算超额收益，Let's go! ?...注意 I，本代码主要使用data.table包完成，关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中，我们会重点介绍data.table这个包。...此处，我们没有添加任何条件，因此默认选中event的所有行。对选中的变量进行操作（第二行代码）。此处，所有的操作都用大括号{}包裹了起来。对event按照stk.id进行分组（第三行代码）。...我们一行一行来看： ns <- which(event.flg == 1); 这一行代码的作用找到每个股票的所有事件日的序号 ns。大家应该还记得在上一讲中我们用 n 来表示单一事件日的序号吧？...在上一讲中，我们已经给出了函数 do_car() 用来求单个事件日的超额收益，因此很自然的，我们希望对于事件日向量 ns 中的每个元素，都应用一遍 do_car()这个函数。

1.2K4 0

128-R茶话会21-R读取及处理大数据

1-如何读取它首先。毫无疑问的指向data.table 包中的fread。它有两个优点：效率飞速，自带多线程操作； data.table 格式很好地节约内存。...1.1-逐行读取数据使用命令readLines，该函数通过与文件建立某种连接，并设置参数n控制每次读取的行数。...而如snowfall 等并行处理的包，似乎无法处理readLines 这种文件链接，在我的测试中，每次并行循环都会重建链接，也就是若干个前N 行的文件。 1.2-将数据拆分那么该如何来并行呢？...还记得[[125-R编程19-请珍惜R向量化操作的特性]] 吗？我们将它们直接转型成对应矩阵就好，相当于重新创建了矩阵，接着将矩阵设计成和原矩阵相同的长宽属性。...如果更大规模的数据量呢？至少我暂时还没有遇到。而且简单的数据处理，linux 中的sed 或awk 也是不错的选择，csvtk 也是一个很好用的软件。 ps：感觉我的这期翻译味好重，奇怪了。

4022 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

我工作当中，或者是公认的最常用的方法，无非就是下面几种： ① 数据过滤 ② 数据选择 ③ 数据排序 ④ 数据转换 ⑤ 数据分组 ⑥ 数据抽样大家做数据分析，会发现90%的时间都在与这几个打交道...①第一个参数都是数据集df ②查询条件都是关于如何操作数据集的，在列上面进行操作 ③返回的都是新的数据集，不会改变原始数据集在介绍下一个包之前，我们先来引入一个dplyr包的综合运用： grouped...使用i DT[3：5] #选取3到5行的数据 class(DT) [1] "data.table" "data.frame" DT[v1=="A"] #基于条件的选择 DT[v1 %in% c("A",..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢...以上讲的这些只是我工作中data.table用得最多的功能，它的强大之处还远远不止这些！如果你想深入，可以去官网下载文档，你绝对值得拥有！

2.4K7 0

提升R代码运算效率的11个实用方法

1.向量化处理和预设数据库结构循环运算前，记得预先设置好数据结构和输出变量的长度和类型，千万别在循环过程中渐进性地增加数据长度。接下来，我们将探究向量化处理是如何提高处理数据的运算速度。 ?...2.将条件语句的判断条件移至循环外将条件判断语句移至循环外可以提升代码的运算速度，接下来本文将利用包含100,000行数据至1,000,000行数据的数据集进行测试： ?...3.只在条件语句为真时执行循环过程另一种优化方法是预先将输出变量赋值为条件语句不满足时的取值，然后只在条件语句为真时执行循环过程。此时，运算速度的提升程度取决于条件状态中真值的比例。...6.利用apply族函数来替代for循环语句本部分将利用apply()函数来计算上文所提到的案例，并将其与向量化的循环语句进行对比。...接下来我们将利用Rcpp来实现该运算过程，并将其与ifelse()进行比较。 ? 下面是利用C++语言编写的函数代码，将其保存为“MyFunc.cpp”并利用sourceCpp进行调用。 ?

1.5K8 0

如何用R进行中文分词？

data.table是当前R中最强大的数据处理包之一，在大猫课堂中，所有的数据处理都要使用到data.table。...这一步只需一行代码（关于停用词字典我们放到下节课z）： # initialize worker mixseg <- worker() 在建立分词器mixseg后，我们就可以用它来完成一些简单的分词工作了...代码如下（2行）： x.out <- sapply(dt$text, seg_x, USE.NAMES = F) dt[, text.seg := x.out] 其中sapply的作用是，对于字符向量...text中的每个元素都应用seg_x函数进行分词，然后把结果拼成一个长字符向量，其元素个数和text一致。...第二行代码中，dt[, text.seg := x.out]的作用是：在数据集dt中新生成一个变量text.seg，其值等于向量x.out。

1.3K1 0

R练习50题 - 第一期

问题分析首先，我们需要把股票代码symbol中包含8的那些观测找出来。我们可以借助与stringr这个字符串处理包。这一步不难，稍微有些挑战的是去重。如果我们不去重，那么我们会得到非常多的重复观测。...例如股票600128，如果它一共有100天的观测，那么我们会出现100个重复结果。为了去重，我们需要借助于data.table中的unique函数。我们希望最终的输出是一个字符串向量： ?...boolean vector，长度与原向量相同。...在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。练习2：每天上涨和下跌的股票各有多少?...整个代码的执行顺序是：先选择行（逗号空白行），再分组（keyby语句），最后进行组间统计（num语句）。我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。

2.4K4 0

R练习50题 - 第二期

练习 4 沪深300成分股中，每天上涨、下跌的股票各有多少？分析：本题仍旧是Ex-2的拓展，只不过要求我们进行行选择操作。在data.table的dt[i,j,by]语法中，i代表行选择操作。...index_w300是一个数值变量，与零进行比较运算后会生成一列与原向量等长的布尔向量（例如 c(True, False False, True...)）。...data.table只会选择为True的那些元素。在data.table的dt[i, j, by]语法中，先执行行选择操作i, 再执行分组操作by, 最后执行列操作j。...注意以上运算的结果是一个取值为True或False的向量，data.table最终会挑选出为True的那些行。我们仍旧使用ifelse函数生成updown这个变量。...我们与大家分享我们的知识和节操，我相信独乐乐不如众乐乐。

8562 0

【进阶】Next N rows when condition is TRUE

如果硬要翻译的话，大概就是“当某条件成立时，找到这个观测后N行的观测”。举个例子吧！ ? 在这个数据集中，我们希望每当condition=1时，就标记出它接下来的2行（这里N=2了）。...# a是分组变量； dt <- data.table(a = rep(c("a", "b", "c"), each = 5)) # condition是条件；desireOutcome是希望获得的结果...shift函数它能够对向量进行lag与lead操作。参数0:2的意思是分别滞后0期、1期、2期。参数fill的意思是对于leading missing value，使用0进行补齐。...在使用shift函数后，我们实际上生成了三个向量，第一个向量只有条件成立时才为1，第二个向量条件成立后的“滞后一期”才为1，第三个向量只有条件成立后的“滞后两期”才为1。...于是很自然的，如果我们能将这三个向量相加，那么所有符合要求的行就都是1，不符合的就都是0了。关键问题在于如果给我们一个list，使用什么方法能够把list的每个元素“一一对应”地加总呢？

5391 0

数据流编程教程：R语言与DataFrame

当然你可以用它来做简单的爬虫应用，如果需要更高级的爬虫，我们需要投入rvest的怀抱来支持诸如xpath等高级爬虫特性。 3. DBI DBI是一个为R与数据库通讯的数据库接口。...(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合...gruop_by()使用 arrange(): 按行排序（2）关联表查询 inner_join(x, y): 匹配 x + y left_join(x, y): 所有 x + 匹配 y semi_join...(x, y): 所有 x 在 y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分（3）集合操作 intersect(x, y): x 和 y 的交集（按行） union...6.知乎的高分问答：如何使用 ggplot2？

3.8K12 0

深入对比数据科学工具箱：Python和R之争

互动式图表/面板: 近来 bokeh、plotly、 intuitics 将 Python 的图形功能扩展到了网页浏览器，甚至我们可以用tornado+d3来进一步定制可视化页面，但 R 的 shiny...数据流编程对比接着，我们将通过下面几个方面，对Python和R的数据流编程做出一个详细的对比。...对于数据传输与解析，我们首推的格式是csv，因为一方面，csv格式的读写解析都可以通过 Python 和 R 的原生函数完成，不需要再安装其他包。...下面是R中的 data.table、dplyr 与 Python 中的 pandas 的数据操作性能对比： image.png 我曾经用data.table和pandas分别读取过一个600万行的IOT...数据，反复10次，data.table以平均10s的成绩胜过了pandas平均15s的成绩，所以在IO上我倾向于选择使用data.table来处理大数据，然后喂给spark和hadoop进行进一步的分布式处理

1K4 0

提升R代码运算效率的11个实用方法——并行、效率

1.向量化处理和预设数据库结构循环运算前，记得预先设置好数据结构和输出变量的长度和类型，千万别在循环过程中渐进性地增加数据长度。接下来，我们将探究向量化处理是如何提高处理数据的运算速度。 ?...2.将条件语句的判断条件移至循环外将条件判断语句移至循环外可以提升代码的运算速度，接下来本文将利用包含100,000行数据至1,000,000行数据的数据集进行测试： ?...3.只在条件语句为真时执行循环过程另一种优化方法是预先将输出变量赋值为条件语句不满足时的取值，然后只在条件语句为真时执行循环过程。此时，运算速度的提升程度取决于条件状态中真值的比例。...6.利用apply族函数来替代for循环语句本部分将利用apply()函数来计算上文所提到的案例，并将其与向量化的循环语句进行对比。...接下来我们将利用Rcpp来实现该运算过程，并将其与ifelse()进行比较。 ? 下面是利用C++语言编写的函数代码，将其保存为“MyFunc.cpp”并利用sourceCpp进行调用。 ?

1K5 0

R语言数据框、矩阵、列表的创建、修改、导出

R语言将列名的特殊字符-转化了，该编号可能与其他数据中编号无法匹配，ex2 0的基因df1[df1$score > 0,1] #df1$score > 0生成一个长度与df对应的逻辑值向量，取出行为TRUE...#取子集方法同数据框t(m) #转置行与列，数据框转置后为矩阵as.data.frame(m) #将矩阵转换为数据框列表列表内有多个数据框或矩阵，可通过list函数将其组成一个列表l <- list(m1

7.7K0 0

「Workshop」第五期：使用data.table操作数据

i 进行操作按条件选择行、 =、%in%、!...(b = y)] a b x 1: 3 b 3 2: 1 c 2 3: 3 b 1 条件选择组合 ? > dt_a[dt_b, on = ....y的区域完全包含在x的区域内的情况（相等也属于within） type = "any" 匹配y和x有重叠的区域 type = "start" 匹配start一样的情况 type = "end"匹配end...其他 nomatch = NULL 返回匹配得上的部分 setkey() 设置匹配索引参数which = TRUE 是只返回两个数据框匹配情况的行号参数mult = "first" 是返回x中第一次匹配上的行...对应y中列的名称数据的拆分和合并 melt() dcast() > reshape_dt <- data.table(kinds = c(rep("peach", 2), rep("grape",

3.3K5 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...2:4] #除了2到4行剩余的行 DT["a",on="x"] #on 参数，DT[D,on=c("x","y")]取DT上"x","y"列上与D上“x"、"y"的列相关联的行，与D进行merge...=FALSE] 和x[, .SD, .SDcols=cols]一样 mult 当有i 中匹配到的有多行时，mult控制返回的行，"all"返回全部（默认），"first",返回第一行，"last"返回最后一行...roll 当i中全部行匹配只有某一行不匹配时，填充该行空白，+Inf(或者TRUE)用上一行的值填充，-Inf用下一行的值填充，输入某数字时，表示能够填充的距离，near用最近的行填充 rollends... 填充首尾不匹配的行，TRUE填充，FALSE不填充，与roll一同使用 which TRUE返回匹配的行号，NA返回不匹配的行号，默认FALSE返回匹配的行 .SDcols 取特定的列，然后.

5.6K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭