根据其他变量中的条件值按一个变量设置data.table子集

，可以通过使用data.table包中的[.data.table函数来实现。该函数可以根据指定的条件和变量对data.table进行子集操作。

具体的步骤如下：

首先，确保已经安装了data.table包，并加载该包：

install.packages("data.table")
library(data.table)

创建一个data.table对象，假设为dt，包含多个变量：

dt <- data.table(var1 = c(1, 2, 3, 4, 5),
                 var2 = c("A", "B", "C", "D", "E"),
                 var3 = c(TRUE, FALSE, TRUE, FALSE, TRUE))

使用[.data.table函数对data.table进行子集操作，根据其他变量中的条件值按一个变量设置子集。例如，根据var2变量的条件值为"A"，设置var1变量的子集：

subset <- dt[var2 == "A", var1]

在上述代码中，var2 == "A"表示筛选出var2变量中值为"A"的行，var1表示选择var1变量。

可以通过打印subset来查看结果：

print(subset)

以上就是根据其他变量中的条件值按一个变量设置data.table子集的步骤。

对于data.table的优势，它是R语言中用于处理大型数据集的高效工具，具有以下特点：

快速：data.table使用了高度优化的算法和数据结构，能够在处理大型数据集时提供出色的性能。
内存效率：data.table使用了内存映射技术，可以在处理大型数据集时节省内存空间。
语法简洁：data.table提供了简洁而直观的语法，使得数据操作更加方便和易于理解。

data.table在各种数据分析和处理场景中都有广泛的应用，包括数据清洗、数据聚合、数据筛选、数据合并等。

腾讯云提供了云计算相关的产品和服务，其中与data.table相关的产品可能包括云数据库TDSQL、云数据库CynosDB等。您可以访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和介绍。

相关·内容

js全局变量在其他方法中赋值后无法影响到该方法外的全局变量的值（奇葩问题）

大家好，又见面了，我是你们的朋友全栈君。...做个笔记，以防忘记遇到一个奇葩问题（书写规范不会遇到此问题）问题描述： $(document).ready(function(){ var strCookie=document.cookie...username=cookieName[1]; alert(cookieName[1]); } } } alert(username); }); 这样两次输出的username...值不同第一个弹出的是Superman，第二个弹出“1” 解决办法：将要赋的值通过一个function()方法的返回值获得 $(document).ready(function(){

1.8K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。...2、按条件行筛选从前用subset的方式进行筛选比较多， new=14,select=a:f) （1）单变量现在data.table与dplyr from_dplyr =...DT数据集按照x分组，然后计算v变量的和、最小值、最大值。（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。...(x)] 还有 data$x 如果有很多名字很长的指标，data.table中如果按列进行遍历呢？ data[,1]是不行的，选中列的方式是用列名。

8.5K4 3

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

select——子集选取（筛选变量，列） select(Hdma_dat,pclass,survived) ##选择pclass变量 ?...在base包里和split功能接近的函数有cut(对属性数据分划)，strsplit(对字符串分划)以及subset（对向量，矩阵或数据框按给定条件取子集）等。...")],function(x) sum(x)) 4、subset()函数利用subset()函数进行访问和选取数据框的数据更为灵活，subset函数将满足条件的向量、矩阵和数据框按子集的方式返回。...data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。...data.table比较简洁一步搞定，dplyr花了两步，不过也dplyr也可以通过%>%来实现一步搞定。%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

20.8K3 2

R海拾遗--data.table初级学习

data.table初级学习概述 data.table对于大数据的数据整理较为便捷，很多的时候比data.frame效率更高，一般情况下结合管道符号进行计算管道符 %in% 表示包含 %>% 表示向右传递...%$% 表示向右传递并直接按列操作安装 install.packages("data.table") install.packages("magrittr") library(magrittr) library...(Species)] #返回一个data.table iris[, c("Species"), with=FALSE] #返回一组数据框 # 保留多列 iris[, ....# 第一个c（）对应原始变量名 # 第二个c()对应新变量名 setnames(iris, c("Species","Petal.Width"), c("new_Species","new_Petal.Width...")) # 子集的筛选与过滤 iris[Species == "setosa"] # 设置索引提升效率 # setkey()函数可以在数据集上设置键值。

7633 0

「R」数据操作（三）：高效的data.table

例如，使用setkey()将id设置为product_info中的一个键： setkey(product_info, id) 同样的，函数无任何返回，但我们已经为原始数据设置了键，而且原来的数据看起来也没变化...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...2 分组的变量可以不止一个，例如由type和class确定一个分组： product_info[, .N, by = ....中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table自动将...by表达式将原始数据分割，分割后的每个部分都是原始数据的一个子集，并且原始数据和子集都是data.table。

6.2K2 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...DT的属性，setattr(x,name,value) x时data.table,list或者data.frame,而name时属性名，value时属性值，setnames(x,old,new)，设置x...,默认FALSE,如果TRUE，跳过空白行 key，设置key，用一个或多个列名，会传递给setkey showProgress,TRUE会显示脚本进程，R层次的C代码 data.table,TRUE...(y=max(y)), lapply(.SD, min)), by=x, .SDcols=y:v] #对DT取y:v之间的列，按x分组，输出max(y),对y到v之间的列每列求最小值输出。...roll 当i中全部行匹配只有某一行不匹配时，填充该行空白，+Inf(或者TRUE)用上一行的值填充，-Inf用下一行的值填充，输入某数字时，表示能够填充的距离，near用最近的行填充 rollends

5.8K2 0

R语言数据框、矩阵、列表的创建、修改、导出

R语言将列名的特殊字符-转化了，该编号可能与其他数据中编号无法匹配，ex2 <- read.csv("ex2.csv“",row.names = 1,check.names = F) #row.names.../则为上一级）#文件是由生成它的函数决定的，不是由后缀决定的，save为csv实际上还是一个Rdata#readr包可以实现base包中的类似功能library(data.table)#其中的fread...函数可以避免此前的错误a<-fread("soft.txt",data.table = F)class(a)#但其不会有行名，且其会有一个data.table的数据结构多出来，可以设置data.table...df1列名的向量取子集*输入df1$后按tab键可以输出待选的列名mean(df1$score) #对取出的向量可以进行运算坐标取子集df1[2,2] #取出(行数，列数)的单元格df1[2,] #取出第二行的所有内容...3.筛选test中，Species列的值为a或c的行test[test$Species %in% c("a","c"),]#注意本题至少有三个问题，第一是值a，c为字符型，要加""，第二是向量是c()不是

7.8K0 0

5个例子比较Python Pandas 和R data.table

在这篇文章中，我们将比较Pandas 和data.table，这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好，我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...另一方面，data.table仅使用列名就足够了。示例3 在数据分析中使用的一个非常常见的函数是groupby函数。它允许基于一些数值度量比较分类变量中的不同值。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。

3.1K3 0

【孟德尔随机化】代码分享：用循环代替大海捞针

前几期几乎都是以文献分享为主，这一期直接一点，跟大家分享一下同时跑多个变量和多个结局的代码，拿来就能用的那种~ 第一步，加载包 # if (!.../tmp/dat_38/",newfile,".tsv.gz")) # 在这里你可以执行其他的操作 } else { # 如果不包含指定字符串，则打印"条件不符合" print...如果是其他数据，在运行下面代码之前需要用colnames(dat)检查一下自己的列名，对应上去就好。...值小于0.05的结果写为csv文件。...遇到问题欢迎后台留言~ ps:后续可以根据阳性结果再进行敏感性分析和MVMR等等更深入的分析

1.2K1 1

《高效R语言编程》6--高效数据木匠

用法是：gather(data,key,value，-religion),分别是数据框，要转换成分类的列名,单元值的列名和清除收集的变量使用seperate()分割联合变量分割是指将一个实际由两个变量组成的变量分割成两个独立列...与基本R中类似函数不同，变量无需使用 $ 操作符就可直接使用，设计与magrittr包的%>%管道操作符一起使用，以允许每个数据阶段写成新的一行。其是一个大型包，本身可以看成一门语言。...滤除行 filter() ##　键操作数据聚合基于组合变量生成数据汇总，以前称为split-apply-combine。summarize是一个多面手，用于返回自定义范围的汇总统计值。...数据库与dplyr 必须使用src_*()函数创建一个数据源。#　使用data.table()处理数据是dplyr的替代，两个哪个好存在争议，最好学一个一直坚持下去。...为了提升性能，可以设置键，类似数据库的主键，方便二进制算法提取目标子集行。 ?

1.9K2 0

R语言基因组数据分析可能会用到的data.table函数整理

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...设置了这个选项，就会自动忽略autostart选项，也可以是一个字符,skip="string",那么会从包含该字符的行开始读； select 需要保留的列名或者列号，不要其它的； drop...，默认_； subset 指定要铸造的子集;利用； margins 函数尚不能应用（作者还没写好），预计设定编辑汇总方向； fill 填充缺失值； drop 设置成FALSE...by ]语法做但是如果我要将上述DT中的v3作为一个影响因素，作为tag，先按v1、v2汇总，再将对应的v4值分为v3=1和v3=2两类，查看v1、v2取值相同v3不同对应v4的情况，这个时候用dcast...； nomatch 不匹配时返回的值，强制转化整型好了，写到这里写的都有点累了，再介绍最后一个函数，有时候我们需要了解你写的这个脚本运行所花费的时间，这个时候保存开始运行时间和结束运行时间

3.4K1 0

十、文件读写

./ 表示上一级文件夹，按tab键import就会出现，再按tab就能找到gene.csv文件 # 工作目录隔壁(上一级(桌面)的另一个下级文件夹import)的下的gene.csv 2.文件的导出将数据框导出...，成为表格文件图片 3.R特有的数据保存格式：Rdata 是R语言特有的数据存储格式，无法用其他软件打开；保存的是变量，不是表格文件 save() 保存。...因为保存变量的时候可以把好几个变量保存到同一个Rdata里面. (1)在工作目录下新建文件夹，保存不同形式的文件输入文件import。...save(soft,file = "soft.Rdata") ###load的结果是让Rdata中的变量出现在环境中 rm(list = ls()) ###上一步刚把文件保存，soft.Rdata...读取后是列表，然后对列表取子集。

1.8K4 0

Jelys Note之生信入门class5

让warning闭嘴的操作：quietly=T】【条件语句if（F）后面代码跳过、if（T）后面代码被执行】【写代码的时候要有验证、检查的意识和能力】 2....逻辑值的否定 {} 多行代码：：包：：函数 4.认清函数和数据 · 只有数据才能被取子集！[] · 两个中括号前取子集一般是从列表中提取！...----文件读取是R语言中的数据框来源【变量名test--存在R语言内部=read.csv("文件名")】【表格文件读入到R语言里，就得到了一个数据框，对数据框进行的任何修改都不会同步到表格文件】...一切操作在r语言中进行（4）R特有的数据保存格式：Rdata Rdata：保存的是变量，不是表格文件支持多个变量存到同一个Rdata 是R语言特有的数据存储格式，其他软件无法打开 · 相关命令：...read.table(file,header=F---表格中的第一行是否是列名！)

8991 0

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

# 生成Group向量的三种常规方法，三选一，选谁就把第几个逻辑值写成T，另外两个为F。...自己生成 Group = rep(c("Disease","Normal"),each = 10) # rep函数的其他用法？...} 方法2 读取GPL网页的表格文件，按列取子集 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...acc=GPL570 代码下载 #获取表格下载链接 get_gpl_txt(gpl_number) 如何读取表格并提取子集，以GPL28098为例 #读取表格 a = data.table::fread...singleDoc# 《一个有点难的探针注释》包含在ENTREZ_GENE_ID中 library(tinyarray) find_anno("GPL30971") get_gpl_txt("GPL30971

2872 0

「R」data.table 包功能特性学习

来自很久之前的官网文档。 data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。...DT[, sum(V1)] ## [1] 18 # 返回V1列的和，V3列的标准差为一个data.table DT[, ....(V4.sum=sum(V4)), by=sign(V1-1)] ## sign V4.sum ## 1: 0 36 ## 2: 1 42 # 跟上面一样，但给分组变量取一个新的名字...返回V2,V3为一个data.table DT[, ....26 ## 3: C 6 -1.49 30 # 按V2计算.SD中V3,V4列的和 DT[, lapply(.SD, sum), by=V2, .SDcols=c("V3", "V4")] ##

1.9K1 0

C语言：定义一个函数int fun(int n)，用来计算整数的阶乘，在主函数中输入一个变量x，调用fun(x)输出x及以下的阶乘值。

原题：定义一个函数int fun(int n)，用来计算整数的阶乘，在主函数中输入一个变量x，调用fun(x)输出x及以下的阶乘值。输入输出示例输入：5 输出： 1!=1 2!=2 3!...输入一个正整数n，输出n！...main(int argc, char const *argv[]) //主函数 { int n; printf("Input n:"); //变量定义...scanf("%d", &n); //输入一个整数 printf("%d!...的函数 { int fact = 1; for (int i = 1; i <= n; ++i) //遍历1到n { fact = fact*i; }

6.4K2 0

R语言学习笔记之——数据处理神器data.table

数据处理在数据分析流程中的地位相信大家都有目共睹，也是每一个数据从业者面临的最为繁重的工作任务。...data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...DT[i,j,by] 如果这个过程是SQL中是由select …… from …… where …… groupby …… having 来完成的，在R的其他基础包中起码也是分批次完成的。...(carrier,tailnum)] #但心里要清楚列索引接受的条件是含有列表的列表，而且这里的列表作为变量给出，而非data.frame时代的字符串向量。行列同时索引毫无压力。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

3.6K8 0

决策树2: 特征选择中的相关概念

2.2 信息熵和条件熵的区别下面通过一个例子来讲一下信息熵和条件熵的区别。 ? 在上面这棵“相亲决策树”中，对于结果（叶子结点），有随机变量Y={见,不见}。...我们可以统计出，见的个数占2/6=1/3；不见的个数占4/6=2/3。那么变量Y的熵，可以根据公式计算得到：。对于条件熵来说，我们还需要增加一个变量X，假设是年龄这一特征。...其实条件熵意思是按一个新的变量的每个值对原变量进行分类，比如上面这个题把“见与不见”按“年龄”分成了两类。然后在每一个小类里面，都计算一个小熵，然后每一个小熵乘以各个类别的概率，然后求和。...所谓小类，就是不包含当前所选特征的其他维度，即当前的特征是给定的条件，在其他维度下求熵，是条件下的。各类别的概率，是当前这个小类别（年龄>30）下的样本量除以总的样本量。...，都可以计算出基于划分特征=某个特征值将样本集合D划分为两个子集的纯度：因而对于一个具有多个取值（超过2个）的特征，需要计算以每一个取值作为划分点，对样本D划分之后子集的纯度Gini(D,Ai)，(其中

1.7K1 0

生信技能树 R语言入门第一周总结

，就是向量x中小于0的元素按从小到大排序；第二个比较难理解，可以y=sort(x)，z=【x x=c(1,3,5,1...::fread('soft.txt',data.table = F)fread函数是一种较为智能的读文件函数，可以在日后实践中多尝试。...忘记c就是忘记创建向量直接写了元素；忘记引号就是把要写的字符直接打成了变量，而变量本身不存在，所以经常会报错；忘记逗号主要是在数据框取某些行或列，只写了行或列的条件，没写逗号表示出行或列，另外就是在创建数据框的不同列时忘记用逗号分隔

1.1K9 0

R练习50题 - 第二期

习题 3 每天每个交易所上涨、下跌的股票各有多少？分析：这题和Ex-2非常类似，唯一的不同就是分组变量多了一个：对于每个交易日，我们不仅需要根据涨跌updown分组，还要根据交易所分组。...练习 4 沪深300成分股中，每天上涨、下跌的股票各有多少？分析：本题仍旧是Ex-2的拓展，只不过要求我们进行行选择操作。在data.table的dt[i,j,by]语法中，i代表行选择操作。...data.table只会选择为True的那些元素。在data.table的dt[i, j, by]语法中，先执行行选择操作i, 再执行分组操作by, 最后执行列操作j。...updown是用户新建的字符变量，只取up5%+和down5%+两个值，一个表示涨幅超过5%，一个表示跌幅超过5%。最后，我们统计每个subgroup的个数代码及解析： ?...注意以上运算的结果是一个取值为True或False的向量，data.table最终会挑选出为True的那些行。我们仍旧使用ifelse函数生成updown这个变量。

8812 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云