开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

R data.table使用ifelse通过引用赋值两列

data.table 是 R 语言中用于处理大数据集的一个非常强大的包。它提供了高效的数据操作和处理能力，特别是在处理大型数据框（data.frame）时表现出色。ifelse 函数在 R 中用于条件赋值，但在 data.table 中，更推荐使用 fcase 或者 iif 函数来进行条件赋值，因为它们在处理大数据集时性能更好。

基础概念

data.table: 是 R 中的一个包，用于高效地处理大型数据集。
ifelse: R 的基础函数，用于根据条件进行值的替换。
fcase/iif: data.table 包中的函数，用于在 data.table 对象上进行条件赋值。

相关优势

性能: data.table 在处理大型数据集时比传统的 data.frame 快很多。
语法简洁: data.table 的语法设计使得数据操作更加直观和简洁。
内存效率: data.table 在内存使用上进行了优化，适合处理大数据。

类型

条件赋值: 根据某些条件来决定赋值的逻辑。

应用场景

在数据分析中，经常需要根据某些条件来更新或创建新的列，例如根据销售额来划分客户等级，或者根据日期来标记是否为工作日等。

示例代码

假设我们有一个 data.table 对象 dt，包含以下列：ID, Sales, Category。我们想要根据销售额来更新 Category 列。

library(data.table)

# 创建示例 data.table
dt <- data.table(
  ID = 1:5,
  Sales = c(100, 200, 300, 400, 500)
)

# 使用 fcase 进行条件赋值
dt[, Category := fcase(
  Sales < 200 ~ "Low",
  Sales >= 200 & Sales < 400 ~ "Medium",
  TRUE ~ "High"
)]

# 查看结果
print(dt)

遇到的问题及解决方法

如果在 data.table 中使用 ifelse 进行条件赋值时遇到性能问题，可以尝试使用 fcase 或 iif 函数来替代。fcase 提供了更清晰的语法，并且在 data.table 中进行了优化。

# 使用 iif 进行条件赋值
dt[, Category := iif(
  Sales < 200, "Low",
  iif(
    Sales >= 200 & Sales < 400, "Medium",
    "High"
  )
)]

参考链接

通过上述方法，你可以高效地在 data.table 中进行条件赋值操作。

相关搜索:在R的data.table中使用ifelse赋值 R- Data.table -使用负位置通过引用删除列 data.table中具有赋值变量的引用列引用r data.table ':=‘中的嵌套列表元素(按引用赋值)如何排除R data.table列并为其赋值如何在data.table中跨多个列使用ifelse？通过引用合并data.table中的所有列是否可以在R中使用SET with data.table赋值多个列/值？根据R中两列的范围为列赋值使用R data.table通过使用数值列的平均值来转换分类列 R- data.table中两列的累加和如何对r中的所有列使用ifelse函数？Create column通过SQL中的ifelse语句集组合两列使用R中的其他列值拾取data.table赋值的LHS列和RHS列通过引用将R data.table的列作为矩阵进行访问通过引用两列的条件组合R中的两个数据表如何像这样在R data.table中组合两列：R data.table -将分量为矩阵的两列相乘使用R中的字符列的嵌套ifelse的Alternate 通过使用嵌套的ifelse条件进行变异来添加列

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R练习50题 - 第一期

写在前面从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。...我们的所有答案都将使用data.table这个包。我们认为data.table是最优秀的数据处理工具，没有之一。...在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。练习2：每天上涨和下跌的股票各有多少?...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....其中，updown是我们新建的字符变量，用来表示分组，它只取两个值：UP, DOWN。这其中的难点是建立updown这个变量。我们使用了ifelse这个函数。

2.5K4 0

文章复现—bulkRNA转录组结合机器学习等进行相关疾病研究01—多数据集去除批次效应后联合分析以及火山图标准绘制

$median中位数从大到小排列的顺序排序，将对应的行赋值为一个新的ids ids=ids[order(ids$symbol,ids$median,decreasing = T),] #将symbol...ids=idmap( a@annotation ,'soft')函数直接获取，应该去GEO网站上找到对应的文件下载导入到R中。...$median中位数从大到小排列的顺序排序，将对应的行赋值为一个新的ids ids=ids[order(ids$symbol,ids$median,decreasing = T),] #将symbol...boxedLabels = T,#是否加框)ggsave("volcano_plot.pdf", plot = volcano_plot, width = 8, height = 6)最后做出来的效果图如下对比下两张图...，可以看到两张图基本一致，但是原图（右图）还是有点小问题的，原文中logFC的阈值设置为0.3，但是从火山图中来看，明显logFC的阈值不是0.3，可能是1左右，还有就是原文中是采用adjust.p.value

1792 0

提升R代码运算效率的11个实用方法

众所周知，当我们利用R语言处理大型数据集时，for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率，但或许你更想了解运算效率能得到多大的提升。...逐行判断该数据框(df)的总和是否大于4，如果该条件满足，则对应的新变量数值为’greaterthan4’，否则赋值为’lesserthan4’。 ?...4.尽可能地使用 ifelse()语句利用ifelse()语句可以使你的代码更加简便。ifelse()的句法格式类似于if()函数，但其运算速度却有了巨大的提升。...即使是在没有预设数据结构且没有简化条件语句的情况下，其运算效率仍高于上述的两种方法。 ? 5.使用 which()语句利用which()语句来筛选数据集，我们可以达到Rcpp三分之一的运算速率。...11.利用内存较小的数据结构 data.table()是一个很好的例子，因为它可以减少数据的内存，这有助于加快运算速率。 ?

1.7K8 0

R练习50题 - 第二期

由于股票代码symbol的最后两个字符表示交易所（例如，600123.SH表示上海交易所，股票代码600123），我们在建立分组变量时需要使用str_sub函数截取最后两个字符。代码及解析： ?...为了选出沪深300成分股，我们使用了index_w300 > 0这个语句。...index_w300是一个数值变量，与零进行比较运算后会生成一列与原向量等长的布尔向量（例如 c(True, False False, True...)）。...data.table只会选择为True的那些元素。在data.table的dt[i, j, by]语法中，先执行行选择操作i, 再执行分组操作by, 最后执行列操作j。...注意以上运算的结果是一个取值为True或False的向量，data.table最终会挑选出为True的那些行。我们仍旧使用ifelse函数生成updown这个变量。

8882 0

精准的文献复现—seurat对象添加细胞亚群meta信息

# install.packages('R.utils') rm(list=ls()) options(stringsAsFactors = F) library(Seurat) library(ggplot2...) library(clustree) library(cowplot) library(dplyr) library(data.table) library(stringr) #install.packages...MGH_HNSCC_cell_annotation.txt.gz") colnames(cell) meta2 % column_to_rownames("sample_barcode") ###两种方法可以添加细胞亚群信息...，文章中给出的subclustering那列 # sce_obj <- CreateSeuratObject(counts = seurat_combined@assays$RNA$counts, #...group.by = "subclustering",label = T) #####去除NA部分的亚群####### table(sce.all$subclustering) ###给亚群中赋值

5K4 0

使用R包的内置数据不能通过两个冒号吗？

最近粉丝提问她在使用一个叫做pbcmc的R包的时候，遇到了如下所示的错误： 'pam50' is not an exported object from 'namespace:genefu' 也就是说...，这个pbcmc居然去责怪了 genefu 包，两个R包的地址： https://bioconductor.riken.jp/packages/3.3/bioc/html/pbcmc.html https...://bioconductor.org/packages/release/bioc/html/genefu.html 我去查看了叫做pbcmc的R包的源代码，发现里面大量使用两个冒号的语法： grep...而且是可以使用的：重新安装和加载源代码包是不是超级简单啊，这个debug过程。...本来呢，我其实是应该去修改 genefu 这个包，让它 export里面的pam50这个数据，而不是修改 pbcmc的R包的源代码。不过，无所谓啊，让他们两个包互相适应就好了。

9202 0

表达芯片数据分析2

#把R包里的注释表格变成数据框}# 方法2 读取GPL网页的表格文件，按列取子集##https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...::fread("GPL570-55999.txt",data.table=F, skip=17) colnames(b) #下一行代码里的列名是从colnames(b)...str_detect(ids2$symbol,"///");table(k2) ids2 = ids2[ k1 & k2,] # ids = ids2 #使用方法二需要将42行F改为T，55行取消注释...step1output.Rdata")# 1.Group----library(stringr)# 标准流程代码是二分组，多分组数据的分析后面另讲# 生成Group向量的三种常规方法，三选一，选谁就把第几个逻辑值写成T，另外两个为..."Disease","Normal"),each = 10)}else if(T){ # 第三种方法，使用字符串处理的函数获取分组 k = str_detect(pd$title,"Control"

3362 0

转录组GSE157718_Tpm与Count差异分析的比较

转录组GSE157718_Tpm与Count差异分析的比较在尝试复现GSE157718数据集的时候，发现网站同时提供了表达矩阵tpm形式与count形式，因此分别用这两种形式进行基因差异与富集分析，再进行对比...1 以fread函数导入的数据形式为data.table,设置行名很麻烦，这里先转化为data.frame形式2 行名或(GeneID列)为ENTREZID，需要转化为SYMBOL3 归根结底是表达矩阵的形式需要行名为基因名...> 5 ES2 ES#> 6 ES3 ES以logFC_t = 2，pvalue_t = 0.05为阈值，以DEseq2,edgeR,limma三个R包分别进行差异分析...ls())load("GSE157718.Rdata")table(Group)#> Group#> ES NS #> 3 3range(exp)#> [1] 0.00000 10.48349# 使用...model.matrix(~Group)fit = lmFit(exp,design)fit = eBayes(fit)deg = topTable(fit,coef = 2,number = Inf)# 使用阈值

3331 0

TCGA数据整理-3

另一个数据集的整理 GSE162550 下载这两个文件建立工作目录 rm(list = ls())proj = "DHA"#1.获取表达矩阵dat = data.table::fread("GSE162550..._gene_sample_count_with_symbol.xls.gz", data.table = F)# 保留ensemblid ，行名转换exp...res)library(dplyr)DEG1 列标记基因上调下调...(k1,"DOWN",ifelse(k2,"UP","NOT"))table(DEG1$change)head(DEG1) #edgeR----library(edgeR...(k1,"DOWN",ifelse(k2,"UP","NOT"))table(DEG3$change)head(DEG3) tj = data.frame(deseq2

1031 0

提升R代码运算效率的11个实用方法——并行、效率

转载于36大数据，原文作者：Selva Prabhakaran 译者：fibears 众所周知，当我们利用R语言处理大型数据集时，for循环语句的运算效率非常低。...4.尽可能地使用 ifelse()语句利用ifelse()语句可以使你的代码更加简便。ifelse()的句法格式类似于if()函数，但其运算速度却有了巨大的提升。...即使是在没有预设数据结构且没有简化条件语句的情况下，其运算效率仍高于上述的两种方法。 ?...5.使用 which()语句利用which()语句来筛选数据集，我们可以达到Rcpp三分之一的运算速率。 ?...11.利用内存较小的数据结构 data.table()是一个很好的例子，因为它可以减少数据的内存，这有助于加快运算速率。 ?

1.1K5 0

scRNA | 和顶刊学分析，OR值展示不同分组的细胞类型差异

一载入R包，数据 1 ，载入必要的R包 #remotes::install_github("Japrin/sscVis") library("sscVis") library("data.table"...(p.value,"BH")] return(count.dist.melt.ext.tb) } 该分析只需要分组信息和 cluster/celltype结果，也就是meta.data 中的两列信息...4，可视化函数默认使用sscVis::plotMatrix.simple绘制，热图中没有P值的结果。...col <- viridis(11,option = "D") b = ifelse(b >= 0.05&(a>1.5|a<0.5), "", ifelse(b1.5|a<0.5),"****", ifelse(b1.5|a<0.5),"***", ifelse

7872 0

R语言学习笔记-Day6

R语言的综合应用tidyverse：集成化R包转换-可视化-模型1 字符串"stringr"str_length()str_split()str_sub()1.1 检测字符串长度str.length()...，仅保留首次出现的元素2.3 新增列mutate(test, new = Sepal.Length Sepal.Width)#未赋值则数据框的列数不发生变化或：test$new = test$Sepal.Length...test$Sepal.Width#该语句运行完数据框列数即增加无需赋值2.4 筛选列、行select() #筛选列filter() #筛选行2.5 管道符号x1 = select(iris,-5)...e.g.lapply(1:4,rnorm)[1] 1.13[2]1 0.78 1.13[3]1 1.81 -0.04 -0.17[4]1 0.04 1.22 -1.13 0.365#输出为列表，包含四个向量5 两个数据框的连接...交集inner_join()取交集5.2 全连接full_join()#保留全部主要信息5.3 左连接left_join()#保留左表主要信息5.4 右连接right_join()#保留右表主要信息引用自生信技能树

1740 0

Matt Dowle 演讲节选（二）

[, v1 := i] # 1 s 上面两行代码做的都是同一件事：把变量v1从第1行到第1000行的值分别设置为1至1000。...这里的关键在于，在第一种方法中，每为新的一行赋值，data.table就要重新复制一遍DT，也就是说，第一种方法的运行过程中，DF被复制了1000遍！...因为任何对列的处理都必须导致数据集在内存中的复制，也即假如我们的内存是 4G，那么在使用data.frame的情况下，我们最大就只能处理 2G 的数据集！...data.table带来的不仅是全新的、人性化的语法，更是无可匹敌的性能。在演讲中，Matt 引用了一个在 StackOverflow 论坛中的真实例子。...这个用户一开始使用lapply和do.call函数，不仅计算时间很长（30 min！），而且代码特别难看： ? 而使用data.table,则简直是一阵春风： ?

1.1K4 0

阿榜的生信笔记7—R语言的综合运用1

： R语言的综合运用内容较多，所以我将其分为两篇文章进行讲解。第一篇笔记先学习目录的前三个知识✊ 一、玩转字符串字符串的学习要点在下方： 1、字符串长度先上图，大家会不会觉得疑惑？...* Sepal.Width)：这段代码使用了mutate函数，将test数据集中新增一个名为new的列，该列的值为Sepal.Length×Sepal.Width。...答案：6列，代码运行的结果赋值给test了所以经典名言第三次出现了，大家熟记于心?...select函数从iris数据集中选择了除了第5列（即最后一列）之外的所有列，然后将结果转换成矩阵（as.matrix），接着再选出前50行（head函数），最后使用pheatmap包中的pheatmap...引用自生信技能树——小洁老师

6670 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...),2), LETTERS[4:6])] DT[, c("V1","V2") := NULL] 通过list的方式来更新了数据，以及使用null的方式来删除列。...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列...参考文献：些许案例，代码参考自以下博客，感谢你们的辛勤： 1、R语言data.table简介 2、超高性能数据处理包data.table 3、R语言data.table速查手册 4、R高效数据处理包

9.3K4 3

生信技能树——GEO转录组RNA_seq_GSE162550

,getGPL = F) eSet = eSet[[1]] exp = exprs(eSet) pd = pData(eSet) 3.表达矩阵行名ID转换 dat = data.table::fread...("GSE162550_gene_sample_count_with_symbol (3).xls.gz",data.table = F) k = dat$Symbol!...save(exp,Group,proj,file = paste0(proj,".Rdata")) 7.三大R包差异分析 rm(list = ls()) load("DHA.Rdata") table...<- as.data.frame(res) DEG1 <- DEG1[order(DEG1$pvalue),] DEG1 = na.omit(DEG1) head(DEG1) #添加change列标记基因上调下调...(k1,"DOWN",ifelse(k2,"UP","NOT")) table(DEG3$change) head(DEG3) tj = data.frame(deseq2 = as.integer(

1.8K4 3

转录组测序结果分析

R包安装：options("repos" = c(CRAN="http://mirrors.tuna.tsinghua.edu.cn/CRAN/"))if(!...三大R包差异分析输入数据都是count矩阵和对应的分组信息。...###参数是一个数据框，对他的行名取子集，取出change列是UP的行名。###三个R包差异分析结果都有统一的change列，所以可以用相同的函数取子集。...成一簇：说明画热图的基因在两个分组间有明显的表达模式；不成一簇：说明画热图的基因在两个分组间表达模式不是特别明显；换一组基因或者增删基因，可能改变聚类的结果。...分组和聚类是两件独立的事情，聚类以样本为单位，而不是以分组为单位，每个样本属于那个分组的信息是已知的。

2102 0

GEO—芯片GSE3292 _pd 中无法找到分组信息—火山图中添加目标基因

我采用的方法是直接复制上表内容，形成sup.tsv，然后读取到R中，按照ID值从小到大排列。...)tmp data.table = F)tmp_sorted 两列，第一列列名是probe_id,第二列列名是symbol,且都是字符型，否则后面代码要报错# 方法3...(deg$P.Value logFC_t)deg = mutate(deg,change = ifelse(k1,"down",ifelse(k2,"up","stable..."deg_data.csv", row.names = FALSE)注意设置目标基因箭头指向的话，应该用ggrepel这个包，在绘图代码中添加geom_text_repel参数；色号的确定，可是直接使用

891 0

R语言学习笔记之——数据处理神器data.table

合理选择一套自己的数据处理工具组合算是挺艰难的选择，因为这个涉及到使用习惯和迁移成本的问题，比如你先熟知了R语言的基础绘图系统，在没有强大的驱动力的情况下，你可能不太愿意画大把时间去研究ggplot2，...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...列索引的位置不仅支持列名索引，可以直接支持内建函数操作。 mydata[,.(flight/1000,carrier,tailnum)] 支持直接在列索引位置新建列，赋值符号为:=。...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

3.6K8 0

Day07 生信马拉松-数据整理中的R

, new = Sepal.Length * Sepal.Width) #R中的修改必须要赋值，不赋值=没发生 test 2.4 连续步骤的不同方法 2.4.1 多次赋值，产生多个中间的变量 x1...(i>0,"+","-") # ifelse(,,) x = rnorm(3) x ifelse(x>0,"+","-") ★★★★★ifelse()+str_detect...require(g,character.only = T)) install.packages(g,ask = F,update = F) } lapply(pks, qa) 5.两个data.frame...设置种子数使随机生成的数固定 exp = matrix(rnorm(18),ncol = 6) #新建一个matrix exp = round(exp,2) #round()函数为四舍五入，此处参数“2”为取两位小数...douhua.txt") #删掉了就不存在啦 ## 可以批量的新建和删除 f = paste0("douhua",1:100,".txt") file.create(f) file.remove(f) 以上内容均引用自生信技能树

2390 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭