如何在data.table中最有效地将列设置为NA？

在data.table中，可以使用:=运算符将列设置为NA。以下是在data.table中最有效地将列设置为NA的几种方法：

使用:=运算符将列设置为NA：

# 设置单个列为NA
dt[, col := NA]

# 设置多个列为NA
dt[, c("col1", "col2") := list(NA, NA)]

使用set函数将列设置为NA：

# 设置单个列为NA
set(dt, i = NULL, j = "col", value = NA)

# 设置多个列为NA
set(dt, i = NULL, j = c("col1", "col2"), value = list(NA, NA))

使用setnafill函数将列设置为NA：

# 设置单个列为NA
setnafill(dt, cols = "col", fill = NA)

# 设置多个列为NA
setnafill(dt, cols = c("col1", "col2"), fill = list(NA, NA))

以上方法中，第一种方法使用:=运算符是最常用和简洁的方式。第二种方法使用set函数可以在更复杂的条件下进行设置。第三种方法使用setnafill函数可以将列中的缺失值设置为NA。

data.table是一个高效的数据处理工具，适用于大规模数据集的处理和操作。它具有快速的读写速度、内存效率高、支持并行计算等优势。data.table广泛应用于数据分析、数据清洗、数据处理等场景。

腾讯云提供了云计算相关的产品和服务，其中包括云服务器、云数据库、云存储、人工智能等。您可以访问腾讯云官网（https://cloud.tencent.com/）了解更多关于腾讯云的产品和服务信息。

相关·内容

R语言数据分析利器data.table包 —— 数据框结构处理精讲

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...机器可读这个区域任何行号，默认1L,如果这行是空，就读下一行; skip跳过读取的行数，为1则从第二行开始读，设置了这个选项，就会自动忽略autostart选项，也可以是一个字符,skip="string...，只会使一列变为更高的类型，不能降低类型； integer64,读如64位的整型数; dec,小数分隔符，默认"."...(a = .(), b = .())] 输出一个a、b列的数据框，.()就是要输入的a、b列的内容,还可以将一系列处理放入大括号,如{tmp <- mean(y);.

5.7K2 0

「R」数据操作（三）：高效的data.table

例如，使用setkey()将id设置为product_info中的一个键： setkey(product_info, id) 同样的，函数无任何返回，但我们已经为原始数据设置了键，而且原来的数据看起来也没变化...中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table自动将...keyby对应的分组向量设置为键。...仍以product_stats为例，我们可以使用setDF()函数不要任何复制就可以将data.table变成data.frame。...为演示，我们先创建新的data.table，命名为market_data，其中date列是连续的。

6K2 0

R语言基因组数据分析可能会用到的data.table函数整理

，要其它的； colClasses 类字符矢量，用于罕见的覆盖而不是常规使用，只会使一列变为更高的类型，不能降低类型； integer64 读如64位的整型数; dec 小数分隔符...，between等同于x >= lower 并且 x lower 并且 x < upper between...可以设置为any,within,start,end和equal。equal尚不能使用。..."first”和last； nomatch 默认nomatch=NA,无匹配返回NA，也可以设置为0，0不返回该行； which 默认FALSE结果返回x和y行的联合，当是TRUE...时，如果mult=“all”，返回两列，一列x列号，一列相对应的y，如果nomatch=NA，不匹配的返回y的NA,如果nomatch=0,则跳过该列，设置mult="first“，mult=”last

3.3K1 0

能不能让R按行处理数据？

现在我想做的是对于每一行，找出非NA的值，填充到“mean.scale”这个新的变量；如果有多个非NA，那么就计算其平均值。也就是说，我希望最终得到如下数据集： ?...(fund_name)] 其中的关键在于拼接函数c()，它将不同列的向量拼接成了一列。另外，这个操作是不是有点熟悉？...事实上，data.table也整合了reshape中的cast和melt函数，并且将cast函数升级为dcast，感兴趣的小伙伴可以去研究一番。在拉直数据后，接下来要做的工作就很简单了。...首先，别忘了mean中的na.rm = T参数，它能够让函数忽略缺失值。...本期总结本期大猫带领大家学习了如何在R中按照行进行处理。R的数据处理哲学是向量，是列，但这并不妨碍我们按照行进行处理，其中的关键，就在于运用 c() 函数把不同的向量拼接成一个向量。

1.4K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

在data.table中有三类数据合并的方式： 1、直接用[] data_one[data_two,nomatch=NA,mult="all"] 以第一个数据为基准，依据key进行合并，只出现重复部分...（data_one数据必须设置key，data_two默认第一行为Key）。...,foo=c(4,2)) #以DT为基准 setkey(DT,x) DT[X] #以X数据集为基准 setkey(X,V1) X[DT] 现在有DT、X两个数据集，先设置DT数据集的key，然后DT...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。...4、修改列名、行名 #把名字为"old"的列，设置为"new" > setnames(DT,"old","new") #把"V2","V3"列，设置为"V2.rating","V3.DataCamp"

8K4 3

data.table包不讲武德，欺负老实人

有两种解决方法： 1，将列的类型变为一致，比如你的数字列要赋值为字符，那就先把数字列变为字符，再赋值 2，可以将赋值的字符的行和被赋值的行一样，这样也不会报错 1....- attr(*, ".internal.selfref")= 这里，x列是数字，y列是数字，z列是字符。 2....重演错误：将x列变为a1 > df$x = "a1" Warning messages: 1: In set(x, j = name, value = value) : Coercing 'character...解决方案1：将x列先变为字符，再赋值先把它转化为字符dfx = as.character(dfx)，然后再赋值 df = data.table(x = 1:10,y = rnorm(10),z = paste0...1.31103082 ttt7 8: a1 -0.09496113 ttt8 9: a1 0.33710145 ttt9 10: a1 -0.05053140 ttt10 5，数字列赋值为字符

8915 0

「Workshop」第五期：使用data.table操作数据

NA NA orange NA 4 3: NA NA NA orange NA 5 4: 1.5170863 1 9 orange 6...> haskey(dt)[1] TRUE > key(dt)[1] "number" "name" 可以使用索引简化计算举例1：计算name为apple所在行的number值总和 > setkey...按相同的列内容进行data.table组合 ?...(b = y, c > z)] a b c x 1: 3 b 4 3 2: 1 c 5 2 3: NA a 8 1 bind组合两个data.table ?...输出R环境中名为dt的数据框为.csv文件 foverlaps() foverlaps() 格式 foverlaps(x, y, by.x = if (!

3.3K5 0

利用“MatrixEQTL”包进行eQTL实战分析

::fread(covariates_file_name, header=T) # 读取协变量文件，可在R中查看 output_file_name = tempfile() # 将输出文件设置为临时文件...associations的显著性P值 errorCovariance = numeric() # 定义误差项的协方差矩阵 (用的很少) snps = SlicedData$new() # 创建SNP文件为S4...对象（S4对象是该包的默认输入方式） snps$fileDelimiter = "\t" # 指定SNP文件的分隔符 snps$fileOmitCharacters = "NA" # 定义缺失值...snps$fileSkipRows = 1 # 跳过第一行（适用于第一行是列名的情况） snps$fileSkipColumns = 1 # 跳过第一列（适用于第一列是SNP...expression_file_name ) cvrt = SlicedData$new() cvrt$fileDelimiter = "\t" cvrt$fileOmitCharacters = "NA

1.2K3 1

「r」dplyr 里的 join 与 base 里的 merge 存在差异

一般工作情况下，不同的数据子集都存在可以连接的列，所以无论上述哪种方法都可以胜任工作。...be_join <- shifter(be_join) } } 上述代码中执行下面的操作：构造两个集合 to_join 和 be_join，to_join 初始化为数据集的第一个子集，而 be_join 为其他子集...如果 be_join 不为空，进行如下的循环：如果存在，则将这个子集和 to_join 按共同列合并如果不存在，使用循环位移一位，将当前 be_join 的第 2 个子集移动为第 1 个。...检查 be_join 第一个子集的列与 to_join 存在共同列等待循环结束我们可以查看结果： to_join[, c("r1", "r2", "r3", "r4", "r5")] #> r1...is.na(G[x[1]]) & !

1.6K3 0

笔记 GWAS 操作流程6-2：手动计算GWAS分析中的GLM和Logistic模型

FID # 家系ID 第二列为IID # 个体ID 第三列为表型值 # 表型数据 2.3 使用R中的lm函数做回归分析 1，首先载入软件包data.table 2，然后读取0-1-2编码的c.raw文件...3，然后读取表型数据文件phe.txt 4，然后将表型数据和基因型数据合并 library(data.table) geno = fread("c.raw",header=T) phe = fread...3.2 表型数据整理表型数据如果只有一个，可以放在plink文件的ped数据的第六列，也可以单独拉出来： 1328 NA06989 2 1377 NA11891 2 1349 NA11843 1 1330...2 第一列为FID # 家系ID 第二列为IID # 个体ID 第三列为表型值 # 表型数据，默认是1-2编码（case-control） 3.3 使用R中的glm函数做Logistic回归分析 1，首先载入软件包...data.table 2，然后读取0-1-2编码的c.raw文件 3，然后读取表型数据文件phe.txt 4，然后将表型数据和基因型数据合并 library(data.table) geno[1:10,1

2.7K3 2

「R」data.table 包功能特性学习

语法格式： DT[i, j, by] 释义为对data.table对象DT，使用i选择行，然后按照by计算j。...# 返回第二列为一个向量 DT[, V2] ## [1] "A" "B" "C" "A" "B" "C" "A" "B" "C" "A" "B" "C" # 返回第二列与第三列为一个data.table...DT[, sum(V1)] ## [1] 18 # 返回V1列的和，V3列的标准差为一个data.table DT[, ....使用[]可以将结果输出到屏幕 DT[, c("V1", "V2"):=list(round(exp(V1), 2), LETTERS[4:6])] DT...D NA NA # 注意与上面的不同 DT[c("A", "D"), nomatch=0] ## V1 V2 V3 V4 ## 1: 1 A 0.341 1 ## 2:

1.9K1 0

Q&A：在melt和dcast之间反复横跳

library(data.table) data <- fread("data.txt", encoding = "UTF-8", na.string = "") data[1:5] 姓名用药名称1...25mg 1年规律郑浮昌 1 NA NA NA NA NA 在这里我们利用了melt这样一个函数。利用这个函数的目的在于，在data.table中进行数据处理贯彻的是向量思维。...1片 1年规律黄舜 1 盐酸吡格列酮（卡司平）口服 2片qd 1年规律这一部分代码极为重要，首先利用rowMeans进行行筛选，为的是将原本就缺失的记录，以及在宽表到长表转换中生成的缺失记录进行删除...，~左边的变量为表更改结构以后体现记录识别唯一性的primary key，~右边的变量为数据变宽之后同类记录的序号variable，value.var中的变量名与~右边变量中记录的序号整合在一起生成一系列的同类变量...总结该问题最主要考察了对数据结构的理解，如何在记录规则混乱的情况下，进行数据结构化处理。长表和宽表之间的相互转换，有时会在数据清洗中用到，对melt和dcast两个函数的理解需要深入。

6592 0

《高效R语言编程》5-高效输入输出

使用readr的话，会将违规数值转换成NA，而fread()会自动将它认为是数值的列转化成字符，fread()另一特征是可以使用列名或索引来设置select参数，从而有选择的读取列。...总的来说，三者在读入数据的差异超过了代码执行的时间，与基础R相比，其他两个的速度提升是一定程度的牺牲健壮性为代价的。...R自带的文件格式：Rds和Rdata save()为Rdata是应用最广泛的，函数功能类似save.img()和save.imge()。...2020 2 1A Arab World NA 2019 3 1A Arab World NA 2018 4 1A Arab World...NA 2017 5 1A Arab World NA 2016 6 1A Arab World NA 2015 最好在代码中对数据来源做些简单注释

1.5K2 0

关于data.table中i, j, by都为数字的理解

写在前面本期还是由村长来为大家供稿，这期讲一个村长遇到的关于data.table比较有趣的问题，希望大家支持！！问题：i, j, by同时输入数字会怎样？...以mtcars这个R自带的数据集为例，我们知道mtcars[1]的运行结果，是选择这个数据集的第一行，结果如下： ? mtcars[1,1]的运行结果，是选择第一行第一列的元素，结果如下： ?...问题解析为了弄清楚这个问题，我们根据i, j, by运行的顺序：“先i，再by，最后j”，将i, j, by拆解进行分析。...这时多了一列变量，变量名缺失，且只有一行观测值为数字“1”。最后，我们将j中的1添加进去，代码与结果如下： mtcars[1, 1, 1] ?...结果分析从这样一段拆解当中，我们大致就可以明白为什么会出现这样的结果了，整体的运行思路就是：首先选出了第一行，而后在by中以一个变量名默认为NA的变量为基准，最后在j中生成了一个默认变量名为V1的变量

1.2K3 0

20231220-简单文件格式读取

文件是识别分隔符，把内容装进格子里，R语言打开csv文件，是把纯文本文件装进一个数据框，在R语言中，对数据框进行操作，相应的改动不会被同步到csv文件中如果想要对原本的文件进行修改，把修改后的内容重新写为csv...并且更改列名中的不规范符号（例如将其他符号更改为句号）修改办法 read.csv("x.csv",rownames=1,check.names=F) （3）数据框不允许重复的行名如果读取失败需要先去重复，在来设置行名...（4）有时数据中有一些缺失值，文件读取失败解决办法：read.table("x.txt",header=T,fill=T) 把缺失值用NA来代替，但R语言读取TXT文件时，会把所有的空格识别为一个分隔符...，直接把后一列数据识别为前一行数据，然后把后一列数据用NA来补充。...这个错误可以用一些函数来避免掉 read.delim("x.txt") data.table::fread("x.txt",data.table=F)

1361 0

R语言：data.table语句批量生成变量

写在前面本期依然由村长为大家供稿，只为填上一期最后挖的坑，话不多说进入正题。问题提出在上一期中，还记得我们留下的那个彩蛋吗？...我们在对多列标准进行筛选时，在之前我们还进行了一步非常重要的提取，也就是将每一列观察值提取出某一特定的字段，而后生成一系列变量，这些变量的观测值只可能存在三种情况：醛固酮、继发性醛固酮或者NA。...经过这样的处理我们才能进行上一期公众号所讲述的下一步：以多列标准进行筛选的操作。...:= 右边关于 ':= lapply' 的用法，在这里小编不再赘述，如果大家对此不是很熟悉可以看这一期公众号：用data.table语句批量处理变量。...在这里通过链接中的推送的lapply使用原理，再加上stringr包中str_match这个函数的使用，截取出诊断结果中出现过的继发性醛固酮或者醛固酮，没有出现过的自动记为NA。

1.2K2 0

R语言学习笔记-Day4

require-T#if(FALSE)，则后面代码被跳过-不安装#if(TRUE)，则后面代码被执行-安装可用pacman包方便快捷地批量管理各种包提示信息设置为英文：Sys.setenv(LANGUAGE...sdsd(x,na.rm = FALSE)#若存在缺失值则应写sd(x,na.rm=TRUE)7.2 找R包介绍页面limma：Linear Models for Microarray DatabrowseVignettes...：fread() #不区分CSV，TXT等格式，读取速度较快，但会加入data.table数据结构，且不支持直接设置行名rio：import()import_list() #导入多个工作簿的excel表格...ex1 = fread("ex1.txt",data.table = F)ex2 = fread("ex2.csv",data.table = F)#不支持直接设置行名library(tibble)ex2...= column_to_rownames(ex2,"V1")#将ex2中“V1”列设置为行名rio读取library(rio)#一个函数支持读取多种格式，见帮助文档ex1 = import("ex1.

1431 0

Excel的SNP数据如何变为plink格式

Excel格式的xls或者xlsx格式的文件测序公司给的是xls或者xlsx格式的数据，数据的格式如下：第一列是ID 第二列是染色体第三列是物理位置第四列是Ref 第五列以后是每个个体的具体分型...= "00") 代码的逻辑：第一，读取数据第二，整理为map数据第三，整理为ped数据第四，保存为plink的格式注意，这里的缺失定义为##，后面需要通过sed命令，将其转为00字符...常见问题2：缺失值为NN 这里，读取数据时，将其定义为缺失： dat = read.xlsx("geno20.xlsx",na.strings = "NN") 再处理： plink --file...更新的代码中，判断是否有空行，将NN作为缺失读取到R中，可以避免上面的情况，更新后的代码如下： library(openxlsx) library(tidyverse) library(data.table...) # 将缺失的分型定义为NN dat = read.xlsx("genotype.xlsx",na.strings = "NN") dat[1:10,1:30] # 检查map是否正常 map =

1.6K1 0

gggibbous带你绘制月亮散点图

❞ 关注下方公众号下回更新不迷路加载R包 library(data.table) library(tidyverse) library(ggforce) library(ggtext) library...= df |> split(df$class) # 根据'class'列将'df'数据框分割成多个子数据框 # 对每个子数据框进行操作 packing as.numeric() # 计算x数据框中每个元素的纵坐标，并存储在'y0'列中 x$r = out[index]$radius # 将x数据框中每个元素的半径信息存储在'r'列中...，y轴交叉点为1.5 geom_hline(yintercept = 1.5, linetype = "dashed", linewidth = .3) + # 设置x轴的刻度位置、标签和文本样式...plot.background = element_rect(fill = "#f5f5f5", color = NA), # 设置图形背景颜色 plot.margin = margin

1692 0

R语言︱情感分析—基于监督算法R语言实现（二）

, : # EOF within quoted string `read.csv`函数读取文件时，可能报警：“EOF within quoted string”，一般为数据中不正常的符号所致，常见的方法是将...`quote = ""`设置为空，这样做虽然避免了警告，但是仍然解决不了问题，有时数据会对不上号，所以最好从符号上着手将一些特殊符号去除，还有一些文本的正则表达式的问题，可见博客： R语言︱文本（字符串...这里使用`aggregate`统计每篇文章每个词的频次，2行添加了一个辅助列logic，当然不添加辅助列，设置`aggregate`里的FUN参数为`length`函数也能完成，但是数据量大时耗费时间太长...也就是一定意义上的稀疏矩阵（同关联规则），也就是将long型数据框转化为wide型数据框。转换可以用的包有reshape2以及data.table。...n <- length(addterm) temp <- rep(NA, n*length(testtfidf)) #这个在多变量数据集中表示为变量数量 temp <- data.frame(matrix

1.7K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云