R data.table保留组的第一个非NA值，直到组结束

R data.table是一个用于数据处理和分析的强大工具，它提供了高效的数据操作和计算功能。在data.table中，可以使用by参数来按照指定的列进行分组操作。

要保留每个组的第一个非NA值，可以使用first()函数结合!is.na()函数来实现。具体步骤如下：

首先，需要加载data.table包，并创建一个包含需要处理的数据的data.table对象。假设数据表名为dt，包含两列group和value。

library(data.table)
dt <- data.table(group = c("A", "A", "A", "B", "B", "C"),
                 value = c(NA, 2, 3, NA, 5, 6))

使用by参数将数据表按照group列进行分组，并使用first()函数获取每个组的第一个非NA值。

dt[, first_non_na := first(value[!is.na(value)]), by = group]

上述代码中，first_non_na是新创建的列名，first()函数用于获取第一个非NA值，value[!is.na(value)]用于筛选出非NA值。

最后，可以查看处理后的数据表。

dt

这样，每个组的第一个非NA值将被保留在新创建的first_non_na列中。

R data.table的优势在于其高效的数据处理能力和灵活的语法，尤其适用于大规模数据集的处理和分析。它可以快速执行各种数据操作，如筛选、聚合、排序和合并等。此外，data.table还提供了许多方便的函数和操作符，使得数据处理更加简洁和高效。

对于R data.table的更多信息和使用示例，可以参考腾讯云的相关产品介绍页面：R data.table产品介绍。

相关·内容

R语言基因组数据分析可能会用到的data.table函数整理

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...，默认Windows是"\r\n",其它的是"\n"； na,na 值的表示，默认""； dec 小数点的表示，默认"...； nomatch 不匹配时返回的值，强制转化整型好了，写到这里写的都有点累了，再介绍最后一个函数，有时候我们需要了解你写的这个脚本运行所花费的时间，这个时候保存开始运行时间和结束运行时间...)的结果最后，写完这篇博客，timetaken断断续续大约一星期参考文献 data.table manual: https://cran.r-project.org/web/packages

3.3K1 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...；而data.table 会将非数字转化为字符 data.table数据框也可使用dplyr包的管道，这里不作阐述。...将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...sep2,对于是list的一列，写出去时list成员间以sep2分隔，它们是处于一列之内，然后内部再用字符分开； eol，行分隔符，默认Windows是"\r\n",其它的是"\n"； na,na..."] #左联接 X[DT, on="x"] #右联接 DT[X, on="x", nomatch=0] #内联接,nomatch=0表示不返回不匹配的行,nomatch=NA表示以NA返回不匹配的值

5.6K2 0

一行代码对日期插值

在分析时，我们为了获得完整的时间序列就需要“插入”那些丢失的日期。举一个例子： ? 这个数据集中有5行观测，2组分类（id等于1和2）。...此时，我们相当于要构造出一个“平衡的”面板数据。解决思路是运用data.table包的merge功能。...(id, date), nomatch = NA] 结果为： ? 我们看到，原数据集存在观测的那些日期，val值都被保留，而被插入的那些日期，val是NA。...(id, date), nomatch = NA] 这也是大猫喜欢data.table的一个原因：由于语法的灵活性，可以少生成很多中间数据集，这样也就不用绞尽脑汁为那些中间数据集命名了。...处女座无数次为了给数据集取一个合适的名字心力交瘁…… 下期预告根据官网公告，Microsoft R Open 3.4版本将会“coming soon in May”，大猫会在第一时间给大家发布号外~

1.4K3 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...type class N #> 1: model vehicle 2 #> 2: model people 2 #> 3: toy vehicle 2 可以对每个分组进行统计计算，这里计算防水和非防水产品的质量得分均值...中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table自动将...下面代码没有按组聚合数据，而是画了每年的价格图： oldpar = par(mfrow = c(1, 2)) market_data[, { plot(price ~ date, type =

5.9K2 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...介绍一种按照日期范围——例如按照周、月、季度或者年——对其进行分组的超简便处理方式：R语言的cut()函数。...##对于数据框 x是对象，subset是保留元素或者行列的逻辑表达式，对于缺失值用NA代替。 Select 是选取的范围，应小于x。...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...data.table比较简洁一步搞定，dplyr花了两步，不过也dplyr也可以通过%>%来实现一步搞定。%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

20.5K3 2

能不能让R按行处理数据？

data.table是目前R中人气最高的数据处理包。 2....如果要自己寻找Stackoverflow上与R或是data.table相关的问题，可以在搜索栏输入[R] [data.table] Your question。提出问题好啦，开始上课！...首先，假设我有一个这样的数据集（暂且命名为t1）： ? 现在我想做的是对于每一行，找出非NA的值，填充到“mean.scale”这个新的变量；如果有多个非NA，那么就计算其平均值。...我们只要把数据按照fund_name分组，然后对每组求scale的均值。唯一需要注意的有两点。首先，别忘了mean中的na.rm = T参数，它能够让函数忽略缺失值。...其次，最后计算出的结果中会有NaN（not a number）值，产生这种情况是因为在计算均值中出现了0作为除数的情况，对此我们需要用!is.finite()将其排除。

1.3K2 0

多基因风险评分（PRS）分析教程

PRS 分析需要两个输入数据集：i）base data（GWAS）：全基因组范围内遗传变异的基因型-表型关联的摘要统计信息（例如 beta，P值）；ii）target data：目标样本中个体的基因型和表型...我们可用 md5sum检查文件的完整性： md5sum Height.gwas.txt.gz 参考基因组我们还需要检查 base data 和 target data 是否使用了相同的参考基因组。...所谓 clumping 就是识别并选择每个 LD block 中最显著的 SNP（即 p 值最低）以进行进一步分析。这样可以减少 SNP 之间的相关性，同时保留具有最强统计证据的 SNP。...值，取 1 即是纳入所有的 SNPs•--clump-r2：r2 > 0.1 的 SNP 将被删除•--clump-kb：范围取 250kb•--clump：base data 的 summary statistic...，我们包括 p 值从 0 到 0.05 的所有 SNPs，包括 p 值等于 0.05 的 SNPs。

14K4 4

影响差异分析后的火山图的对称性的因素有哪些？

看到了一个感染与否的转录组数据的差异分析的文献，里面的火山图有点丑，让我想起来了在一些交流群总是会有人问到为什么他跟着我们的转录组测序数据分析流程处理他自己的数据，得到的火山图并不是很对称。...这个文章的常规转录组和单细胞转录组数据集据分别是 GSE181720, GSE185253，可以看到其常规转录组是平平无奇的2分组找差异： GSM5608822 naïve uninfected control...<- as.data.frame(tmp[order(tmp$padj),]) head(DEG_DESeq2) # 去除差异分析结果中包含NA值的行 DEG_DESeq2 = na.omit(DEG_DESeq2...我们的转录组实战系列教程目录如下所示：（零）：RNA-seq流程前的准备——Linux与R的环境创建（一）：上游数据下载、格式转化和质控清洗（二）：上游数据的比对计数——Hisat2+ featureCounts...与 Salmon （三）：在R里面整理表达量counts矩阵（四）：差异分析前的准备——数据检查（五）：差异分析——DESeq2 edgeR limma的使用与比较（六）：GO、KEGG富集分析与

1.3K2 0

「r」dplyr 里的 join 与 base 里的 merge 存在差异

构造数据集下面是一个可重复的例子，构造两个数据集，一个是基于 data.frame 的列表，另一个是就要 data.table 的列表： x <- list( a = data.frame(r1...本质上是 data.table 体格的泛型函数不支持类似基础包中的操作。如何编写代码支持对上述数据集的连接操作？...else { be_join <- shifter(be_join) } } 上述代码中执行下面的操作：构造两个集合 to_join 和 be_join，to_join 初始化为数据集的第一个子集...检查 be_join 第一个子集的列与 to_join 存在共同列等待循环结束我们可以查看结果： to_join[, c("r1", "r2", "r3", "r4", "r5")] #> r1...is.na(G[x[1]]) & !

1.5K3 0

R海拾遗--data.table初级学习

data.table初级学习概述 data.table对于大数据的数据整理较为便捷，很多的时候比data.frame效率更高，一般情况下结合管道符号进行计算管道符 %in% 表示包含 %>% 表示向右传递...# 列名 names(iris) # 选取列 iris[ , Species] # 返回一组向量 iris[ , ....(Species)] #返回一个data.table iris[, c("Species"), with=FALSE] #返回一组数据框 # 保留多列 iris[, ....Sepal.Length, Sepal.Width, Species)] # 对变量进行重命名 setnames(iris, c("Species"), c("new_Species")) # 对多个变量进行重命名 # 第一个...置好key后，data.table会将数据按照key来排序 setkey(iris, Species) iris[c("setosa", "virginica")] 结束语来不及解释，时间来不及了，今天就简单这样吧

7473 0

不走寻常路的单细胞表达量矩阵读取

之前在在单细胞天地教程：表达矩阵逆转为10X的标准输出3个文件，详细介绍过 10X技术的单细胞转录组的3个标准文件，虽然说绝大部分文献提供其数据的时候并不是标准的文件名字，但是3个文件的文件名字还是通常会遵循以下模式...NA NA NA 2 0610007N19Rik NA NA...NA NA NA > dim(tmp) [1] 21892 3664 这个时候我们可以借助于r编程语言里面的reshape2包的dcast函数进行数据转换...，在 R 语言中，reshape2 包提供了 dcast() 函数，用于将数据框从长格式（long format）转换为宽格式（wide format）。...长格式数据通常包含多行和少列，每行对应一个观察值，并且包含一个用于标识不同组的变量；而宽格式数据通常包含少行和多列，每行对应一个唯一的标识符，并且包含多个变量。

2441 0

「R」data.table 包功能特性学习

来自很久之前的官网文档。 data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。...，V3列的标准差为一个data.table DT[, ....# 对V1的每一组计算V4的和 DT[, ....0.703 10 ## 5: 1 C -0.380 3 ## 6: 2 C -0.703 6 ## 7: 1 C 0.341 9 ## 8: 2 C -0.746 12 # V2列为A的第一个匹配行...2 A -0.746 4 ## 3: 1 A -0.380 7 ## 4: 2 A -0.703 10 # 返回键列V2有A或C值行V4列的和 DT[c("A", "C"), sum(

1.9K1 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

DT数据集按照x分组，然后计算v变量的和、最小值、最大值。（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的，传递给下一个函数的第一个参数，然后就不用写第一个参数了。在dplyr分组求和的过程中，还是挺有用的。...在data.table中有三类数据合并的方式： 1、直接用[] data_one[data_two,nomatch=NA,mult="all"] 以第一个数据为基准，依据key进行合并，只出现重复部分...nomatch参数用于控制，当在i中没有到匹配数据的返回结果，默认为NA，也能设定为0。...参考文献：些许案例，代码参考自以下博客，感谢你们的辛勤： 1、R语言data.table简介 2、超高性能数据处理包data.table 3、R语言data.table速查手册 4、R高效数据处理包

7.5K4 3

R Tricks: 如何处理Gaps & Islands问题？

写在前面本期大猫课堂将继续上期的R Tricks系列。在这一期中，大猫将向大家介绍“Gaps & Islands Problem”。这是在处理时间序列或者基因组数据中常见的一项任务。...（生成样例数据集的代码附在见文末）解题思路在解决本问题的过程中我们需要用到data.table包！...” 我们的思路很简单，分成四步： ▶ 将数据集按照ID与起始时间（stime）进行排序 ▶ 找到结束时间（etime）的累计最大值 ▶ 一旦完成以上两步，那么重叠的行即为当前结束时间（etime)累计最大值仍旧大于下一行的观测...从上图中我们可以看到，1-4行的grp值都为0，说明属于同一组；而5-6行的grp值为1，说明属于新的一组。...关于如何巧用cumsum函数，大猫在上一期的《R Tricks：如何巧为分组观测编号》中也有详细讲解哦最后，我们只要把每个grp组中起始时间（stime）的最小值和结束时间（etime）的最大值找出来就行啦

1.1K2 0

「R」数据操作（一）

本文内容：基础函数操作数据框 sqldf包使用SQL查询数据框 data.table包操作数据 dplyr管道操作处理数据 rlist包处理嵌套数据结构使用内置函数操作数据框数据框的本质是一个由向量构成的列表...比如选择满足特定条件的行，使用[]符号，第一个参数提供一个逻辑向量，第二个参数留空。本文大部分的代码都是基于一组产品的虚拟数据。我们先将数据载入，然后学习怎么用不同的方法操作数据。 if(!...接下来我们正式学习用R内置的函数操作数据框进行分析和统计的一些方法。...可以看到数据中存在缺失值，有一种叫末次观测值结转法（LOCF）可以填补缺失值，当非缺失值后面紧跟一个缺失值时，就用该缺失值填补后面的缺失值，直到所有缺失值都被填满。...zoo包提供了LOCF的一个实现，使用下面代码安装： install.packages("zoo") 下面用一组简单的向量演示： library(zoo) #> #> 载入程辑包：'zoo' #> The

1.9K1 0

笔记 GWAS 操作流程6-2：手动计算GWAS分析中的GLM和Logistic模型

名词解释「GWAS」 ❝全基因组关联分析 ❞ 「手动计算」 ❝使用R语言编程GLM模型和Logistic模型，提取Effect和Pvalue ❞ 「GLM」 ❝一般线性模型 ❞ 「Logistic」...# 表型数据 2.3 使用R中的lm函数做回归分析 1，首先载入软件包data.table 2，然后读取0-1-2编码的c.raw文件 3，然后读取表型数据文件phe.txt 4，然后将表型数据和基因型数据合并...2 第一列为FID # 家系ID 第二列为IID # 个体ID 第三列为表型值 # 表型数据，默认是1-2编码（case-control） 3.3 使用R中的glm函数做Logistic回归分析 1，首先载入软件包...data.table 2，然后读取0-1-2编码的c.raw文件 3，然后读取表型数据文件phe.txt 4，然后将表型数据和基因型数据合并 library(data.table) geno[1:10,1...「注意：」 ❝plink中，默认输出的不是Effect，而是OR值，R语言中如果要输出OR值，可以用exp(coef(m1))将结果打印出来。

2.6K3 2

利用“MatrixEQTL”包进行eQTL实战分析

这里我们使用的是该包提供的内置数据集，代码如下： install.packages("MatrixEQTL") # 安装R包 library("MatrixEQTL") # 加载R包 base.dir...= data.table::fread(covariates_file_name, header=T) # 读取协变量文件，可在R中查看 output_file_name = tempfile() #...将输出文件设置为临时文件 pvOutputThreshold = 1e-2 # 定义gene-SNP associations的显著性P值 errorCovariance = numeric() #...# 指定SNP文件的分隔符 snps$fileOmitCharacters = "NA" # 定义缺失值 snps$fileSkipRows = 1 # 跳过第一行（适用于第一行是列名的情况...fileSkipRows = 1 cvrt$fileSkipColumns = 1 cvrt$fileSliceSize = 2000 cvrt$LoadFile( covariates_file_name ) # 文件的输入部分结束

1.1K3 1

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

多分组数据的分析后面另讲 # 生成Group向量的三种常规方法，三选一，选谁就把第几个逻辑值写成T，另外两个为F。...相间、两组的数量不同？...) #把R包里的注释表格变成数据框 } 方法2 读取GPL网页的表格文件，按列取子集 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...") #网址复制到浏览器下载到文件，放在工作目录下 f = data.table::fread("GPL30971.txt",data.table = F) colnames(f) ids = f[,...，不保留行间差别，会把数据范围缩放到大概-5~5之间 breaks = seq(-3,3,length.out = 100) #设置色带分布范围为-3~3之间，超出此范围的数字显示极限颜色

1722 0

Python正则表达式（上）

字符串的开始和结束案例: 输入一个6位数字，必须要以95开头，以8结尾的数字 print(re.findall(r"^95\d{3}8$","958348")) 输出结果： ['958348'] 2...捕获组与非捕获组分组是我们正则表达式中一个难点，把正则表达式的一部分用括号括起来作为一个组；主要包括捕获组()非捕获组(?:)如何进行捕获呢？...我们以一个案例来进行解释案例: 在前一段英文中，匹配这样的单词，有5个字符；第一个字母和第五个一样，第二个和第四个一样，比如abcba 分析：因为匹配的是单词第一个和最后一个都是单词的边界,故正则表达式的前后都用...\b，第一个字母和第二个字母后面都要用到所以分别给它们设置捕获组。...原因：如果对正则表达式做了分组，使用findall函数则显示捕获组所匹配的内容，不能完整显示，如果想完整显示的话有两个解决办法：方法一：使用非捕获组如果不需要对捕获组的内容调用，可以使用非捕获组，

1.5K4 0

分析GSEA通路中的上下调基因

想要回答这个问题，我们需要GSEA富集方法的结果。GSEA分是根据处理后的差异倍数值对基因进行从大到小排序, 用来表示基因在两组间的表达量变化趋势。...排序之后的基因列表其顶部可看做是上调的差异基因，其底部是下调的差异基因。可用于判断某条通路在某组样本中是激活还是抑制！...library(data.table) tmp= fread(fs[1],data.table = F) View(tmp) gid=fread(fs[1],data.table = F)[,1] head...untrt组的差异分析结果 tmp <- results(dds2,contrast=c("group_list","KD","control")) DEG_DESeq2 <- as.data.frame...(tmp[order(tmp$padj),]) head(DEG_DESeq2) #去除差异分析结果中包含NA值的行 DEG_DESeq2 = na.omit(DEG_DESeq2) DEG_DESeq2

8423 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云