我有一个.csv格式的数据帧。该数据帧包括34500行。在此文件中,显示了RNAseq分析结果的列表。这里的问题是一些基因有多个结果,我应该为每个基因选择一个条目,这个条目应该具有最大的p值。我编辑了我的数据,我只有“基因符号”和“p值”信息。
如何删除/消除包含根据我的规则应该消除的基因的行。我将添加一个屏幕截图来显示我的问题。
提前谢谢。
发布于 2019-08-05 21:02:13
假设空格(""
)对应于前一个非空“基因”中的重复条目,将空格更改为NA
(na_if
),然后使用fill
将NA更改为先前的非NA值(按“max
”分组),获得包含“pvalue”的值的行
library(dplyr)
library(tidyr)
df1 %>%
mutate(Gene = na_if(Gene, "")) %>%
fill(Gene) %>%
group_by(Gene) %>%
slice(which.max(pvalue))
https://stackoverflow.com/questions/57358854
复制相似问题