问消除数据集中的特定行
EN

Stack Overflow用户

提问于 2019-08-05 20:43:26

回答 1查看 44关注 0票数 1

我有一个.csv格式的数据帧。该数据帧包括34500行。在此文件中，显示了RNAseq分析结果的列表。这里的问题是一些基因有多个结果，我应该为每个基因选择一个条目，这个条目应该具有最大的p值。我编辑了我的数据，我只有“基因符号”和“p值”信息。

如何删除/消除包含根据我的规则应该消除的基因的行。我将添加一个屏幕截图来显示我的问题。

提前谢谢。

回答已采纳

发布于 2019-08-05 21:02:13

假设空格("")对应于前一个非空“基因”中的重复条目，将空格更改为NA (na_if)，然后使用fill将NA更改为先前的非NA值(按“max”分组)，获得包含“pvalue”的值的行

library(dplyr)
library(tidyr)
df1 %>%
    mutate(Gene = na_if(Gene, "")) %>%
    fill(Gene) %>%
    group_by(Gene) %>%
    slice(which.max(pvalue))

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57358854

复制

相似问题

问消除数据集中的特定行EN