我有10个大小为8-9 Gb的文件,如下所示:
7 72603 0.0780181622612
15 72603 0.027069072329
20 72603 0.00215643186987
24 72603 0.00247965378216
29 72603 0.0785606184492
32 72603 0.0486866833899
33 72603 0.000123332654879
对于每一对数字(第一列和第二列),我有p值(第三列)。但是,我有重复的对(它们可以在不同的文件中),我想删除其中的一个。如果文件更小,我会使用pandas。例如:
7 15 0.0012423442
...
15 7 0.0012423442
我还想对这个集合应用多次测试的校正,但值的向量非常大。
使用Python或R可以做到这一点吗?
发布于 2017-07-10 18:18:43
> df <- data.frame(V1 = c("A", "A", "B", "B", "C", "C"),
+ V2 = c("B", "C", "A", "C", "A", "B"),
+ n = c(1, 3, 1, 2, 3, 2))
> df
V1 V2 n
1 A B 1
2 A C 3
3 B A 1
4 B C 2
5 C A 3
6 C B 2
> df[!duplicated(t(apply(df, 1, sort))), ]
V1 V2 n
1 A B 1
2 A C 3
4 B C 2
https://stackoverflow.com/questions/45009282
复制相似问题