文章/答案/技术大牛

发布

社区首页 >问答首页 >对重复的超大文件进行多次测试的更正

问对重复的超大文件进行多次测试的更正
EN

Stack Overflow用户

提问于 2017-07-10 18:08:25

回答 1查看 42关注 0票数 0

我有10个大小为8-9 Gb的文件，如下所示：

7       72603   0.0780181622612
15      72603   0.027069072329
20      72603   0.00215643186987
24      72603   0.00247965378216
29      72603   0.0785606184492
32      72603   0.0486866833899
33      72603   0.000123332654879

对于每一对数字(第一列和第二列)，我有p值(第三列)。但是，我有重复的对(它们可以在不同的文件中)，我想删除其中的一个。如果文件更小，我会使用pandas。例如：

7    15    0.0012423442
...
15   7     0.0012423442

我还想对这个集合应用多次测试的校正，但值的向量非常大。

使用Python或R可以做到这一点吗？

python-3.x

statistics

large-files

回答 1

Stack Overflow用户

发布于 2017-07-10 18:18:43

> df <- data.frame(V1 = c("A", "A", "B", "B", "C", "C"),
+                  V2 = c("B", "C", "A", "C", "A", "B"),
+                  n = c(1, 3, 1, 2, 3, 2))
> df
  V1 V2 n
1  A  B 1
2  A  C 3
3  B  A 1
4  B  C 2
5  C  A 3
6  C  B 2
> df[!duplicated(t(apply(df, 1, sort))), ]
  V1 V2 n
1  A  B 1
2  A  C 3
4  B  C 2

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45009282

复制

相似问题

问对重复的超大文件进行多次测试的更正
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对重复的超大文件进行多次测试的更正EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对重复的超大文件进行多次测试的更正
EN