问题与方案
假设我们有这样一个数据集:
df <- data.frame(
c1 = c("a", "a", "a", "b", "b", "c"),
c2 = c(1, 3, 2, 1, 4,...如果使用惯了tidyverse套装,我们脑子里容易冒出来的是这样的解法:使用分组应用。...但如果分组有成千上万,分组的时间代价就很高了。有没有其他的方式可以解决该问题呢?
其实处理这种去重问题,特别还涉及到排序,我们可以采用先排序再去重的方式解决。...但注意,这里其实存在很多的变量,包括数据的行数、分组数目、以及实际情况下数据集的变量数目。哪种更适合需要根据现实场景进行测试考察。...本文的重点是,问题的解决之道往往不只一种,当程序慢下来的时候,我们不要忘记思考和尝试其他的方案。