文章/答案/技术大牛

发布

社区首页 >问答首页 >删除带有"in“的重复记录

问删除带有"in“的重复记录
EN

Stack Overflow用户

提问于 2021-04-08 11:19:15

回答 1查看 66关注 0票数 1

我有一张这样的桌子：

CREATE TABLE foo (
  id SERIAL,
  a INTEGER,
  b INTEGER,
  some DOUBLE,
  other VARCHAR,
  data INTEGER
);

我知道(a, b)必须是唯一的，但出于某些原因，这不是由数据库强制执行的。假设我不关心进一步的歧视，我只是时不时地擦除重复的，也许只保留最近的一个(ID最大)：

DELETE FROM foo WHERE id NOT IN (SELECT max(id) FROM foo GROUP BY a, b);

现在假设有几条100.000条记录，IN (...)变得相当大。

我读过关于自联接(比如：DELETE FROM foo a LEFT JOIN foo b ON a.a = b.a AND a.b = b.b WHERE b.id < a.id)的文章，但这也意味着如果我有许多副本，就会得到巨大的中间表。

我还有别的选择吗？

sql

postgresql

sql-delete

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-04-08 11:21:11

如果要删除旧的重复值，可以使用：

delete from foo
    where foo.id < (select max(foo2.id)
                    from foo foo2
                    where foo2.a = foo.a and foo2.b = foo.b
                   );

请注意，(a, b, id)上的索引将有助于性能。

您还可以将其表述为联接：

delete from foo
    using (select a, b, max(id) as max_id
           from foo
           group by a, b
          ) ab
    where foo.a = a.a and foo.b = ab.b and foo.id < ab.max_id;

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67002898

复制

相似问题

问删除带有"in“的重复记录
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除带有"in“的重复记录EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除带有"in“的重复记录
EN