从BigQuery表中删除重复行

文章/答案/技术大牛

发布

3回答

Bigquery错误:对于每个目标行，更新/合并最多只能匹配一个源行

google-bigquery

我想知道是否有人可以帮助解决以下错误：我的问题如下：SET s.SKU_Label = TRIM

浏览 0提问于2018-05-24得票数 7

6回答

distinct、google-bigquery

我有一个超过1M行数据和20+列的表。在我的表(tableX)中，我在一个特定的列(troubleColumn)中发现了重复的记录(~80k)。如果可能，我希望保留原来的表名，并从有问题的列中删除重复的记录，否则我可以创建一个具有相同模式但没有重复的新表(tableXfinal)。我不精通SQL或任何其他编程语言，所以请原谅我的无知。

浏览 148提问于2016-04-17得票数 50

回答已采纳

2回答

自动从表中消除重复项

sql、google-bigquery

表将每天从源系统获得新的数据，我希望一旦新数据加载到表中，重复项就会被自动删除。SELECT DISTINCT * FROM prd.sites 但不会自动删除重复项。

浏览 2提问于2018-10-29得票数 1

2回答

具有GCS数据源的Bigquery表不影响更改为gcs的数据

google-cloud-platform、google-bigquery、cloud、external-tables

我是bigquery的新手。我从gcp控制台创建了bigquery表，其中使用GCS CSV文件作为数据源。我认为当我删除任何行时，也应该将其从GCS文件中删除。但实际上，这种情况并没有发生。

浏览 22提问于2020-06-22得票数 0

3回答

如何在BigQuery中从带有数组的表中删除重复行

sql、google-cloud-platform、google-bigquery

BigQuery中有一个具有重复类型列和重复行的表，因为该表有数组，我不能使用distinct只获取一行。表看起来如下所示：我想删除重复的行，输出应该如下所示：我没找到办法想出上面的结果，谁能帮上忙？

浏览 1提问于2022-01-24得票数 2

回答已采纳

2回答

如果表通过保留期被删除，Bigquery会收费吗？

google-bigquery

我有大约150 GB的数据，我想使用DML语句将其存储在bigquery中。根据他们的说法，他们将收取通过DML删除表的费用。如果我创建了一个保留期的表，我会为此收费吗？考虑到我总是会插入数据。我并不担心插入数据的成本。

浏览 1提问于2018-12-05得票数 0

回答已采纳

2回答

从BigQuery表中删除最早的重复行

google-bigquery

我有一个表，其中包含超过70M行的数据和2M的重复数据。我希望通过保留最近的原始行来清除重复项。我在这里找到了一些解决方案-- link 其中，解决方案是只清除副本，而不保留副本中的最新数据。DESC, FROM MainTable) WHERE RN > 1 但它在BigQuery中不受支持。

浏览 9提问于2019-04-24得票数 1

回答已采纳

1回答

从BigQuery中删除重复记录

google-bigquery

我有一个具有列ID的表，它定义了唯一的记录，所有具有相同ID的行都是重复的，我想删除重复的行并只保留唯一的ID1 22 3删除后( BigQuery表中的我的数据)1 2我可以创建一个只有唯一记录的新表，但是有没有方法可以更新现有的表，即从表中删除重

浏览 9提问于2021-06-06得票数 0

回答已采纳

1回答

关于从bigquery表中删除重复的CSV文件或行

csv、google-bigquery

我在云应用中的BigQuery中创建了一个表。我错误地上传了bigquery Table中的两个csv文件。如何从bigquery表中删除一个或两个csv文件？谢谢Arvind

浏览 3提问于2013-02-08得票数 0

1回答

在bigquery中比较多个大数据集的重复项

sql、database、duplicates、google-bigquery、soql

我对salesforce的soql的使用经验有限，需要在bigquery中将其应用于此问题。上下文:我有4个不同的数据集，它们具有不同的列名和顺序，从7,000到35000行，所有4个数据集都包含重复的行，并且它们之间共享重复的行。目标:我想要一个没有重复行的数据集。我的直觉是:我觉得我应该规范化列名，将它们添加到相同的表中，并采用这种方法Remove Duplicate Data in

浏览 11提问于2019-03-13得票数 0

3回答

如何避免和/或清除BigQuery中重复的行？

google-bigquery

当我有潜在的重复行时，应该如何每天导入BigQuery中的数据？谢谢！

浏览 0提问于2018-02-27得票数 4

回答已采纳

1回答

插入到大型查询表的行数比预期的少

google-bigquery

我已经在day分区表中插入了71行。在流缓冲工进程之后，我的表中只有48行。我知道有重复数据删除的过程，但行是不同的。我已尝试检查流缓冲区中的行的外观，并设置了条件以获取_PARTITIONTIME设置为NULL的结果。我什么都没有。我不知道它是怎么工作的。//编辑:我已经使用insertRows方法从cloud-bigquery库中

浏览 2提问于2018-02-15得票数 0

7回答

有没有人知道有计划在Google Bigquery中添加对从表中删除部分数据的支持？我们现在的问题是，我们正在使用它来分析我们随着时间的推移收集的数据点。我们希望对过去X天的数据运行查询，但是在过去X天的数据之后，我们不再需要将数据存储在BigQuery中。目前我们能想到的删除数据的唯一方法是删除整个数据表，然后重新创建它并加载X天数的数据。然而，这也需要我们将数据存储在每日CSV文件中<

浏览 8提问于2012-05-15得票数 29

回答已采纳

2回答

BigQuery -删除特定的重复记录

sql、duplicates、google-bigquery

我有一个包含数据的BigQuery表，如下所示：20151021 Air Select 1445001 A232 7380 Vendor 如您所见，有一系列重复的记录我想以结束，是每个重复记录集中的一个重复记录。

浏览 0提问于2015-10-27得票数 1

回答已采纳

2回答

如何在通过Stitch导入的非复制BigQuery表的视图或计划查询之间进行选择？

google-bigquery、stitch

我构建了从存储在BigQuery表中的数据按需生成的统计输出。一些数据是每日通过缝纫导入使用“只附加”。这将导致导入表中的 (大约20 8kk行每年增长8 8kk)。我可以调度BigQuery查询，以便在清理过的表中存储重复的值，或构建视图也可以这样做，但我不理解在以下方面的权衡：使用BigQuery存储/运行预定查询和视图。我是否正确地认为，每天预定的存储

浏览 4提问于2020-07-22得票数 1

回答已采纳

1回答

BigQuery - DELETE语句以按Id删除重复组

google-bigquery、duplicates、delete-row

我试图使用DELETE从我的BigQuery表中删除重复的记录。 FROM `yourproject.yourdataset.duplicates` where id= '123'此语句从不满足NOT IN条件的表中删除所有记录例如，如果我的表

浏览 1提问于2020-02-18得票数 1

回答已采纳

1回答

删除重复项并设置为新表

node.js、google-bigquery

我试着： var table = dataset.table('CleanTable'); .startQuery({ query: <Query without duplicates> )

浏览 1提问于2017-09-02得票数 1

回答已采纳

1回答

将大量数据插入大查询中，而不将其保存在流缓冲区中。

node.js、async-await、google-bigquery、synchronization

我的动机如下：有人能建议我一些解决办法，因为我在我的表中得到了一些重复的行。

浏览 0提问于2019-01-02得票数 1

回答已采纳

1回答

像素跟踪到BQ:如何将querystring参数值直接保存到BQ表字段

google-bigquery

我使用这篇文章设置了一个无服务器跟踪像素：https://cloud.google.com/solutions/serverless-pixel-tracking-tutorial 这是可行的，但将整个像素GET URL保存到BQ中的一个字段中-因为像素URL将携带多个querystring参数值，最好的情况是这些参数进入BQ中的各个字段:我想调整它以将GET tracking像素的每个querystring参数值保存到它自己的BQ表字段中。我在文章中寻找是否可以调

浏览 20提问于2019-09-30得票数 0

4回答

如何修复BigQuery表中意外复制的数据？

sql、google-bigquery

我使用的是BigQuery，它有一个带有month时间戳字段的非常大的表：org STRING我意外地写了两个月的数据，导入了两次，错误地使用了追加模式考虑到BigQuery不允许我更新或删除数据，那么消除重复数据的最佳方法是什么？我首先将除问题月份之外的所有数据复制到一个临时表中： SELECT * FROM mytable WHERE month!=TIMESTAMP('2012-01-01&#x

浏览 4提问于2016-05-24得票数 0

回答已采纳

点击加载更多

Bigquery错误:对于每个目标行，更新/合并最多只能匹配一个源行