在BigQuery中消除重复数据_加载到BigQuery时执行重复数据消除_BigQuery重复数据消除行-没有唯一列 - 腾讯云开发者社区

google-bigquery

我试图通过交叉检查BigQuery中的数据流事件和混合面板进行验证。然而，BigQuery中的数据总是比Mixpanel更适合我们要流到的每一种类型的事件。我认为这是一个重复的问题，但是对于BigQuery中的每个事件来说，时间是不同的。我所看到的唯一可能导致这种差异的问题是流插入有很大的滞后，使某些事件在一个小时内不会出现在表中。如果有人能给我关于这个问题的见解，我将不胜感激。澄清：我正在通过查看每天有多少事件流来验证BigQuery数据。这种差异有点小，例如，对于特定的一天，Mixpanel看到634个事件，而BigQuery则看到703个事件。我已经考虑到时区的差异，因

浏览 0提问于2016-09-22得票数 1

1回答

如何通过流式插入来避免BigQuery中的重复

python-3.x、google-bigquery

我做了一个函数，每隔5~6秒将.CSV数据插入到BigQuery中。我一直在寻找避免在插入后在BigQuery中复制数据的方法。我想删除具有相同luid的数据，但我不知道如何删除它，所以是否可以在插入之前检查BigQuery表中已经存在.CSV的每个数据。我设置了row_ids参数来避免重复的luid，但它似乎不能很好地工作。你能给我一些建议吗?？谢谢。 def stream_upload(): # BigQuery client = bigquery.Client() project_id = 'test' dataset_name = &#

浏览 30提问于2021-01-14得票数 1

回答已采纳

1回答

将数据流到Bigquery与将数据上传到PubSub，然后使用数据流将数据插入Bigquery之间的利弊是什么？

google-bigquery、google-cloud-dataflow、google-cloud-pubsub

据我所知，将数据流到BigQuery将导致重复的行，如此处所述，另一方面，将数据上载到PubSub，然后使用数据流将数据插入Bigquery将防止重复行？这里还有一个实时数据分析教程( )。那么，其他的优点和缺点是什么，在什么情况下，我应该使用数据流从PubSub流数据。

浏览 9提问于2017-05-02得票数 4

回答已采纳

2回答

如何避免使用Google App Script将重复行上传到BigQuery表中

google-bigquery

我正在上传一些数据到BigQuery从谷歌工作表使用谷歌应用程序脚本。有没有办法上传这些数据而不上传重复的行... 下面是我目前使用的JobSpec： var jobSpec = { configuration: { load: { destinationTable: { projectId: projectId, datasetId: 'ClientAccount', tableId: tableId }, allowJaggedRows: true

浏览 0提问于2017-10-07得票数 0

1回答

Bigquery: Logistic回归问题

google-bigquery

在使用Google的大型查询进行Kaggle流失预测时，我遇到了以下问题。请帮帮忙运行BIGQUERY后看到的错误： Logistic回归要求至少有两个唯一的标签，标签列只有一个唯一的标签。正在使用的Bigquery命令： CREATE or REPLACE MODEL 'churndataset.mymodel` OPTIONS(model_type = 'logistic_reg' , labels= ['Churn']) AS SELECT * EXCEPT(customerID) FROM 'churnd

浏览 1提问于2018-10-15得票数 0

1回答

当从其他谷歌云服务流式传输数据时，有可能修复到BigQuery的失败插入吗？

google-bigquery

BigQuery提供insertIds并执行一些重复数据消除，以帮助解决通过API插入数据时的故障情况。根据文档，，所以如果插入失败，可以通过API重试插入，而不用担心可能的(插入的)数据重复。这可以是。问题是，在谷歌云上，有大量承诺将数据插入BigQuery的服务。例如，对于从许多来源获取数据到BigQuery的推荐堆栈，DataFlow / Apache Beam是其中的一部分。还有Dataprep、Stackdriver日志记录等。那么，当使用任意第三方BigQuery客户端时，有没有一种统一的方法来恢复BigQuery中失败的插入？

浏览 1提问于2018-06-12得票数 0

2回答

自动从表中消除重复项

sql、google-bigquery

表将每天从源系统获得新的数据，我希望一旦新数据加载到表中，重复项就会被自动删除。这在bigquery中是可能的吗？我尝试用下面的查询在bigquery中创建一个名为sites_view的视图 SELECT DISTINCT * FROM prd.sites 但不会自动删除重复项。

浏览 2提问于2018-10-29得票数 1

2回答

在BigQuery接收器中一次处理的背景下，重组意味着什么？

google-bigquery、apache-beam、dataflow

我正在阅读一次由一些数据流源和接收器实现的，并且我在理解BigQuery接收器上的示例时遇到了困难。从文章中生成随机UUID是一个不确定的操作，因此在插入到之前，我们必须添加一个BigQuery改组。一旦完成，的任何重试都将始终使用被洗牌的UUID。插入BigQuery的重复尝试总是具有相同的插入id，因此BigQuery能够过滤它们。 // Apply a unique identifier to each record c .apply(new DoFn<> { @ProcessElement public void processElement(Proce

浏览 0提问于2018-09-26得票数 5

1回答

如何将数据从GCS (使用BigQuery或load_table_from_dataframe)加载到GCS中，而不重复BQ表中的现有数据

python、google-cloud-platform、google-bigquery

我想从google云存储(Bucket) CSV文件中检索数据，并将这些文件中的数据加载到bigquery表中，而不需要重复数据。目标是在性能上拥有一个性能比成本更优的代码。我的当前代码如下： def load_data_in_BQT(): job_config = bigquery.LoadJobConfig( schema=[ bigquery.SchemaField("id", "INTEGER"), bigquery.SchemaField("name", "

浏览 4提问于2022-09-20得票数 0

2回答

如何在通过Stitch导入的非复制BigQuery表的视图或计划查询之间进行选择？

google-bigquery、stitch

我构建了从存储在BigQuery表中的数据按需生成的统计输出。一些数据是每日通过缝纫导入使用“只附加”。这将导致导入表中的 (大约20 8kk行每年增长8 8kk)。我可以调度BigQuery查询，以便在清理过的表中存储重复的值，或构建视图也可以这样做，但我不理解在以下方面的权衡：使用BigQuery存储/运行预定查询和视图。依赖于重叠视图的后续查询的速度。视图缓存吗？我是否正确地认为，每天预定的存储重复数据的查询成本更高(用于重写存储表)，但却加快了以后对已重复数据的查询(节省了使用成本)？也就是说，重复的数据将每天被查询数百次，以生成仪表板输出，而响应性是其中一个

浏览 4提问于2020-07-22得票数 1

回答已采纳

2回答

在Power中使用BigQuery重复/嵌套字段

google-bigquery、powerbi

问题:当使用重复/嵌套字段将Power BI连接到BigQuery表(使用本机BI连接器)时，这些字段不会出现在Power BI中以用于报表创建。示例:使用名为BigQuery的公共bigquery数据集的，有一个名为github_nested的表，该表具有重复的字段，如payload.pages.action (见下文) 但是，当使用Power连接到这个BigQuery表时，我只得到几个字段(参见下面) 据我所知，这是因为Power查询连接器不支持重复/嵌套或记录字段。问题:在构建Power报告时(特别是在本机Power查询连接器上使用动态连接)，是否可以使用表中的所

浏览 0提问于2018-04-25得票数 1

1回答

如何在writeToBq步骤中避免数据流光束管道中的重复？

python、google-bigquery、google-cloud-dataflow、apache-beam

我们有一个在数据流上工作的工作，它从发布/订阅中摄取数据，并将其写入BigQuery。在有限数量的数据上，我们没有任何副本，但在我们当前的卷100EVTS/s上，我们在BigQuery表中有副本。我们在这里称为重复的是具有相同事件uuid的行。下面是我的代码： class CustomParse(beam.DoFn): """ Custom ParallelDo class to apply a custom transformation """ def to_runner_api_parameter(self, unused

浏览 5提问于2021-11-26得票数 0

1回答

通过Python实现云存储到BigQuery

python、google-cloud-platform、google-bigquery、google-cloud-functions、google-cloud-storage

我每天都会收到一个数据到我的GCS存储桶中，并有一个云函数将这些csv数据移动到一个BigQuery表中(参见下面的代码)。 import datetime def load_table_uri_csv(table_id): # [START bigquery_load_table_gcs_csv] from google.cloud import bigquery # Construct a BigQuery client object. client = bigquery.Client() # TODO(developer): Set

浏览 5提问于2021-06-04得票数 1

2回答

复制云日志接收器中的BigQuery行

google-bigquery、google-cloud-logging

我已经将接收器设置为将日志从Google日志传输到BigQuery。一切正常，但是有时会在云日志记录中从相同的日志中复制行下面是云日志记录的一个示例。这里只有一根木头。当我使用BigQuery查询此记录时，insertId: 1fw0b92g26o229x 有谁有同样的问题吗？我能不能防止这种重复。谢谢

浏览 4提问于2021-08-20得票数 0

回答已采纳

2回答

BigQuery双倍导入

google-bigquery

我正在使用应用程序引擎中的谷歌BigQuery。我有一个cron作业，它每15分钟运行一次，以导出到BigQuery。不过，导入会随机运行两次。但是，appengine日志不会反映这一点。我维护了一组blobs，用来将数据写入bigquery，并且不会向它们写入重复数据。还有没有人遇到过重复导入的bigquery问题？同样，我的appengine日志显示导入只发生了一次，我有点不知道如何排除故障。

浏览 1提问于2012-06-17得票数 1

回答已采纳

3回答

Google BigQuery没有主键或唯一约束，如何防止插入重复记录？

google-bigquery

Google BigQuery没有主键或唯一约束。我们不能使用传统的SQL选项，比如insert ignore或insert on duplicate key update，那么如何防止重复记录被插入到Google BigQuery中呢？如果我必须先调用delete (基于我自己系统中的唯一键)，然后再调用insert，以防止重复记录被插入到bigquery中，这是不是太低效了？我假设insert是最便宜的操作，没有查询，只是追加数据。对于每次插入，如果我必须调用delete，这将是非常低效的，并花费我们额外的钱。根据你的经验，你的建议和建议是什么？ bigquery有主键是很好的，但它

浏览 0提问于2017-03-22得票数 30

回答已采纳

1回答

如何在onUpdate事件的大查询中更新数据

javascript、firebase、google-bigquery

我正在将数据从firebase导入到大型查询中，该查询在onWrite事件和使用table.insert函数时运行良好。现在我想在针对onUpdate事件的大型查询中更新数据，但table.update函数不可用，也不能以其他方式进行working.suggest。下面是我的代码 exports.updatetobigquery = functions.database.ref('/mn_users/{userId}/').onUpdate(event => { const dataset = bigquery.dataset('KHUSHUApp'

浏览 2提问于2017-08-16得票数 1

2回答

在BigQuery中追加时忽略重复记录

mysql、google-bigquery

我们正在将数据从MySql写入BigQuery。我们已经设定了一些指标，比如插入-如果第一次添加记录，则在指示器字段中使用“i”保存它。更新-如果记录有一些更新的数据，然后保存它与'U‘在指示字段，并忽略重复的记录，如果没有改变。但是在“更新”的情况下，它也在写重复的记录，这一点甚至没有改变。下面是我们当前用于将数据插入BigQuery表中的查询。我们可以对这个查询做什么更改？ "insert into `actual_table` ( Id, ... ) select temp.Id, ... case when actual.Id i

浏览 0提问于2019-03-18得票数 2

2回答

Bigquery。“在末尾添加NULLABLE或重复列”是什么意思？

google-bigquery

我想在Bigquery中更新表。这里有一个说明什么可以做什么不能做的文档：，它说：允许的操作包括：在末尾添加NULLABLE或重复列，使所需字段NULLABLE 我能够通过插入NULLABLE和重复字段来更新表，嵌套在我的模式中。我不明白“最后”部分是什么意思。这不是Bigquery存储数据的内部细节吗？

浏览 1提问于2015-05-13得票数 0

1回答

如何在Apache Nifi中读取只复制一次的数据？

oracle11g、google-bigquery、apache-nifi

我目前正在将数据从Oracle数据库批量迁移到Bigquery。我已经将处理器设置如下：ExecuteSQL、ConvertAvroToJson和PutBigqueryBatch 从oracle读取数据并将其成功放入Bigquery。然而，我注意到有很多相同数据的重复。我查看了数据在Apache Nifi中的排队方式。我可以看到Oracle中的相同数据有很多重复项。我尝试使用DetectDuplicate处理器，但没有成功。有没有办法通过某种编程来解决我的问题，或者有没有什么处理器来满足我的需求？

浏览 40提问于2019-12-16得票数 0

回答已采纳

3回答

使用Dataflow删除重复项

google-cloud-dataflow

我有大量的数据文件(1TB)要导入到BigQuery中。每一行都包含一个键。在导入数据和创建PCollection以导出到BigQuery时，我希望确保不会根据这个键值导入重复的记录。在我使用Dataflow的Java程序中，最有效的方法是什么？谢谢

浏览 5提问于2015-02-10得票数 4

回答已采纳

1回答

如何去识别存储在记录或重复属性中的BigQuery数据？

java、google-bigquery、google-cloud-dlp

我正在尝试构建一个Dataflow管道，该管道可以从BigQuery表中取消数据标识。我正在构建com.google.privacy.dlp.v2.Table对象，并像这样将它传递给ContentItem： List<Field> fieldList = new ArrayList<>( bigquery .getTable(table) .getDefinition() .getSchema()

浏览 21提问于2022-09-07得票数 0

2回答

BigQuery -- DataWarehouse的维度表设计？

google-bigquery、bigtable、google-cloud-bigtable

我注意到，BigQuery在维护历史数据方面很好，但在进行单独的记录更新时，性能就不那么好了。对于历史数据，以“维度和事实范式”在BigQuery中维护维度表有多有效？我只想在维度数据定期完全刷新的情况下使用这种范例，因为维度表不能包含重复的键，并且BigQuery不能执行记录级更新。我还可以使用哪些方法来维护维度表？我想到了Bigtable，但这是一个很好的应用程序吗？

浏览 2提问于2018-09-06得票数 0

1回答

在bigquery中比较多个大数据集的重复项

sql、database、duplicates、google-bigquery、soql

我对salesforce的soql的使用经验有限，需要在bigquery中将其应用于此问题。上下文:我有4个不同的数据集，它们具有不同的列名和顺序，从7,000到35000行，所有4个数据集都包含重复的行，并且它们之间共享重复的行。目标:我想要一个没有重复行的数据集。我的直觉是:我觉得我应该规范化列名，将它们添加到相同的表中，并采用这种方法Remove Duplicate Data in bigquery 同时，我觉得将每个数据集上传到它自己的表中，并使用joins或其他东西来写入新表可能更好。我真的没有这方面的经验，无法做出明智的决定。我选择bigquery soley是因为如果有

浏览 11提问于2019-03-13得票数 0

1回答

bigquery回填是如何工作的？它是否删除了旧的，并重新插入？

google-bigquery

当我们运行(youtube)回填时。 bigquery如何传输回填以保证不插入重复的记录？这不是一个数据库，你可以做“如果新插入，如果旧的更新”。Bigquery传输是删除和插入，对吗？所以bigquery传输回填会删除回填计划日期的旧数据，然后重新插入数据？我试图弄清楚，有时我得到的数据为零，但传输状态已经完成。在我多次的测试中，旧的数据似乎没有被删除。但在一次测试中，我确实看到回填中删除了旧数据。(不过，我不能再生产了)。

浏览 2提问于2017-09-29得票数 1

回答已采纳

3回答

如何避免和/或清除BigQuery中重复的行？

google-bigquery

当我有潜在的重复行时，应该如何每天导入BigQuery中的数据？这里有一些背景。我每天更新从电子表格到BigQuery的数据。我使用Google和一个简单的WRITE_APPEND方法。有时，我正在导入前一天已经导入的数据。所以我想知道我怎么才能避免这种情况？我能否构建一个sql查询，以便每天从重复行中清除我的表？或者在导入副本之前就可以检测副本(例如，在我的作业定义中使用一些特定的命令.)？谢谢！

浏览 0提问于2018-02-27得票数 4

回答已采纳

2回答

BigQuery:处理频繁的模式更改的最佳方法？

google-bigquery、jsonb

我们的BigQuery模式是大量嵌套/重复的，并且不断变化。例如，网站的新页面、表单或用户信息字段将对应于BigQuery中的新列。另外，如果我们停止使用某种形式，那么相应的不推荐列将永远存在，因为您不能删除Bigquery中的列。因此，我们最终将产生有数百列的表，其中许多列是不推荐的，这似乎不是一个好的解决方案。我正在研究的主要选择是将所有内容存储为json (例如，每个Bigquery表只有两个列，一个列用于时间戳，另一个列用于json数据)。然后，每10分钟运行一次的批处理作业将执行联接/查询，并写入聚合表。但是使用这种方法，我担心的是增加查询作业成本。一些背景信息：我们的数据以

浏览 0提问于2019-03-08得票数 3

1回答

Bigquery:检查流中的重复

google-bigquery

我们在客户端安装了一些设备生成的数据。重复的数据是存在的，这是通过设计来实现的，这意味着我们无法在数据生成阶段消除重复的数据。我们现在正在研究在流到Bigquery时避免重复的可能性(而不是通过做表复制和稍后的删除来清理数据)。也就是说，对于每一条准备好的流记录，我们首先检查它是否已经在Bigquery中，如果没有，我们继续将它流进来，如果它确实存在，那么我们就不会流进它。但问题是：(引用此处) 数据可用性当第一次发生流插入时，流数据在两分钟的热身期内无法访问。在热身期间之后，在热身期间和之后添加的所有流数据都立即可查询。在几个小时的不活动之后，在下一次插入过程中将再次出现热身期。数据

浏览 3提问于2014-09-10得票数 3

回答已采纳

1回答

JSONL文件中的记录未作为记录上载到BigQuery

google-bigquery

我的头撞到墙上了。我有一个JSONL格式的长数据文件，正在上传到BigQuery。对于每个条目，都有一个文件信息的记录，称为“文件”。要注意的事情：，我检查了JSONL中的每一个“文件”条目，它们都是BigQuery应该识别为记录前的字典的全部列表。{"case_id"："abcd"，"record1"：{"rec1_name":"rec1.txt"}，{"rec1_name"："rec2.txt"}，“file_name”："file.txt"}，{“"f

浏览 2提问于2020-11-11得票数 0

1回答

将Google Sheets中的数据流式传输到BigQuery，以便在Tableau中可视化

google-sheets、google-bigquery、streaming、import.io

我正在尝试创建一个定时的，自动的数据上传，从Google Sheets到BigQuery，这样我就可以在Tableau中可视化数据。数据来源于import.io。基于我已经能够使用Google Apps Scripts从Google Sheets文件创建一个.csv，并一次性将.csv文件上传到BigQuery。但是，这不能用作重复出现的解决方案，因为BigQuery加载脚本需要.csv文件的静态URL (并且每个.csv下载文件都有一个惟一的URL)。我相信，来自谷歌工作表的流式数据，或者直接来自but的数据流，在研究了之后，还没有能够解决这个问题。将数据从Google Sheets传

浏览 1提问于2014-06-04得票数 4

3回答

如何避免在BigQuery中随机生成主键(ID)时插入重复行

python、sql、google-bigquery

我有一个带有随机自动生成id (主键)的表。我正在尝试避免插入重复的行。重复行的示例： id | field a | field b | field c | 1 4 6 7 2 4 6 7 密钥(id)不重复，因为它是用uuid生成的，但其他字段都是相同的。我想我正在寻找这样的东西，但是是用BigQuery语言编写的：Avoiding inserting duplicate rows in mySQL

浏览 46提问于2020-11-08得票数 0

回答已采纳

1回答

将可变结构的JSON加载到Google BigQuery中，重复和可空的问题

json

我正在尝试将Google JSON文件加载到200k+ BigQuery中。数据集是出纳员数据，在一些交易中使用一张折扣凭证，在一些交易中使用一张以上的凭证，而在其他交易中不使用凭证。因此，一些字段在一个文件中是可重复的，但在另一个文件中为空。加载时，我得到一个错误： BigQuery error in load operation: Error processing job '***': Invalid schema update. Field PromoPtn has changed mode from REPEATED to NULLABLE 如何在BigQuery中处

浏览 2提问于2017-05-04得票数 0

1回答

异步实时ETL流水线中的反复制BigQuery

google-bigquery

我们的数据仓库团队正在评估BigQuery作为一种数据仓库列存储解决方案，并对其特性和最佳使用提出了一些问题。我们现有的etl管道通过队列异步地消耗事件，并将事件等效地保存到我们现有的数据库技术中。幂等结构允许我们在没有重复风险的情况下，偶尔重播几个小时或几天的事件，以纠正错误和数据中断。在测试BigQuery时，我们尝试使用具有唯一密钥的实时流插入api作为insertId。这为我们提供了在短窗口上重新插入的功能，但是稍后数据的重新流会导致重复。因此，我们需要一个优雅的选项来消除实时/近实时的欺骗，以避免数据差异。我们有几个问题，希望得到任何一个问题的答案。对于在ETL体系结构中使用Bi

浏览 3提问于2017-03-27得票数 3

回答已采纳

1回答

当bigquery上载作业在加载部分JSON文件后失败时会发生什么？

google-bigquery

正如标题所提到的，当我启动bigquery上载作业时会发生什么，比如说，在JSON文件中加载了50%的行之后，作业失败了。bigquery是否回滚了加载作业的所有内容，还是只剩下50%的数据被加载？我每天都把数据附加到一个表中，并且保持不重复是非常重要的。我们正在使用

浏览 2提问于2013-09-03得票数 0

回答已采纳

2回答

如果同步到Redshift/BigQuery，来自MySQL数据库的bin日志复制会保持唯一的约束吗？

mysql、google-bigquery、amazon-redshift、replication、mysqlbinlog

我们希望将数据仓库从MySQL数据库移动到Redshift或BigQuery。虽然针对OLAP操作进行了优化，但这些基于列的数据库的一个缺点是它们不强制执行唯一约束。因此，表中有重复的订单/产品并不是不可能的。我们工作的行业是零售业，我们使用标准的Kimball事实和维度(星型架构)数据库设计。提出的一个潜在的解决方案是在MySQL中建立数据库，并使用第三方复制工具将数据同步到Redshift/BigQuery。这样，我们将在原始的MySQL数据库中强制执行键约束，并且我们将只对读查询使用Redshift/BigQuery。然而，在MySQL中强制执行约束并设置到Redshift/Bi

浏览 11提问于2019-10-01得票数 1

1回答

Google BigQuery -在Google BigQuery SQL中模拟Pandas removeDuplicates()

sql、pandas、analytics、google-bigquery

给定带有BigQuery的Google BigQuery数据集，如何使用Google BigQuery SQL返回没有重复的数据集，比如说.col1、col3、col7，这样，当在col1、col3、col7中有重复的行时，这些重复项中的第一行将被返回，而那些列中有重复字段的其余行都被删除了吗？例子: removeDuplicates(col1，col3) col1 col2 col3 ---- ---- ---- r1: 20 25 30 r2: 20 70 30 r3: 40 70 30 返回 col1 col2 col3 ---- ---

浏览 3提问于2015-02-25得票数 3

回答已采纳

1回答

将bigquery数据移动到Redshift

google-bigquery、amazon-redshift、python-bigquery

我需要将我的bigquery表移动到redshift。目前我有一个从redshift获取数据的python作业，它在redshift上增量加载我的数据。这个python作业正在读取bigquery数据，在服务器中创建一个csv文件，将其放到s3上，然后readshift表从s3上的文件中读取数据。但是现在时间很大，所以服务器将无法处理它。你们还知道什么比这更好的吗？我需要在bigquery上移动新的7个表，每个表大约1TB，并设置了重复的列。(我正在执行取消嵌套连接以使其扁平化)

浏览 3提问于2019-07-16得票数 0

1回答

使用Pandas接口恢复上传到BigQuery

python、pandas、google-bigquery

我使用的是和。每次我append到BigQuery中的数据集时，我都希望确保从上次离开的地方开始，以防止重复和丢失数据。在或其他地方是否有自动执行此操作的设置？如果没有，您建议我在防止数据重复的同时如何处理连接错误和上传错误？我知道我可以在此基础上查询最后一行并追加数据，但我不喜欢查询，因为BigQuery为查询收费。以下是我到目前为止上传到BigQuery的内容： import pandas as pd from google.cloud import bigquery, exceptions test_df = pd.DataFrame({ 'num_legs

浏览 0提问于2019-03-25得票数 0

回答已采纳

1回答

无法在Power Bi服务中更新数据集

google-bigquery、powerbi

单击Refresh-now-按钮(在Dataset选项卡中)后，我在30分钟内看到此消息： Something went wrong There was an error when processing the data in the dataset. Please try again later or contact support. If you contact support, please provide these details. Data source error: {"error":{"code":"ModelRefresh_Shor

浏览 31提问于2020-03-23得票数 0

回答已采纳

1回答

如何使用CLI bq命令创建一次性数据集拷贝(无计划重复

google-bigquery

我想使用bash脚本在BigQuery中创建从source_dataset_A到target_dataset_B的一次性数据集拷贝此操作在BigQuery控制台中很容易完成，如下所示但是，如果我像下面这样使用bq mk --transfer_config，它将创建一个具有重复计划的数据集拷贝传输作业，“每24小时”。 bq mk --transfer_config --project_id=data-project --data_source=cross_region_copy \ --display_name='one-time-dataset-copy' \

浏览 0提问于2021-03-10得票数 0

1回答

BigQuery定价:记录列的查询数据大小(成本)计算

google-bigquery

BigQuery如何计算嵌套列要处理的数据大小？我有希望加载到BigQuery中的数据，但我不确定我应该使用什么模式。我所拥有的数据(除其他外)有以下列： timestamp sessionId event (所需的记录) event.id event.details (可空记录) event.details.type event.details.name event.attributes (重复记录) event.attributes.key event.attributes.value 我的问题：如果我只查询event.id，其他e

浏览 2提问于2018-11-12得票数 2

回答已采纳

1回答

如何避免BigQuery中的Power BI增量刷新重复查询？

google-bigquery、powerbi

我在一个从Google BigQuery获取大量数据的报告中实现了增量刷新。问题是，每次增量刷新都会产生重复的查询，其中一个查询的开销非常大。正如Chris Webb在his article中所描述的那样，power BI为了从his article数据库导入数据进行了两个查询；一个返回有限数量的行，只是为了发现表模式，另一个返回实际数据。在许多servers中，这只会影响性能，但在BigQuery中，无论结果行数是多少，第一个查询都是按处理的数据量收费的，这是因为查询折叠没有发生。这里我使用较小的数据集进行了一些实验，以显示正在发生的情况： ? 请注意，上面的“发现查询”正在

浏览 32提问于2021-08-27得票数 2

回答已采纳

1回答

使用Google Sheets作为具有重复字段的BigQuery数据源

google-bigquery

我正在尝试使用Google Sheets作为BigQuery表的数据源。我的其中一个数据集包含重复的字段。为了将数据作为重复字段正常工作，应该如何在GoogleSheets中构造数据？到目前为止，我已经尝试用逗号分隔重复的值。我在创建表时没有得到一个错误，但是当我尝试查询数据时，返回的错误是‘内部错误’。

浏览 4提问于2017-07-31得票数 0

3回答

如何在BigQuery标准SQL中进行可重复采样？

sql、hash、google-bigquery、cross-validation

在中，Google的一名雇员解释了如何在BigQuery中为机器学习进行数据集的可重复采样。这对于创建(和复制)数据的培训/验证/测试分区非常重要。然而，博客使用的是Legacy，支持标准SQL。您将如何重写博客的抽样代码，如下图所示，但使用标准SQL？ #legacySQL SELECT date, airline, departure_airport, departure_schedule, arrival_airport, arrival_delay FROM [bigquery-samples:airline_ontime_data.flights] W

浏览 17提问于2017-09-03得票数 7

回答已采纳

1回答

如何在不复制数据的情况下使用spark将数据帧追加到数据源

python、google-cloud-platform、pyspark

我正在尝试使用append将新的数据帧保存到数据源。问题是数据帧中已经有一些行在数据源中是重复的。 df.write \ .format('bigquery') \ .option('table', 'datasource') \ .mode("append") \ .save() 我怎样才能做到不重复呢？谢谢,

浏览 16提问于2021-08-11得票数 0

1回答

使用Terraform - WriteDisposition创建BigQuery表

google-bigquery、terraform

我正在使用Terraform创建许多BigQuery数据集和表。在创建BQ表时，我需要传递bigquery.WriteDisposition参数，以便在该表已经存在的情况下可以截断或追加该表。否则，我将得到一个错误409，说明该表已经存在并且是重复的。但是，您知道在Terraform中是否有传递此参数的选项吗？我看不到任何:-(

浏览 20提问于2020-07-11得票数 0

1回答

使用Kafka Connect GCP BigQuery接收器进行表分区

google-bigquery、avro、confluent-platform、confluent-schema-registry

各位朋友：我在BigQuery中使用confluent连接器进行数据传输。对于我已经创建的每个事件，我创建了一个avro模式，它将在BigQuery中解释。是否可以将任何事件字段定义为表分区？它当前使用的是_PARTITIONTIME隐藏字段，但我需要它作为实际事件的字段，以便更容易处理重复项。

浏览 0提问于2019-11-08得票数 0

1回答

从谷歌存储加载文件时，在bigquery中使用.Run(ctx)复制记录

go、google-bigquery

对于每个每日分区，我们每3分钟将文件加载到bigquery中，每个文件的大小约为200MB。(.gz)。有时我会得到重复，但我不确定为什么。我已经验证了输入文件只包含数据一次，日志证明该文件只处理过一次。造成重复的可能原因是什么？在上传到bigquery之前，有什么方法可以防止它吗？ client, err := bigquery.NewClient(ctx, loadJob.ProjectID, clientOption) if err != nil { return nil, jobID, err } defer client.Close() ref := bigquery.New

浏览 0提问于2018-06-08得票数 0

5回答

根据google BigQuery SQL中的属性删除重复行。

sql、google-bigquery

我有一个名为: result的表，我使用BigQuery从GA中选择数据 SELECT Date, totals.pageviews, h.transaction.transactionId, h.item.itemQuantity, h.transaction.transactionRevenue, totals.bounces, fullvisitorid, totals.timeOnSite, device.browser, device.deviceCategory, trafficSource.source, channelGroupi

浏览 0提问于2017-05-09得票数 3

2回答

Apache :用BigQuery更新BigQueryIO表行

google-bigquery、google-cloud-platform、google-cloud-dataflow

我们使用以下代码将记录写入BigQuery： BigQueryIO.writeTableRows() .to("table") .withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_IF_NEEDED) .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_APPEND) .withSchema(schema); 使用这段代码时，当我们进行回填时，一些记录再次被发送到这个数据流中，从而导致BigQuer

浏览 7提问于2017-09-06得票数 4

回答已采纳