我正在阅读一次由一些数据流源和接收器实现的,并且我在理解BigQuery接收器上的示例时遇到了困难。从文章中
生成随机UUID是一个不确定的操作,因此在插入到之前,我们必须添加一个BigQuery改组。一旦完成,的任何重试都将始终使用被洗牌的UUID。插入BigQuery的重复尝试总是具有相同的插入id,因此BigQuery能够过滤它们。
// Apply a unique identifier to each record
c
.apply(new DoFn<> {
@ProcessElement
public void processElement(Proce
我们有一个在数据流上工作的工作,它从发布/订阅中摄取数据,并将其写入BigQuery。在有限数量的数据上,我们没有任何副本,但在我们当前的卷100EVTS/s上,我们在BigQuery表中有副本。我们在这里称为重复的是具有相同事件uuid的行。
下面是我的代码:
class CustomParse(beam.DoFn):
""" Custom ParallelDo class to apply a custom transformation """
def to_runner_api_parameter(self, unused
我们正在将数据从MySql写入BigQuery。我们已经设定了一些指标,比如
插入-如果第一次添加记录,则在指示器字段中使用“i”保存它。
更新-如果记录有一些更新的数据,然后保存它与'U‘在指示字段,并忽略重复的记录,如果没有改变。
但是在“更新”的情况下,它也在写重复的记录,这一点甚至没有改变。下面是我们当前用于将数据插入BigQuery表中的查询。我们可以对这个查询做什么更改?
"insert into `actual_table`
(
Id,
...
)
select
temp.Id,
...
case when actual.Id i
我有一个带有随机自动生成id (主键)的表。我正在尝试避免插入重复的行。 重复行的示例: id | field a | field b | field c |
1 4 6 7
2 4 6 7 密钥(id)不重复,因为它是用uuid生成的,但其他字段都是相同的。 我想我正在寻找这样的东西,但是是用BigQuery语言编写的:Avoiding inserting duplicate rows in mySQL
单击Refresh-now-按钮(在Dataset选项卡中)后,我在30分钟内看到此消息: Something went wrong
There was an error when processing the data in the dataset.
Please try again later or contact support. If you contact support, please provide these details.
Data source error: {"error":{"code":"ModelRefresh_Shor