BigQuery 数据源

最近更新时间:2024-12-11 09:24:03

我的收藏

使用限制

BigQuery 数据源仅支持在中国香港、新加坡、美国(弗吉尼亚)、德国(法兰克福)使用,其他地域暂时不支持。
切割键只支持 INT64、FLOAT64、TIMESTAMP、BIGNUMERIC、NUMERIC、DATE、DATETIME。

BigQuery 离线单表读取节点配置




参数
说明
数据来源
选择来源端的已配置 BigQuery 数据源。
数据集
支持选择、或者手动输入需读取的数据集名称。
默认将数据源绑定的数据库作为默认库,其他数据库需手动输入数据集名称。
当数据源网络不联通导致无法直接拉取库信息时,可手动输入数据集名称。在数据集成网络连通的情况下,仍可进行数据同步。
支持选择、或者手动输入需读取的表名称。
当数据源网络不联通导致无法直接拉取库信息时,可手动输入表名称。在数据集成网络连通的情况下,仍可进行数据同步。
切割键
指定用于数据分片的字段,指定后将启动并发任务进行数据同步。您可以将源数据表中某一列作为切分键,建议使用主键或有索引的列作为切分键。
注意:
支持的切割键类型:INT64、FLOAT64、TIMESTAMP、BIGNUMERIC、NUMERIC、DATE、DATETIME。
若任务并发数设置大于1,则该项必填否则并发设置无效。
筛选条件(选填)
根据数据类型填写对应筛选语句,该语句会作为将要同步数据的筛选条件。

数据类型转换支持

读取

BigQuery 数据类型
内部类型
BOOLEAN
BOOL
INTEGER
LONG
FLOAT、BIGNUMERIC、NUMERIC
DOUBLE
STRING、TIMESTAMP、DATE、TIME、GEOGRAPHY、JSON、INTERVAL、RECORD
STRING

BigQuery 脚本 Demo

如果您配置离线任务时,使用脚本模式的方式进行配置,您需要在任务脚本中,按照脚本的统一格式要求编写脚本中的 reader 参数

"job": {
"content": [
{
"reader": {
"parameter": {
"databaseName": "source_database", //源数据库
"credential": { //bigquery数据源配置信息
"token_uri": "",
"private_key_id": "",
"client_x509_cert_url": "",
"project_id": "",
"universe_domain": "",
"auth_uri": "",
"auth_provider_x509_cert_url": "",
"client_email": "",
"private_key": "",
"type": "service_account",
"client_id": ""
},
"column": [ //列名
"id",
"name"
],
"projectId": "project_id",
"tableName": "source_table" //源表
},
"name": "bigqueryreader"
},
"transformer": [],
}
],
"setting": {
"memory": { //内存设置
"taskLimit": 335544320,
"channelLimit": 67108864,
"writerLimit": 134217728,
"jobLimit": 872415232,
"readerLimit": 134217728
},
"errorLimit": { //脏数据阈值
"record": 0
},
"speed": {
"byte": -1, //不限制同步速度,正整数表示设置最大传输速度 byte/s
"channel": 1 //并发数量
}
}
}