首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何基于event_type将google中的大型事件表拆分为多个表?

如何基于event_type将google中的大型事件表拆分为多个表?
EN

Stack Overflow用户
提问于 2021-11-13 12:43:39
回答 1查看 382关注 0票数 0

嗨,我想根据大型表中的event_type将一个大型bigquery表(100亿个事件记录)分割成多个表。

注意,events表是分区的时间/日/事件_时间。进一步假设它是一个数据年(365天)

让我们假设事件_type=‘登录’,‘页面查看’

我的方法:

  1. 创建一个新表,每个表用于事件类型
  2. 运行并插入作业,对于每一天的每个事件类型,我还将在python脚本中使用dml。

我的问题:

  1. 我应该使用什么加载作业类型:复制或加载作业?
  2. 我可以将加载作业排队到google大查询中吗?它会异步工作吗?
  3. google大查询会并行处理这个加载作业吗?
  4. 有什么是我需要做的,使用多处理的间隔期,以加快进程吗?加载作业由bigquery处理,如果我可以在作业中排队,而不需要在客户端进行任何多处理

任何指向有效解决方案的指针都会受到高度赞赏。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-11-15 14:52:26

您可以为您的需求使用查询作业负载作业习惯于从GCS存储桶或本地文件中摄取BigQuery中的数据。

查询作业的配额和限制可以找到这里。这些配额和限制适用于通过运行交互式查询、计划查询和使用jobs.query和查询类型的jobs.insert API方法提交的作业自动创建的查询作业。在一个项目中,每个用户每秒最多可以发出300个并发API请求。

使用jobs.insert方法的查询作业将异步执行。使用Python客户端库(如您所愿)可以实现同样的目标,如下所示。有关更多信息,请参阅此文档

代码语言:javascript
运行
复制
from google.cloud import bigquery

# Construct a BigQuery client object.
client = bigquery.Client()

# TODO(developer): Set table_id to the ID of the destination table.
# table_id = "your-project.your_dataset.your_table_name"

job_config = bigquery.QueryJobConfig(destination=table_id)

sql = """
    SELECT corpus
    FROM `bigquery-public-data.samples.shakespeare`
    GROUP BY corpus;
"""

# Start the query, passing in the extra configuration.
query_job = client.query(sql, job_config=job_config)  # Make an API request.
query_job.result()  # Wait for the job to complete.

print("Query results loaded to the table {}".format(table_id))

由于作业将同时运行,因此不需要实现显式多处理。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69954360

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档