首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我怎样才能加快GCP的数据采集(Datapipeline)?

我怎样才能加快GCP的数据采集(Datapipeline)?
EN

Stack Overflow用户
提问于 2020-10-19 06:35:47
回答 1查看 116关注 0票数 2

大约300吨的数据正在使用Google平台数据集(选项: dev)传输到大查询中。

目前需要34分钟才能处理大约16 to的数据。处理6T数据需要10天左右。

数据处理中可以修改哪些设置,以便在数据管道中快速执行ETL操作?

感谢您的阅读。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-19 10:02:42

您可以做的是更改计算配置文件设置,该设置指定执行管道的方式和位置。例如,配置文件包括云提供者的类型、云提供者上使用的服务(如Dataproc)、资源(内存和CPU)、图像、最小和最大节点计数以及其他值。

CDAP文档站点上了解更多关于配置文件的信息。

其中一个选项是为管道的运行创建一个新的计算概要文件,该配置文件对工作内存的限制更高,或者重写工作内存:

  1. 单击右上角的System Admin,然后单击Configuration选项卡
  2. 单击“系统计算配置文件”
  3. 单击创建新配置文件
  4. 选择
  5. 保留“项目ID和服务帐户”键为空
  6. 输入员工节点的所需配置
  7. 点击保存

创建新的计算概要文件后,通过单击管道详细信息视图中的配置文件并选择新创建的计算概要文件并单击Save,将计算概要文件附加到管道。

另外,请在自动标度中选中DataFsuion选项。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64422253

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档