大约300吨的数据正在使用Google平台数据集(选项: dev)传输到大查询中。
目前需要34分钟才能处理大约16 to的数据。处理6T数据需要10天左右。
数据处理中可以修改哪些设置,以便在数据管道中快速执行ETL操作?
感谢您的阅读。
发布于 2020-10-19 10:02:42
您可以做的是更改计算配置文件设置,该设置指定执行管道的方式和位置。例如,配置文件包括云提供者的类型、云提供者上使用的服务(如Dataproc)、资源(内存和CPU)、图像、最小和最大节点计数以及其他值。
在CDAP文档站点上了解更多关于配置文件的信息。
其中一个选项是为管道的运行创建一个新的计算概要文件,该配置文件对工作内存的限制更高,或者重写工作内存:
System Admin
,然后单击Configuration
选项卡创建新的计算概要文件后,通过单击管道详细信息视图中的配置文件并选择新创建的计算概要文件并单击Save
,将计算概要文件附加到管道。
另外,请在自动标度中选中DataFsuion选项。
https://stackoverflow.com/questions/64422253
复制相似问题