将对雪花执行POC,只想检查将数据加载到雪花中的最佳实践是什么:
发布于 2019-11-20 08:31:52
您的问题1和2似乎更多地是关于分区(或雪花语中的“集群”),而不是规范化。它也是关于性能和可维护性的。
两个世界中最好的是有一个表,其中Australia State
是一个集群键。正确的设置将允许有效的查询剪枝。在聚类键和聚类表中阅读更多内容。
Re.问题3.查看MERGE
。也许你还可以得到一些阅读在雪花中使用SCD-Type-II的提示
发布于 2019-11-21 01:58:59
我会以“对如何‘更新’和‘使用’最有意义的方式加载数据。”
这意味着我们有来自PostgreSQL DB的同步/流的数据(实际上有很多种形式),有些我们在加载它时对其进行维度化(SCD6 1/SCD6 2/SCD6 6)。对于这些数据,我们有更新时间戳,我们加载记录,计算更改并构建维度数据。
如果您已经拥有维度数据,并且它只是一个数据移动。转储您所拥有的表,然后只加载它们。用雪花做一个新的表格真的很便宜,所以我们只是尝试了一些东西,找出了什么适合我们的数据输入模式,以及我们是如何读取数据来改进/帮助聚类,或者避免在自动聚类操作上花费成本的。
https://stackoverflow.com/questions/58946566
复制相似问题