首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >雪花数据加载的最佳实践规范化还是非规范化?

雪花数据加载的最佳实践规范化还是非规范化?
EN

Stack Overflow用户
提问于 2019-11-20 04:13:01
回答 2查看 1K关注 0票数 0

将对雪花执行POC,只想检查将数据加载到雪花中的最佳实践是什么:

  1. 是以规范化的方式加载数据(组并将相关信息存储到多个表中)还是采用非规范化形式?这里推荐什么..?
  2. 还是将数据转储到一个表并从一个表创建多个视图?但是想想这张大表有1.5亿份记录,它有一个名为“澳大利亚州”的专栏,我们知道澳大利亚只有6个州。如果创建一个视图,通过视图从主表中提取澳大利亚州的信息,我觉得这比将澳大利亚州信息存储在一个单独的表中要昂贵得多,这就是我所说的正常化。
  3. 在雪花中加载SCD-2维的方法是什么?想知道做这件事的有效方法..?
EN

回答 2

Stack Overflow用户

发布于 2019-11-20 08:31:52

您的问题1和2似乎更多地是关于分区(或雪花语中的“集群”),而不是规范化。它也是关于性能和可维护性的。

两个世界中最好的是有一个表,其中Australia State是一个集群键。正确的设置将允许有效的查询剪枝。在聚类键和聚类表中阅读更多内容。

Re.问题3.查看MERGE。也许你还可以得到一些阅读在雪花中使用SCD-Type-II的提示

票数 1
EN

Stack Overflow用户

发布于 2019-11-21 01:58:59

我会以“对如何‘更新’和‘使用’最有意义的方式加载数据。”

这意味着我们有来自PostgreSQL DB的同步/流的数据(实际上有很多种形式),有些我们在加载它时对其进行维度化(SCD6 1/SCD6 2/SCD6 6)。对于这些数据,我们有更新时间戳,我们加载记录,计算更改并构建维度数据。

如果您已经拥有维度数据,并且它只是一个数据移动。转储您所拥有的表,然后只加载它们。用雪花做一个新的表格真的很便宜,所以我们只是尝试了一些东西,找出了什么适合我们的数据输入模式,以及我们是如何读取数据来改进/帮助聚类,或者避免在自动聚类操作上花费成本的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58946566

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档