首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当我开始设计一个新的数据集市时,我应该从哪里开始呢?

当我开始设计一个新的数据集市时,我应该从哪里开始呢?
EN

Database Administration用户
提问于 2021-02-08 18:31:18
回答 1查看 30关注 0票数 -1

我所在的公司正在启动我们整个DWH的重新设计过程。其想法是迁移到云解决方案,并使用数据湖概念。从湖中,数据应该被传递到一个3NF DWH,最后,通过市场最终用户。

这些集市的目的将是多种多样的。从报告到会计和培训ML模型。

我有机会在设计这些市场的过程中扮演重要的角色,但我从来没有这样做过。

你对从哪里开始有什么建议吗?一本书,一篇文章?

我希望这是提出这样一个问题的正确地方,并感谢你的贡献。

EN

回答 1

Database Administration用户

回答已采纳

发布于 2021-02-08 19:31:52

这个问题可能会以基于意见的方式结束(我会投得太广),但作为我职业生涯中在这个领域工作过的人,我可以提供我的观点如下:

  1. 每个人都说他们的DWH是3NF,但是如果您使用的是Kimball或使用诸如“星型模式”这样的词,那么它肯定不是3NF。好的仓库应该看起来应该是生产,如果这些年的生产没有分布在多个系统上。易读ER图,好键,组合键,窄表,参考表。
  2. 如果您有一个好的DWH,就不需要数据集市--您可以使用视图来满足大多数需求。高级聚合的物化视图。
  3. 如果没有良好的DWH (如果DWH已经存在的话,概率很小),那么您的数据集市很可能会大量地按摩现有的DWH数据以满足客户的需要,或者干脆绕过DWH直接访问源数据。但是如果它在你的控制之下,超市应该拥有你的DWH不应该拥有的所有东西--如此清晰的ER图、好的键、复合键、窄表、参考表。用于消费的视图。高级聚合的物化视图。
  4. 总是正常化到至少3NF。对于某些类型非常宽/稀疏的数据,6NF (垂直分区)可能是许多特殊查询的好选择。
  5. 聚集索引、聚集表、索引组织表是您的朋友。

他们的好书还是好文章?没有我能找到的。所有我学到的东西都回到了井里,试错了,或者有几个真的很好,所以答案可以指引我走向正确的方向。

这些链接可提供一些指导/观点:

比尔·伊蒙:两个建筑的故事

因此:为了读取性能,应否取消OLAP数据库的规范化?

dba.SE:关系数据库中的完整性约束应该被忽略 (因为在DWH/数据集市中缺少FK/唯一约束对我来说一直是个令人头疼的问题)

票数 0
EN
页面原文内容由Database Administration提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://dba.stackexchange.com/questions/284955

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档