问使用Apache Spark的代理键
EN

Stack Overflow用户

提问于 2018-11-13 19:15:55

回答 1查看 386关注 0票数 1

我们有基于事件的框架，我们使用Kafka和Spark streaming，最后将数据持久化到数据库中。我来自数据仓库世界。我想使用为我们正在使用的一些维度数据生成的代理键。在spark world中，它通常是如何实现的？surrogate key是现代大数据架构中的相关主题吗？我在哪里可以获得关于从数据仓库到大数据架构的转变以及我们如何在大数据架构中建立数据模型的良好信息？

apache-spark

spark-streaming

data-warehouse

回答 1

Stack Overflow用户

发布于 2018-11-13 23:08:47

虽然代理键在“现代大数据架构”中并不常见，但仍然有它们的用例。代理键仍然可以简化商业智能用例的查询，例如缓慢变化的维度。如果您正在将具有业务用户和工具的现有数据仓库体系结构迁移到新的大数据管道体系结构，同时尝试在现有系统使用代理键的情况下保持相同的业务工具和流程，则这一点更为重要。

这是不是一个好主意取决于你的用例和实际的架构。

对于开发人员，我不使用代理键。仍然有价值，但不值得复杂的代理键管道。与持久化代理键不同，所有这些逻辑通常都可以在查询时动态完成，并且具有足够的处理能力/更长的查询。

代理键有很多用途。也许我还没有介绍你的用例。如果是这样，请告诉我们更多关于使用代理键的目标。我很有兴趣听到别人也做了些什么。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53279817

复制

相似问题

问使用Apache Spark的代理键
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Apache Spark的代理键EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Apache Spark的代理键
EN