首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据仓库①:数据仓库概述

~这就是关于数据仓库最贴切的定义了。事实上数据仓库不应让传统关系数据库来实现,因为关系数据库最少也要求满足第1范式,而数据仓库里的关系表可以不满足第1范式。...有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告; 数据仓库组件 数据仓库的核心组件有四个:各源数据库,ETL,数据仓库,前端应用。如下图所示: ? 1....前端应用 和操作型数据库一样,数据仓库通常提供具有直接访问数据仓库功能的前端应用,这些应用也被称为BI(商务智能)应用; 数据集市(data mart) 数据集市可以理解为是一种"小型数据仓库",它只包含单个主题...当用户或者应用程序不需要/不必要不允许用到整个数据仓库的数据时,非独立数据集市就可以简单为用户提供一个数据仓库的"子集"。...数据仓库开发流程 在数据库系列的第五篇 中,曾详细分析了数据库系统的开发流程。数据仓库的开发流程和数据库的比较相似,因此本文仅就其中区别进行分析。 下图为数据仓库的开发流程: ?

2.8K71

数据仓库到百万标签库,产品经理如何用好大数据?

很多企业通过大数据深度爬虫技术采集了各种数据集合,但是很多数据是不是标准化的,在使用的上很难完全爆发出它的价值,所以很多企业都采用“数据标签”的方式给每个数据库打上各种应用场景的标签,每个企业有自己的标签库,或者说是DMP吧,但毕竟不是每个企业的产品经理都可以有能力做到对几十万亿数据库建立标签的...那么需要实现大数据库的多种数据库的穿透关联就得使用标签库方法来实现,就是为每个数据库都打上各种标签,主要包括五大部分内容:标签库定位、标签体系、产品功能、平台架构。...一、标签库定位 标签库以标签形式统一客户群数据的封装规范和操作风格,从而实现客户洞察知识的沉淀及共享,并通过产品化的形式实现目标客户群的快速生成和发布,提升营销渠道的客户群投放效率,标签库建设的目的就是为了营销...共性主要体现在用户的一些基础属性,比如年龄、性别、职业、住址等等,个性是由于每个企业的产品特点、基础数据、目标受众都不太一样,比如运营商的标签会侧重通信消费、通信行为,而电商的标签则会侧重线上消费的各种特征

1.2K40
您找到你想要的搜索结果了吗?
是的
没有找到

数据仓库】现代数据仓库坏了吗?

数据仓库是现代数据堆栈的基础,所以当我们看到 Convoy 数据负责人 Chad Sanderson 在 LinkedIn 上宣称“数据仓库坏了”时,它引起了我们的注意。...另一个阵营生我的气,因为他们的现代数据堆栈从根本上不是这样设置的,这也不是他们构建数据产品的方式,”Chad 说。 我会让您自己决定“不可变数据仓库”(或主动与被动 ETL)是否适合您的数据团队。...不可变数据仓库如何结合规模和可用性 乍得桑德森的观点 现代数据堆栈有许多排列,但数据仓库是一个基础组件。...数据仓库:仓库主要用作“数据展示”和底层计算层。 3. 语义层:数据消费者构建经过验证并与业务共享的数据产品。语义层中的资产应该被定义、版本化、审查,然后通过 API 提供给应用层使用。 4....很明显,我们正在迅速迈向未来,在这个未来,更多的关键任务、面向外部和复杂的产品都由数据仓库“提供支持”。

1.7K20

数据仓库

*了解数据仓库相关技术 *了解数据仓库设计过程建造,运行及维护 *了解OLAP及多维数据模型 决策支持系统及其演化 一般将数据分为:分析型数据与操作型数据 操作型数据:由企业的基本业务系统产生的数据...数据仓库的特性:面向主题性,集成性,不可更新和时间性。 集成:数据仓库最重要的特性,分为数据抽取转换,清理(过滤)和装载 不可更新:数据仓库中的数据以批量方式处理,不进行一般主义上的数据更新。...数据仓库的体系结构与环境 从数据层次角度的体系结构来看,典型的数据仓库的数据体系结构包括:操作型数据、操作型 数据存储、数据仓库、数据集市和个体层数据 从功能结构看,可分为数据处理、数据管理和数据应用三个层次...数据仓库的数据组织 数据仓库的数据单位中保存数据的细化程度或综合程度的级别。...细化程度越高,粒度越小 粒度影响到数据仓库的数据量及系统能回答的查询的类型 进行数据仓库的数据组织时,应根据当前应用的需求进行多粒度级设计。满足多角度,多层次数据查询要求。

1.8K40

数据百问系列:关于数据仓库,什么样的产品是好的Partener?

数据百问系列:关于数据仓库,什么样的产品是好的Partener? 0x00 前言 本次讨论的主题是:对于数据产品经理的突出能力,你更看重哪一方面?...问题: 现在有两个产品可能会和你合作: 一个产品,不懂技术细节,但是能给你带来业务价值,能帮你把数仓推广到全公司,帮你在老板前露脸 另一个产品,对数仓很了解,甚至能帮你设计一套数据仓库,可能比你设计的还好...有些数据产品经理其实是从技术岗位转过去的,一个能比我设计出的数据仓库还要好的数据产品,还具备业务能力,就算业务能力一般,他也能给我带来很多的帮助。...如果是业务能力很强的产品经理,当我的数据仓库开发不下去了,就算是各个部门的数据过来了又能怎么样,我搞不定它们而他也帮不了我,这样反而容易让项目搁浅。...我已经拥有能把数据仓库开发好的能力了,我现在想要的就是我所开发的数据仓库能落地下来,得到其他部门的支持与认可,获取到相关的资源并应用于业务中,那么一个业务能力强的数据产品就可以帮到我很多了。

53420

数据仓库②-数据仓库与数据集市建模

本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。...本例中,根据产品(PRODUCT)、顾客(CUSTOMER)、商店(STORE)、日期(DATE)对销售额进行分析是非常有帮助的; 2. 如何使用现有数据生成维表? a....共享维度 以前文提到的零售公司为例,假如该公司质量监管部门希望用分析销售主题同样的方法分析劣质产品,那么此时不需要重新维度建模,只需往模型里加入一个新的劣质产品事实表。...数据仓库建模体系之规范化数据仓库 所谓"数据仓库建模体系",指的是数据仓库从无到有的一整套建模方法。最常见的三种数据仓库建模体系分别为:规范化数据仓库,维度建模数据仓库,独立数据集市。...数据仓库建模体系之维度建模数据仓库 非维度建模数据仓库(dimensionally modeled data warehouse)是一种使用交错维度进行建模的数据仓库,其总体架构如下图所示: ?

5.2K72

数据仓库入门

什么是数据仓库(Data Warehouse,DW)?...1991 年,数据仓库之父 Bill Inmon 在《Building the Data Warehouse》一书中,给出的定义: “数据仓库一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程...建立数据仓库的目的是帮助企业高层系统地组织、理解和使用数据,以便进行战略决策。 数据仓库系统的体系结构 源数据层 源数据是数据仓库系统的基础,是整个系统的数据源泉。...数据存储与管理层 元数据 元数据是关于数据的数据,位于数据仓库的上层,用以描述数据仓库内数据的结构、位置和 建立方法。通过元数据进行数据仓库的管理和使用。...数据仓库 数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的的信息,其目的是 减少数据处理量。

1.8K20

数据仓库架构

针对性强,主要应用于数据仓库构建和OLAP引擎低层数据模型。...总线架构 多维体系结构(总线架构) 数据仓库领域里,有一种构建数据仓库的架构,叫Multidimensional Architecture(MD),中文一般翻译为“多维体系结构”,也称为“总线架构”(Bus...前台还包括像查询管理、活动监控等为了提供数据仓库的性能和质量的服务。...一致性维度 在多维体系结构中,没有物理上的数据仓库,由物理上的数据集市组合成逻辑上的数据仓库。而且数据集市的建立是可以逐步完成的,最终组合在一起,成为一个数据仓库。...虽然在物理上是独立的,但在逻辑上由一致性维度使所有的数据集市是联系在一起,随时可以进行交叉探察等操作,也就组成了数据仓库

1.9K20

数据仓库技术」怎么选择现代数据仓库

构建自己的数据仓库时要考虑的基本因素 ? 我们用过很多数据仓库。当我们的客户问我们,对于他们成长中的公司来说,最好的数据仓库是什么时,我们会根据他们的具体需求来考虑答案。...通常,他们需要几乎实时的数据,价格低廉,不需要维护数据仓库基础设施。在这种情况下,我们建议他们使用现代的数据仓库,如Redshift, BigQuery,或Snowflake。...大多数现代数据仓库解决方案都设计为使用原始数据。它允许动态地重新转换数据,而不需要重新摄取存储在仓库中的数据。 在这篇文章中,我们将深入探讨在选择数据仓库时需要考虑的因素。...因为这个存储层被设计成完全独立于计算资源的可伸缩性,它确保了可以毫不费力地为大数据仓库和分析实现最大的可伸缩性。...当数据量在1TB到100TB之间时,使用现代数据仓库,如Redshift、BigQuery或Snowflake。

5K31

维度模型数据仓库(三) —— 准备数据仓库模拟环境

(二)准备数据仓库模拟环境         上一篇说了很多数据仓库和维度模型的理论,从本篇开始落地实操,用一个小而完整的示例说明维度模型及其相关的ETL技术。...本篇详细说明数据仓库模拟实验环境搭建过程。        ...建立源数据数据库和数据仓库数据库         3. 建立源库表         4. 建立数据仓库表         5. 建立过渡表         6...., product_name VARCHAR(30) comment '产品名称', product_category VARCHAR(30) comment '产品类型' );...关于日期维度数据装载         日期维度在数据仓库中是一个特殊角色。日期维度包含时间,而时间是最重要的,因为数据仓库的主要功能之一就是存储历史数据,所以每个数据仓库里的数据都有一个时间特征。

99420

数据仓库指北

数据仓库的基础必备问题 2. 数据仓库的几种数据表 3. 数据仓库分层设计及各层作用 4. 数据仓库几种数据模型 5. 维度建模 一、 灵魂十二问 Q1:大数据的数据来源?...数据集市可以理解为是一个微型的数据仓库,具有更少的主题域,服务对象更小,可以是部门级别,而数据仓库则是服务于企业级别。数据仓库可以统一规划数据,避免数据孤岛。 Q3:为什么做数据分层设计?...数据仓库,简称DW,是各源系统数据及日志数据的汇总落地处,为企业决策做制定过程,为产品业务改进做支撑,控制成本和提高产品质量,而数据仓库也不是数据的最终目的地,而是为数据最终目的地做准备,比如清洗、转义...三、数据仓库的一些数据表种类 1....数据仓库大多是这类模型,即数据集市建模采用星型模型,然后各数据集市组成一个完整的数据仓库则演变成星座模型。

1.2K20

数据仓库建模

一、数据仓库建模的意义 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式...下图是个示例,通过统一数据模型,屏蔽数据源变化对业务的影响,保证业务的稳定,表述了数据仓库模型的一种价值: 二、数据仓库分层的设计 为了实现以上的目的,数据仓库一般要进行分层的设计,其能带来五大好处:...三、两种经典的数据仓库建模方法 前面的分层设计中你会发现有两种设计方法,关系建模和维度建模,下面分别简单介绍其特点和适用场景。...1、维度建模 (1)定义 维度模型是数据仓库领域另一位大师Ralph Kimball 所倡导的。...(3)优缺点 优点:技术要求不高,快速上手,敏捷迭代,快速交付;更快速完成分析需求,较好的大规模复杂查询的响应性能 缺点:维度表的冗余会较多,视野狭窄 2、关系建模 (1)定义 是数据仓库之父Inmon

1.3K31

-数据仓库ETL开发

ETL开发 概述 ETL是数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。 ?...分层的作用: 1.划分ETL阶段工作重心,便于管理 2.降低开发和维护成本 3.减少需求变化带来的冲击 4.便于数据问题跟踪 名词解释: ODS——操作性数据 DW——数据仓库 DM——数据集市 ?...STG层是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。...提交数据质量测量结果表,通常异常数据处理策略有:中断处理;把拒绝记录放在错误时间表里;只做标记,数据继续处理 纠正数据分为四个优先级:必须在ETL处理;最好在ETL处理;最好在源头处理;必须在源头处理 数据规范化: 由于数据仓库的数据来源各个业务系统

2.6K31

Greenplum 实时数据仓库实践(1)——数据仓库简介

数据仓库被设计成辅助人们分析数据。例如,一个公司要分析销售数据,就可以建立一个专注于销售的数据仓库,使用这个数据仓库,就可以回答类似于“去年谁是我们这款产品的最佳用户”这样的问题。...这个场景下的销售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,就使得数据仓库是面向主题的。主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品都是主题域的例子。...还用销售的例子,假设公司有多条产品线和多种产品销售渠道,而每个产品线都有自己独立的销售数据库。...此时要想从公司层面整体分析销售数据,必须将多个分散的数据源统一成一致的、无歧义的数据格式后,再放置到数据仓库中。因此数据仓库必须能够解决诸如产品命名冲突、计量单位不一致等等问题。...不同角色的数据仓库用户对数据的更新频率要求也会有所不同,财务主管需要每月的营收汇总报告,而销售人员想看到每天的产品销售数据。作为通用的需求,所有数据仓库系统都应该能够建立周期性自动执行的工作流作业。

1.7K51

-数据仓库ETL开发

ETL开发 概述 ETL是数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。...分层的作用: 1.划分ETL阶段工作重心,便于管理 2.降低开发和维护成本 3.减少需求变化带来的冲击 4.便于数据问题跟踪 名词解释: ODS——操作性数据 DW——数据仓库 DM——数据集市...STG层是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。...通常异常数据处理策略有:中断处理;把拒绝记录放在错误时间表里;只做标记,数据继续处理 纠正数据分为四个优先级:必须在ETL处理;最好在ETL处理;最好在源头处理;必须在源头处理 数据规范化: 由于数据仓库的数据来源各个业务系统

1.2K30

数据仓库是什么

什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。...数据仓库的特点 1. 数据仓库的数据是面向主题的 与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。什么是主题呢?...数据仓库中的数据综合工作可以在从原有数据库抽取 数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。 3....数据库中进行联机处理的数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。...但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。 数据仓库的数据是随时间的变化而不断变化的,这是数据仓库数据的第四个特征。

62710
领券