首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Greenplum 实时数据仓库实践(3)——Greenplum数据仓库

2006年,当时的Sun微系统公司与Greenplum开始联手打造即时数据仓库。...Greenplum于2015年10月开源,社区具有很高的知名度和热度,至今依然保持着几周发版的更新速度。...在2020年Pivotal被兄弟公司VMWare收购,由VMWare继续运营商业产品,形成了商业VMware Tanzu Greenplum开源Greenplum两条产品线。...Greenplum基于这种架构可以帮助客户创建数据仓库Greenplum从开始设计的时候就被定义成数据仓库),充分利用低成本的商用服务器、存储和联网设备,通过经济的方式进行PB级数据运算,并且在处理OLAP...那么作为用户,面对这么多技术选型,我们何时以及为什么要选择Greenplum构建数据仓库

3.9K20

Greenplum 实时数据仓库实践(1)——数据仓库简介

例如,一个用户正在生成一个采购订单,并且已经生成了订单主记录,但还没有生成订单条目明细记录。此时订单主记录能否被其他并发用户看到呢?这就是由隔离级别决定的。...图1-10显示了一个简化的、落地的、基于MySQL、Canal、Kafka、Greenplum构建的实时数据仓库架构。本专题后面讨论的实践部分都基于此架构进行设计开发。...Canal Adapter作为数据消费者从Kafka接收消息,然后将数据写入Greenplum。...Greenplum是一种成熟的MPP架构的分布式数据库,提供了丰富全面的功能,并且性能优良,比较适合作为实时数据仓库的存储、数据处理和数据查询。...作为数据库管理系统,还可以利用Greenplum统一管理元数据。

1.7K51

Greenplum 实时数据仓库实践(2)——数据仓库设计基础

表2-2到表2-4分别为大部分主流数据库系统(Oracle、MySQL、PostgreSQL、Greenplum等)的非、与、或逻辑运算真值表。...大部分主流数据库系统(Oracle、MySQL、PostgreSQL、Greenplum等)支持叫做check的约束,也用于定义列中可以接受的值,但这种约束是定义在属性域之上的,比属性域的约束性更强。...2.4.2 数据集市与数据仓库的区别 不同于数据集市,数据仓库处理整个组织范围内的多个主题域,通常是由组织内的核心单位,如IT部门承建,所以经常被称为中心数据仓库或企业数据仓库。...2.5 数据仓库实施步骤 实施一个数据仓库项目的主要步骤是:定义项目范围、收集并确认业务需求和技术需求、逻辑设计、物理设计、从源系统向数据仓库装载数据、使数据可以被访问以辅助决策、管理和维护数据仓库...第3篇会详细讨论数据仓库Greenplum上的扩展性问题。 5. 装载数据 这个步骤实际上涉及整个ETL过程。

1.7K30

Greenplum 实时数据仓库实践(8)——事实表技术

Greenplum没有提供如PostgreSQL中的pg_cron、MySQL中的event、Oracle中的dbms_scheduler或dbms_job等定时任务功能组件,只能通过操作系统的crontab...累积快照事实表在库存、采购、销售、电商等业务领域都有广泛应用。比如在电商订单里面,下单的时候只有下单时间,但是在支付的时候,又会有支付时间,同理,还有发货时间,完成时间等。...rdb]$cat sales_order.yml dataSourceKey: defaultDS destination: example groupId: g1 outerAdapterKey: Greenplum...8.5 迟到的事实 数据仓库通常建立在一种理想的假设情况下,这就是数据仓库的度量(事实记录)与度量的环境(维度记录)同时出现在数据仓库中。...month_sk, t2.product_sk, t2.year_month, t2.order_amount, t2.order_quantity); commit; end; / Greenplum

1.4K11

Greenplum 实时数据仓库实践(5)——实时数据同步

当操作型数据进入数据仓库过渡区或ODS以后,就可以利用数据仓库系统软件提供的功能特性进行后续处理,不论是Greenplum、Hive或是其他软件,这些处理往往只需要使用其中一种,相对来说简单一些。...Greenplum作为数据仓库的计算引擎,其数据来源多是业务数据,其中以MySQL为主。...本篇将介绍两种主要的从MySQL实时同步数据到Greenplum的解决方案,一是maxwell + Kafka + bireme、二是Canal + Kafka + ClientAdapter,这两个方案的共同点是都使用开源组件...本篇介绍的两种实时数据同步方案都是使用开源组件完成类似功能。...安装部署参见本专题上一篇“Greenplum 实时数据仓库实践(4)——Greenplum安装部署”。

3.5K30

Greenplum 实时数据仓库实践(6)——实时数据装载

对创建示例模型过程中用到的Greenplum技术或对象,随时插入相关说明。 6.1 建立数据仓库示例模型 6.1.1 业务场景 1....因为数据仓库的主要功能之一就是存储和追溯历史数据,所以每个数据仓库里的数据都有一个时间特征。本例中创建一个Greenplum的函数,一次性预装载日期数据。...这对于数据仓库来说并无大碍,想想UUID主键!我们只要切记Greenplum的序列只保证唯一性,不保证顺序性,因此应用逻辑不要依赖代理键的顺序。...本示例模型在MySQL中建立源库表,在Greenplum中建立RDS和TDS模式,RDS中存储同步表,TDS存储数据仓库表。...用Greenplum rule能够实现多维数据仓库的自动实时数据装载。 对于分区表,Greenplum建议只创建一级分区,通常需要进行定期的动态分区滚动维护。

2.3K20

Greenplum 实时数据仓库实践(10)——集成机器学习库MADlib

奇异值分解 10.5 模型评估 10.5.1 交叉验证 10.5.2 MADlib的交叉验证相关函数 10.5.3 交叉验证示例 小结 ---- MADlib是一个基于SQL的数据库内置的开源机器学习库...Greenplum MADlib扩展提供了在Greenplum数据库中进行机器学习和深度学习工作的能力。 本篇首先介绍MADlib的一些基本概念及其有别于其他机器学习工具包的特点。...例如,在Greenplum中执行MADlib函数时,每个Segment在执行查询的时候会启动一个查询执行器,从而使Greenplum能够更好地利用所有可用资源。...图1-1 Greenplum MADlib数据分析架构 MADlib基于SQL的算法在单个Greenplum数据库引擎中运行,无需在数据库和其他工具之间传输数据。...Greenplum数据库执行非常快速的顺序扫描,索引使用随机搜索模式来定位磁盘上的记录。Greenplum数据分布在各个数据段中,因此每个数据段扫描整个数据的一小部分以获得结果。

87520
领券