这是最经典的数据仓库模型,模型上面的不多说,可以参考数据仓库理论。从技术角度上来说,
2010年左右的时候,传统的数据仓库碰上了互联网时代。传统的数据仓遇到了大量的问题,比如:
于是就有了数据湖理论。数据湖拥有着:
数据湖也面临着着不少的问题。
于是,Databricks 公司提出了 Lakehouse 的概念,试图解决这些问题。
Lakehouse 将数据仓库建立在数据湖之上,赋予了数据湖事务支持、表结构、报表以及分析应用的支持等功能。除了这些外,Lakehouse 还具有着如下特征:
Lakehouse 的关键技术在于赋予了数据湖的一个元数据层,让可追踪的文件格式变成了表的变更版本的一部分,以提供丰富的管理特征,比如事务。
Lakehouse 最重要的变革在于让基于 HDFS 的数据仓库可以处理单行数据的增删改查。因为 HDFS 本身是不支持对单行或多行数据的删改的,导致基于 HDFS 的计算引擎也不支持单行或多行数据的删改,但是 Lakehouse 通过引入了一个元数据层和后台的合并数据操作,让这些计算引擎也能够支持单行或多行数据的删改了。由此进而赋予了 HDFS 存储系统也能支持流式分析能力了。