首页
学习
活动
专区
工具
TVP
发布

Hadoop数据仓库

专栏成员
530
文章
773094
阅读量
110
订阅数
Kettle构建Hadoop ETL实践(四):建立ETL示例模型
从本篇开始,介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例,说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例,描述业务场景,说明示例中包含的实体和关系,并在MySQL数据库上建立源数据库表并生成初始的数据。我们要在Hive中创建源数据过渡区和数据仓库的表,因此需要了解与Hive创建表相关的技术问题,包括使用Hive建立传统多维数据仓库时,如何选择适当的文件格式,Hive支持哪些表类型,向不同类型的表中装载数据时具有哪些不同特性。我们将以实验的方式对这些问题加以说明。在此基础上,我们就可以编写Hive的HiveQL脚本,建立过渡区和数据仓库中的表。本篇最后会说明日期维度的数据装载方式及其Kettle实现。
用户1148526
2020-09-08
2K0
OushuDB入门(七)——OLAP篇
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80422836
用户1148526
2019-05-25
1.2K0
OushuDB入门(五)——ETL篇
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80281643
用户1148526
2019-05-25
1.2K0
联机分析处理简介
联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,E.F.codd提出了多维数据库和多维分析的概念,即OLAP。
用户1148526
2019-05-25
1.2K0
HAWQ + MADlib 玩转数据挖掘之(三)——向量
用户1148526
2018-01-03
9150
MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础
一、MADlib简介         MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据
用户1148526
2018-01-03
2.8K0
HAWQ + MADlib 玩转数据挖掘之(十二)——模型评估之交叉验证
一、交叉验证概述         机器学习技术在应用之前使用“训练+检验”的模式,通常被称作“交叉验证”,如图1所示。 图1 1. 预测模型的稳定性         让我们通过以下几幅图来理解这个问题
用户1148526
2018-01-03
2.5K0
MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门
一、什么是数据挖掘         数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,
用户1148526
2018-01-03
1.8K0
HAWQ + MADlib 玩转数据挖掘之(十)——图算法之单源最短路径
本文介绍了计算单源最短路径算法在社交网络中的应用。首先介绍了单源最短路径算法的基本概念和常用算法,然后讨论了社交网络中的最短路径问题,并给出了基于Madlib的算法实现。最后,介绍了如何利用该算法计算两个人之间的最短路径。
用户1148526
2018-01-03
1.3K0
HAWQ + MADlib 玩转数据挖掘之(八)——聚类方法之k-means
本文介绍了聚类算法在数据分析中的应用,详细阐述了k-means算法的原理、应用场景和实现过程。同时,通过一个具体的实例,展示了如何通过聚类算法对用户数据进行分析和分类,并基于聚类结果进行营销策略的设计。
用户1148526
2018-01-03
1.3K0
HAWQ + MADlib 玩转数据挖掘之(七)——关联规则方法之Apriori算法
用户1148526
2018-01-03
1.5K0
HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树
一、分类方法简介 1. 分类的概念         数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下:输入数据
用户1148526
2018-01-03
1.4K0
HAWQ取代传统数仓实践(十)——维度表技术之杂项维度
本文描述了在电商场景中,如何使用阿里云MaxCompute来实现电商订单数据的ETL处理。主要包括了以下步骤:首先在MaxCompute中创建项目,然后使用DataHub模块中的Sqoop组件来实现数据的导入,接着使用DataHub中的Hive表作为外部表,通过Hive SQL进行数据处理。在处理过程中,使用MaxCompute提供的内置函数和UDF进行数据处理,最后将处理后的数据导出到Hdfs。
用户1148526
2018-01-03
1.5K0
HAWQ + MADlib 玩转数据挖掘之(六)——主成分分析与主成分投影
本文介绍了主成分分析(PCA)的基本原理、应用和计算方法,以及如何通过PCA进行降维。作者通过一个实际案例,展示了PCA在数据挖掘和机器学习中的重要作用,并提供了基于Python的PCA函数和投影函数的实现方法。
用户1148526
2018-01-03
1.2K0
HAWQ + MADlib 玩转数据挖掘之(九)——回归方法之Logistic回归
本文介绍了基于逻辑回归的朴素贝叶斯分类器在自然语言处理领域的应用,并提供了实例和代码。
用户1148526
2018-01-03
1.1K0
HAWQ取代传统数仓实践(八)——维度表技术之角色扮演维度
        单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度。例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每个外键表示不同的日期维度视图,这样引用具
用户1148526
2018-01-03
1.4K0
HAWQ取代传统数仓实践(十六)——事实表技术之迟到的事实
一、迟到的事实简介         数据仓库通常建立于一种理想的假设情况下,这就是数据仓库的度量(事实记录)与度量的环境(维度记录)同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时,就能够
用户1148526
2018-01-03
1.4K0
HAWQ取代传统数仓实践(二)——搭建示例模型(MySQL、HAWQ)
本文通过分析2023年5月15日的腾讯财报数据,从多个方面揭示了腾讯在2023年5月15日所呈现的财务、经营和战略状况。
用户1148526
2018-01-03
1.4K0
HAWQ取代传统数仓实践(十一)——维度表技术之维度合并
        有一种合并维度的情况,就是本来属性相同的维度,因为某种原因被设计成重复的维度属性。例如,在销售订单示例中,随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中。客户维度的
用户1148526
2018-01-03
8720
HAWQ取代传统数仓实践(十八)——层次维度
一、层次维度简介         大多数维度都具有一个或多个层次。例如,示例数据仓库中的日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列表示。日期维度是一个单路径层次,因
用户1148526
2018-01-03
1.3K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档