Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

530

文章

773094

阅读量

110

订阅数

Kettle构建Hadoop ETL实践（四）：建立ETL示例模型

hive 日志数据数据分析数据处理数据库

从本篇开始，介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例，说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例，描述业务场景，说明示例中包含的实体和关系，并在MySQL数据库上建立源数据库表并生成初始的数据。我们要在Hive中创建源数据过渡区和数据仓库的表，因此需要了解与Hive创建表相关的技术问题，包括使用Hive建立传统多维数据仓库时，如何选择适当的文件格式，Hive支持哪些表类型，向不同类型的表中装载数据时具有哪些不同特性。我们将以实验的方式对这些问题加以说明。在此基础上，我们就可以编写Hive的HiveQL脚本，建立过渡区和数据仓库中的表。本篇最后会说明日期维度的数据装载方式及其Kettle实现。

2020-09-08

2K0

OushuDB入门（七）——OLAP篇

数据挖掘数据处理数据可视化存储数据库

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80422836

2019-05-25

1.2K0

OushuDB入门（五）——ETL篇

内容分发网络 CDN unix 数据库数据处理 sql

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80281643

2019-05-25

1.2K0

联机分析处理简介

数据库数据结构大数据数据处理数据分析

联机分析处理（OLAP）的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时，Codd认为联机事务处理(OLTP）已不能满足终端用户对数据库查询分析的需要，SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，E.F.codd提出了多维数据库和多维分析的概念，即OLAP。

2019-05-25

1.2K0

HAWQ + MADlib 玩转数据挖掘之（三）——向量

2018-01-03

9150

MADlib——基于SQL的数据挖掘解决方案（2）——MADlib基础

数据处理 hadoop apache

一、MADlib简介 MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库，提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法，使用它能够简易地对结构化数据

2018-01-03

2.8K0

HAWQ + MADlib 玩转数据挖掘之（十二）——模型评估之交叉验证

一、交叉验证概述机器学习技术在应用之前使用“训练+检验”的模式，通常被称作“交叉验证”，如图1所示。图1 1. 预测模型的稳定性让我们通过以下几幅图来理解这个问题

2018-01-03

2.5K0

MADlib——基于SQL的数据挖掘解决方案（1）——数据挖掘入门

数据处理 sql

一、什么是数据挖掘数据挖掘（Data Mining），也叫数据开采、数据采掘等，是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，自动提取隐含在其中的、人们事先不知道的，

2018-01-03

1.8K0

HAWQ + MADlib 玩转数据挖掘之（十）——图算法之单源最短路径

本文介绍了计算单源最短路径算法在社交网络中的应用。首先介绍了单源最短路径算法的基本概念和常用算法，然后讨论了社交网络中的最短路径问题，并给出了基于Madlib的算法实现。最后，介绍了如何利用该算法计算两个人之间的最短路径。

2018-01-03

1.3K0

HAWQ + MADlib 玩转数据挖掘之（八）——聚类方法之k-means

本文介绍了聚类算法在数据分析中的应用，详细阐述了k-means算法的原理、应用场景和实现过程。同时，通过一个具体的实例，展示了如何通过聚类算法对用户数据进行分析和分类，并基于聚类结果进行营销策略的设计。

2018-01-03

1.3K0

HAWQ + MADlib 玩转数据挖掘之（七）——关联规则方法之Apriori算法

2018-01-03

1.5K0

HAWQ + MADlib 玩转数据挖掘之（十一）——分类方法之决策树

一、分类方法简介 1. 分类的概念数据挖掘中分类的目的是学会一个分类函数或分类模型（也常常被称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下：输入数据

2018-01-03

1.4K0

HAWQ取代传统数仓实践（十）——维度表技术之杂项维度

本文描述了在电商场景中，如何使用阿里云MaxCompute来实现电商订单数据的ETL处理。主要包括了以下步骤：首先在MaxCompute中创建项目，然后使用DataHub模块中的Sqoop组件来实现数据的导入，接着使用DataHub中的Hive表作为外部表，通过Hive SQL进行数据处理。在处理过程中，使用MaxCompute提供的内置函数和UDF进行数据处理，最后将处理后的数据导出到Hdfs。

2018-01-03

1.5K0

HAWQ + MADlib 玩转数据挖掘之（六）——主成分分析与主成分投影

本文介绍了主成分分析（PCA）的基本原理、应用和计算方法，以及如何通过PCA进行降维。作者通过一个实际案例，展示了PCA在数据挖掘和机器学习中的重要作用，并提供了基于Python的PCA函数和投影函数的实现方法。

2018-01-03

1.2K0

HAWQ + MADlib 玩转数据挖掘之（九）——回归方法之Logistic回归

本文介绍了基于逻辑回归的朴素贝叶斯分类器在自然语言处理领域的应用，并提供了实例和代码。

2018-01-03

1.1K0

HAWQ取代传统数仓实践（八）——维度表技术之角色扮演维度

单个物理维度可以被事实表多次引用，每个引用连接逻辑上存在差异的角色维度。例如，事实表可以有多个日期，每个日期通过外键引用不同的日期维度，原则上每个外键表示不同的日期维度视图，这样引用具

2018-01-03

1.4K0

HAWQ取代传统数仓实践（十六）——事实表技术之迟到的事实

一、迟到的事实简介数据仓库通常建立于一种理想的假设情况下，这就是数据仓库的度量（事实记录）与度量的环境（维度记录）同时出现在数据仓库中。当同时拥有事实记录和正确的当前维度行时，就能够

2018-01-03

1.4K0

HAWQ取代传统数仓实践（二）——搭建示例模型（MySQL、HAWQ）

数据处理云数据库 SQL Server

本文通过分析2023年5月15日的腾讯财报数据，从多个方面揭示了腾讯在2023年5月15日所呈现的财务、经营和战略状况。

2018-01-03

1.4K0

HAWQ取代传统数仓实践（十一）——维度表技术之维度合并

有一种合并维度的情况，就是本来属性相同的维度，因为某种原因被设计成重复的维度属性。例如，在销售订单示例中，随着数据仓库中维度的增加，我们会发现有些通用的数据存在于多个维度中。客户维度的

2018-01-03

8720

HAWQ取代传统数仓实践（十八）——层次维度

一、层次维度简介大多数维度都具有一个或多个层次。例如，示例数据仓库中的日期维度就有一个四级层次：年、季度、月和日。这些级别用date_dim表里的列表示。日期维度是一个单路径层次，因

2018-01-03

1.3K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态