Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

530

文章

773030

阅读量

110

订阅数

Oracle 10.2 流复制问题（四）—— ORA-01341: LOGMINER OUT-OF-MEMORY in Oracle Streams

系统配置：Linux CentOS 5、Oracle Enterprise Edition Release 10.2.0.1.0、表级单向流复制问题现象：流复制失效，源表更新，目标表没有更新排错过程：

2022-05-07

2240

hive动态分区插入实验

实验目的 1. 验证对分区表进行动态分区插入功能 2. 验证是否可以使用load进行动态分区插入实验步骤 1. 在本地文件/home/grid/a.txt中写入以下4行数据： aaa,US,CA aaa,US,CB bbb,CA,BB bbb,CA,BC 2. 建立非分区表并加载数据

2022-05-07

6080

Greenplum 实时数据仓库实践（8）——事实表技术

数据库数据分析 sql

上一篇里介绍了几种基本的维度表技术，并用示例演示了每种技术的实现过程。本篇说明多维数据仓库中常见的事实表技术。我们将讲述五种基本事实表扩展技术，分别是周期快照、累积快照、无事实的事实表、迟到的事实和累积度量。和讨论维度表一样，也会从概念开始认识这些技术，继而给出常见的使用场景，最后以销售订单数据仓库为例，给出实现代码和测试过程。

2022-04-13

1.5K0

Greenplum 实时数据仓库实践（2）——数据仓库设计基础

数据库管理数据库数据分析数据结构 sql

本篇首先介绍关系数据模型、多维数据模型和Data Vault模型这三种常见的数据仓库模型和与之相关的设计方法，然后讨论数据集市的设计问题，最后说明一个数据仓库项目的实施步骤。规划实施过程是整个数据仓库设计的重要组成部分。

2021-12-07

1.8K0

Kettle构建Hadoop ETL实践（九）：事实表技术

大数据 sql 数据库数据分析编程算法

上两篇里介绍了几种基本的维度表技术，并用示例演示了每种技术的实现过程。本篇说明多维数据仓库中常见的事实表技术。我们将讲述五种基本事实表扩展，分别是周期快照、累积快照、无事实的事实表、迟到的事实和累积度量。和讨论维度表一样，也会从概念开始认识这些技术，继而给出常见的使用场景，最后以销售订单数据仓库为例，给出Kettle实现的作业、转换和测试过程。

2020-11-26

5.9K0

Kettle构建Hadoop ETL实践（四）：建立ETL示例模型

hive 日志数据数据分析数据处理数据库

从本篇开始，介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例，说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例，描述业务场景，说明示例中包含的实体和关系，并在MySQL数据库上建立源数据库表并生成初始的数据。我们要在Hive中创建源数据过渡区和数据仓库的表，因此需要了解与Hive创建表相关的技术问题，包括使用Hive建立传统多维数据仓库时，如何选择适当的文件格式，Hive支持哪些表类型，向不同类型的表中装载数据时具有哪些不同特性。我们将以实验的方式对这些问题加以说明。在此基础上，我们就可以编写Hive的HiveQL脚本，建立过渡区和数据仓库中的表。本篇最后会说明日期维度的数据装载方式及其Kettle实现。

2020-09-08

2K0

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

大数据数据分析数据可视化编程算法命令行工具

我在2017年写了一本名为《Hadoop构建数据仓库实践》的书。在这本书中，较为详细地讲解了如何利用Hadoop（Cloudera's Distribution Including Apache Hadoop，CDH）生态圈组件构建传统数据仓库。例如，使用Sqoop从关系数据库全量或增量抽取数据到Hadoop系统，使用Hive进行数据转换和装载处理等等。作为进阶，书中还说明了数据仓库技术中的渐变维、代理键、角色扮演维度、层次维度、退化维度、无事实事实表、迟到事实、累计度量等常见问题在Hadoop上的处理。它们都是通过Hive SQL来实现的，其中有些SQL语句逻辑复杂，可读性也不是很好。

2020-08-17

4.6K0

基于Hadoop生态圈的数据仓库实践 —— 环境搭建（三）

hadoop 数据分析 hive 数据库 sql

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51783410

2019-05-25

1.1K1

让Hive支持行级insert、update、delete

hive https 网络安全 apache 数据分析

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51483674

2019-05-25

4.6K0

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（四）

专用宿主机数据分析数据可视化 hadoop 网站

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52352818

2019-05-25

1.1K0

MADlib——基于SQL的数据挖掘解决方案（3）——数据类型之向量

编程算法数据挖掘数据分析

通常数据挖掘操作的数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征（如物体质量或事件发生的时间）的属性描述。属性有时也叫做变量、特性、字段、特征或维。而在数学上，向量和矩阵可以用来表示数据对象及其属性。

2019-05-25

1.8K0

Oracle Dimension （Oracle 维）

在数据仓库环境中，我们通常利用物化视图强大的查询重写功能来提升统计查询的性能，但是物化视图的查询重写功能有时候无法智能地判断查询中一些相关联的条件，以至于影响性能。比如我们有一张销售表sales，用于存储订单的详细信息，包含交易日期、顾客编号和销售量。我们创建一张物化视图，按月存储累计销量信息，假如这时候我们要查询按季度或者按年度统计销量信息，Oracle是否能够智能地转换查询重写呢？我们知道交易日期中的日期意味着月，月意味着所处的季度，季度意味着年度，但是Oracle却是无法智能地判断这其中的关系，因此无法利用物化视图查询重写来返回我们季度或年度的销量信息，而是直接查询基表，导致性能产生问题。

2019-05-25

8170

Oracle流复制配置最佳实践

数据库 sql 数据分析 tcp/ip 云推荐引擎

(2) 配置本地归档目标路径，log_archive_dest_1参数，不要使用flash recovery area。

2019-05-25

1.2K0

MADlib——基于SQL的数据挖掘解决方案（10）——数据探索之主成分分析

数据分析编程算法数据挖掘

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/79160959

2019-05-25

1K0

联机分析处理简介

数据库数据结构大数据数据处理数据分析

联机分析处理（OLAP）的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时，Codd认为联机事务处理(OLTP）已不能满足终端用户对数据库查询分析的需要，SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，E.F.codd提出了多维数据库和多维分析的概念，即OLAP。

2019-05-25

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态