用户1148526

LV1
发表了文章

Hive/Spark小文件解决方案(企业级实战)

原文链接:https://mp.weixin.qq.com/s/m4NPnZaKJMXKrTwtZoOQeQ

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(十):并行、集群与分区

本专题前面系列文章详细说明了使用Kettle的转换和作业,实现Hadoop上多维数据仓库的ETL过程。通常Hadoop集群存储的数据量是TB到P...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(九):事实表技术

上两篇里介绍了几种基本的维度表技术,并用示例演示了每种技术的实现过程。本篇说明多维数据仓库中常见的事实表技术。我们将讲述五种基本事实表扩展,分别...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(八-1):维度表技术

前面文章中,我们用Kettle工具实现了Hadoop多维数据仓库的基本功能,如使用Sqoop作业项、SQL脚本、Hadoop file outp...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(八-2):维度表技术

数据仓库中的关联实体经常表现为一种“父—子”关系。在这种类型的关系中,一个父亲可能有多个孩子,而一个孩子只能属于一个父亲。例如,通常一名企业员工...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业

一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(六):数据转换与装载

本篇重点是针对销售订单示例创建并测试数据装载的Kettle作业和转换。在此之前,先简要介绍数据清洗的概念,并说明如何使用Kettle完成常见的数据清洗工作。由于...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(五):数据抽取

本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数据仓库的数据抽取,即ETL过程中的Extract部分。首先简述Kettle中...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(四):建立ETL示例模型

从本篇开始,介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例,说明多维模型及其相关ETL技术在Kettle上的...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(三):Kettle对Hadoop的支持

本篇演示使用Kettle操作Hadoop上的数据。首先概要介绍Kettle对大数据的支持,然后用示例说明Kettle如何连接Hadoop,如何导入导出Hadoo...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(二):安装与配置

在前一篇里介绍了ETL和Kettle的基本概念,内容偏重于理论。从本篇开始,让我们进入实践阶段。工欲善其事,必先利其器。既然我们要用Kettle构建Hadoop...

用户1148526
发表了文章

快速安全清理MySQL binlog

之前写过一篇名为“快速安全删除MySQL大表”的博客,讲解如何在不影响线上数据库服务的前提下删除大表。实际上清理MySQL binlog也会遇到...

用户1148526
发表了文章

Kettle构建Hadoop ETL实践(一):ETL与Kettle

我在2017年写了一本名为《Hadoop构建数据仓库实践》的书。在这本书中,较为详细地讲解了如何利用Hadoop(Cloudera's Distribution...

用户1148526
发表了文章

DBeaver连接hive、impala、phoenix、HAWQ、redis

伴随着技术的不断发展与进步,我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2等关系数据库,到方...

用户1148526
发表了文章

Kettle与Hadoop(九)提交Spark作业

实验环境: Spark History Server: 172.16.1.126

用户1148526
发表了文章

Kettle与Hadoop(八)执行Oozie作业

/root/big_data/job.properties文件的内容如下:

用户1148526
发表了文章

Kettle与Hadoop(七)执行Sqoop作业

1. 建立一个作业,将HDFS文件导出到MySQL数据库。 (1)打开PDI,新建一个作业,如图1所示。

用户1148526
发表了文章

Kettle与Hadoop(六)执行HiveQL语句

https://blog.csdn.net/wzy0623/article/details/106471124#2.%20%E5%90%91Hive%E5%AF...

用户1148526
发表了文章

Kettle与Hadoop(五)执行MapReduce

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。

用户1148526
发表了文章

Kettle与Hadoop(四)导入导出Hadoop集群数据

http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?ve...

用户1148526

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券