首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

基于Hadoop生态圈的数据仓库实践 —— ETL(三)

三、使用Oozie定期自动执行ETL 1. Oozie简介 (1)Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp,及其Java程序和shell脚本等特定的系统作业。 第一版Oozie是一个基于工作流引擎的服务器,通过执行Hadoop Map/Reduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器,按时间和数据触发工作流执行。它可以基于时间(如每小时执行一次)或数据可用性(如等待输入数据完成后再执行)连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象,批量处理一系列协调器应用。用户可以在bundle级别启动、停止、挂起、继续、重做协调器作业,这样可以更好地简化操作控制。 (2)为什么需要Oozie

02

基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十一)

十一、多重星型模式 从“进阶技术”开始,已经通过增加列和表扩展了数据仓库,在进阶技术(五) “快照”里增加了第二个事实表,month_end_sales_order_fact表。这之后数据仓库模式就有了两个事实表(第一个是在开始建立数据仓库时创建的sales_order_fact表)。有了这两个事实表的数据仓库就是一个标准的双星型模式。 本节将在现有的维度数据仓库上再增加一个新的星型结构。与现有的与销售关联的星型结构不同,新的星型结构关注的是产品业务领域。新的星型结构有一个事实表和一个维度表,用于存储数据仓库中的产品数据。 1. 一个新的星型模式 下图显示了扩展后的数据仓库模式。

01

基于Hadoop生态圈的数据仓库实践 —— 进阶技术

五、快照 前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。 有些用户,尤其是管理者,经常要看某个特定时间点的数据。也就是说,他们需要数据的快照。周期快照和累积快照是两种常用的事实表扩展技术。 周期快照是在一个给定的时间对事实表进行一段时期的总计。例如,一个月销售订单周期快照汇总每个月底时总的销售订单金额。 累积快照用于跟踪事实表的变化。例如,数据仓库可能需要累积(存储)销售订单从下订单的时间开始,到订单中的商品被打包、运输和到达的各阶段的时间点数据来跟踪订单生命周期的进展情况。用户可能要取得在某个给定时间点,销售订单处理状态的累积快照。 下面说明周期快照和累积快照的细节问题。 1. 周期快照 下面以销售订单的月底汇总为例说明如何实现一个周期快照。 首先需要添加一个新的事实表。下图中的模式显示了一个名为month_end_sales_order_fact的新事实表。

02

基于Hadoop生态圈的数据仓库实践 —— 进阶技术(五)

五、快照         前面实验说明了处理维度的扩展。本节讨论两种事实表的扩展技术。         有些用户,尤其是管理者,经常要看某个特定时间点的数据。也就是说,他们需要数据的快照。周期快照和累积快照是两种常用的事实表扩展技术。         周期快照是在一个给定的时间对事实表进行一段时期的总计。例如,一个月销售订单周期快照汇总每个月底时总的销售订单金额。         累积快照用于跟踪事实表的变化。例如,数据仓库可能需要累积(存储)销售订单从下订单的时间开始,到订单中的商品被打包、运输和到达的各阶段的时间点数据来跟踪订单生命周期的进展情况。用户可能要取得在某个给定时间点,销售订单处理状态的累积快照。         下面说明周期快照和累积快照的细节问题。 1. 周期快照         下面以销售订单的月底汇总为例说明如何实现一个周期快照。         首先需要添加一个新的事实表。下图中的模式显示了一个名为month_end_sales_order_fact的新事实表。

02

HSQL测试_qt测试工具

采用C/S的模式操作HSQL数据库: 1、建立数据库的目录: e:\hsqldb 目录下建立mydb.properties 和mydb.script文件,如果目录下不建立数据库文件则会自动产生这些文件;如果需要在建立库的同时就让数据库 的对象(表等)建立好,则需要在mydb.script中写入这些执行的脚本语句,数据库启动时会读取脚本文件并执行这些脚本语句; 2、使用命令行的方式启动后台HSQL数据库: java -ms512M -mx1024M -cp hsqldb.jar org.hsqldb.Server -database.0 e:\hsqldb\mydb -dbname.0 mydb -port 9002 这样将以mydb作为数据库名启动数据库;端口为9002; 3、启动查看管理工具: java -cp hsqldb.jar org.hsqldb.util.DatabaseManager 启动后进入管理界面:选择HSQL Dabase Engine Server以客户端服务器方式进行连接; org.hsqldb.jdbcDriver jdbc:hsqldb:hsql://localhost:9002/mydb 这里要指定后台数据库监听的端口和数据库名; 其他使用自动的值连接即可,这时可以进入到库的管理界面执行各种SQL语句; 4、启动客户端程序 java -cp D:\hsql173\hsqldb\lib\hsqldb.jar;. com.guo.TestDB 启动测试的例子程序; 源程序:参照hsql的demo package com.guo;

01

Oracle函数学习(分组查询&筛选学习)

–关键字:group by 分组字段名,分组字段名… –注意1:使用了分组后,在select语句中只允许出现分组字段和多行函数。 –注意2:如果是多字段分组,则先按照第一字段分组,然后每个小组继续按照第二个字段继续分组,以此类推。 –注意3:在where子句中不允许出现多行函数。 –分组筛选 –关键字:having –作用:针对分组进行分组后的数据筛选,允许使用多行函数。 –注意:having关键必须和分组结合使用。不允许单独使用。 –where和having的比较: –where子句不允许出现多行函数,having允许出现多行函数 –where子句和having都可以使用普通字段直接进行筛选,但是where的效率高于having –where执行顺序: from—>where—>group by–>select–>order by –having执行顺序:from—>group by–>select—>having—>order by –结论:在分组语句中,使用where进行字段级别的筛选,使用having进行多行函数的筛选。 –查询最高工资和员工数 select max(sal),count() from emp –查询不同部门的最高工资 select deptno,max(sal) from emp group by deptno select * from emp –查询不同工作岗位的员工数 select job, count() from emp group by job –查询不同部门的不同工作岗位的人数 select deptno ,lower(job),count() from emp group by deptno,job order by deptno –查询不同部门的不同工作岗位的并且人数大于1的信息 select deptno ,lower(job),count() from emp group by deptno,job having count()>1 order by deptno –查询部门号大于10的不同部门的不同工作岗位的人数 –使用having关键字 select deptno ,lower(job),count() from emp group by deptno,job having deptno>10 order by deptno –使用where关键字 select deptno,job,count(*) from emp where deptno>10 group by deptno,job order by deptno —SQL查询语句的结构 –select 子句 要查询的数据(oracle函数,别名,连接符,去除重复,逻辑运算) –from语句 决定要查询的表(表名) –where子句 筛选数据(筛选条件,关键字) –group by子句 分组 (分组字段) –having子句 分组筛选 (多行函数筛选条件) –order by子句 排序 (排序) –from–>where—>group by–>select—>having—>order by

01

oracle--单表查询

---单表的查询学习 --查询表的所有数据 select * from 表名;*代表所有 select * from emp; --查询表中指定字段的值 select 字段名1,字段名2,...from表名 select empno from emp; select empno,ename from emp; --给查询结果中的字段使用别名 --在字段名后使用关键字 字段名 as "别名" --作用:方便查看查询结果 --注意:as关键字可以省略不写,别名中没有特殊字符双引号也可以省略不写。 select empno 员工编号,ename"员工 姓名",job as 工作,mgr as "领导编号" from emp; --连接符:select 字段名||'字符'||字段名||..... from 表名 --||为sql语句的字符链接符,使用在select和from之间 --字符链接格式为 字段名||'字符'||字段名 --注意:一个拼接好的连接在结果集中是作为一个新的字段显示,可以使用别名优化字段显示。 select empno||'的姓名是'||ename as"信息",job||'哈哈'||mgr from emp; --去除重复 select distinct 字段名,字段名,...fromn 表名 ---注意:去除重复的规则是按照行进行去除的,多行数据完全相同取其一 select distinct job ,mgr from emp; --排序 --单字段排序 --select * from 表名 order by 字段名 asc 升序排序 asc可以省略不写 --select * from 表名 order by 字段名 desc 降序序排序 --多字段排序 --select * from emp order by 字段名1,字段名2... --先按照字段1排序,如果字段1的值相同,则按照字段2排序,.... select * from emp order by empno desc--单字段排序 降序 select empno,ename,job from emp order by ename asc--单字段排序 升序 select * from emp order by empno,ename--多字段排序 --字段的逻辑运算 --select关键字和from关键字之间的字段可以直接进行四则运算 --字段与字段之间也可以直接进行运算 --注意:字段值为数值类型 select * from emp select empno,ename,job,sal*2+1000,sal+comm from emp ----------------------------------------------------------------- --使用where子句查询筛选 --select 字段名,字段名,...from表名 where 筛选条件 --单筛选条件 --使用运算符进行筛选 =,>,>=,<,<=,<> 单个条件中 --注意:如果条件中的值为字符,必须使用单引号括起来 --查询所有的员工的工资信息 select empno,ename,sal+comm as 薪资 from emp --查询SMITH的个人信息 select * from emp where ename='SMITH' --查询SMITH的薪资信息,逻辑运算符= select empno,ename,sal,sal+comm from emp where ename='SMITH' --查询工资大于1000的员工信息,逻辑符> select * from emp where sal>'2000' --查询工资不等于3000的员工信息 select * from emp where sal<>3000 order by sal --练习: --查看工资等于1250的员工信息

01
领券