首页
学习
活动
专区
工具
TVP
发布

Hadoop数据仓库

专栏成员
529
文章
772249
阅读量
110
订阅数
维度模型数据仓库(三) —— 准备数据仓库模拟环境
(二)准备数据仓库模拟环境         上一篇说了很多数据仓库和维度模型的理论,从本篇开始落地实操,用一个小而完整的示例说明维度模型及其相关的ETL技术。示例数据库和ETL的SQL实现是在《Dimensional Data Warehousing with MySQL: A Tutorial》基础上做了些修改,增加了Kettle实现的部分。本篇详细说明数据仓库模拟实验环境搭建过程。         操作系统:Linux 2.6.32-358.el6.x86_64         数据库:MySQL 5.6.14 for Linux 64位         Kettle:GA Release 5.1.0         实验环境搭建过程:         1. 设计ERD         2. 建立源数据数据库和数据仓库数据库         3. 建立源库表         4. 建立数据仓库表         5. 建立过渡表         6. 生成源库测试数据         7. 生成日期维度数据         源数据数据库初始ERD如图(二)- 1所示         数据仓库数据库初始ERD如图(二)- 2所示         执行清单(二)- 1里的SQL脚本完成2-7步的任务
用户1148526
2022-12-02
1K0
hive安装配置实验
一、安装前准备 1. 安装配置Hadoop,见http://blog.csdn.net/wzy0623/article/details/50681554 2. 下载安装包 mysql-5.7.10-linux-glibc2.5-x86_64 apache-hive-1.2.1-bin.tar.gz mysql-connector-java-5.1.38.tar.gz 二、安装MySQL 1. 解压 tar -zxvf mysql-5.7.10-linux-glibc2.5-x86_64.tar.gz 2. 建立软连接 ln -s /home/grid/mysql-5.7.10-linux-glibc2.5-x86_64 mysql 3. 建立数据目录 mkdir /home/grid/mysql/data 4. 编辑配置文件~/.my.cnf内容如下 [mysqld]   basedir=/home/grid/mysql  datadir=/home/grid/mysql/data log_error=/home/grid/mysql/data/master.err log_error_verbosity=2  5. 初始化安装,并记下初始密码 mysqld --defaults-file=/home/grid/.my.cnf --initialize 6. 启动MySQL mysqld --defaults-file=/home/grid/.my.cnf --user=grid & 7. 登录MySQL,修改初始密码 mysql -u root -p  mysql> ALTER USER USER() IDENTIFIED BY 'new_password'; mysql> exit; 8. 在/etc/profile中添加环境变量 export PATH=$PATH:/home/grid/mysql/bin 三、安装配置hive 1. 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz 2. 建立软连接 ln -s /home/grid/apache-hive-1.2.1-bin hive 3. 建立临时目录 mkdir /home/grid/hive/iotmp 4. 建立配置文件hive-site.xml cp ~/hive/conf/hive-default.xml.template ~/hive/conf/hive-site.xml 5. 新建配置文件hive-site.xml,内容如下:
用户1148526
2022-05-07
2930
Hadoop集群安装配置实验
一、环境 四台 VirtualBox上的Linux虚机,每台硬盘20G,内存768M。 IP与主机名: 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划: 192.168.56.101做master,运行NameNode和ResourceManager进程。其它三台主机做slave,运行DataNode和NodeManager进程。 操作系统:CentOS release 6.4 (Final) java版本:jdk1.7.0_75 hadoop版本:hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java(安装包下载已经到grid用户主目录): cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh(这里配置了任意两台机器都免密码) (1)分别在四台机器上生成密钥对: cd ~ ssh-keygen -t rsa 然后一路回车 (2)在master上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ (3)在slave1上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ (4)在slave2上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ (5)在slave3上执行: cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此,免密码ssh配置完成。 三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop(安装包下载已经到grid用户主目录): cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件 (1)编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件,添加如下内容,如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>
用户1148526
2022-05-07
4450
VirtualBox下Linux虚机扩容
节后上班第一天,按计划着手搭建hadoop和hive实验环境,还没开始安装就碰到一个坎,JDK安装包解包时报空间不足。原来的四个虚机,每个分配了8G,其中根文件系统6G,做完Fabric实验后空间所剩无几,因此需要扩容。下面记录的就是实际操作步骤。 环境: VirtualBox 5.0.10、CentOS release 6.4 1. 使用下面的命令查看虚拟机的UUID VBoxManage list hdds 结果如图1所示:
用户1148526
2022-05-07
2K0
Hive/Spark小文件解决方案(企业级实战)
原文链接:https://mp.weixin.qq.com/s/m4NPnZaKJMXKrTwtZoOQeQ
用户1148526
2021-01-20
5.2K0
Kettle构建Hadoop ETL实践(二):安装与配置
在前一篇里介绍了ETL和Kettle的基本概念,内容偏重于理论。从本篇开始,让我们进入实践阶段。工欲善其事,必先利其器。既然我们要用Kettle构建Hadoop ETL应用,那么先要做的就是安装Kettle。本篇首先阐述选择安装环境所要考虑的因素,之后详细介绍Kettle的安装过程,最后说明Kettle配置文件、启动脚本和JDBC驱动管理。本专题后面的实践部分都是基于这里所安装的Kettle之上完成的。
用户1148526
2020-08-26
7.4K0
批量取redis key/value和批量删除key
需求:取出所有前缀为g.at.ga.的string类型的key及其value 实现: 1. 取出key redis-cli -p 26379 -a 123456 -n 0 keys g.at.ga.* > a.txt 2. 拼出取value的命令 sed 's/^/get &/g' a.txt > b.txt 3. 取value cat b.txt | redis-cli -p 26379 -a 123456 -n 0 --pipe > c.txt 4. 将key、value 拼成一个文件 paste a.txt c.txt > d.txt
用户1148526
2020-02-14
4.7K0
使用RMAN duplicate做GoldenGate实例化
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53895518
用户1148526
2019-05-25
6170
Oracle sqlldr快速导入
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53894687
用户1148526
2019-05-25
2.2K0
在ETL过程中对递归树的历史维护实验
-- 当前递归树 CREATE TABLE TREE_CUR ( C_CHILD VARCHAR2(32 BYTE), C_NAME VARCHAR2(100 BYTE), C_PARENT VARCHAR2(32 BYTE) ); CREATE INDEX IDX1 ON TREE_CUR (C_PARENT); CREATE UNIQUE INDEX TREE_CUR_PK ON TREE_CUR (C_CHILD); ALTER
用户1148526
2019-05-25
5390
在MV上建立触发器实验
-- 建立MV测试表 CREATE TABLE tbl1 ( a NUMBER, b VARCHAR2 (20) ); CREATE UNIQUE INDEX tbl1_pk ON tbl1 (a); ALTER TABLE tbl1 ADD (CONSTRAINT tbl1_pl PRIMARY KEY(a)); -- 建立MV日志,单一表聚合视图的快速刷新需要指定including new values子句 CREATE MA
用户1148526
2019-05-25
4690
初学乍练redis:事务与脚本
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/82350861
用户1148526
2019-05-25
1K0
Oracle 10.2 流复制问题(二)—— C001: large txn detected
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53924033
用户1148526
2019-05-25
3800
Oracle 10.2 流复制问题(一)—— ORA-01403: no data found
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53923991
用户1148526
2019-05-25
6090
将MySQL去重操作优化到极致之三弹连发(一):巧用索引与变量
本文介绍了如何利用MySQL数据库进行去重统计,通过创建索引、分组统计和联合查询等方法,实现对大数据的高效去重统计。同时介绍了MySQL的去重机制和分组统计的实现方法,并给出了具体实践案例。
用户1148526
2018-01-03
5.3K1
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档