Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

529

文章

772450

阅读量

110

订阅数

维度模型数据仓库（三） —— 准备数据仓库模拟环境

大数据存储数据库 linux sql

（二）准备数据仓库模拟环境上一篇说了很多数据仓库和维度模型的理论，从本篇开始落地实操，用一个小而完整的示例说明维度模型及其相关的ETL技术。示例数据库和ETL的SQL实现是在《Dimensional Data Warehousing with MySQL: A Tutorial》基础上做了些修改，增加了Kettle实现的部分。本篇详细说明数据仓库模拟实验环境搭建过程。操作系统：Linux 2.6.32-358.el6.x86_64 数据库：MySQL 5.6.14 for Linux 64位 Kettle：GA Release 5.1.0 实验环境搭建过程： 1. 设计ERD 2. 建立源数据数据库和数据仓库数据库 3. 建立源库表 4. 建立数据仓库表 5. 建立过渡表 6. 生成源库测试数据 7. 生成日期维度数据源数据数据库初始ERD如图（二）- 1所示数据仓库数据库初始ERD如图（二）- 2所示执行清单（二）- 1里的SQL脚本完成2-7步的任务

2022-12-02

1K0

hive安装配置实验

hive java xml apache linux

一、安装前准备 1. 安装配置Hadoop，见http://blog.csdn.net/wzy0623/article/details/50681554 2. 下载安装包 mysql-5.7.10-linux-glibc2.5-x86_64 apache-hive-1.2.1-bin.tar.gz mysql-connector-java-5.1.38.tar.gz 二、安装MySQL 1. 解压 tar -zxvf mysql-5.7.10-linux-glibc2.5-x86_64.tar.gz 2. 建立软连接 ln -s /home/grid/mysql-5.7.10-linux-glibc2.5-x86_64 mysql 3. 建立数据目录 mkdir /home/grid/mysql/data 4. 编辑配置文件~/.my.cnf内容如下 [mysqld] basedir=/home/grid/mysql datadir=/home/grid/mysql/data log_error=/home/grid/mysql/data/master.err log_error_verbosity=2 5. 初始化安装，并记下初始密码 mysqld --defaults-file=/home/grid/.my.cnf --initialize 6. 启动MySQL mysqld --defaults-file=/home/grid/.my.cnf --user=grid & 7. 登录MySQL，修改初始密码 mysql -u root -p mysql> ALTER USER USER() IDENTIFIED BY 'new_password'; mysql> exit; 8. 在/etc/profile中添加环境变量 export PATH=$PATH:/home/grid/mysql/bin 三、安装配置hive 1. 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz 2. 建立软连接 ln -s /home/grid/apache-hive-1.2.1-bin hive 3. 建立临时目录 mkdir /home/grid/hive/iotmp 4. 建立配置文件hive-site.xml cp ~/hive/conf/hive-default.xml.template ~/hive/conf/hive-site.xml 5. 新建配置文件hive-site.xml，内容如下：

2022-05-07

2930

Hadoop集群安装配置实验

ssh hadoop 面向对象编程 node.js linux

一、环境四台 VirtualBox上的Linux虚机，每台硬盘20G，内存768M。 IP与主机名： 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 主机规划： 192.168.56.101做master，运行NameNode和ResourceManager进程。其它三台主机做slave，运行DataNode和NodeManager进程。操作系统：CentOS release 6.4 (Final) java版本：jdk1.7.0_75 hadoop版本：hadoop-2.7.2 二、安装前准备 1. 分别在四台机器上建立grid用户 useradd -d /home/grid -m grid usermod -G root grid 2. 分别在四台机器上的/etc/hosts文件中添加如下内容 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 slave3 以下的操作均使用grid用户执行。 3. 分别在四台机器上安装java（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf jdk-7u75-linux-x64.tar.gz 4. 配置免密码ssh（这里配置了任意两台机器都免密码）（1）分别在四台机器上生成密钥对： cd ~ ssh-keygen -t rsa 然后一路回车（2）在master上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.101 scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ （3）在slave1上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.102 scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ （4）在slave2上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.103 scp /home/grid/.ssh/authorized_keys 192.168.56.104:/home/grid/.ssh/ （5）在slave3上执行： cd ~/.ssh/ ssh-copy-id 192.168.56.104 scp /home/grid/.ssh/authorized_keys 192.168.56.101:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.102:/home/grid/.ssh/ scp /home/grid/.ssh/authorized_keys 192.168.56.103:/home/grid/.ssh/ 至此，免密码ssh配置完成。三、安装配置hadoop 以下的操作均使用grid用户在master主机上执行。 1. 安装hadoop（安装包下载已经到grid用户主目录）： cd ~ tar -zxvf hadoop-2.7.2.tar.gz 2. 建立目录 cd ~/hadoop-2.7.2 mkdir tmp mkdir hdfs mkdir hdfs/data mkdir hdfs/name 3. 修改配置文件（1）编辑~/hadoop-2.7.2/etc/hadoop/core-site.xml文件，添加如下内容，如图1所示。 <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.56.101:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/grid/hadoop-2.7.2/tmp</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> </configuration>

2022-05-07

4450

VirtualBox下Linux虚机扩容

linux jquery node.js

节后上班第一天，按计划着手搭建hadoop和hive实验环境，还没开始安装就碰到一个坎，JDK安装包解包时报空间不足。原来的四个虚机，每个分配了8G，其中根文件系统6G，做完Fabric实验后空间所剩无几，因此需要扩容。下面记录的就是实际操作步骤。环境： VirtualBox 5.0.10、CentOS release 6.4 1. 使用下面的命令查看虚拟机的UUID VBoxManage list hdds 结果如图1所示：

2022-05-07

2K0

Hive/Spark小文件解决方案(企业级实战)

spark linux mapreduce sql 数据库

原文链接：https://mp.weixin.qq.com/s/m4NPnZaKJMXKrTwtZoOQeQ

2021-01-20

5.2K0

Kettle构建Hadoop ETL实践（二）：安装与配置

大数据 java jar linux 数据库

在前一篇里介绍了ETL和Kettle的基本概念，内容偏重于理论。从本篇开始，让我们进入实践阶段。工欲善其事，必先利其器。既然我们要用Kettle构建Hadoop ETL应用，那么先要做的就是安装Kettle。本篇首先阐述选择安装环境所要考虑的因素，之后详细介绍Kettle的安装过程，最后说明Kettle配置文件、启动脚本和JDBC驱动管理。本专题后面的实践部分都是基于这里所安装的Kettle之上完成的。

2020-08-26

7.4K0

批量取redis key/value和批量删除key

云数据库 Redis linux

需求：取出所有前缀为g.at.ga.的string类型的key及其value 实现： 1. 取出key redis-cli -p 26379 -a 123456 -n 0 keys g.at.ga.* > a.txt 2. 拼出取value的命令 sed 's/^/get &/g' a.txt > b.txt 3. 取value cat b.txt | redis-cli -p 26379 -a 123456 -n 0 --pipe > c.txt 4. 将key、value 拼成一个文件 paste a.txt c.txt > d.txt

2020-02-14

4.7K0

使用RMAN duplicate做GoldenGate实例化

oracle 数据库 sql linux

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53895518

2019-05-25

6170

Oracle sqlldr快速导入

oracle linux windows javascript

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53894687

2019-05-25

2.2K0

在ETL过程中对递归树的历史维护实验

-- 当前递归树 CREATE TABLE TREE_CUR ( C_CHILD VARCHAR2(32 BYTE), C_NAME VARCHAR2(100 BYTE), C_PARENT VARCHAR2(32 BYTE) ); CREATE INDEX IDX1 ON TREE_CUR (C_PARENT); CREATE UNIQUE INDEX TREE_CUR_PK ON TREE_CUR (C_CHILD); ALTER

2019-05-25

5390

在MV上建立触发器实验

云推荐引擎腾讯云测试服务 sql linux

-- 建立MV测试表 CREATE TABLE tbl1 ( a NUMBER, b VARCHAR2 (20) ); CREATE UNIQUE INDEX tbl1_pk ON tbl1 (a); ALTER TABLE tbl1 ADD (CONSTRAINT tbl1_pl PRIMARY KEY(a)); -- 建立MV日志，单一表聚合视图的快速刷新需要指定including new values子句 CREATE MA

2019-05-25

4690

初学乍练redis：事务与脚本

云数据库 Redis lua linux tcp/ip 缓存

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/82350861

2019-05-25

1K0

Oracle 10.2 流复制问题（二）—— C001: large txn detected

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53924033

2019-05-25

3800

Oracle 10.2 流复制问题（一）—— ORA-01403: no data found

sql ruby on rails linux oracle

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53923991

2019-05-25

6090

将MySQL去重操作优化到极致之三弹连发（一）：巧用索引与变量

数据库云数据库 SQL Server 数据处理 linux

本文介绍了如何利用MySQL数据库进行去重统计，通过创建索引、分组统计和联合查询等方法，实现对大数据的高效去重统计。同时介绍了MySQL的去重机制和分组统计的实现方法，并给出了具体实践案例。

2018-01-03

5.3K1

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态