首页
学习
活动
专区
工具
TVP
发布

Hadoop数据仓库

专栏成员
530
文章
772870
阅读量
110
订阅数
使用 mysqldump 或 mydumper 配置 MySQL 主从复制
下载安装:https://github.com/mydumper/mydumper
用户1148526
2022-09-08
4180
kylin 安装配置实验
一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 kylin 1.5.1(一定要apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz包) master作为hadoop的NameNode、SecondaryNameNode、ResourceManager,hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager,hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器
用户1148526
2022-05-07
2820
Pentaho Work with Big Data(六)—— 使用Pentaho MapReduce生成聚合数据集
本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时,这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据,并且建立一个聚合文件,包含按IP和年月分组的PV数。 关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录,参考 http://blog.csdn.net/wzy0623/article/details/51145570。 一、向HDFS导入示例数据文件 将weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下(因资源有限,本示例只取了这个文件的前100行数据) 参考: http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换,如图1所示。
用户1148526
2022-05-07
4210
Pentaho Work with Big Data(五)—— 格式化原始web日志
本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。 一、向HDFS导入示例数据文件 将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据) 参考: http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换,如图1所示。
用户1148526
2022-05-07
1660
Pentaho Work with Big Data(二)—— Kettle提交Spark作业
实验目的: 配置Kettle向Spark集群提交作业。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主,运行Master进程。 192.168.56.102、192.168.56.103是Spark的从,运行Worker进程。 192.168.56.104安装Pentaho的PDI,安装目录为/home/grid/data-integration。 Hadoop版本:2.7.2 Spark版本:1.5.0 PDI版本:6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤: 1. 在PDI主机上安装Spark客户端 将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机 在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件 (1)在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname (2)编辑spark-env.sh文件,写如下两行,如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark
用户1148526
2022-05-07
4960
哨兵模式的redis修改IP脚本
change_to_intranet_ip_6.sh #!/bin/bash get_char() { SAVEDSTTY=`stty -g` stty -echo stty cbreak dd if=/dev/tty bs=1 count=1 2> /dev/null stty -raw stty echo stty $SAVEDSTTY } # 1. 检查哨兵状态 echo -e "\n检查当前哨兵状态\n" sudo -u redis /ho
用户1148526
2022-04-13
4910
MySQL线上维护三脚本
1. 获取process和lock的现场信息(get_processlist.sh) #!/bin/bash source /home/mysql/.bashrc DT=`date '+%Y%m%d_%H%M%S'` mysql -uroot -p123456 -S /data/3306/mysqldata/mysql.sock -e "select t1.* from information_schema.processlist t1,(select count(1) c from informatio
用户1148526
2021-12-07
3210
Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业
一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用。
用户1148526
2020-10-26
6K0
快速安全清理MySQL binlog
之前写过一篇名为“快速安全删除MySQL大表”的博客,讲解如何在不影响线上数据库服务的前提下删除大表。实际上清理MySQL binlog也会遇到同样的问题。例如,我们每个binlog文件的大小是1G。最初的做法是,每天凌晨2:30执行下面的操作清理10天前binlog:
用户1148526
2020-08-25
1.8K0
一键式完全删除CDH 6.3.1
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
用户1148526
2019-11-12
3.1K0
轻松使用crontab调度作业
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53905500
用户1148526
2019-05-25
7000
基于Hadoop生态圈的数据仓库实践 —— 进阶技术
三、维度子集 有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中,所以叫维度子集。维度子集比细节维度的数据少,因此更易使用,查询也更快。 本节中将准备两个特定维度,它们均取自现有的维度:月份维度(日期维度的子集),Pennsylvania州客户维度(客户维度的子集)。 1. 建立月份维度表 执行下面的脚本建立月份维度表。注意月份维度不包含promo_ind列,该列不适用月层次上,因为一个月中可能有多个促销期,而且并不是一个月中的每一天都是促销期。促销标记适用于天这个层次。
用户1148526
2019-05-25
5390
初学乍练redis:主从复制及哨兵维护脚本
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/82013226
用户1148526
2019-05-25
4130
初学乍练redis:一键部署集群
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/81746264
用户1148526
2019-05-25
5490
基于Hadoop生态圈的数据仓库实践 —— 进阶技术(七)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52054811
用户1148526
2019-05-25
1.2K0
使用Heartbeat实现MySQL主从高可用
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/81188814
用户1148526
2019-05-25
1.4K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档