Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

530

文章

772870

阅读量

110

订阅数

使用 mysqldump 或 mydumper 配置 MySQL 主从复制

bash bash 指令

下载安装：https://github.com/mydumper/mydumper

2022-09-08

4180

kylin 安装配置实验

http hive bash bash 指令 hadoop

一、实验环境 3台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 kylin 1.5.1（一定要apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz包） master作为hadoop的NameNode、SecondaryNameNode、ResourceManager，hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager，hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器

2022-05-07

2820

Pentaho Work with Big Data（六）—— 使用Pentaho MapReduce生成聚合数据集

mapreduce http hadoop bash bash 指令

本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时，这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据，并且建立一个聚合文件，包含按IP和年月分组的PV数。关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录，参考 http://blog.csdn.net/wzy0623/article/details/51145570。一、向HDFS导入示例数据文件将weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下（因资源有限，本示例只取了这个文件的前100行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

2022-05-07

4210

Pentaho Work with Big Data（五）—— 格式化原始web日志

mapreduce http bash bash 指令面向对象编程

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。一、向HDFS导入示例数据文件将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下（因资源有限，本示例只取了这个文件的前10行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

2022-05-07

1660

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

spark hadoop http bash bash 指令

实验目的：配置Kettle向Spark集群提交作业。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主，运行Master进程。 192.168.56.102、192.168.56.103是Spark的从，运行Worker进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤： 1. 在PDI主机上安装Spark客户端将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件（1）在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

2022-05-07

4960

哨兵模式的redis修改IP脚本

bash bash 指令

change_to_intranet_ip_6.sh #!/bin/bash get_char() { SAVEDSTTY=`stty -g` stty -echo stty cbreak dd if=/dev/tty bs=1 count=1 2> /dev/null stty -raw stty echo stty $SAVEDSTTY } # 1. 检查哨兵状态 echo -e "\n检查当前哨兵状态\n" sudo -u redis /ho

2022-04-13

4910

MySQL线上维护三脚本

bash bash 指令

1. 获取process和lock的现场信息（get_processlist.sh） #!/bin/bash source /home/mysql/.bashrc DT=`date '+%Y%m%d_%H%M%S'` mysql -uroot -p123456 -S /data/3306/mysqldata/mysql.sock -e "select t1.* from information_schema.processlist t1,(select count(1) c from informatio

2021-12-07

3210

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

bash bash 指令 hive yarn node.js

一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不但是数据仓库的基本需求，也对项目的成功起着举足轻重的作用。

2020-10-26

6K0

快速安全清理MySQL binlog

云数据库 SQL Server bash bash 指令数据库 sql

之前写过一篇名为“快速安全删除MySQL大表”的博客，讲解如何在不影响线上数据库服务的前提下删除大表。实际上清理MySQL binlog也会遇到同样的问题。例如，我们每个binlog文件的大小是1G。最初的做法是，每天凌晨2:30执行下面的操作清理10天前binlog：

2020-08-25

1.8K0

一键式完全删除CDH 6.3.1

专用宿主机 bash bash 指令

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-11-12

3.1K0

轻松使用crontab调度作业

bash bash 指令 shell 网站任务调度

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53905500

2019-05-25

7000

基于Hadoop生态圈的数据仓库实践 —— 进阶技术

bash bash 指令

三、维度子集有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据，可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中，所以叫维度子集。维度子集比细节维度的数据少，因此更易使用，查询也更快。本节中将准备两个特定维度，它们均取自现有的维度：月份维度（日期维度的子集），Pennsylvania州客户维度（客户维度的子集）。 1. 建立月份维度表执行下面的脚本建立月份维度表。注意月份维度不包含promo_ind列，该列不适用月层次上，因为一个月中可能有多个促销期，而且并不是一个月中的每一天都是促销期。促销标记适用于天这个层次。

2019-05-25

5390

初学乍练redis：主从复制及哨兵维护脚本

bash 指令 bash 云数据库 Redis

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/82013226

2019-05-25

4130

初学乍练redis：一键部署集群

云数据库 Redis bash bash 指令 shell gcc

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/81746264

2019-05-25

5490

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（七）

编程算法 hive bash bash 指令

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52054811

2019-05-25

1.2K0

使用Heartbeat实现MySQL主从高可用

tcp/ip bash bash 指令数据库云数据库 SQL Server

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/81188814

2019-05-25

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态