Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

530

文章

773045

阅读量

110

订阅数

使用 mysqldump 或 mydumper 配置 MySQL 主从复制

bash bash 指令

下载安装：https://github.com/mydumper/mydumper

2022-09-08

4180

kylin 安装配置实验

http hive bash bash 指令 hadoop

一、实验环境 3台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 kylin 1.5.1（一定要apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz包） master作为hadoop的NameNode、SecondaryNameNode、ResourceManager，hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager，hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器

2022-05-07

2820

Pentaho Work with Big Data（六）—— 使用Pentaho MapReduce生成聚合数据集

mapreduce http hadoop bash bash 指令

本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时，这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据，并且建立一个聚合文件，包含按IP和年月分组的PV数。关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录，参考 http://blog.csdn.net/wzy0623/article/details/51145570。一、向HDFS导入示例数据文件将weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下（因资源有限，本示例只取了这个文件的前100行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

2022-05-07

4210

Pentaho Work with Big Data（五）—— 格式化原始web日志

mapreduce http bash bash 指令面向对象编程

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。一、向HDFS导入示例数据文件将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下（因资源有限，本示例只取了这个文件的前10行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

2022-05-07

1660

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

spark hadoop http bash bash 指令

实验目的：配置Kettle向Spark集群提交作业。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主，运行Master进程。 192.168.56.102、192.168.56.103是Spark的从，运行Worker进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤： 1. 在PDI主机上安装Spark客户端将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件（1）在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

2022-05-07

4960

MySQL Fabric实验（二）Sharding

数据库云数据库 SQL Server sql 编程算法 bash

一、概述 MySQL Fabric这一新的架构为MySQL提供了高可用和向外扩展的特性。本实验专注于使用Fabric对多个MySQL服务器进行读写实现向外扩展。当单个MySQL服务器（或HA组）的写性能达到极限时，可以使用Fabric把数据分布到多个MySQL服务器组。注意这里说的组可以是单一服务器，也可以是HA组。管理员通过建立一个分片映射定义数据如何在多个服务中分片。一个分片映射作用于一个或多个表，由管理员指定每个表上的哪些列作为分片键，MySQL Fabric使用分片键计算一个表的特定行应该存在于哪个分片上。当多个表使用相同的映射和分片键时，这些表上包含相同列值（用于分片的列）的数据行将存在于同一个分片。单一事务可以访问一个分片中的所有数据。目前Fabric提供两种用分片键计算分片号的方法： HASH：在分片键上执行一个哈希函数生成分片号。如果作为分片键的列只有很少的重复值，那么哈希函数的结果会平均分布在多个分片上。 RANGE：管理员显式定义分片键的取值范围和分片之间的映射关系。这可以尽可能让用户控制数据分片，并确定哪一行被分配到哪一个分片。应用程序访问分片的数据库时，它设置一个连接属性指定分片键。Fabric连接器会应用正确的范围或哈希映射，并将事务路由到正确的分片。当需要更多的分片时，MySQL Fabric可以把现有的一个分片分成两个，同时修改状态存储和连接器中缓存的路由数据。类似地，一个分片可以从一个HA组迁移到另一个。注意单一的事务或查询只能访问一个单一的分片，所以基于对数据的理解和应用的访问模式选择一个分片键是非常重要的。并不是对所有表分片都有意义。对于当前不能交叉分片查询的限制，将某些小表的全部数据存储到每一个组中可能会更好。这些全局表被写入到‘全局组’，表中数据的任何改变都会自动复制到所有其它非全局组中。全局组中模式（结构）的改变也会复制到其它非全局组中以保证一致性。为了得到做好的映射，在没有‘自然选择’的分片键时可能需要修改模式。二、安装与配置

2022-05-07

8790

哨兵模式的redis修改IP脚本

bash bash 指令

change_to_intranet_ip_6.sh #!/bin/bash get_char() { SAVEDSTTY=`stty -g` stty -echo stty cbreak dd if=/dev/tty bs=1 count=1 2> /dev/null stty -raw stty echo stty $SAVEDSTTY } # 1. 检查哨兵状态 echo -e "\n检查当前哨兵状态\n" sudo -u redis /ho

2022-04-13

4910

MySQL线上维护三脚本

bash bash 指令

1. 获取process和lock的现场信息（get_processlist.sh） #!/bin/bash source /home/mysql/.bashrc DT=`date '+%Y%m%d_%H%M%S'` mysql -uroot -p123456 -S /data/3306/mysqldata/mysql.sock -e "select t1.* from information_schema.processlist t1,(select count(1) c from informatio

2021-12-07

3210

Kettle构建Hadoop ETL实践（七）：定期自动执行ETL作业

bash bash 指令 hive yarn node.js

一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不但是数据仓库的基本需求，也对项目的成功起着举足轻重的作用。

2020-10-26

6K0

快速安全清理MySQL binlog

云数据库 SQL Server bash bash 指令数据库 sql

之前写过一篇名为“快速安全删除MySQL大表”的博客，讲解如何在不影响线上数据库服务的前提下删除大表。实际上清理MySQL binlog也会遇到同样的问题。例如，我们每个binlog文件的大小是1G。最初的做法是，每天凌晨2:30执行下面的操作清理10天前binlog：

2020-08-25

1.8K0

一键式完全删除CDH 6.3.1

专用宿主机 bash bash 指令

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2019-11-12

3.1K0

轻松使用crontab调度作业

bash bash 指令 shell 网站任务调度

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/53905500

2019-05-25

7000

基于Hadoop生态圈的数据仓库实践 —— 进阶技术

bash bash 指令

三、维度子集有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据，可能对某些特定状态的数据更感兴趣等。这些特定维度包含在从细节维度选择的行中，所以叫维度子集。维度子集比细节维度的数据少，因此更易使用，查询也更快。本节中将准备两个特定维度，它们均取自现有的维度：月份维度（日期维度的子集），Pennsylvania州客户维度（客户维度的子集）。 1. 建立月份维度表执行下面的脚本建立月份维度表。注意月份维度不包含promo_ind列，该列不适用月层次上，因为一个月中可能有多个促销期，而且并不是一个月中的每一天都是促销期。促销标记适用于天这个层次。

2019-05-25

5390

初学乍练redis：主从复制及哨兵维护脚本

bash 指令 bash 云数据库 Redis

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/82013226

2019-05-25

4150

初学乍练redis：一键部署集群

云数据库 Redis bash bash 指令 shell gcc

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/81746264

2019-05-25

5490

基于Hadoop生态圈的数据仓库实践 —— 进阶技术（七）

编程算法 hive bash bash 指令

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/52054811

2019-05-25

1.2K0

使用Heartbeat实现MySQL主从高可用

tcp/ip bash bash 指令数据库云数据库 SQL Server

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/81188814

2019-05-25

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态