首页
学习
活动
专区
工具
TVP
发布

Hadoop数据仓库

专栏作者
511
文章
707978
阅读量
108
订阅数
redis全局遍历替换特征字符串
需求:将一个redis实例(如10.10.10.1:6379)范围内所有key值中的 .letssing.net 替换为 .kaixinvv.com。
用户1148526
2023-03-08
5310
MySQL全局遍历替换特征字符串
需求:将一个MySQL实例(如10.10.10.1:3306)范围内所有字段数据中的 .letssing.net 替换为 .kaixinvv.com。
用户1148526
2023-03-08
1.8K0
维度模型数据仓库(九) —— 角色扮演维度
(五)进阶技术         4. 角色扮演维度         当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个交货日期,这时就需要引用日期维度表两次。         本篇将说明两类角色扮演维度的实现,分别是表别名和数据库视图。这两种都使用了MySQL的功能。表别名是在SQL语句里引用维度表多次,每次引用都赋予维度表一个别名。而数据库视图,则是按照事实表需要引用维度表的次数,建立相同数量的视图。         修改数据库模式         使用清单(五)-4-1里的SQL脚本修改数据库模式。分别给数据仓库里的事实表sales_order_fact和源数据库中订单销售表sales_order增加request_delivery_date_sk和request_delivery_date列。图(五)- 4-1 显示了修改后的模式。
用户1148526
2022-12-02
4070
初学乍练redis:两行shell脚本实现slowlog持久化转储(去重保留历史条目、时间戳格式化)
        在排查redis性能问题时,从slowlog中找执行缓慢的命令进行优化是一种常规手段。redis slowlog被设计成内存中一个先进先出的队列结构,一旦容量被填满,新的条目就会挤出旧条目。特别是在慢日志较多的情况下,有些问题命令很快就会被刷新出slowlog,从而很难跟踪到。
用户1148526
2022-05-07
1.1K0
kylin 安装配置实验
一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 kylin 1.5.1(一定要apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz包) master作为hadoop的NameNode、SecondaryNameNode、ResourceManager,hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager,hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器
用户1148526
2022-05-07
2470
基于独立Zookeeper集群的Hbase 安装配置实验
前面做了基于Hbase自带Zookeeper的安装配置(参考http://blog.csdn.net/wzy0623/article/details/51241641),今天做了个基于独立Zookeeper集群的。 一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 master作为hadoop的NameNode、SecondaryNameNode、ResourceManager,hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager,hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器 hadoop 2.7.2 hbase 1.2.1 zooeeper 3.4.8 二、安装配置zooeeper
用户1148526
2022-05-07
2080
重新编译Hadoop 2.7.2 native以支持snappy
问题提出: 在运行kylin sample时出现以下错误: org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was built without snappy support. 造成以上错误的原因是Hadoop的二进制安装包中没有snappy支持,需要手工重新编译。 操作过程: 1. 下载所需要的源码包 snappy-1.1.1.tar.gz protobuf-2.5.0.tar.gz hadoop-2.7.2-src.tar.gz 2. 准备编译环境 yum install svn yum install autoconf automake libtool cmake yum install ncurses-devel yum install openssl-devel yum install gcc* 3. 编译安装snappy # 用root用户执行以下命令 tar -zxvf snappy-1.1.1.tar.gz cd snappy-1.1.1/ ./configure make make install # 查看snappy库文件 ls -lh /usr/local/lib |grep snappy 4. 编译安装protobuf # 用root用户执行以下命令 tar -zxvf protobuf-2.5.0.tar.gz cd protobuf-2.5.0/ ./configure  make  make install # 查看protobuf版本以测试是否安装成功 protoc --version 5. 编译hadoop native tar -zxvf hadoop-2.7.2-src.tar.gz cd hadoop-2.7.2-src/ mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy
用户1148526
2022-05-07
3280
Hbase 安装配置实验
一、实验环境 3台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.2.1 hbase与hadoop的版本兼容性,参考 http://hbase.apache.org/book.html#basic.prerequisites 二、安装hadoop集群 hadoop 2.7.2 安装,参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装配置hbase 1. 加压缩 tar -zxvf hbase-1.2.1-bin.tar.gz 2. 建立软连接 ln -s hbase-1.2.1 hbase 3. 修改三个配置文件 cd hbase/conf vi hbase-env.sh # 添加以下内容
用户1148526
2022-05-07
3230
Zeppelin 安装部署实验
一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境: 12个节点的Spark集群,以standalone方式部署,各个节点运行的进程如表1所示。
用户1148526
2022-05-07
3630
Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
一、把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件。  http://wiki.pentaho.com/download/attachments/23530622/weblo
用户1148526
2022-05-07
2530
Pentaho Work with Big Data(六)—— 使用Pentaho MapReduce生成聚合数据集
本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时,这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据,并且建立一个聚合文件,包含按IP和年月分组的PV数。 关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录,参考 http://blog.csdn.net/wzy0623/article/details/51145570。 一、向HDFS导入示例数据文件 将weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下(因资源有限,本示例只取了这个文件的前100行数据) 参考: http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换,如图1所示。
用户1148526
2022-05-07
3840
Pentaho Work with Big Data(五)—— 格式化原始web日志
本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。 一、向HDFS导入示例数据文件 将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下(因资源有限,本示例只取了这个文件的前10行数据) 参考: http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换,如图1所示。
用户1148526
2022-05-07
1360
Pentaho Work with Big Data(四)—— 转换Hive里的数据
1. 建立hive表,导入原始数据,过程参考 http://blog.csdn.net/wzy0623/article/details/51133760 2. 建立一个作业,查询hive表,并将聚合数据写入一个hive表 (1)打开PDI,新建一个作业,如图1所示。
用户1148526
2022-05-07
2480
Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。
用户1148526
2022-05-07
2710
Pentaho Work with Big Data(二)—— Kettle提交Spark作业
实验目的: 配置Kettle向Spark集群提交作业。 实验环境: 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主,运行Master进程。 192.168.56.102、192.168.56.103是Spark的从,运行Worker进程。 192.168.56.104安装Pentaho的PDI,安装目录为/home/grid/data-integration。 Hadoop版本:2.7.2 Spark版本:1.5.0 PDI版本:6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤: 1. 在PDI主机上安装Spark客户端 将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机 在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件 (1)在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname (2)编辑spark-env.sh文件,写如下两行,如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark
用户1148526
2022-05-07
4310
用beeline连接SparkSQL
1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性
用户1148526
2022-05-07
8780
Spark 安装配置实验
http://blog.csdn.net/wzy0623/article/details/50681554
用户1148526
2022-05-07
2360
利用sqoop将hive和mysql数据互导简单实验
1. Hadoop、Hive、MySQL安装(略) 2. 下载sqoop http://www.apache.org/dyn/closer.lua/sqoop/1.4.6 3. 解压 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 4. 建立软连接 ln -s sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop 5. 加执行文件路径 export PATH=$PATH:/
用户1148526
2022-05-07
5660
kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)
1. 配置HiveServer2,在hive-site.xml中添加如下的属性
用户1148526
2022-05-07
7590
Greenplum 6 安装配置详解
114.112.77.199 master、segment 210.73.209.103 standby master、segment 140.210.73.67 segment
用户1148526
2021-12-07
1.8K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档