腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏作者

511

文章

707978

阅读量

108

订阅数

redis全局遍历替换特征字符串

https http 网络安全云数据库 Redis java

需求：将一个redis实例（如10.10.10.1:6379）范围内所有key值中的 .letssing.net 替换为 .kaixinvv.com。

2023-03-08

5310

MySQL全局遍历替换特征字符串

http sql 数据库云数据库 SQL Server 编程算法

需求：将一个MySQL实例（如10.10.10.1:3306）范围内所有字段数据中的 .letssing.net 替换为 .kaixinvv.com。

2023-03-08

1.8K0

维度模型数据仓库（九） —— 角色扮演维度

http 数据库 sql

（五）进阶技术 4. 角色扮演维度当一个事实表多次引用一个维度表时会用到角色扮演维度。例如，一个销售订单有一个是订单日期，还有一个交货日期，这时就需要引用日期维度表两次。本篇将说明两类角色扮演维度的实现，分别是表别名和数据库视图。这两种都使用了MySQL的功能。表别名是在SQL语句里引用维度表多次，每次引用都赋予维度表一个别名。而数据库视图，则是按照事实表需要引用维度表的次数，建立相同数量的视图。修改数据库模式使用清单（五）-4-1里的SQL脚本修改数据库模式。分别给数据仓库里的事实表sales_order_fact和源数据库中订单销售表sales_order增加request_delivery_date_sk和request_delivery_date列。图（五）- 4-1 显示了修改后的模式。

2022-12-02

4070

初学乍练redis：两行shell脚本实现slowlog持久化转储（去重保留历史条目、时间戳格式化）

云数据库 Redis shell http unix

在排查redis性能问题时，从slowlog中找执行缓慢的命令进行优化是一种常规手段。redis slowlog被设计成内存中一个先进先出的队列结构，一旦容量被填满，新的条目就会挤出旧条目。特别是在慢日志较多的情况下，有些问题命令很快就会被刷新出slowlog，从而很难跟踪到。

2022-05-07

1.1K0

kylin 安装配置实验

http hive bash bash 指令 hadoop

一、实验环境 3台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.1.4 hive 2.0.0 zookeeper 3.4.8 kylin 1.5.1（一定要apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz包） master作为hadoop的NameNode、SecondaryNameNode、ResourceManager，hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager，hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器

2022-05-07

2470

基于独立Zookeeper集群的Hbase 安装配置实验

hbase TDSQL MySQL 版 hadoop zookeeper http

前面做了基于Hbase自带Zookeeper的安装配置（参考http://blog.csdn.net/wzy0623/article/details/51241641），今天做了个基于独立Zookeeper集群的。一、实验环境 3台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 master作为hadoop的NameNode、SecondaryNameNode、ResourceManager，hbase的HMaster slave1、slave2作为hadoop的DataNode、NodeManager，hbase的HRegionServer 同时master、slave1、slave2作为三台zookeeper服务器 hadoop 2.7.2 hbase 1.2.1 zooeeper 3.4.8 二、安装配置zooeeper

2022-05-07

2080

重新编译Hadoop 2.7.2 native以支持snappy

hadoop yum 数据结构打包 http

问题提出：在运行kylin sample时出现以下错误： org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was built without snappy support. 造成以上错误的原因是Hadoop的二进制安装包中没有snappy支持，需要手工重新编译。操作过程： 1. 下载所需要的源码包 snappy-1.1.1.tar.gz protobuf-2.5.0.tar.gz hadoop-2.7.2-src.tar.gz 2. 准备编译环境 yum install svn yum install autoconf automake libtool cmake yum install ncurses-devel yum install openssl-devel yum install gcc* 3. 编译安装snappy # 用root用户执行以下命令 tar -zxvf snappy-1.1.1.tar.gz cd snappy-1.1.1/ ./configure make make install # 查看snappy库文件 ls -lh /usr/local/lib |grep snappy 4. 编译安装protobuf # 用root用户执行以下命令 tar -zxvf protobuf-2.5.0.tar.gz cd protobuf-2.5.0/ ./configure make make install # 查看protobuf版本以测试是否安装成功 protoc --version 5. 编译hadoop native tar -zxvf hadoop-2.7.2-src.tar.gz cd hadoop-2.7.2-src/ mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy

2022-05-07

3280

Hbase 安装配置实验

hbase TDSQL MySQL 版 hadoop http html

一、实验环境 3台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 hadoop 2.7.2 hbase 1.2.1 hbase与hadoop的版本兼容性，参考 http://hbase.apache.org/book.html#basic.prerequisites 二、安装hadoop集群 hadoop 2.7.2 安装，参考 http://blog.csdn.net/wzy0623/article/details/50681554 三、安装配置hbase 1. 加压缩 tar -zxvf hbase-1.2.1-bin.tar.gz 2. 建立软连接 ln -s hbase-1.2.1 hbase 3. 修改三个配置文件 cd hbase/conf vi hbase-env.sh # 添加以下内容

2022-05-07

3230

Zeppelin 安装部署实验

hadoop spark http hive 数据库

一、实验目的 1. 使用Zeppelin运行SparkSQL访问Hive表 2. 动态表单SQL 二、实验环境： 12个节点的Spark集群，以standalone方式部署，各个节点运行的进程如表1所示。

2022-05-07

3630

Pentaho Work with Big Data（七）—— 从Hadoop集群抽取数据

云数据库 SQL Server http hive 大数据数据库

一、把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件。 http://wiki.pentaho.com/download/attachments/23530622/weblo

2022-05-07

2530

Pentaho Work with Big Data（六）—— 使用Pentaho MapReduce生成聚合数据集

mapreduce http hadoop bash bash 指令

本示例说明如何使用Pentaho MapReduce把细节数据转换和汇总成一个聚合数据集。当给一个关系型数据仓库或数据集市准备待抽取的数据时，这是一个常见使用场景。我们使用格式化的web日志数据作为细节数据，并且建立一个聚合文件，包含按IP和年月分组的PV数。关于如何使用Pentaho MapReduce把原始web日志解析成格式化的记录，参考 http://blog.csdn.net/wzy0623/article/details/51145570。一、向HDFS导入示例数据文件将weblogs_parse.txt文件放到HDFS的/user/grid/parse/目录下（因资源有限，本示例只取了这个文件的前100行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

2022-05-07

3840

Pentaho Work with Big Data（五）—— 格式化原始web日志

mapreduce http bash bash 指令面向对象编程

本示例说明如何使用Pentaho MapReduce把原始web日志解析成格式化的记录。一、向HDFS导入示例数据文件将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/目录下（因资源有限，本示例只取了这个文件的前10行数据）参考： http://blog.csdn.net/wzy0623/article/details/51133760 二、建立一个用于Mapper的转换 1. 新建一个转换，如图1所示。

2022-05-07

1360

Pentaho Work with Big Data（四）—— 转换Hive里的数据

hive http 数据库 sql

1. 建立hive表，导入原始数据，过程参考 http://blog.csdn.net/wzy0623/article/details/51133760 2. 建立一个作业，查询hive表，并将聚合数据写入一个hive表（1）打开PDI，新建一个作业，如图1所示。

2022-05-07

2480

Pentaho Work with Big Data（三）—— 向Hadoop集群导入数据

http hadoop hive 网站

1. 向HDFS导入数据 . 从下面的地址下载web日志示例文件，解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。

2022-05-07

2710

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

spark hadoop http bash bash 指令

实验目的：配置Kettle向Spark集群提交作业。实验环境： 4台CentOS release 6.4虚拟机，IP地址为 192.168.56.101 192.168.56.102 192.168.56.103 192.168.56.104 192.168.56.101是Spark集群的主，运行Master进程。 192.168.56.102、192.168.56.103是Spark的从，运行Worker进程。 192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 Hadoop版本：2.7.2 Spark版本：1.5.0 PDI版本：6.0 Spark集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50946766 配置步骤： 1. 在PDI主机上安装Spark客户端将Spark的安装目录和相关系统环境设置文件拷贝到PDI所在主机在192.168.56.101上执行以下命令 scp -r /home/grid/spark 192.168.56.104:/home/grid/ scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 下面的配置均在192.168.56.104上执行 2. 编辑相关配置文件（1）在/etc/hosts文件中加如下两行 192.168.56.101 master 192.168.56.104 kettle master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54 export SPARK_HOME=/home/grid/spark

2022-05-07

4310

用beeline连接SparkSQL

hive spark http html jdbc

1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性

2022-05-07

8780

Spark 安装配置实验

spark hive http sql yarn

http://blog.csdn.net/wzy0623/article/details/50681554

2022-05-07

2360

利用sqoop将hive和mysql数据互导简单实验

SSL 证书 jdbc https 云数据库 SQL Server http

1. Hadoop、Hive、MySQL安装（略） 2. 下载sqoop http://www.apache.org/dyn/closer.lua/sqoop/1.4.6 3. 解压 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 4. 建立软连接 ln -s sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop 5. 加执行文件路径 export PATH=$PATH:/

2022-05-07

5660

kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)

hive 大数据 http 云推荐引擎腾讯云测试服务

1. 配置HiveServer2，在hive-site.xml中添加如下的属性

2022-05-07

7590

Greenplum 6 安装配置详解

官方文档 http html

114.112.77.199 master、segment 210.73.209.103 standby master、segment 140.210.73.67 segment

2021-12-07

1.8K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态