Hadoop数据仓库-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏成员

530

文章

772759

阅读量

110

订阅数

重新编译Hadoop 2.7.2 native以支持snappy

hadoop yum 数据结构打包 http

问题提出：在运行kylin sample时出现以下错误： org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was built without snappy support. 造成以上错误的原因是Hadoop的二进制安装包中没有snappy支持，需要手工重新编译。操作过程： 1. 下载所需要的源码包 snappy-1.1.1.tar.gz protobuf-2.5.0.tar.gz hadoop-2.7.2-src.tar.gz 2. 准备编译环境 yum install svn yum install autoconf automake libtool cmake yum install ncurses-devel yum install openssl-devel yum install gcc* 3. 编译安装snappy # 用root用户执行以下命令 tar -zxvf snappy-1.1.1.tar.gz cd snappy-1.1.1/ ./configure make make install # 查看snappy库文件 ls -lh /usr/local/lib |grep snappy 4. 编译安装protobuf # 用root用户执行以下命令 tar -zxvf protobuf-2.5.0.tar.gz cd protobuf-2.5.0/ ./configure make make install # 查看protobuf版本以测试是否安装成功 protoc --version 5. 编译hadoop native tar -zxvf hadoop-2.7.2-src.tar.gz cd hadoop-2.7.2-src/ mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy

2022-05-07

3770

Greenplum 实时数据仓库实践（2）——数据仓库设计基础

数据库管理数据库数据分析数据结构 sql

本篇首先介绍关系数据模型、多维数据模型和Data Vault模型这三种常见的数据仓库模型和与之相关的设计方法，然后讨论数据集市的设计问题，最后说明一个数据仓库项目的实施步骤。规划实施过程是整个数据仓库设计的重要组成部分。

2021-12-07

1.8K0

Kettle构建Hadoop ETL实践（五）：数据抽取

xml 数据结构编程算法 unix 大数据

本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数据仓库的数据抽取，即ETL过程中的Extract部分。首先简述Kettle中几种抽取数据的组件，然后讲述变化数据捕获（Change Data Capture，CDC），以及Kettle如何支持不同的CDC技术。Hadoop生态圈中的Sqoop工具可以直接在关系数据库和HDFS或Hive之间互导数据，而Kettle支持Sqoop输入、输出作业项。最后我们使用Kettle里的Sqoop作业项以及基于时间戳的CDC转换实现销售订单示例的数据抽取过程，将MySQL中的源数据抽取到Hive的rds数据库中。

2020-10-10

6.6K0

Kettle与Hadoop（一）Kettle简介

数据库大数据 sql 编程算法数据结构

Kettle是一款流行的ETL（Extract-Transform-Load，即数据抽取、转换、装载）工具，并可用来操作Hadoop上的数据。Kettle是用Java语言开发的。它最初的作者Matt Casters原是一名C语言程序员，在着手开发Kettle时还是一名Java小白，但是他仅用了一年时间就开发出了Kettle的第一个版本。虽然有很多不足，但这版毕竟是可用的。使用自己并不熟悉的语言，仅凭一己之力在很短的时间里就开发出了复杂的ETL系统工具，作者的开发能力和实践精神令人十分佩服。后来Pentaho公司获得了Kettle源代码的版权，Kettle也随之更名为Pentaho Data Integration，简称PDI。

2020-05-27

3.1K0

联机分析处理简介

数据库数据结构大数据数据处理数据分析

联机分析处理（OLAP）的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时，Codd认为联机事务处理(OLTP）已不能满足终端用户对数据库查询分析的需要，SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，E.F.codd提出了多维数据库和多维分析的概念，即OLAP。

2019-05-25

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态