首页
学习
活动
专区
工具
TVP
发布

Hadoop数据仓库

专栏作者
511
文章
707994
阅读量
108
订阅数
hive安装配置实验
一、安装前准备 1. 安装配置Hadoop,见http://blog.csdn.net/wzy0623/article/details/50681554 2. 下载安装包 mysql-5.7.10-linux-glibc2.5-x86_64 apache-hive-1.2.1-bin.tar.gz mysql-connector-java-5.1.38.tar.gz 二、安装MySQL 1. 解压 tar -zxvf mysql-5.7.10-linux-glibc2.5-x86_64.tar.gz 2. 建立软连接 ln -s /home/grid/mysql-5.7.10-linux-glibc2.5-x86_64 mysql 3. 建立数据目录 mkdir /home/grid/mysql/data 4. 编辑配置文件~/.my.cnf内容如下 [mysqld]   basedir=/home/grid/mysql  datadir=/home/grid/mysql/data log_error=/home/grid/mysql/data/master.err log_error_verbosity=2  5. 初始化安装,并记下初始密码 mysqld --defaults-file=/home/grid/.my.cnf --initialize 6. 启动MySQL mysqld --defaults-file=/home/grid/.my.cnf --user=grid & 7. 登录MySQL,修改初始密码 mysql -u root -p  mysql> ALTER USER USER() IDENTIFIED BY 'new_password'; mysql> exit; 8. 在/etc/profile中添加环境变量 export PATH=$PATH:/home/grid/mysql/bin 三、安装配置hive 1. 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz 2. 建立软连接 ln -s /home/grid/apache-hive-1.2.1-bin hive 3. 建立临时目录 mkdir /home/grid/hive/iotmp 4. 建立配置文件hive-site.xml cp ~/hive/conf/hive-default.xml.template ~/hive/conf/hive-site.xml 5. 新建配置文件hive-site.xml,内容如下:
用户1148526
2022-05-07
2600
让Hive支持行级insert、update、delete
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51483674
用户1148526
2019-05-25
4.4K0
HAWQ技术解析(一) —— HAWQ简介
一、SQL on Hadoop 过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoop中的所有数据的真正价值。SQL在帮助各类用户发掘数据的商业价值领域具有很长历史。 Hadoop上的SQL支持一开始是Apache Hive,一种类似于SQL的查询引擎,它将有限的SQL方言编译到MapReduce中。Hive对MapReduce的完全依赖会导致查询的很大延迟,其主要适用场景是批处理模式。另外,尽管Hive对于SQL的支持是好的开端,但对SQL的有限支持意味着精通SQL的用户忙于企业级使用案例时,将遇到严重的限制。它还暗示着庞大的基于标准SQL的工具生态系统无法利用Hive。值得庆幸的是,在为SQL on Hadoop提供更好的解决方案方面已取得长足进展。 1. 对一流的SQL on Hadoop方案应有什么期待 下表显示了一流的SQL on Hadoop所需要的功能以及企业如何可以将这些功能转变为商业利润。从传统上意义上说,这些功能中的大部分在分析数据仓库都能找到。
用户1148526
2019-05-25
7.2K0
OushuDB入门(六)——任务调度篇
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80408771
用户1148526
2019-05-25
6640
触类旁通Elasticsearch:安装
输出如下,缺省的集群名称为elasticsearch,已经启动一个名为“yO9AEg-”的节点。
用户1148526
2019-05-25
4170
MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础
一、MADlib简介         MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据
用户1148526
2018-01-03
2.6K0
HAWQ技术解析(十八) —— 问题排查
本文介绍了HAWQ在资源管理方面的一些问题以及解决方法。主要包括了以下几方面的问题:1.查询性能问题;2.拒绝查询资源请求;3.VMEM使用超高引起的查询取消;4.segment没在gp_segment_configuration中出现;5.调查标记为Down的segment;6.处理segment资源碎片。针对这些问题,文章提供了相应的解决方法。
用户1148526
2018-01-03
1.1K0
HAWQ + MADlib 玩转数据挖掘之(一)——安装
用户1148526
2018-01-03
1.3K0
HAWQ取代传统数仓实践(十九)——OLAP
本文介绍了 Zeppelin 是什么、能做什么,以及 Zeppelin 的特性、组件和扩展。主要内容包括:Zeppelin 是基于 Apache Spark 的开源大数据可视化分析平台,支持交互式查询、实时数据可视化和机器学习等功能。Zeppelin 的特性包括支持多种数据源、提供交互式查询、支持实时数据可视化、提供机器学习接口等。Zeppelin 的组件包括: Notebook:交互式查询工具,支持多种编程语言; Interpreter:解释器,支持多种编程语言; Notebook Server:服务端,支持交互式查询; Shell:命令行工具,支持交互式查询; Spark:基于 Spark 的数据科学平台,支持交互式查询; ML:机器学习平台,支持交互式查询; Gallery:数据可视化模块,支持数据可视化; Extensions:扩展模块,支持自定义功能。
用户1148526
2018-01-03
1.8K0
HAWQ技术解析(十七) —— 最佳实践
该文章讲述了如何在社区中创建一个安全、可扩展的实时数据处理系统。通过使用Apache Flink,用户可以处理实时流数据,并在多个数据源上执行并行操作。该文还详细介绍了如何使用Flink的API和SQL查询引擎来处理数据,并讨论了流处理和批处理的概念以及如何在系统中进行配置。此外,文章还提供了关于Flink的实时数据处理、流处理、批处理等方面的详细信息,以及如何使用Flink进行数据处理和查询的最佳实践。
用户1148526
2018-01-03
1.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档