腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop数据仓库

专栏作者

511

文章

707994

阅读量

108

订阅数

hive安装配置实验

hive java xml apache linux

一、安装前准备 1. 安装配置Hadoop，见http://blog.csdn.net/wzy0623/article/details/50681554 2. 下载安装包 mysql-5.7.10-linux-glibc2.5-x86_64 apache-hive-1.2.1-bin.tar.gz mysql-connector-java-5.1.38.tar.gz 二、安装MySQL 1. 解压 tar -zxvf mysql-5.7.10-linux-glibc2.5-x86_64.tar.gz 2. 建立软连接 ln -s /home/grid/mysql-5.7.10-linux-glibc2.5-x86_64 mysql 3. 建立数据目录 mkdir /home/grid/mysql/data 4. 编辑配置文件~/.my.cnf内容如下 [mysqld] basedir=/home/grid/mysql datadir=/home/grid/mysql/data log_error=/home/grid/mysql/data/master.err log_error_verbosity=2 5. 初始化安装，并记下初始密码 mysqld --defaults-file=/home/grid/.my.cnf --initialize 6. 启动MySQL mysqld --defaults-file=/home/grid/.my.cnf --user=grid & 7. 登录MySQL，修改初始密码 mysql -u root -p mysql> ALTER USER USER() IDENTIFIED BY 'new_password'; mysql> exit; 8. 在/etc/profile中添加环境变量 export PATH=$PATH:/home/grid/mysql/bin 三、安装配置hive 1. 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz 2. 建立软连接 ln -s /home/grid/apache-hive-1.2.1-bin hive 3. 建立临时目录 mkdir /home/grid/hive/iotmp 4. 建立配置文件hive-site.xml cp ~/hive/conf/hive-default.xml.template ~/hive/conf/hive-site.xml 5. 新建配置文件hive-site.xml，内容如下：

2022-05-07

2600

让Hive支持行级insert、update、delete

hive https 网络安全 apache 数据分析

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51483674

2019-05-25

4.4K0

HAWQ技术解析（一） —— HAWQ简介

hadoop postgresql apache hive sql

一、SQL on Hadoop 过去五年里，许多企业已慢慢开始接受Hadoop生态系统，将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范，但随着时间的推移，MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径，企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据，以便发掘存储在Hadoop中的所有数据的真正价值。SQL在帮助各类用户发掘数据的商业价值领域具有很长历史。 Hadoop上的SQL支持一开始是Apache Hive，一种类似于SQL的查询引擎，它将有限的SQL方言编译到MapReduce中。Hive对MapReduce的完全依赖会导致查询的很大延迟，其主要适用场景是批处理模式。另外，尽管Hive对于SQL的支持是好的开端，但对SQL的有限支持意味着精通SQL的用户忙于企业级使用案例时，将遇到严重的限制。它还暗示着庞大的基于标准SQL的工具生态系统无法利用Hive。值得庆幸的是，在为SQL on Hadoop提供更好的解决方案方面已取得长足进展。 1. 对一流的SQL on Hadoop方案应有什么期待下表显示了一流的SQL on Hadoop所需要的功能以及企业如何可以将这些功能转变为商业利润。从传统上意义上说，这些功能中的大部分在分析数据仓库都能找到。

2019-05-25

7.2K0

OushuDB入门（六）——任务调度篇

shell hadoop html 大数据 apache

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80408771

2019-05-25

6640

触类旁通Elasticsearch：安装

ecmascript apache Elasticsearch Service http 大数据

输出如下，缺省的集群名称为elasticsearch，已经启动一个名为“yO9AEg-”的节点。

2019-05-25

4170

MADlib——基于SQL的数据挖掘解决方案（2）——MADlib基础

数据处理 hadoop apache

一、MADlib简介 MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库，提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法，使用它能够简易地对结构化数据

2018-01-03

2.6K0

HAWQ技术解析（十八） —— 问题排查

本文介绍了HAWQ在资源管理方面的一些问题以及解决方法。主要包括了以下几方面的问题：1.查询性能问题；2.拒绝查询资源请求；3.VMEM使用超高引起的查询取消；4.segment没在gp_segment_configuration中出现；5.调查标记为Down的segment；6.处理segment资源碎片。针对这些问题，文章提供了相应的解决方法。

2018-01-03

1.1K0

HAWQ + MADlib 玩转数据挖掘之（一）——安装

2018-01-03

1.3K0

HAWQ取代传统数仓实践（十九）——OLAP

数据处理 spark apache

本文介绍了 Zeppelin 是什么、能做什么，以及 Zeppelin 的特性、组件和扩展。主要内容包括：Zeppelin 是基于 Apache Spark 的开源大数据可视化分析平台，支持交互式查询、实时数据可视化和机器学习等功能。Zeppelin 的特性包括支持多种数据源、提供交互式查询、支持实时数据可视化、提供机器学习接口等。Zeppelin 的组件包括： Notebook：交互式查询工具，支持多种编程语言； Interpreter：解释器，支持多种编程语言； Notebook Server：服务端，支持交互式查询； Shell：命令行工具，支持交互式查询； Spark：基于 Spark 的数据科学平台，支持交互式查询； ML：机器学习平台，支持交互式查询； Gallery：数据可视化模块，支持数据可视化； Extensions：扩展模块，支持自定义功能。

2018-01-03

1.8K0

HAWQ技术解析（十七） —— 最佳实践

该文章讲述了如何在社区中创建一个安全、可扩展的实时数据处理系统。通过使用Apache Flink，用户可以处理实时流数据，并在多个数据源上执行并行操作。该文还详细介绍了如何使用Flink的API和SQL查询引擎来处理数据，并讨论了流处理和批处理的概念以及如何在系统中进行配置。此外，文章还提供了关于Flink的实时数据处理、流处理、批处理等方面的详细信息，以及如何使用Flink进行数据处理和查询的最佳实践。

2018-01-03

1.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态