Impala 与Hive

Impala 与Hive都是构建在Hadoop之上的数据查询工具,但是各有不同侧重,那么我们为什么要同时使用这两个工具呢?单独使用Hive或者Impala不可以吗? 一、介绍Impala和Hive (1)Impala和Hive都是提供对HDFS/Hbase数据进行SQL查询的工具,Hive会转换成MapReduce,借助于YARN进行调度从而实现对HDFS的数据的访问,而Impala直接对HDFS进行数据查询。但是他们都是提供如下的标准SQL语句,在机身里运行。

(2)Apache Hive是MapReduce的高级抽象,使用HiveQL,Hive可以生成运行在Hadoop集群的MapReduce或Spark作业。Hive最初由Facebook大约在2007年开发,现在是Apache的开源项目。 Apache Impala是高性能的专用SQL引擎,使用Impala SQL,因为Impala无需借助任何的框架,直接实现对数据块的查询,所以查询延迟毫秒级。Impala受到Google的Dremel项目启发,2012年由Cloudera开发,现在是Apache开源项目。 二、Impala和Hive有什么不同? (1)Hive有很多的特性: 1、对复杂数据类型(比如arrays和maps)和窗口分析更广泛的支持 2、高扩展性 3、通常用于批处理 (2)Impala更快 1、专业的SQL引擎,提供了5x到50x更好的性能 2、理想的交互式查询和数据分析工具 3、更多的特性正在添加进来 三、高级概述:

四、为什么要使用Hive和Impala? 1、为数据分析人员带来了海量数据分析能力,不需要软件开发经验,运用已掌握的SQL知识进行数据的分析。 2、比直接写MapReduce或Spark具有更好的生产力,5行HiveQL/Impala SQL等同于200行或更多的Java代码。 3、提供了与其他系统良好的互操作性,比如通过Java和外部脚本扩展,而且很多商业智能工具支持Hive和Impala。

五、Hive和Impala使用案例 (1)日志文件分析 日志是普遍的数据类型,是当下大数据时代重要的数据源,结构不固定,可以通过Flume和kafka将日志采集放到HDFS,然后分析日志的结构,根据日志的分隔符去建立一个表,接下来运用Hive和Impala 进行数据的分析。例如:

(2)情感分析 很多组织使用Hive或Impala来分析社交媒体覆盖情况。例如:

(3)商业智能 很多领先的BI工具支持Hive和Impala

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏猿人谷

Hadoop架构——云计算的具体实现

Hadoop是IT行业一个新的热点,是云计算的一个具体实现、Hadoop本身具有很高的技术含量,是IT工程师学习的首选!下面我们来详细讲讲什么是Hadoop。 ...

41060
来自专栏Albert陈凯

Spark与Hadoop对比及优势

2.Spark之于Hadoop 更准确地说,Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广...

51950
来自专栏挖掘大数据

大数据初学者该如何快速入门?

很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?用不用参加大数据培训呢?如果自己很迷茫,为了这些原因想往大...

1.7K60
来自专栏灯塔大数据

每周学点大数据 | No.70 适于迭代并行计算的平台——Spark初探

编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算...

36460
来自专栏IT派

大数据之Hadoop vs. Spark,如何取舍?

Hadoop在大数据领域享有多年垄断权,随着该领域开始出现新生力量,其统治地位正在逐渐下滑。年初的调查中,Hadoop被列为2018年大数据领域的“渐冻”趋势之...

40080
来自专栏Albert陈凯

Spark生态系统BDAS介绍

1.2 Spark生态系统BDAS 目前,Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS...

44750
来自专栏人工智能LeadAI

想玩转工业界机器学习?先学Spark吧

为什么机器学习者需要学习spark? 关于大数据,有这样段话: “Big data is like teenage sex,everyone talks abo...

43990
来自专栏Albert陈凯

值得拥有 不容错过的Hive精华汇总

Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。在攒...

21830
来自专栏木可大大

迟到的端午节福利之大数据入门

本章将从几则故事说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的,还会介绍大数据的特性,以及大数据对我们带来的技术变革,大数据处理过程中涉及到的...

10420
来自专栏包子铺里聊IT

五分钟深入 Hadoop 内核

前一篇系列文章 <五分钟零基础理解 Hadoop> 介绍了 Hadoop 到底是怎么回事。下面几篇文章介绍 Hadoop 的核心框架, 为后面讨论 Hadoo...

23650

扫码关注云+社区

领取腾讯云代金券