首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >性能比较: Hive和MapReduce

性能比较: Hive和MapReduce
EN

Stack Overflow用户
提问于 2013-01-16 09:09:39
回答 3查看 2.6K关注 0票数 0

Hive提供了一个抽象层,用于java地图减少作业,因此与相比,它应该存在性能问题。

代码语言:javascript
运行
复制
Do we have any benchmark to compare the performance of Hive Query & Java Map Reduce Jobs ? 

使用运行时数据的实际用例场景将是真正的帮助.

谢谢

EN

回答 3

Stack Overflow用户

发布于 2013-01-16 15:02:56

您的前提是“与Java相比,它应该存在性能问题。”错了.

蜂箱(和猪和紧缩以及其他地图/减少抽象)将比一个完全调优的手写地图/减少速度慢。

但是,除非您熟悉Hadoop和map/reduce,否则您编写的映射/减少在非平凡的查询上要慢一些,而不是Hive et。阿尔。就行了

票数 6
EN

Stack Overflow用户

发布于 2013-01-16 09:37:08

一段时间前,我在VM中做了一些小测试,我没有真正注意到任何不同之处。也许Hive有时会慢几秒,但我真的无法判断是由于内存不足而挂起的是Hives性能还是我的VM。我认为要记住的一件事是,Hive将始终决定最快的方法来完成MapReduce工作。现在,当您编写小型MapReduce作业时,您可能会自己找到最快的方法。但是对于大型复杂的工作(有连接等)你总是能和蜂巢竞争吗?

此外,编写多个类和方法的MapReduce作业所需的时间与编写HiveQL查询相比似乎要花费很长时间。

另一方面,我有一种感觉,当我自己写这份工作时,我更容易知道发生了什么。

票数 1
EN

Stack Overflow用户

发布于 2016-01-30 07:53:43

  1. 如果您的计算机上有较小的数据集,并且希望使用Apache进行处理,那么在小型数据集上执行作业将比使用Hadoop MapReduce处理同一数据集要慢。如果考虑到小数据集,蜂箱的性能会略有下降。然而,对于大型数据集,Apache的性能将比MapReduce更好。
  2. 在MapReduce中处理数据集时,数据集存储在HDFS中.MapReduce没有自己的数据库,就像Hive有元存储一样。从Hive的Metastore中,数据可以与Impala、Beeline、JDBC和ODBC驱动程序共享。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14354687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档