首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >hive、pig、map-reduce用例之间的区别

hive、pig、map-reduce用例之间的区别
EN

Stack Overflow用户
提问于 2014-10-29 23:23:48
回答 4查看 6.2K关注 0票数 0

map-reduce、hive、pig之间的区别

pig :它是一种数据流语言,它可以处理任何数据,基本上用于将半结构化、非结构化数据转换为结构化数据,以便可以使用窗口函数等在hive高级分析中使用。

Hive :处理结构化数据,并提供sql类型的查询语言。

我知道在后端,猪和蜂窝都使用map -reduces。

我知道map-reduce对于程序员、hive或pig for sql来说都是很好的工具

我只想知道是否有任何特定的用例,我们去蜂巢,猪和地图-缩减

基本上,我们决定我们必须在这里使用猪蜂巢,或者我们必须使用地图-reduce。

EN

回答 4

Stack Overflow用户

发布于 2014-10-30 01:01:05

Map-Reduce:性能比pig或hive更好,但需要更多的开发时间。

PIg:与map-reduce相比,开发时间更短,但性能较差。

Hve: SQL型语言,具有一些很好的特性,如分区和分组法来提高性能reads.Also,hive在读取时强制执行模式。

票数 0
EN

Stack Overflow用户

发布于 2014-10-30 02:13:41

Pig是用来格式化你的非结构化/半结构化数据的,format.Lets说你在你的数据中有一个时间戳,这不是根据Hive时间戳,format.You可以使用pigUDF来转换相同的时间戳,格式化你的data.This只是一个例子,explain.You可以使用Pig做更多的事情。

hive主要用于结构化数据,非结构化data.This可能不能很好地工作,当它转换为Mapreduce作业时需要更多的时间来执行。我建议你使用impala,它比Hive快得多。

票数 0
EN

Stack Overflow用户

发布于 2014-11-05 08:35:35

Pig是一种数据流语言。这意味着您不能使用if语句或循环。如果你需要做很多重复的工作,学习mapreduce会更好。

您可以通过将pig嵌入到python脚本中来解决此问题,但这将花费更长的时间,因为它必须在每次循环迭代时加载所有的jar文件。

基本上,它可以归结为你花了多少时间进行原型开发,而不是你有多少生产工作。如果您是一名数据科学家或分析师,那么您的大部分工作都是需要大量原型的新项目。这意味着你关心的是快速获得结果。那么你会更喜欢猪或者蜂巢。如果您在一个开发团队中,您希望基于达成一致的不需要测试的方法构建健壮的代码,然后您会更喜欢mapreduce。

像Cloudera这样的公司提供了Pig、Hive和其他Hadoop工具的包,因此您不必在两者之间进行选择。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26634263

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档