互联网上有一大堆hadoop生态系统的图片,所以我很难理解这些工具是如何协同工作的。
例如,在附图中,为什么猪和蜂巢基于map减少,而其他工具,如spark或storm在纱线上?
你能帮我解释一下这个吗?
谢谢!BR
发布于 2018-05-04 12:09:10
图为Pig
和Hive
在MapReduce
上。这是因为MapReduce
是Pig
和Hive
使用的分布式计算引擎。Pig
和Hive
查询作为MapReduce
作业执行。使用Pig
和Hive
更容易,因为它们为使用MapReduce
提供了更高级别的抽象。
现在让我们看看图片中YARN
上的Spark
/Storm
/Flink
。YARN
是一个集群管理器,允许各种应用程序在其上运行。Storm
、Spark
和Flink
都是可以在YARN
上运行的应用程序的示例。如图所示,MapReduce
也被视为可以在YARN
上运行的应用程序。YARN
处理资源管理部分,以便多个应用程序可以共享同一集群。(如果您对类似技术的另一个示例感兴趣,请查看Mesos
)。
最后,图片的底部是HDFS
。这是允许应用程序存储和访问数据的分布式存储层。提供分布式存储、复制、容错等功能。
如果你对更深层次的潜水感兴趣,请查看Apache Projects页面。
https://stackoverflow.com/questions/50158773
复制相似问题