我在Hive中实现了一个任务。目前,它在我的单节点集群上运行良好。现在我正计划在AWS上部署它。
我对AWS一无所知。如果我计划部署它,那么我应该选择亚马逊EC2还是Amazon EMR?
我想提高我的任务的表现。哪一个对我来说更好、更可靠?如何接近他们?我听说我们也可以在AWS上注册我们的VM设置。有可能吗?
请尽快给我推荐。
非常感谢。
发布于 2012-04-25 09:54:55
EMR是安装和配置了Hadoop (以及可选的Hive和/或Pig)的EC2实例的集合。如果您使用集群来运行Hadoop/Hive/Pig作业,EMR是最佳选择。与EC2实例相比,电子病历实例的成本稍高一些。快速查看亚马逊今天的价格就会发现,小型EC2实例的价格为0.08美元/小时,而小型电子病历实例的价格为0.015美元/小时。在我看来,花额外的钱来省去安装和设置Hadoop (以及Hive和Pig)、创建和维护AMI以及使用它的麻烦是完全值得的。此外,EMR的Hadoop和Hive版本有一些Apache Hive上不可用(至少现在还没有)的补丁。如果您使用EC2,您可能会使用Apache Hadoop和Hive (或者可能是cloudera发行版),并且无法访问这些补丁(比如对S3的本机支持或者像ALTER TABLE my_table RECOVER PARTITIONS这样的命令
参考文献:
发布于 2012-04-24 03:27:58
我建议您不要尝试部署自己的Hadoop集群,除非您有2-3个月的空闲时间,并且您手头上有一位hadoop专家。
Elastic MapReduce将通过提供预配置的hadoop环境让您快速入门。既然你只有一份工作,那应该没问题。
发布于 2014-06-03 23:57:48
总的来说,从历史上看,EMR远远落后于Hadoop组件的最新版本,有些组件完全缺失。这是使用另一个发行版的主要原因。例如,如果您想要HBase,它不在电子病历中,但它不在电子病历中。今天,Spark没有出现在EMR中。电子病历通常会滞后。
也就是说,如果你没有使用最新最棒的特性,那就使用EMR吧。
https://stackoverflow.com/questions/10100127
复制相似问题