首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >AWS上的EMR与EC2/Hadoop

AWS上的EMR与EC2/Hadoop
EN

Stack Overflow用户
提问于 2013-10-02 11:15:39
回答 2查看 3.2K关注 0票数 6

我知道EC2比电子病历更灵活,但工作量更大。然而,在成本方面,如果使用EC2,它可能需要EBS卷连接到EC2实例,而AWS只需要从S3中流式输入数据。因此,在亚马逊网络服务计算器上计算数字,即使电子病历也必须支付EC2,电子病历变得比EC2更便宜??我说错了吗?当然,使用EBS的EC2可能会更快,但这样做值得吗?

谢谢,马特

EN

回答 2

Stack Overflow用户

发布于 2013-10-22 21:46:57

EMR为您做了许多在EC2上的标准Hadoop上找不到的事情。一些特别重要的问题包括

  • 将Hadoop日志从您的计算机复制到S3。这对于在群集关闭后调试错误非常有用。
  • 运行多个MapReduce、Pig或Hive作业的作业流
  • 根据硬件大小设置合理的配置默认值为更便宜的compute
  • Ability选择
  • Access to spot instances以动态调整群集大小

您还会发现,与Apache Hadoop打包的标准文件系统相比,EMR S3文件系统更快、更可靠。它支持分块上传,流直接写入S3,而不是先缓冲到磁盘。有关这方面的更多信息,请参阅Tip #5

此外,如果您决定直接使用EC2,我建议您的节点使用实例存储而不是EBS。确实没有理由为Hadoop支付额外的EBS成本;您会注意到EMR集群也都在实例存储节点上运行。

票数 5
EN

Stack Overflow用户

发布于 2013-10-08 20:05:57

您是正确的,电子病历使用实例存储支持的EC2实例,而不是EBS。但是,没有什么可以阻止您创建基于实例存储的实例,打包AMI并将其用于Hadoop集群。根据您的工作负载和频率,使用EBS也可能不会带来很多额外的成本。此外,当通过电子病历使用EC2实例时,会增加额外的成本。

我已经使用EMR两年了,我强烈推荐这项服务,因为你不需要花费时间来管理和更新你的发行版。如果您的工作负载与电子病历兼容(从DynamoDB或S3获取数据),我会选择电子病历,而不是EC2/Hadoop。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19129440

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档