我们是从事与数据科学相关的毕业设计的学生,我们正在开发一个推荐引擎,使用Spark (Pyspark)和Android应用程序(用户界面),我们面临着许多障碍,其中之一就是如何保持星火脚本在云上运行,以获得快速处理和实时结果。我们所知道的EMR比EC2更新,并且已经安装了Hadoop。我们仍然很难决定使用哪种武器,以及它们在处理星火问题上有什么不同。
发布于 2016-03-21 23:39:42
EMR提供了一个简单的使用Hadoop/spark作为服务。你只需选择你想要安装的组件(火花,hadoop),它们的版本,你想要使用多少台机器,还有其他几个选项,然后它为你安装所有的东西。由于您是学生,我想您没有类似Ansible、Puppet或Chef等自动化工具的经验,而且您可能从未维护过您自己的hadoop集群。如果是这样的话,我肯定会建议电子病历。作为一个经验丰富的hadoop/ that用户,同时我可以告诉您,它有其自身的局限性。6个月前,当我使用它时,我想使用EMR的最新版本(如果记得正确的话,是4.0),因为它支持最新版本的Spark,而且我没有什么麻烦要定制它来安装Java 8,而不是提供的Java 7。我相信这是他们支持Java 8的早期,现在他们应该已经修复了这个问题。但这是你错过的所有“所有包括”的解决方案,灵活性,特别是如果你是一个专家用户。
发布于 2016-03-22 14:17:17
您还可以查看弗莱内克,这是一个不错的python,可以快速、无缝地在ec2上运行一个Spark集群。
https://stackoverflow.com/questions/36141570
复制相似问题