我正在使用Hadoop设置一个包含两个data+compute节点和两个纯计算节点的集群。我正在使用Spark with Yarn进行数据处理。对于前一种类型的节点,我只需将host-name添加到workers配置中,hadoop会自动在这些节点上启动hdfs和YARN。但是对于仅用于计算的节点,我不希望它们运行dfs。一种方法可能是将这些节点也添加到workers配置中,然后排除/停用这些节点,但我觉得这不是正确的方法。我找不到任何hadoop配置来将特定节点排除在运行dfs之外。有人能告诉我设置这种节点分布的正确方法吗?
我最近参与了几个云计算平台。云计算是一个很大的领域,但为了让我的观点简单易懂。让我想出一个非常简单的场景,那就是托管在云上的数据存储服务。如果您使用任何存储服务,如亚马逊EC2、SQL Data Service(SDS)、Salesforce.com服务。如果您想使用任何这样数据存储服务平台,那么所有这些服务的目标都是相同的,即按需提供所请求的数据。没有争论它是如何存储的,它存储在哪里,谁在维护它,等等。(都是