微软和其他公司的文档强烈强调了在Analytics中存储和计算之间的分离。对于没有Serverless的SQL池,可以清楚地解释数据存储在Azure data Lake Gen2中。但是,对于专用的SQL ,文档在数据存储方面不够明确。在一本关于Azure Synapse的书中,说明了在专用的SQL 中,数据存储在与计算节点完全分离的存储节点中。
我正在使用Hadoop设置一个包含两个data+compute节点和两个纯计算节点的集群。我正在使用Spark with Yarn进行数据处理。对于前一种类型的节点,我只需将host-name添加到workers配置中,hadoop会自动在这些节点上启动hdfs和YARN。但是对于仅用于计算的节点,我不希望它们运行dfs。