我正在向这门课学习。它要求创建一个新的hdinsight集群(选项是hadoop、hbase、风暴或火花)以及一个存储帐户。集群和存储帐户之间有什么区别?集群是否包括处理作业的处理器,以及存储帐户是否意味着存储数据的空间?为什么我不能用不同的集群连接相同的存储帐户?
同样在Microsoft >> New >> data + Analytics下,我看到了两个选项: hdinsight,处理大数据的数据湖分析。那两个有什么区别呢?他们俩看起来都很像
HDInsight微软的基于云的大数据服务。Apache和其他流行的大数据解决方案。
数据湖分析大数据分析容易
发布于 2016-03-18 17:47:06
这里有很多问题,让我一一回答。
什么是Blob存储相对于HDInsight集群? Blob存储是一个非常类似于HDFS的分布式文件存储,用于存储数据/视频/东西。HDInsight集群是为在DFS (HDFS或Blob存储)上运行Map代码而创建的许多Hadoop虚拟机。有了两种不同的服务,您就可以独立地扩展每一种服务,从而节省长期的资金。数据存储很便宜,但是一个500节点的VM集群可能很快就会变得昂贵。能够杀死集群,但保留数据是有帮助的。
为什么我不能将相同的存储帐户连接到不同的集群?,您可以让多个集群指向同一个存储帐户,但这是一种反模式。存储帐户有数据和IO限制,如果有多个集群针对单个存储帐户,则更有可能会碰到它们。而且,存储帐户只在有数据的情况下才会花费$$,因此拥有多个帐户并不会增加成本。
什么是Azure数据湖和ADL存储? Azure数据湖是存储和计算的另一种选择。ADL存储可以被认为是blob存储v2。blob存储增加了IO和文件大小的一些限制,同时仍然能够使用Hadoop进行计算。ADL是与Hadoop完全不同的第二个计算选项。您不必担心集群的创建或集群的一般情况。编写一个查询,指定想要的并行化量,然后返回数据。
参考资料:
https://stackoverflow.com/questions/36090130
复制相似问题