我刚刚开始进行数据分析,需要使用来分析大容量的数据。在计划使用Databricks笔记本进行分析时,我遇到了不同的存储选项来加载数据( a) DBFS --来自Databricks的默认文件系统b) Azure data Lake (ADLS)和c) Azure Blob Storage。看起来,项目(b)和(c)可以挂载到工作区中,以检索用于分析的数据。
有了以上的理解,我可以澄清以下问题吗?
在Databricks上下文中使用这些存储选项有什么不同?DBFS和ADLS是否结合了HDFS的文件管理原则,比如将文件分成块、名称节点、数据节点等?
如果我安装Azure Blob存储容器来
我正在考虑使用Azure中的虚拟化环境为大数据分析设置Hadoop集群。由于数据量非常大,我正在考虑将数据存储在辅助存储中,如Azure data Lake Store和Hadoop集群存储将充当主存储。我想知道,如何进行配置,以便在我创建Hive表和分区时,部分数据可以驻留在主存储中,其余数据可以驻留在辅助存储中?
感谢问候,马德胡