我们一直在审查微软的现代数据仓库架构,其中提到了使用Azure Data Factory将结构化和非结构化数据拉入Azure Data Lake。我也参加了很多关于这个主题的演讲,但大多数人对data Lake是否是结构化数据的好去处意见不一。我想确定的是,如果我们要利用的唯一来源是本地SQLServer数据库,那么将数据导入到数据湖中是否是一个好策略?那么,该策略的优点/缺点是什么?就
我有一个DataFrame,包含三个相同类型的DataFrames (相同的拼花模式)。它们仅在所包含的内容/值上有所不同:我希望将结构扁平化,以便将三个DataFrames合并到一个包含所有内容/值的DataFrame中。我尝试过使用flatten和flatMap,但是我总是会遇到错误:
Error: No implicit view available from org.apache.spark.sql.DataFrameparque
我有几个复杂的(嗯,我认为它们是)的拼图。
我有8个数据库,每个数据库都是相同的(我们的操作系统跨8个不同的站点工作,每个站点都有自己的数据库),但只包含与该站点相关的数据。我需要把这些网站的数据合并在一起。例如,一个名为People的表,当我报告人员时,我需要一个包含来自每个站点的所有人员的表。我在当前使用UNION ALL SQL查询的our数据仓库中实现了这