我的任务是设计一个Kimball风格的数据仓库。它将位于Server中的prem上。组织物理实现的最佳做法是什么?也就是说,数据仓库是否应该是一个单一的数据库,使用模式来分隔每个数据集市(并且将所有维度都放在自己的模式中,以帮助“驱动”跨市场的重用)?或者,每个数据集市是否应该是自己的数据库(强制所有维度都存在于一个单独的数据库中)?
如果我使用云平台进行数据仓库,比如Azure SQL DB (例如,使用托管实例来允许跨数据库查询),这个决策是否重要?
我正在尝试用开源框架来做ETL,我听说过两件事,Apache Beam和Apache Airflow,这两件事最适合整个ETL或ELT,比如Talend、Azure Data Factory等,事实上,我正在尝试用云数据仓库(redshift、azure数据仓库、雪花等)来做所有的事情。哪一个对这些类型的工作更好,如果我能在这两个框架之间进行一些比较,那就太好了。提前谢谢。
我的公司正在从本地数据库迁移到数据仓库,因为目前SQL Server的负载太多了。我们已经研究了我们可以使用的云解决方案,并决定使用雪花。有时,我们需要处理每个文件高达300 MB的相当重的压缩JSON。我已经阅读了文档,创建了作为(json_data variant)的舞台、文件格式和表。我已经使用SnowSQL CLI加载了我的第一个JSON文件,这也很有效。测试文件为3.7kb。当我尝试copy into mytable时,我得到了这个错误
Error parsing JSON: document is too large, max size 16777216 bytes
在上传到舞台之
当我使用格式函数时,默认情况下,值(12.1234)舍入为2个小数点(12.12)
下面是我的表达式
=Format(Fields!FEEPERUNIT.Value, "C") & " Rate Per Member "
它给了我$12.12 Rate Per Member
我希望我的数据像这样
My Data | Expected Data
12.1234 | $12.1234 Rate Per Member
45.6700 | $45.67 Rate Per Member
78.00 | $78 Rate Per Member
901.