我正在尝试用开源框架来做ETL,我听说过两件事,Apache Beam和Apache Airflow,这两件事最适合整个ETL或ELT,比如Talend、Azure Data Factory等,事实上,我正在尝试用云数据仓库(redshift、azure数据仓库、雪花等)来做所有的事情。哪一个对这些类型的工作更好,如果我能在这两个框架之间进行一些比较,那就太好了。提前谢谢。
我开始在电信领域开发数据仓库。我熟悉Kimball的方法(将我的DW建模为星型模式)。我预计许多事实表,最大的可能是数百亿行。我无法想象几年后数据仓库将再次运行的所有类型的查询。与“解耦”相比,更喜欢基于RDBMs的数据仓库的原因是什么?,您将获得用于查找、聚合和联接的RDBMs系统的性能优化。如果您选择基于S3/ADLS的MPP da
我们正在尝试将数据从本地系统复制到Azure数据仓库。我们希望使用SSIS包将数据从本地复制到云。Azure Data Factory v1不支持SSIS包,而Azure数据工厂v2支持SSIS包,但数据仓库不支持它。所以我的问题是,如何使用Azure data Factory SSIS包将数据从本地数据库导入Azure数据仓库?