前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Cloudera 的开放湖仓采用dbt Core增压

Cloudera 的开放湖仓采用dbt Core增压

作者头像
大数据杂货铺
发布2022-12-02 21:13:45
5180
发布2022-12-02 21:13:45
举报
文章被收录于专栏:大数据杂货铺大数据杂货铺

介绍

dbt允许数据团队使用 SQL 生成可信数据集,用于报告、ML 建模和操作工作流,其简单的工作流遵循模块化、可移植性和持续集成/持续开发 (CI/CD) 等软件工程最佳实践。我们很高兴地宣布针对 CDP 中的所有引擎(Apache Hive、Apache Impala和 Apache Spark)的 dbt 开源适配器普遍可用,并增加了对Apache Livy和Cloudera Data Engineering的支持。使用这些适配器,Cloudera 客户可以使用 dbt 在 CDP 公共云、CDP One 和 CDP 私有云上协作、测试、部署和记录他们的数据转换和分析管道。

Cloudera 的使命、价值观和文化长期以来一直围绕在开放数据和表格格式上使用开源引擎来帮助客户构建灵活和开放的数据湖。最近,随着Cloudera 数据平台 (CDP) 中 Apache Iceberg的普遍可用性,我们成为第一个也是唯一一个支持同一数据上的多个引擎的开放数据湖库。

为了便于在 Cloudera 数据平台 (CDP) 上开始使用 dbt,我们将我们的开源适配器和 dbt Core 打包在一个经过全面测试和认证的可下载包中。我们还简化了 dbt 与 CDP 的治理、安全和 SDX 功能的无缝集成。通过此公告,我们欢迎我们的客户数据团队在其开放数据湖库中使用任何引擎在任何形式的任何格式的数据之上简化数据转换管道,并提供其业务可以信任的高质量数据。

开放数据湖仓

在具有多个团队和业务部门的组织中,根据不同用户的偏好和要求,存在各种带有工具和查询引擎的数据堆栈。当不同的用例需要对相同的数据使用不同的查询引擎时,需要设置和维护复杂的数据复制机制,以使数据始终可用于不同的团队。

开放式 Lakehouse 的一个关键方面是让数据团队可以自由地对同一数据使用多个引擎,从而无需为不同的用例复制数据。但是,不同的团队和业务部门有不同的流程来构建和管理他们的数据转换和分析管道。这种多样性可能导致缺乏标准化,从而导致数据重复和不一致。这就是为什么对跨数据团队、业务功能和引擎的数据转换管道具有一致的软件开发生命周期 (SDLC) 体验的中央、透明、版本控制存储库的需求日益增长。简化 SDLC 已被证明可以加快数据项目的交付并提高透明度和可审计性,从而建立一个更受信任的数据驱动型组织。

Cloudera 为开放数据湖仓中的所有引擎构建 dbt 适配器

dbt 为数据转换管道提供了这种一致的 SDLC 体验,并因此在大大小小的公司中得到广泛采用。任何了解 SQL 的人现在都可以轻松构建生产级管道。

图 1. 用于数据仓库转换管道的 dbt(图片来源:https://github.com/dbt-labs/dbt-core)

迄今为止,dbt 仅在专有的云数据仓库上可用,不同引擎之间的互操作性很少。例如,在一个引擎中执行的转换在其他引擎中是不可见的,因为没有公共存储或元数据存储。

Cloudera 为开放数据湖库中的所有引擎构建了 dbt 适配器。公司现在可以使用 dbt-core 将他们跨不同引擎的所有转换管道整合到一个版本控制的存储库中,并在团队之间使用一致的 SDLC。Cloudera 还可以使用 Cloudera 机器学习和 Cloudera Data Science Workbench 轻松地将 dbt 部署为在 CDP 中运行的打包应用程序。此功能使客户无论在本地还是在云中使用 CDP,都可以获得一致的体验。此外,鉴于 dbt 只是向 CDP 中的底层引擎提交查询,客户可以获得 SDX 提供的完整治理功能,如自动沿袭捕获、审计和影响分析。

Cloudera 的开放数据湖库和 dbt 的结合增强了数据团队使用任何引擎和任何形式因素协作构建、测试、记录和部署数据转换管道的能力。CDP 中的打包产品以及与 SDX 的集成提供了 Cloudera 客户所依赖的关键安全和治理保证。

图 2. CDP Open Lakehouse 上的 dbt 端到端 SDLC

如何在 CDP 中开始使用 dbt

Cloudera 的创新加速器为您带来 dbt 与 CDP 的集成,这是一个跨职能团队,可识别新的行业趋势并创建新产品和合作伙伴关系,从而显着改善我们 Cloudera 客户的数据从业者的生活。

要了解更多信息,请点击以下链接选择如何开始。

  • 带有 dbt 和所有 Cloudera 支持的适配器的最新 Python 包和 docker 映像的存储库
  • 在 CDP 中将 dbt 作为打包应用程序运行的手册
    • 通过 Cloudera 机器学习实现 CDP 公共云
    • 通过 Cloudera Data Science Workbench 实现 CDP 私有云
  • Cloudera 支持的开源适配器的入门指南
    • dbt-Impala
    • dbt-hive
    • dbt-spark-livy
    • dbt-spark-cde

要了解更多信息,请通过 Innovation-feedback@cloudera.com 联系我们。

原文作者:Raghotham Murthy

原文链接:https://blog.cloudera.com/clouderas-open-data-lakehouse-supercharged-with-dbt-core/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-10-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据杂货铺 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 开放数据湖仓
  • Cloudera 为开放数据湖仓中的所有引擎构建 dbt 适配器
  • 如何在 CDP 中开始使用 dbt
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档