前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SQL Stream Builder - Eventador与Cloudera的加速集成

SQL Stream Builder - Eventador与Cloudera的加速集成

作者头像
大数据杂货铺
发布2021-04-16 11:35:12
5870
发布2021-04-16 11:35:12
举报
文章被收录于专栏:大数据杂货铺大数据杂货铺

2020年10月,Cloudera战略性的收购了一家名为Eventador的公司。这主要是为了增强我们在Cloudera DataFlow中的流功能。Eventador擅长简化构建流应用程序的过程。他们的旗舰产品SQL Stream Builder仅使用SQL(结构化查询语言)就可以轻松访问实时数据流。Cloudera的客户正努力解决相同的挑战–用SQL之类的简单查询查询大量实时数据流。

今天,在收购Eventador之后的5个月内,我们非常高兴地宣布SQL Stream Builder现在作为Cloudera SQL Stream Builder重新推出。将其与Cloudera数据平台(CDP)的共享数据体验(SDX)完全集成后,即可完成此操作。这意味着SQL Stream Builder使用SDX可以与平台的其余部分一样利用相同的统一安全性和治理。

什么是SQL Stream Builder?

Cloudera的SQL Stream Builder现在增强了Cloudera的数据流平台(CDF)的强大的流处理能力。它提供了一个光滑的用户界面,用于编写SQL查询以针对Apache Kafka或Apache Flink中的实时数据流运行。这使开发人员、数据分析师和数据科学家仅使用SQL即可编写流应用程序。他们不再需要依靠任何熟练的Java或Scala开发人员来编写特殊程序来访问这些数据流。

SQL Stream Builder通过Flink连续运行SQL。它通过简单而直观的用户界面提供语法检查、错误报告、模式检测、查询创建、采样结果以及创建输出。它还提供了一个先进的物化视图引擎,使其他应用程序可以通过简单的REST API访问实时聚合的数据集。

数据衰减

是的,数据具有保质期。在当今的业务环境中,必须立即处理您收到的数据,以了解业务影响并采取措施。如果您只能实时摄取所有数据,却无法利用数据对您的意义,那么流分析解决方案就不好了。想象一下,某制造商每天从其十几个或更多制造工厂接收带有数百万条消息的数据流。如果他们需要了解流的特定涌动来自何处,或者需要检测流中的特定异常,则他们应该能够实时查询流。他们无力将其全部发送到数据存储中,然后在第二天进行分析以找到可行的见解。该数据第二天没有任何价值。要执行此类实时查询,这些技能通常由组织中的少数人掌握,他们拥有诸如Scala或Java之类的独特技能,并且可以编写代码来获得这种见解。这不是可扩展的模型。

SQL是一种通用语言

在过去的三十多年中,SQL已成为一种接受的跨多种数据库系统进行查询的方法。在关键的企业数据角色中,SQL也是最受欢迎的技能之一。由于数据分析人员和数据科学家都在努力地轻松获得对实时数据流的访问权限,因此SQL成为完成此任务的简便选择。但是,这是一个关键挑战。与通常在任何给定时间点具有固定行数的数据库表不同,流是不受限制的。这意味着它们本质上是连续的,没有限制。它们也不会按顺序进入。有些消息也可能迟到或出现故障。这使得采用SQL原样查询数据流具有挑战性。

流式SQL

数据流必须使用称为“窗口”的微小时间片进行处理,例如持续5秒钟。流上的每个消息还具有一个时间戳,可用于检测应该处理该消息的顺序。因此,使用SQL作为基本构造,添加了一些其他关键字来在时间窗口的上下文中处理数据流。因此诞生了Streaming SQL或Continuous SQL。它们的外观和功能类似于常规SQL,但您还有许多其他构造可用于在特定时间范围内对流进行分组。它还支持一系列聚合功能,以便您可以对流执行各种扩充任务,例如查找平均值、总和、计数等。这可以立即允许组织中的数据分析人员和数据科学家使用SQL查询数据流!这就是我们所说的组织内实时数据的民主化。

图:SQL Stream Builder带来了SQL的简单性,利用实时流获取数据的价值

为什么会对SQL Stream Builder感到兴奋?

  • 释放所有用户角色对实时数据的访问权限–数据分析师和数据科学家可以自己使用SQL Stream Builder来使用SQL运行临时查询
  • 简化了构建流应用程序的过程– SQL Stream Builder提供了一个支持流SQL的交互式用户界面。这使用户可以在特定时间窗口内对数据流运行连续查询。您还可以加入多个数据流并执行聚合。
  • 将聚合的数据流公开给其他应用程序– SQL Stream Builder允许您创建物化视图,可以通过REST API轻松地将其公开给其他应用程序。这再次将锁定在实时数据流中的值释放给整个企业中的更多应用程序。
  • 加速查询,而对核心系统的影响最小– SQL Stream Builder的真正功能在于其底层引擎中,可以使这些查询执行得非常快,而又不会给保存此类数据流的核心系统带来负担,例如,Kafka代理将数据流保存在其中的topic中。

如果您想了解有关连续SQL的更多信息,请下载我们的新白皮书。或者,如果您想了解有关SQL Stream Builder的更多信息,请下载我们的技术简介或数据表。

原文作者:Dinesh Chandrasekhar

原文链接:https://blog.cloudera.com/accelerated-integration-of-eventador-with-cloudera-sql-stream-builder/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据杂货铺 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是SQL Stream Builder?
  • 数据衰减
  • SQL是一种通用语言
  • 流式SQL
  • 为什么会对SQL Stream Builder感到兴奋?
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档