前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Flink Forward 2019--实战相关(11)--Pulasr与Flink整合的弹性数据处理

Flink Forward 2019--实战相关(11)--Pulasr与Flink整合的弹性数据处理

作者头像
阿泽
发布2019-07-11 17:59:04
5230
发布2019-07-11 17:59:04
举报

Elastic Data Processing with Apache Flink and Apache Pulsar -- Sijie Guo(Apache Pulsar)

More and more applications are using Flink for low-latency data processing. Flink unifies batch and stream processing using one computation engine. However in reality, in order to really unify batch and stream processing, it requires a data system offers one unified data representation for both batch and streaming data. Nowadays, streaming data is typically stored in a log storage or messaging system, while batch data is stored in distributed filesystem and object stores. That means that data scientists still need write two different computing jobs to access same data stored in different data systems.

越来越多的应用程序使用Flink进行低延迟数据处理。Flink使用一个计算引擎来统一批处理和流处理。然而在现实中,为了真正统一批处理和流处理,需要一个数据系统为批处理和流处理数据提供一个统一的数据表示。现在,流式数据通常存储在日志存储或消息传递系统中,而批处理数据存储在分布式文件系统和对象存储中。这意味着数据科学家仍然需要编写两个不同的计算作业来访问存储在不同数据系统中的相同数据。

Apache Pulsar is the next generation messaging and streaming data system. It was originally built at Yahoo, and has graduated from Apache Incubator and become a Top-Level-Project. Pulsar separates messaging serving and data storage into two layers. Such layered architecture provides high throughput and low-latency while ensuring high availability and scalability. Pulsar’s segment centric storage design along with layered architecture makes Pulsar a perfect unbounded streaming data system, which can well fit into Flink’s computation model.

Apache Pulsar是下一代消息和流数据系统。它最初是在雅虎(Yahoo)建立的,现在已经从Apache孵化器中毕业,成为一个顶级项目。Pulsar将消息服务和数据存储分为两层。这种分层体系结构提供了高吞吐量和低延迟,同时确保了高可用性和可扩展性。Pulsar的以段为中心的存储设计和分层结构使其成为一个完美的无边界流数据系统,可以很好地融入Flink的计算模型。

In this talk, Sijie Guo from Apache Pulsar PMC, will introduce Pulsar and its layered architecture and segment-centric storage, detailing how this architecture can well integrate with Flink to provide elastic unified batch and stream processing.

在本文中,来自Apache Pulsar PMC的Sijie Guo将介绍Pulsar及其分层体系结构和以段为中心的存储,详细说明该体系结构如何与Flink很好地集成,以提供弹性统一的批处理和流处理。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Flink实战应用指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档