首页
学习
活动
专区
工具
TVP
发布

SmartSi

专栏作者
270
文章
583760
阅读量
53
订阅数
Flink Table API & SQL 基本操作
本文主要展示了 Table API 和 SQL 程序的常见结构,如何创建注册 Table,查询 Table,以及如何输出 Table。
smartsi
2022-04-17
2.6K0
State Processor API:如何读写和修改 Flink 应用程序的状态
无论是在生产环境中运行 Apache Flink 还是在调研 Apache Flink,总会遇到一个问题:如何读写以及更新 Flink Savepoint 中的状态?为了解决这个问题,在 Apache Flink 1.9.0 版本引入了 State Processor API,扩展 DataSet API 实现读写以及修改 Flink Savepoint 和 Checkpoint 中状态。
smartsi
2022-03-07
1.4K0
Flink 1.13 StateBackend 与 CheckpointStorage 拆分
Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学习可以解答我们的一些困惑,但是这个问题如此常见,我们认为 Flink 的用户 API 应该设计的更友好一些。在过去几年中,我们经常会听到如下误解:
smartsi
2022-02-22
2.5K0
BookKeeper 简介
Apache BookKeeper 是企业级存储系统,旨在提供强大的持久性保证、一致性和低延迟。最初是由雅虎研究院(Yahoo! Research)开发,作为 Hadoop 分布式文件系统(HDFS)NameNode 的高可用(HA)解决方案,以解决严重的单点故障问题。
smartsi
2022-02-04
1.6K0
Kafka Connect 如何构建实时数据管道
Kafka Connect 旨在通过将数据移入和移出 Kafka 进行标准化,以更轻松地构建大规模的实时数据管道。我们可以使用 Kafka Connector 读取或写入外部系统、管理数据流以及扩展系统,所有这些都无需开发新代码。Kafka Connect 管理与其他系统连接时的所有常见问题(Schema 管理、容错、并行性、延迟、投递语义等),每个 Connector 只关注如何在目标系统和 Kafka 之间复制数据。
smartsi
2021-09-23
1.6K0
Flink 窗口之Window机制
数据分析场景见证了批处理到流处理的演变过程。尽管批处理可以作为流处理的一种特殊情况来处理,但分析永无止境的流数据通常需要转变一种思维方式,并使用它自己的专门术语,例如,窗口、At-Least-Once 或者 Exactly-Once 处理语义。
smartsi
2021-02-04
1.3K0
Flink监控 Rest API
Flink具有监控 API,可用于查询正在运行的作业以及最近完成的作业的状态和统计信息。Flink 自己的仪表板也使用了这些监控 API,但监控 API 主要是为了自定义监视工具设计的。监控 API 是 REST-ful API,接受 HTTP 请求并返回 JSON 数据响应。
smartsi
2020-11-16
3.4K0
HBase Java Client API
在这篇文章中,我们看一下 HBase Java 客户端 API 如何使用。HBase 用 Java 编写,并提供 Java API 与之通信。客户端 API 提供了DDL(数据定义语言)和DML(数据操作语言)语义,这与我们在关系数据库中的语义非常相似。因此,我们学习一下如何使用 HBase 的 Java 客户端 API 对 HBase 表进行 CRUD 操作。
smartsi
2020-02-12
2.2K0
Storm UI REST API
Storm UI 守护进程提供了 REST API, 允许我们与 Storm 集群进行交互, 其中包括查看指标数据,配置信息以及启动或停止拓扑的管理操作。REST API 结果以 JSON 形式返回。
smartsi
2019-11-28
1.9K0
Spark Streaming 2.2.0 Input DStreams和Receivers
输入 DStreams 表示从 source 中获取输入数据流的 DStreams。在入门示例中,lines 表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入DStream(除 file stream)都与一个 Receiver (接收器)相关联,接收器从 source 中获取数据,并将数据存入 Spark 内存中来进行处理。 输入 DStreams 表示从数据源获取的原始数据流。Spark Streaming 提供了两类内置的流源(streaming sources):
smartsi
2019-08-08
7850
Spark Streaming 与 Kafka0.8 整合
在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法,一种为使用 Receivers 和 Kafka 高级API的旧方法,以及不使用 Receivers 的新方法(在 Spark 1.3 中引入)。它们具有不同的编程模型,性能特征和语义保证。就目前的 Spark 版本而言,这两种方法都被为稳定的API。
smartsi
2019-08-08
2.2K1
Flink 动态表的持续查询
越来越多的公司采用流处理,并将现有的批处理应用迁移到流处理,或者对新的用例采用流处理实现的解决方案。其中许多应用集中在流数据分析上,分析的数据流来自各种源,例如数据库事务、点击、传感器测量或IoT 设备。
smartsi
2019-08-08
2K0
Spark Streaming 2.2.0 Example
Spark Streaming 是 Spark Core API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等许多源中提取,并且可以使用由诸如map,reduce,join或者 window 等高级函数组成的复杂算法来处理。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到 Spark 的机器学习算法、 图处理算法中去。
smartsi
2019-08-08
1.2K0
Spark 在Spark2.0中如何使用SparkSession
除了有时限的交互之外,SparkSession 提供了一个单一的入口来与底层的 Spark 功能进行交互,并允许使用 DataFrame 和 Dataset API 对 Spark 进行编程。最重要的是,它减少了开发人员在与 Spark 进行交互时必须了解和构造概念的数量。
smartsi
2019-08-08
4.5K0
Flink1.4 数据流类型与转换关系
Flink 为流处理和批处理分别提供了 DataStream API 和 DataSet API。正是这种高层的抽象和 flunent API 极大地便利了用户编写大数据应用。不过很多初学者在看到官方文档中那一大坨的转换时,常常会蒙了圈,文档中那些只言片语也很难讲清它们之间的关系。所以本文将介绍几种关键的数据流类型,它们之间是如何通过转换关联起来的。下图展示了 Flink 中目前支持的主要几种流的类型,以及它们之间的转换关系。
smartsi
2019-08-07
1.5K0
Spark2.3.0 创建RDD
Spark的核心概念是弹性分布式数据集(RDD),RDD 是一个可容错、并行操作的分布式元素集合。有两种方法可以创建 RDD 对象:
smartsi
2019-08-07
8170
Spark 2.3.0 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的持续处理;支持 stream-to-stream joins;通过改善 pandas UDFs 的性能来提升 PySpark;支持第四种调度引擎 Kubernetes clusters(其他三种分别是自带的独立模式Standalone,YARN、Mesos)。除了这些比较具有里程碑的重要功能外,Spark 2.3 还有以下几个重要的更新:
smartsi
2019-08-07
1.5K0
ElasticSearch 近实时搜索
随着 按段搜索 的发展,索引文档与文档可被搜索的延迟显着下降。新文档可以在数分钟内可被搜索,但仍然不够快。
smartsi
2019-08-07
7890
Spark Streaming 与 Kafka 整合的改进
Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此,在 Apache Spark 1.3 中,我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下:
smartsi
2019-08-07
7370
Flink1.4 用于外部数据访问的异步IO
当与外部系统交互时(例如,使用存储在数据库中数据丰富流事件),需要注意与外部系统的通信延迟并不决定流应用程序的整体工作。访问外部数据库中的数据(例如在 MapFunction 中)通常意味着同步交互:将请求发送到数据库,MapFunction 会等待直到收到响应。在许多情况下,这个等待时间占了该函数绝大部分时间。
smartsi
2019-08-07
8800
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档