首页
学习
活动
专区
工具
TVP
发布

腾讯云流计算 Oceanus

大数据产品生态体系的实时化分析利器。
专栏作者
86
文章
231725
阅读量
173
订阅数
Flink SQL 算子生成固定 ID 的方法总结
运行图中的每个节点有自己的 ID,也可以有自己的状态(State)。当 Flink 做快照时,会保存算子 ID 和状态的对应关系。因此,我们从快照恢复作业时,如果每个算子 ID 都和之前的算子一一对应,就可以精确还原之前快照时的运行状态。
KyleMeow
2023-06-14
1.2K0
Flink REST API 的设计指南
Flink REST API 是 JobManager 提供的 HTTP 接口,用户可以通过 GET、POST 等 REST 定义的方法,请求获取作业、JobManager、TaskManager 的运行状态、监控信息、各项配置等等。
KyleMeow
2023-06-05
1K0
腾讯云 Oceanus 在 MySQL CDC Connector 的核心优化
Apache Flink 作为流计算引擎,需要持续从上游接收数据流,并向下游输出最新的计算结果。Connector 起到承上启下的作用:Source 负责与上游的 MQ、数据库等源表对接,Sink 则写入各类数据库、数仓、数据湖等目的表。因此,Connector 是 Flink 连接外部生态的桥梁,也是影响作业吞吐量的重要因素之一。
KyleMeow
2022-11-25
9810
Flink 非确定性更新(NDU)问题探索和规避
非确定性函数(Non-Deterministic Functions)一直是影响流处理系统状态匹配的梦魇。例如用户在定义源表时,某个虚拟列字段调用了 RAND()、NOW()、UUID() 等函数;那么每次作业崩溃后重新运行,即使输入的数据流完全一致,输出结果也未必相同。此外,如果用户使用维表 JOIN,而外部维表随时在更新时,每次 JOIN 的结果也可能不同。
KyleMeow
2022-11-24
1.9K0
Flink JobManager 内存管理机制介绍与调优总结
我们知道,旧版本 Flink 的 JobManager 作为管理者,只承担着初始化和协调的任务,内存压力非常小,很少出现 OOM 等问题。
KyleMeow
2022-06-17
3.3K3
关注专栏作者,随时接收最新技术干货
KyleMeow
腾讯云高级工程师
郑灿彬felixzheng
吴云涛
腾讯高级工程师
Raigor
Flink TaskManager 内存管理机制介绍与调优总结
Flink 的新版内存管理机制,要追溯到 2020 年初发布的 Flink 1.10 版本。当时 Flink 社区为了实现三大目标:
KyleMeow
2022-06-15
5.3K1
Flink 实践教程:入门(12):元数据使用
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
于乐
2022-06-14
5220
实时数仓-Iceberg
互联网技术高速发展的背景下,数据已经成为各大公司的最宝贵资源之一。大数据领域经过近十年的高速发展,无论是离线计算还是实时计算、不管是数据仓库还是数据中台都已深入各大公司的各个业务。在复杂业务的背景下,迫切需要一套高效的大数据架构。以数据仓库为例,经过了几次架构升级。其中,首先诞生的一个比较成熟的流批一体架构就是Lambda架构,然后就是升级版的 Kappa 架构。
代来
2022-06-06
9890
Flink 实践教程:入门(11):MongoDB Sink
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
于乐
2022-05-20
1.2K0
TDSQL-subscribe-connector最佳实践(上)
本文介绍了如何在 Oceanus 平台使用 tdsql-subscribe-connector 1 ,从 TDSQL-MySQL 订阅任务 2 创建,到 Oceanus 作业创建、最终数据验证,实现全流程的操作指导。需要注意的是,本文默认已经创建 TDSQL-MySQL 实例和 Oceanus 集群,并且二者在同一 VPC 下或者不同 VPC 下但网络已经打通。
姚琦
2022-05-17
8700
Flink Metrics&REST API 介绍和原理解析
一个监控系统对于每一个服务和应用基本上都是必不可少的。在 Flink 源码中监控相关功能主要在 flink-metrics 模块中,用于对 Flink 应用进行性能度量。Flink 监控模块使用的是当前比较流行的 metrics-core 库,来自 Coda Hale 的 dropwizard/metrics [1]。dropwizard/metrics 不仅仅在 Flink 项目中使用到,Kafka、Spark 等项目也是用的这个库。Metrics 包含监控的指标(Metric)以及指标如何导出(Reporter)。Metric 为多层树形结构,Metric Group + Metric Name 构成了指标的唯一标识。Reporter 支持上报到 JMX、Influxdb、Prometheus 等时序数据库。Flink 监控模块具体的使用配置可以在 flink-core 模块的 org.apache.flink.configuration.MetricOptions 中找到。
吴云涛
2022-04-07
3.2K2
Flink 实践教程:进阶11-SQL 关联:Regular Join
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-03-28
8323
数据分析小结:使用流计算 Oceanus(Flink) SQL 作业进行数据类型转换
在这个数据爆炸的时代,企业做数据分析也面临着新的挑战, 如何能够更高效地做数据准备,从而缩短整个数据分析的周期,让数据更有时效性,增加数据的价值,就变得尤为重要。 将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程(即 ETL 过程),则需要开发人员则需要掌握 Spark、Flink 等技能,使用的技术语言则是 Java、Scala 或者 Python,一定程度上增加了数据分析的难度。而 ELT 过程逐渐被开发者和数据分析团队所重视,如果读者已经非常熟悉 SQL,采用 ELT 模式完成数据分析会是一个好的选择,比如说逐渐被数据分析师重视的 DBT 工具,便利用了 SQL 来做数据转换。DBT 会负责将 SQL 命令转化为表或者视图,广受企业欢迎。此外使用 ELT 模式进行开发技术栈也相对简单,可以使数据分析师像软件开发人员那样方便获取到加工后的数据。
吴云涛
2022-03-28
1.6K0
Flink 实践教程:入门10-Python作业的使用
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-03-25
1.4K2
Flink SQL 双表 JOIN 介绍与原理简析
Flink 作为流式数据处理框架的领跑者,在吞吐量、时延、准确型、容错性等方面都有优异的表现。在 API 方面,它为用户提供了较底层的 DataStream API,也推出了 Table API 和 SQL 等编程接口。特别来看,SQL 以其易用、易迁移的特点,深受广大用户的欢迎。
KyleMeow
2022-03-22
5.4K2
Flink Watermark 机制及总结
Flink 水印机制,简而言之,就是在 Flink 使用 Event Time 的情况下,窗口处理事件乱序和事件延迟的一种设计方案。本文从基本的概念入手,来看下 Flink 水印机制的原理和使用方式。
Andy_l
2022-03-20
1.5K0
Flink 实践教程:进阶10-自定义聚合函数(UDAF)
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-03-14
1.3K2
Flink 实践教程:进阶9-自定义表值函数(UDTF)
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-03-07
1.7K0
实时数仓:基于 Flink CDC 实现 Oracle 数据实时更新到 Kudu
Flink CDC 于 2021 年 11 月 15 日发布了最新版本 2.1,该版本通过引入内置 Debezium 组件,增加了对 Oracle 的支持。本方案主要对 flink-connector-oracle-cdc进行试用。首先在本地对 Oracle CDC 进行调试通过,然后结合腾讯云产品流计算 Oceanus、EMR(Kudu)实现了 Oracle-Oceanus-Kudu 一体化解决方案,其中并无复杂的业务逻辑实现(这里进行最简单的数据转移,用户可根据实际业务情况编写相应代码),并对其中发现的一些问题进行归纳整理与读者分享。
于乐
2022-03-02
5.7K3
Flink 实践教程:进阶8-自定义标量函数(UDF)
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-02-24
1.8K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档