首页
学习
活动
专区
工具
TVP
发布

腾讯云流计算 Oceanus

大数据产品生态体系的实时化分析利器。
专栏作者
86
文章
237642
阅读量
173
订阅数
腾讯云流计算 Oceanus Connector 使用示例汇总
各位老铁,刚刚总结了流计算 Oceanus (Flink) 上下游 Connector 的使用示例,作为新年福利送给大家。
吴云涛
2022-01-24
2.3K0
置顶
Flink SQL 算子生成固定 ID 的方法总结
运行图中的每个节点有自己的 ID,也可以有自己的状态(State)。当 Flink 做快照时,会保存算子 ID 和状态的对应关系。因此,我们从快照恢复作业时,如果每个算子 ID 都和之前的算子一一对应,就可以精确还原之前快照时的运行状态。
KyleMeow
2023-06-14
1.3K0
Flink REST API 的设计指南
Flink REST API 是 JobManager 提供的 HTTP 接口,用户可以通过 GET、POST 等 REST 定义的方法,请求获取作业、JobManager、TaskManager 的运行状态、监控信息、各项配置等等。
KyleMeow
2023-06-05
1.2K0
腾讯云 Oceanus 在 MySQL CDC Connector 的核心优化
Apache Flink 作为流计算引擎,需要持续从上游接收数据流,并向下游输出最新的计算结果。Connector 起到承上启下的作用:Source 负责与上游的 MQ、数据库等源表对接,Sink 则写入各类数据库、数仓、数据湖等目的表。因此,Connector 是 Flink 连接外部生态的桥梁,也是影响作业吞吐量的重要因素之一。
KyleMeow
2022-11-25
1K0
Flink JobManager 内存管理机制介绍与调优总结
我们知道,旧版本 Flink 的 JobManager 作为管理者,只承担着初始化和协调的任务,内存压力非常小,很少出现 OOM 等问题。
KyleMeow
2022-06-17
3.4K3
关注专栏作者,随时接收最新技术干货
KyleMeow
腾讯云高级工程师
吴云涛
腾讯高级工程师
Flink TaskManager 内存管理机制介绍与调优总结
Flink 的新版内存管理机制,要追溯到 2020 年初发布的 Flink 1.10 版本。当时 Flink 社区为了实现三大目标:
KyleMeow
2022-06-15
5.6K1
实时数仓-Iceberg
互联网技术高速发展的背景下,数据已经成为各大公司的最宝贵资源之一。大数据领域经过近十年的高速发展,无论是离线计算还是实时计算、不管是数据仓库还是数据中台都已深入各大公司的各个业务。在复杂业务的背景下,迫切需要一套高效的大数据架构。以数据仓库为例,经过了几次架构升级。其中,首先诞生的一个比较成熟的流批一体架构就是Lambda架构,然后就是升级版的 Kappa 架构。
代来
2022-06-06
1K0
Flink 实践教程:入门(11):MongoDB Sink
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
于乐
2022-05-20
1.2K0
Flink Metrics&REST API 介绍和原理解析
一个监控系统对于每一个服务和应用基本上都是必不可少的。在 Flink 源码中监控相关功能主要在 flink-metrics 模块中,用于对 Flink 应用进行性能度量。Flink 监控模块使用的是当前比较流行的 metrics-core 库,来自 Coda Hale 的 dropwizard/metrics [1]。dropwizard/metrics 不仅仅在 Flink 项目中使用到,Kafka、Spark 等项目也是用的这个库。Metrics 包含监控的指标(Metric)以及指标如何导出(Reporter)。Metric 为多层树形结构,Metric Group + Metric Name 构成了指标的唯一标识。Reporter 支持上报到 JMX、Influxdb、Prometheus 等时序数据库。Flink 监控模块具体的使用配置可以在 flink-core 模块的 org.apache.flink.configuration.MetricOptions 中找到。
吴云涛
2022-04-07
3.3K2
Flink 实践教程:进阶11-SQL 关联:Regular Join
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-03-28
8573
数据分析小结:使用流计算 Oceanus(Flink) SQL 作业进行数据类型转换
在这个数据爆炸的时代,企业做数据分析也面临着新的挑战, 如何能够更高效地做数据准备,从而缩短整个数据分析的周期,让数据更有时效性,增加数据的价值,就变得尤为重要。 将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程(即 ETL 过程),则需要开发人员则需要掌握 Spark、Flink 等技能,使用的技术语言则是 Java、Scala 或者 Python,一定程度上增加了数据分析的难度。而 ELT 过程逐渐被开发者和数据分析团队所重视,如果读者已经非常熟悉 SQL,采用 ELT 模式完成数据分析会是一个好的选择,比如说逐渐被数据分析师重视的 DBT 工具,便利用了 SQL 来做数据转换。DBT 会负责将 SQL 命令转化为表或者视图,广受企业欢迎。此外使用 ELT 模式进行开发技术栈也相对简单,可以使数据分析师像软件开发人员那样方便获取到加工后的数据。
吴云涛
2022-03-28
1.7K0
Flink 实践教程:入门10-Python作业的使用
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-03-25
1.5K2
Flink SQL 双表 JOIN 介绍与原理简析
Flink 作为流式数据处理框架的领跑者,在吞吐量、时延、准确型、容错性等方面都有优异的表现。在 API 方面,它为用户提供了较底层的 DataStream API,也推出了 Table API 和 SQL 等编程接口。特别来看,SQL 以其易用、易迁移的特点,深受广大用户的欢迎。
KyleMeow
2022-03-22
5.7K2
Flink Watermark 机制及总结
Flink 水印机制,简而言之,就是在 Flink 使用 Event Time 的情况下,窗口处理事件乱序和事件延迟的一种设计方案。本文从基本的概念入手,来看下 Flink 水印机制的原理和使用方式。
Andy_l
2022-03-20
1.6K0
Flink 实践教程:进阶10-自定义聚合函数(UDAF)
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-03-14
1.3K2
Flink 实践教程:进阶9-自定义表值函数(UDTF)
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-03-07
1.7K0
Flink 实践教程:进阶8-自定义标量函数(UDF)
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-02-24
1.9K0
腾讯云 AI 视觉产品基于流计算 Oceanus(Flink) 计费数据去重尝试
AI 视觉产品在我们腾讯云-人工智能的产品目录下,包括人脸识别、人脸特效、人脸核身、图像识别、文字识别等。 流计算 Oceanus 在腾讯云-大数据的产品目录下,是基于 Apache Flink 构建的企业级实时大数据分析平台。 AI 视觉产品是按调用量计费,毕竟涉及到钱,用户对计量数据准确是非常敏感的; 另外调用量本身也比较大,如何保证数据的准确一致也是一个比较大的挑战。 数据不准: 主要包括数据丢失和数据重复(当然可能有其他问题比如上报的数据本身错误等,暂不属于本次讨论范围)。 数据丢失: 相当于调用量少算,会影响我们的收入。一方面我们通常重试、持久化等方式尽量减少数据的丢失,目标当然是完全不丢,但很难做到100%不丢。另一方面很少量的数据丢失对于实际收入影响很小,对用户基本没有影响。 数据重复: 相当于调用量多算就会多收用户钱,用户一旦发现肯定会投诉过来。所以是必须要去解决的,但是数据量很大,要做到精确去重比较难。
吴云涛
2022-01-28
9950
Flink 实践教程:进阶7-基础运维
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-01-20
2.4K1
Flink 实践教程:进阶6-CEP 复杂事件处理
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
吴云涛
2022-01-14
1K4
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档