首页
学习
活动
专区
工具
TVP
发布

小晨讲Flink

专栏作者
69
文章
89162
阅读量
18
订阅数
数据治理宝典!从0-1搭建企业级数据治理体系
好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。
小晨说数据
2022-11-18
1K0
数据治理到底在做什么,从0搭建企业级数据治理体系
好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。
小晨说数据
2022-11-18
9960
Flink流量控制与反压机制完全总结
笔者最近回顾自己对Flink技术栈细节的理解,发现对Flink的网络栈、流控与反压这一套机制存在比较大的盲区。虽然平时多次处理过作业反压的问题,但是不完全理解背后的实现显然说不过去。于是专门写一篇总结,站在大佬们的肩膀上彻底搞清楚Flink是怎么做流控与处理反压的。
小晨说数据
2022-03-10
6010
浅谈Doris和Flink在广告实时数仓中的实践
Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。
小晨说数据
2022-03-10
1.6K0
附代码|Flink实时计算TopN
在上一章代码中使用了timeWindow,使得我们可以操作Flink流中的一个时间段内的数据,这就引出了Flink中的"窗口"概念:在大多数场景下,数据流都是"无限的",因引我们无法等待数据流终止后才进行一些统计计算,而通常的需求是对一段时间或是一定范围内的数据进行分析。
小晨说数据
2022-03-10
1.2K0
开源OLAP系统的比较:ClickHouse、Druid和Pinot
从根本上讲,ClickHouse,Druid和Pinot都是相似的,因为它们在同一节点上存储数据并进行查询处理,这与去耦BigQuery体系结构不同。最近,我以Druid为例描述了一些固有的问题与耦合结构1,2)。目前没有与BigQuery等效的开源软件(也许是Drill吗?),我已经在本博文中探讨了构建此类开源系统的方法。
小晨说数据
2022-03-10
2.1K0
数据治理的定义,挑战和最佳实践
数据治理构成了公司范围内数据管理的基础,并使有效使用可信赖的数据成为可能。数据的有效管理是一项重要任务,需要集中控制机制。
小晨说数据
2022-03-10
6400
实战自定义Flink SQL Connector( Flink 1.11 & Redis)
Flink SQL之所以简洁易用而功能强大,其中一个重要因素就是其拥有丰富的Connector(连接器)组件。Connector是Flink与外部系统交互的载体,并分为负责读取的Source和负责写入的Sink两大类。不过,Flink SQL内置的Connector有可能无法cover实际业务中的种种需求,需要我们自行定制。好在社区已经提供了一套标准化、易于扩展的体系,用户只要按照规范面向接口编程,就能轻松打造自己的Connector。本文就在现有Bahir Flink项目的基础上逐步实现一个SQL化的Redis Connector。
小晨说数据
2022-03-10
2.9K0
用户画像技术及方法论
用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。
小晨说数据
2022-03-09
5860
“数据湖”刚学会,又来了一个“数据海”?
作者简介:6年大数据开发经验,从毕业一直从事大数据开发工作,渣渣二本,凭借自己努力进入一线互联网企业,目前负责实时计算开发工作。最近看到大家对互联网词汇特别迷,我就写一篇文章来给大家讲讲,好久没有写原创了,主要是平时太忙了,没时间写。
小晨说数据
2022-03-09
1.2K0
关于数仓基础知识的超全概括!
权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
小晨说数据
2022-03-09
9720
关于数据仓库、数据湖、数据平台和数据中台的概念和区别
我们谈论数据中台之前,我们也听到过数据平台、数据仓库、数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别,下面我们将分别介绍数据平台数据仓库数据湖和数据中台。
小晨说数据
2022-03-09
9810
Flink SQL高效Top-N方案的实现原理
昨天的文章里恰好用Top-N Function来举了例子,那么择日不如撞日,今天接着聊吧。
小晨说数据
2022-03-09
6090
基于Flink+State开发的实时订单
实时订单开发,说实话,最近开发,掉了一半的头发,复杂度,我就点到为止,还是希望大家多看看flink,这个可是开发利器。写这篇文章的目的,就是给大家分享一下实时订单的开发思路和遇到问题如何去解决。我就写的比较简单点,很多花里胡哨的业务逻辑我就隐藏了,以及给下游提供数据,给策略提供数据这些我就不追溯了。
小晨说数据
2022-03-09
4290
为什么是ClickHouse?eBay广告数据平台架构实践!
导读:本文的主题是基于ClickHouse的广告数据平台架构实践。包括广告业务面临的现状,为什么会使用ClickHouse来提供数据多维分析服务,如何基于ClickHouse的优势和特点在适应亿贝广告业务场景的前提下来设计系统平台架构,实践过程中遇到的技术问题和解决方案,以及数据平台在日常使用、版本迭代、质量监控过程中是如何去做的。
小晨说数据
2021-12-23
9340
基于 Apache Doris 的小米增长分析平台实践
随着小米互联网业务的发展,各个产品线利用用户行为数据对业务进行增长分析的需求越来越迫切。显然,让每个业务产品线都自己搭建一套增长分析系统,不仅成本高昂,也会导致效率低下。我们希望能有一款产品能够帮助他们屏蔽底层复杂的技术细节,让相关业务人员能够专注于自己的技术领域,从而提高工作效率。通过分析调查发现,小米已有的统计平台无法支持灵活的维度交叉查询,数据查询分析效率较低,复杂查询需要依赖于研发人员,同时缺乏根据用户行为高效的分群工具,对于用户的运营策略囿于设施薄弱而较为粗放,运营效率较低和效果不佳。
小晨说数据
2020-09-09
1.8K0
Apache Flink 中广播状态的实用指南
Via:https://flink.apache.org/2019/06/26/broadcast-state.html 自版本 Flink 1.5.0 以来,Apache Flink 提供了一种新的状态类型,称为广播状态(Broadcast State)。在本文中,将解释什么是广播状态,并通过示例演示如何将广播状态应用在评估基于事件流的动态模式的应用程序,并指导大家学习广播状态的处理步骤和相关源码,以便在今后的实践中能实现此类的应用。
小晨说数据
2019-09-19
4.1K0
Flink 原理与实现:内存管理
北京理工大学硕士毕业,2015 年加入阿里巴巴,参与阿里巴巴实时计算引擎 JStorm 的开发与设计。2016 年开始从事阿里新一代实时计算引擎 Blink SQL 的开发与优化,并活跃于 Flink 社区,于2017年2月成为ApacheFlink Committer,是国内早期 Flink Committer 之一。目前主要专注于分布式处理和实时计算,热爱开源,热爱分享。
小晨说数据
2019-09-19
1.6K0
如何在 Flink 1.9 中使用 Hive?
阿里巴巴技术专家,Apache Hive PMC成员,加入阿里巴巴之前曾就职于Intel、IBM等公司,主要参与Hive、HDFS、Spark等开源项目。
小晨说数据
2019-09-19
2.3K0
Flink 1.9 实战:使用 SQL 读取 Kafka 并写入 MySQL
北京理工大学硕士毕业,2015 年加入阿里巴巴,参与阿里巴巴实时计算引擎 JStorm 的开发与设计。2016 年开始从事阿里新一代实时计算引擎 Blink SQL 的开发与优化,并活跃于 Flink 社区,于2017年2月成为ApacheFlink Committer,是国内早期 Flink Committer 之一。目前主要专注于分布式处理和实时计算,热爱开源,热爱分享。
小晨说数据
2019-09-19
4.7K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档