首页
学习
活动
专区
工具
TVP
发布

小晨讲Flink

专栏作者
69
文章
89239
阅读量
18
订阅数
原创|Spark千亿级数据去重,性能优化踩坑之路
大家好,我是狗哥,今天给大家写一点干货,这次咱们就从0-1把思路给大家讲一下,这也是我同事在数据开发中踩过的坑,希望能帮助到大家。
小晨说数据
2022-11-18
8510
DorisSQL与MySQL函数与语法对照差异篇
doris执行异常:[Err] 1064 - errCode = 2, detailMessage = cannot combine SELECT DISTINCT with aggregate functions or GROUP BY
小晨说数据
2022-11-18
4.6K0
ClickHouse实战留存、路径、漏斗、session
关于用户留存模型是各大商业数据分析平台必不可少的功能,企业一般用该模型衡量用户的活跃情况,也是能直接反应产品功能价值的直接指标;如,boss想要了解商城改版后,对用户加购以及后续下单情况的影响等。如下图,这就是一个典型的留存分析功能:
小晨说数据
2022-03-10
1.5K0
开源OLAP系统的比较:ClickHouse、Druid和Pinot
从根本上讲,ClickHouse,Druid和Pinot都是相似的,因为它们在同一节点上存储数据并进行查询处理,这与去耦BigQuery体系结构不同。最近,我以Druid为例描述了一些固有的问题与耦合结构1,2)。目前没有与BigQuery等效的开源软件(也许是Drill吗?),我已经在本博文中探讨了构建此类开源系统的方法。
小晨说数据
2022-03-10
2.1K0
数据治理的定义,挑战和最佳实践
数据治理构成了公司范围内数据管理的基础,并使有效使用可信赖的数据成为可能。数据的有效管理是一项重要任务,需要集中控制机制。
小晨说数据
2022-03-10
6410
实战自定义Flink SQL Connector( Flink 1.11 & Redis)
Flink SQL之所以简洁易用而功能强大,其中一个重要因素就是其拥有丰富的Connector(连接器)组件。Connector是Flink与外部系统交互的载体,并分为负责读取的Source和负责写入的Sink两大类。不过,Flink SQL内置的Connector有可能无法cover实际业务中的种种需求,需要我们自行定制。好在社区已经提供了一套标准化、易于扩展的体系,用户只要按照规范面向接口编程,就能轻松打造自己的Connector。本文就在现有Bahir Flink项目的基础上逐步实现一个SQL化的Redis Connector。
小晨说数据
2022-03-10
2.9K0
干货 | 实时数据架构与实践(用户画像篇)
业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面,期望拥有可以实时响应的用户行为流,同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。
小晨说数据
2022-03-09
1.3K0
Flink SQL高效Top-N方案的实现原理
昨天的文章里恰好用Top-N Function来举了例子,那么择日不如撞日,今天接着聊吧。
小晨说数据
2022-03-09
6090
聊聊ClickHouse中的低基数LowCardinality类型
2020年快要过去了,写博客的习惯还是得捡起来。最近刚刚忙完搬家的事情,抽出一点时间简单聊两句。
小晨说数据
2022-03-09
1.1K0
ClickHouse 高阶函数实战
先来一个完整的例子,该示例根据行为日志计算用户访问的top路径 select data, count(1) cn from ( with maxIf( c_t , cat='page_view'and act='页面浏览') as max_time, -- 目标事件时间 arraySort( e -> e.1, arrayFilter(x->x.1<=toUInt64OrZero(max_time),groupArray((toUInt64OrZero(c_t), (cat,act) ))) ) as so
小晨说数据
2022-03-09
4200
推荐系统经典算法之协同过滤
在开始讲推荐算法之前,我们先简单了解一下推荐系统的架构,对算法在推荐系统中的定位有一个初步的认知;一个完整的推荐系统会包含特征工程、召回、过滤、兜底、重排、abTest三部分,其中召回和排序模块会用到算法模型。
小晨说数据
2022-03-09
8290
Spark优化(二)----资源调优、并行度调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识,并知道在Spark作业运行过程中,有哪些资源参数是可以设置的,以及如何设置合适的参数值。
小晨说数据
2021-12-23
1.6K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档