腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

小晨讲Flink

专栏作者

69

文章

89239

阅读量

18

订阅数

原创｜Spark千亿级数据去重，性能优化踩坑之路

大家好，我是狗哥，今天给大家写一点干货，这次咱们就从0-1把思路给大家讲一下，这也是我同事在数据开发中踩过的坑，希望能帮助到大家。

小晨说数据

2022-11-18

8510

DorisSQL与MySQL函数与语法对照差异篇

编程算法 python json 数据库云数据库 SQL Server

doris执行异常：[Err] 1064 - errCode = 2, detailMessage = cannot combine SELECT DISTINCT with aggregate functions or GROUP BY

小晨说数据

2022-11-18

4.6K0

ClickHouse实战留存、路径、漏斗、session

jquery 数据分析编程算法

关于用户留存模型是各大商业数据分析平台必不可少的功能，企业一般用该模型衡量用户的活跃情况，也是能直接反应产品功能价值的直接指标；如，boss想要了解商城改版后，对用户加购以及后续下单情况的影响等。如下图，这就是一个典型的留存分析功能：

小晨说数据

2022-03-10

1.5K0

开源OLAP系统的比较：ClickHouse、Druid和Pinot

大数据数据处理编程算法 zookeeper 存储

从根本上讲，ClickHouse，Druid和Pinot都是相似的，因为它们在同一节点上存储数据并进行查询处理，这与去耦BigQuery体系结构不同。最近，我以Druid为例描述了一些固有的问题与耦合结构1，2）。目前没有与BigQuery等效的开源软件（也许是Drill吗？），我已经在本博文中探讨了构建此类开源系统的方法。

小晨说数据

2022-03-10

2.1K0

数据治理的定义，挑战和最佳实践

数据集成大数据编程算法

数据治理构成了公司范围内数据管理的基础，并使有效使用可信赖的数据成为可能。数据的有效管理是一项重要任务，需要集中控制机制。

小晨说数据

2022-03-10

6410

实战自定义Flink SQL Connector( Flink 1.11 & Redis)

云数据库 Redis flink 大数据 sql 编程算法

Flink SQL之所以简洁易用而功能强大，其中一个重要因素就是其拥有丰富的Connector（连接器）组件。Connector是Flink与外部系统交互的载体，并分为负责读取的Source和负责写入的Sink两大类。不过，Flink SQL内置的Connector有可能无法cover实际业务中的种种需求，需要我们自行定制。好在社区已经提供了一套标准化、易于扩展的体系，用户只要按照规范面向接口编程，就能轻松打造自己的Connector。本文就在现有Bahir Flink项目的基础上逐步实现一个SQL化的Redis Connector。

小晨说数据

2022-03-10

2.9K0

干货 | 实时数据架构与实践（用户画像篇）

数据集成数据库 sql 实时数据集成编程算法

业务中，随着各业务线业务的发展，逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面，期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面，期望拥有可以实时响应的用户行为流，同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。

小晨说数据

2022-03-09

1.3K0

Flink SQL高效Top-N方案的实现原理

编程算法 flink 大数据官方文档 sql

昨天的文章里恰好用Top-N Function来举了例子，那么择日不如撞日，今天接着聊吧。

小晨说数据

2022-03-09

6090

聊聊ClickHouse中的低基数LowCardinality类型

官方文档编程算法

2020年快要过去了，写博客的习惯还是得捡起来。最近刚刚忙完搬家的事情，抽出一点时间简单聊两句。

小晨说数据

2022-03-09

1.1K0

ClickHouse 高阶函数实战

先来一个完整的例子，该示例根据行为日志计算用户访问的top路径 select data, count(1) cn from ( with maxIf( c_t , cat='page_view'and act='页面浏览') as max_time, -- 目标事件时间 arraySort( e -> e.1, arrayFilter(x->x.1<=toUInt64OrZero(max_time),groupArray((toUInt64OrZero(c_t), (cat,act) ))) ) as so

小晨说数据

2022-03-09

4200

推荐系统经典算法之协同过滤

编程算法推荐系统

在开始讲推荐算法之前，我们先简单了解一下推荐系统的架构，对算法在推荐系统中的定位有一个初步的认知；一个完整的推荐系统会包含特征工程、召回、过滤、兜底、重排、abTest三部分，其中召回和排序模块会用到算法模型。

小晨说数据

2022-03-09

8290

Spark优化(二)----资源调优、并行度调优

spark linux 编程算法

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。

小晨说数据

2021-12-23

1.6K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态