腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
小晨讲Flink
专栏作者
举报
69
文章
89239
阅读量
18
订阅数
订阅专栏
申请加入专栏
全部文章(69)
大数据(22)
sql(15)
数据库(12)
编程算法(12)
flink(10)
数据分析(8)
存储(7)
企业(5)
数据处理(5)
数据湖(5)
jquery(3)
云数据库 SQL Server(3)
apache(3)
腾讯云测试服务(3)
缓存(3)
hadoop(3)
官方文档(2)
java(2)
javascript(2)
bash(2)
api(2)
linux(2)
unix(2)
bash 指令(2)
文件存储(2)
TDSQL MySQL 版(2)
网站(2)
数据安全(2)
hive(2)
zookeeper(2)
数据结构(2)
hbase(2)
processing(2)
kafka(2)
es(2)
数据集成(2)
实践(2)
数据挖掘(1)
机器学习(1)
python(1)
node.js(1)
xml(1)
json(1)
云数据库 Redis(1)
打包(1)
jar(1)
maven(1)
搜索引擎(1)
神经网络(1)
深度学习(1)
访问管理(1)
人工智能(1)
图像处理(1)
云数据仓库 PostgreSQL(1)
rollup.js(1)
开源(1)
分布式(1)
运维(1)
网络安全(1)
spark(1)
jvm(1)
推荐系统(1)
socket编程(1)
uml(1)
windows(1)
数据可视化(1)
物联网(1)
性能测试(1)
实时数仓(1)
实时数据集成(1)
Elasticsearch Service(1)
云数据仓库 ClickHouse(1)
ads(1)
clickhouse(1)
count(1)
date(1)
join(1)
select(1)
teradata(1)
互联网(1)
架构(1)
面试(1)
搜索文章
搜索
搜索
关闭
原创|Spark千亿级数据去重,性能优化踩坑之路
编程算法
大家好,我是狗哥,今天给大家写一点干货,这次咱们就从0-1把思路给大家讲一下,这也是我同事在数据开发中踩过的坑,希望能帮助到大家。
小晨说数据
2022-11-18
851
0
DorisSQL与MySQL函数与语法对照差异篇
编程算法
python
json
数据库
云数据库 SQL Server
doris执行异常:[Err] 1064 - errCode = 2, detailMessage = cannot combine SELECT DISTINCT with aggregate functions or GROUP BY
小晨说数据
2022-11-18
4.6K
0
ClickHouse实战留存、路径、漏斗、session
jquery
数据分析
编程算法
关于用户留存模型是各大商业数据分析平台必不可少的功能,企业一般用该模型衡量用户的活跃情况,也是能直接反应产品功能价值的直接指标;如,boss想要了解商城改版后,对用户加购以及后续下单情况的影响等。如下图,这就是一个典型的留存分析功能:
小晨说数据
2022-03-10
1.5K
0
开源OLAP系统的比较:ClickHouse、Druid和Pinot
大数据
数据处理
编程算法
zookeeper
存储
从根本上讲,ClickHouse,Druid和Pinot都是相似的,因为它们在同一节点上存储数据并进行查询处理,这与去耦BigQuery体系结构不同。最近,我以Druid为例描述了一些固有的问题与耦合结构1,2)。目前没有与BigQuery等效的开源软件(也许是Drill吗?),我已经在本博文中探讨了构建此类开源系统的方法。
小晨说数据
2022-03-10
2.1K
0
数据治理的定义,挑战和最佳实践
数据集成
大数据
编程算法
数据治理构成了公司范围内数据管理的基础,并使有效使用可信赖的数据成为可能。数据的有效管理是一项重要任务,需要集中控制机制。
小晨说数据
2022-03-10
641
0
实战自定义Flink SQL Connector( Flink 1.11 & Redis)
云数据库 Redis
flink
大数据
sql
编程算法
Flink SQL之所以简洁易用而功能强大,其中一个重要因素就是其拥有丰富的Connector(连接器)组件。Connector是Flink与外部系统交互的载体,并分为负责读取的Source和负责写入的Sink两大类。不过,Flink SQL内置的Connector有可能无法cover实际业务中的种种需求,需要我们自行定制。好在社区已经提供了一套标准化、易于扩展的体系,用户只要按照规范面向接口编程,就能轻松打造自己的Connector。本文就在现有Bahir Flink项目的基础上逐步实现一个SQL化的Redis Connector。
小晨说数据
2022-03-10
2.9K
0
干货 | 实时数据架构与实践(用户画像篇)
数据集成
数据库
sql
实时数据集成
编程算法
业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面,期望拥有可以实时响应的用户行为流,同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。
小晨说数据
2022-03-09
1.3K
0
Flink SQL高效Top-N方案的实现原理
编程算法
flink
大数据
官方文档
sql
昨天的文章里恰好用Top-N Function来举了例子,那么择日不如撞日,今天接着聊吧。
小晨说数据
2022-03-09
609
0
聊聊ClickHouse中的低基数LowCardinality类型
官方文档
编程算法
2020年快要过去了,写博客的习惯还是得捡起来。最近刚刚忙完搬家的事情,抽出一点时间简单聊两句。
小晨说数据
2022-03-09
1.1K
0
ClickHouse 高阶函数实战
编程算法
先来一个完整的例子,该示例根据行为日志计算用户访问的top路径 select data, count(1) cn from ( with maxIf( c_t , cat='page_view'and act='页面浏览') as max_time, -- 目标事件时间 arraySort( e -> e.1, arrayFilter(x->x.1<=toUInt64OrZero(max_time),groupArray((toUInt64OrZero(c_t), (cat,act) ))) ) as so
小晨说数据
2022-03-09
420
0
推荐系统经典算法之协同过滤
编程算法
推荐系统
在开始讲推荐算法之前,我们先简单了解一下推荐系统的架构,对算法在推荐系统中的定位有一个初步的认知;一个完整的推荐系统会包含特征工程、召回、过滤、兜底、重排、abTest三部分,其中召回和排序模块会用到算法模型。
小晨说数据
2022-03-09
829
0
Spark优化(二)----资源调优、并行度调优
spark
linux
编程算法
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识,并知道在Spark作业运行过程中,有哪些资源参数是可以设置的,以及如何设置合适的参数值。
小晨说数据
2021-12-23
1.6K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档