首页
学习
活动
专区
工具
TVP
发布

Spark学习技巧

本公众号主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到hadoop家族。
专栏作者
810
文章
1229233
阅读量
247
订阅数
Flink深度学习流处理核心组件 Time&Window 深度解析
Apache Flink(以下简称 Flink) 是一个天然支持无限流数据处理的分布式计算框架,在 Flink 中 Window 可以将无限流切分成有限流,是处理有限流的核心组件,现在 Flink 中 Window 可以是时间驱动的(Time Window),也可以是数据驱动的(Count Window)。
Spark学习技巧
2022-01-13
3000
kafka存储结构以及Log清理机制
如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的,这里的 topic 是逻辑上的概念,实际上在磁盘存储是根据分区存储的,每个主题可以分为多个分区、分区的数量可以在主题创建的时候进行指定。例如下面 kafka 命令创建了一个 topic 为 test 的主题、该主题下有 4 个分区、每个分区有两个副本保证高可用。
Spark学习技巧
2021-07-29
6390
实时数仓不保障时效还玩个毛?
懒癌患者福利,先说本文结论,通过以下两个指标就已经能监控和判定 90% 数据延迟、乱序问题了。
Spark学习技巧
2021-07-27
1K0
分布式ID生成方案
不管我们是不是有身份的人,我们一定是有身份证的人,身份证上面的号码就是我们的ID,理论上这个ID是全国唯一的,而且通过这个号码,我们还可以得到一些个人信息,比如前两位可以确定我们第一次申请身份证的时候所在的省份、接下来的四位可以确定我们所在的区县,然后还可以知道我们出生的年月以及性别。
Spark学习技巧
2021-03-05
7210
3.数据湖deltalake之时间旅行及版本管理
浪尖在deltalake第一讲的时候说过,它支持数据版本管理和时间旅行:提供了数据快照,使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重新计算。
Spark学习技巧
2021-03-05
9130
Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 ​
之前笔者在介绍 Flink 1.11 Hive Streaming 新特性时提到过,Flink SQL 的 FileSystem Connector 为了与 Flink-Hive 集成的大环境适配,做了很多改进,而其中最为明显的就是分区提交(partition commit)机制。
Spark学习技巧
2020-08-28
2.2K2
干货 | 实践Hadoop MapReduce 任务的性能翻倍之路
摘要:eBay的CAL(Central Application Logging)系统负责收集eBay各种应用程序的日志数据,并且通过Hadoop MapReduce job生成日志报告,应用程序开发人员与运维人员通过报告可获得以下内容:
Spark学习技巧
2019-12-27
5890
再谈|Rowkey设计_HBase表设计
HBase的rowkey设计可以说是使用HBase最为重要的事情,直接影响到HBase的性能,常见的RowKey的设计问题及对应访问为:
Spark学习技巧
2019-12-15
1.2K0
不懂watermark?来吧~
首先,拿基于窗口的计算来说吧,窗口的大小 size和滑动间隔 slide,都是基于时间维度处理的,像Spark Streaming就是基于处理时间,也即是处理任务所在机器的本地时间,用这个时间处理数据我们自然无法关注事件是否在时间维度上乱序,是否是滞后数据,那么为了保证数据有序和处理滞后数据就不能用处理时间进行处理。
Spark学习技巧
2019-05-09
8590
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档