Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1304282

阅读量

248

订阅数

Flink深度学习流处理核心组件 Time&Window 深度解析

flink 大数据 processing 编程算法 unix

Apache Flink（以下简称 Flink）是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将无限流切分成有限流，是处理有限流的核心组件，现在 Flink 中 Window 可以是时间驱动的（Time Window），也可以是数据驱动的（Count Window）。

Spark学习技巧

2022-01-13

3280

kafka存储结构以及Log清理机制

kafka unix 存储 node.js

如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的，这里的 topic 是逻辑上的概念，实际上在磁盘存储是根据分区存储的，每个主题可以分为多个分区、分区的数量可以在主题创建的时候进行指定。例如下面 kafka 命令创建了一个 topic 为 test 的主题、该主题下有 4 个分区、每个分区有两个副本保证高可用。

Spark学习技巧

2021-07-29

7420

实时数仓不保障时效还玩个毛？

flink 大数据 unix 数据处理

懒癌患者福利，先说本文结论，通过以下两个指标就已经能监控和判定 90% 数据延迟、乱序问题了。

Spark学习技巧

2021-07-27

1.1K0

分布式ID生成方案

https 网络安全 ide unix 编程算法

不管我们是不是有身份的人，我们一定是有身份证的人，身份证上面的号码就是我们的ID，理论上这个ID是全国唯一的，而且通过这个号码，我们还可以得到一些个人信息，比如前两位可以确定我们第一次申请身份证的时候所在的省份、接下来的四位可以确定我们所在的区县，然后还可以知道我们出生的年月以及性别。

Spark学习技巧

2021-03-05

7530

3.数据湖deltalake之时间旅行及版本管理

api python unix

浪尖在deltalake第一讲的时候说过，它支持数据版本管理和时间旅行：提供了数据快照，使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重新计算。

Spark学习技巧

2021-03-05

9910

Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略

hive flink 大数据 unix 官方文档

之前笔者在介绍 Flink 1.11 Hive Streaming 新特性时提到过，Flink SQL 的 FileSystem Connector 为了与 Flink-Hive 集成的大环境适配，做了很多改进，而其中最为明显的就是分区提交（partition commit）机制。

Spark学习技巧

2020-08-28

2.3K2

干货 | 实践Hadoop MapReduce 任务的性能翻倍之路

hadoop unix mapreduce 日志数据 sql

摘要：eBay的CAL（Central Application Logging）系统负责收集eBay各种应用程序的日志数据，并且通过Hadoop MapReduce job生成日志报告，应用程序开发人员与运维人员通过报告可获得以下内容：

Spark学习技巧

2019-12-27

6100

再谈|Rowkey设计_HBase表设计

hbase TDSQL MySQL 版 javascript unix

HBase的rowkey设计可以说是使用HBase最为重要的事情，直接影响到HBase的性能，常见的RowKey的设计问题及对应访问为：

Spark学习技巧

2019-12-15

1.2K0

不懂watermark？来吧～

首先，拿基于窗口的计算来说吧，窗口的大小 size和滑动间隔 slide，都是基于时间维度处理的，像Spark Streaming就是基于处理时间，也即是处理任务所在机器的本地时间，用这个时间处理数据我们自然无法关注事件是否在时间维度上乱序，是否是滞后数据，那么为了保证数据有序和处理滞后数据就不能用处理时间进行处理。

Spark学习技巧

2019-05-09

8910

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态