大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1404290

阅读量

322

订阅数

一网打尽Flink中的时间、窗口和流Join

windows flink 大数据 java scala

首先，我们会学习如何定义时间属性，时间戳和水位线。然后我们将会学习底层操作process function，它可以让我们访问时间戳和水位线，以及注册定时器事件。接下来，我们将会使用Flink的window API，它提供了通常使用的各种窗口类型的内置实现。我们将会学到如何进行用户自定义窗口操作符，以及窗口的核心功能：assigners（分配器）、triggers（触发器）和evictors（清理器）。最后，我们将讨论如何基于时间来做流的联结查询，以及处理迟到事件的策略。

王知无-import_bigdata

2021-09-22

1.7K0

Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析

kafka spark node.js 数据库 scala

Spark中的Spark Streaming可以用于实时流项目的开发，实时流项目的数据源除了可以来源于日志、文件、网络端口等，常常也有这种需求，那就是实时分析处理MySQL中的增量数据。

王知无-import_bigdata

2021-04-21

1.5K0

生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题

java flink kafka scala

一个流程中，有两个重要子任务：一是数据迁移，将kafka实时数据落Es，二是将kafka数据做窗口聚合落hbase，两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。

王知无-import_bigdata

2021-03-26

5K0

Spark+Kudu的广告业务项目实战笔记(一)

sql scala tcp/ip

本项目需要实现：将广告数据的json文件放置在HDFS上，并利用spark进行ETL操作、分析操作，之后存储在kudu上，最后设定每天凌晨三点自动执行广告数据的分析存储操作。

王知无-import_bigdata

2020-08-21

7240

【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目

scala 腾讯云测试服务 java hbase kafka

新建Scala文件——WebStatStreamingApp.scala，首先使用Direct模式连通Kafka：

王知无-import_bigdata

2020-08-20

1.8K0

Spark Kafka 基于Direct自己管理offset

node.js kafka spark java scala

在Spark Streaming中，目前官方推荐的方式是createDirectStream方式，但是这种方式就需要我们自己去管理offset。目前的资料大部分是通过scala来实现的，并且实现套路都是一样的，我自己根据scala的实现改成了Java的方式，后面又相应的实现。 Direct Approach 更符合Spark的思维。我们知道，RDD的概念是一个不变的，分区的数据集合。我们将kafka数据源包裹成了一个KafkaRDD，RDD里的partition 对应的数据源为kafka的partition。唯一的区别是数据在Kafka里而不是事先被放到Spark内存里。其实包括FileInputStream里也是把每个文件映射成一个RDD。

王知无-import_bigdata

2020-08-06

8810

阅读源码｜Spark 与 Flink 的 RPC 实现

scala flink 大数据 rpc

近日常有同学来问我如何阅读代码，关于这个问题的一般性答案我特别提了一个问题并自问自答。出于提供一个实际的例子的考量，正好此前综合地阅读 Spark 的 RPC 实现、Flink 基于 Akka 的 RPC 实现和 Actor Model 的通信模型，写成本文分享我阅读分布式计算系统 Spark 和 Flink 中的 RPC 实现的过程和思考。

王知无-import_bigdata

2020-04-15

1.2K0

数据算法之反转排序 | 寻找相邻单词的数量

spark scala sql mapreduce

想处理的问题是：统计一个单词相邻前后两位的数量，如有w1,w2,w3,w4,w5,w6,则：

王知无-import_bigdata

2020-02-10

4640

Apache Flink的内存管理

文件存储 java 大数据 jvm scala

JVM： JAVA本身提供了垃圾回收机制来实现内存管理现今的GC（如Java和.NET）使用分代收集（generation collection），依照对象存活时间的长短使用不同的垃圾收集算法，以达到最好的收集性能。以Java为例，整个Java堆可以切割成为三个部分： Young： Eden：存放新生对象。 Survivor：存放经过垃圾回收没有被清除的对象。 semi-Spaces：和Survivor做Copying collection。 Tenured：对象多次回收没有被清除，则移到该区块。 Pe

王知无-import_bigdata

2019-11-19

1.2K0

Flink1.9整合Kafka实战

apache kafka scala java

我们知道可以自己来开发Source 和 Sink ，但是一些比较基本的 Source 和 Sink 已经内置在 Flink 里。

王知无-import_bigdata

2019-11-11

7850

Spark Checkpoint的运行原理和源码实现

大数据 spark scala

1、RDD.iterator 方法，它会先在缓存中查看数据 (内部会查看 Checkpoint 有没有相关数据)，然后再从 CheckPoint 中查看数据

王知无-import_bigdata

2019-11-07

1.3K0

Scala 文件 I/O

Scala 进行文件写操作，直接用的都是 java中的 I/O 类（java.io.File)：

王知无-import_bigdata

2019-04-08

5000

Scala 提取器(Extractor)

scala 编程算法

Scala 提取器是一个带有unapply方法的对象。unapply方法算是apply方法的反向操作：unapply接受一个对象，然后从对象中提取值，提取的值通常是用来构造该对象的值。

王知无-import_bigdata

2019-04-03

9250

Scala Iterator（迭代器）

你可以使用 it.min 和 it.max 方法从迭代器中查找最大与最小元素，实例如下:

王知无-import_bigdata

2019-03-19

1.5K0

Scala Collection(集合)

scala api 容器 java

可变集合可以在适当的地方被更新或扩展。这意味着你可以修改，添加，移除一个集合的元素。

王知无-import_bigdata

2019-03-19

4670

Scala Trait(特征)

Scala Trait(特征) 相当于 Java 的接口，实际上它比接口还功能强大。

王知无-import_bigdata

2019-03-19

4180

Scala之旅-简介篇

scala java 打包

本次 Scala 之旅教程包含了对于大多数 Scala 特性的简单介绍。主要针对 Scala 这门语言的初学者。

王知无-import_bigdata

2019-03-15

9930

Scala 方法与函数(八)

scala 大数据 java api

Scala 有方法与函数，二者在语义上的区别很小。Scala 方法是类的一部分，而函数是一个对象可以赋值给一个变量。换句话来说在类中定义的函数即是方法。

王知无-import_bigdata

2019-03-15

5120

Scala 循环(七)

大数据 scala api

有的时候，我们可能需要多次执行同一块代码。一般情况下，语句是按顺序执行的：函数中的第一个语句先执行，接着是第二个语句，依此类推。

王知无-import_bigdata

2019-03-15

5540

Scala 运算符(五)

flink 大数据 scala 编程算法

位运算符用来对二进制位进行操作，~,&,|,^分别为取反，按位与与，按位与或，按位与异或运算，如下表实例：

王知无-import_bigdata

2019-03-15

6050

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态