首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
636
文章
1289308
阅读量
317
订阅数
一网打尽Flink中的时间、窗口和流Join
首先,我们会学习如何定义时间属性,时间戳和水位线。然后我们将会学习底层操作process function,它可以让我们访问时间戳和水位线,以及注册定时器事件。接下来,我们将会使用Flink的window API,它提供了通常使用的各种窗口类型的内置实现。我们将会学到如何进行用户自定义窗口操作符,以及窗口的核心功能:assigners(分配器)、triggers(触发器)和evictors(清理器)。最后,我们将讨论如何基于时间来做流的联结查询,以及处理迟到事件的策略。
王知无-import_bigdata
2021-09-22
1.6K0
Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析
Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。
王知无-import_bigdata
2021-04-21
1.3K0
生产上的坑才是真的坑 | 盘一盘Flink那些经典线上问题
一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。
王知无-import_bigdata
2021-03-26
4.7K0
Spark+Kudu的广告业务项目实战笔记(一)
本项目需要实现:将广告数据的json文件放置在HDFS上,并利用spark进行ETL操作、分析操作,之后存储在kudu上,最后设定每天凌晨三点自动执行广告数据的分析存储操作。
王知无-import_bigdata
2020-08-21
6910
【从0开始の全记录】Flume+Kafka+Spark+Spring Boot 统计网页访问量项目
新建Scala文件——WebStatStreamingApp.scala,首先使用Direct模式连通Kafka:
王知无-import_bigdata
2020-08-20
1.7K0
Spark Kafka 基于Direct自己管理offset
在Spark Streaming中,目前官方推荐的方式是createDirectStream方式,但是这种方式就需要我们自己去管理offset。目前的资料大部分是通过scala来实现的,并且实现套路都是一样的,我自己根据scala的实现改成了Java的方式,后面又相应的实现。 Direct Approach 更符合Spark的思维。我们知道,RDD的概念是一个不变的,分区的数据集合。我们将kafka数据源包裹成了一个KafkaRDD,RDD里的partition 对应的数据源为kafka的partition。唯一的区别是数据在Kafka里而不是事先被放到Spark内存里。其实包括FileInputStream里也是把每个文件映射成一个RDD。
王知无-import_bigdata
2020-08-06
8600
阅读源码|Spark 与 Flink 的 RPC 实现
近日常有同学来问我如何阅读代码,关于这个问题的一般性答案我特别提了一个问题并自问自答。出于提供一个实际的例子的考量,正好此前综合地阅读 Spark 的 RPC 实现、Flink 基于 Akka 的 RPC 实现和 Actor Model 的通信模型,写成本文分享我阅读分布式计算系统 Spark 和 Flink 中的 RPC 实现的过程和思考。
王知无-import_bigdata
2020-04-15
1.2K0
数据算法之反转排序 | 寻找相邻单词的数量
想处理的问题是:统计一个单词相邻前后两位的数量,如有w1,w2,w3,w4,w5,w6,则:
王知无-import_bigdata
2020-02-10
4530
Apache Flink的内存管理
JVM: JAVA本身提供了垃圾回收机制来实现内存管理 现今的GC(如Java和.NET)使用分代收集(generation collection),依照对象存活时间的长短使用不同的垃圾收集算法,以达到最好的收集性能。 以Java为例,整个Java堆可以切割成为三个部分: Young: Eden:存放新生对象。 Survivor:存放经过垃圾回收没有被清除的对象。 semi-Spaces:和Survivor做Copying collection。 Tenured:对象多次回收没有被清除,则移到该区块。 Pe
王知无-import_bigdata
2019-11-19
1.1K0
Flink1.9整合Kafka实战
我们知道可以自己来开发Source 和 Sink ,但是一些比较基本的 Source 和 Sink 已经内置在 Flink 里。
王知无-import_bigdata
2019-11-11
7510
Spark Checkpoint的运行原理和源码实现
1、RDD.iterator 方法,它会先在缓存中查看数据 (内部会查看 Checkpoint 有没有相关数据),然后再从 CheckPoint 中查看数据
王知无-import_bigdata
2019-11-07
1.2K0
Scala 文件 I/O
Scala 进行文件写操作,直接用的都是 java中 的 I/O 类 (java.io.File):
王知无-import_bigdata
2019-04-08
4730
Scala 提取器(Extractor)
Scala 提取器是一个带有unapply方法的对象。unapply方法算是apply方法的反向操作:unapply接受一个对象,然后从对象中提取值,提取的值通常是用来构造该对象的值。
王知无-import_bigdata
2019-04-03
9100
Scala Iterator(迭代器)
你可以使用 it.min 和 it.max 方法从迭代器中查找最大与最小元素,实例如下:
王知无-import_bigdata
2019-03-19
1.4K0
Scala Collection(集合)
可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素。
王知无-import_bigdata
2019-03-19
4470
Scala Trait(特征)
Scala Trait(特征) 相当于 Java 的接口,实际上它比接口还功能强大。
王知无-import_bigdata
2019-03-19
3910
Scala之旅-简介篇
本次 Scala 之旅教程包含了对于大多数 Scala 特性的简单介绍。主要针对 Scala 这门语言的初学者。
王知无-import_bigdata
2019-03-15
9580
Scala 方法与函数(八)
Scala 有方法与函数,二者在语义上的区别很小。Scala 方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说在类中定义的函数即是方法。
王知无-import_bigdata
2019-03-15
4910
Scala 循环(七)
有的时候,我们可能需要多次执行同一块代码。一般情况下,语句是按顺序执行的:函数中的第一个语句先执行,接着是第二个语句,依此类推。
王知无-import_bigdata
2019-03-15
5410
Scala 运算符(五)
位运算符用来对二进制位进行操作,~,&,|,^分别为取反,按位与与,按位与或,按位与异或运算,如下表实例:
王知无-import_bigdata
2019-03-15
5710
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档