PP鲁

LV0
发表了文章

信息时代,我们可能离真相越来越远。

之前的两年我一直在做新闻平台上的大数据分析和用户阅读行为研究,对于新闻资讯有一些了解和认识。本文想结合本次疫情谈谈我对新闻媒体的认识。

PP鲁
发表了文章

数据分析的三个阶段

金庸在《射雕英雄传》中刻画了郭靖这个形象,他一路追随江南七侠,到全真高人指点,再到师从洪七公学习降龙十八掌,在这个过程中他经历了几次蜕变,最终成长为一代大侠。我...

PP鲁
发表了文章

端到端Exactly-Once是分布式系统最大挑战?Flink是如何解决的?

某条数据投递到某个流处理系统后,该系统对这条数据只处理一次,提供Exactly-Once的保障是一种理想的情况。如果系统不出任何故障,那简直堪称完美。然而现实世...

PP鲁
大数据数据库SQLUnix分布式
发表了文章

浅谈Flink分布式运行时和数据流图的并行化

本文将以WordCount的案例为主线,主要介绍Flink的设计和运行原理。关于Flink WordCount程序可以参考我之前的文章:读取Kafka实时数据流...

PP鲁
编程算法大数据
发表了文章

Flink入门:读取Kafka实时数据流,实现WordCount

本文主要介绍Flink接收一个Kafka文本数据流,进行WordCount词频统计,然后输出到标准输出上。通过本文你可以了解如何编写和运行Flink程序。

PP鲁
大数据Kafka命令行工具IDE编程算法
发表了文章

Java函数式编程快速入门: Lambda表达式与Stream API

函数式编程(Functional Programming)是一种编程范式。它已经有近60年的历史,因其更适合做并行计算,近年来开始受到大数据开发者的广泛关注。P...

PP鲁
ServerlessJava编程算法大数据
发表了文章

Java/Scala 泛型快速入门教程

泛型(Generics)是强类型编程语言中经常使用的一种技术。很多框架的代码中都会大量使用到泛型,比如在Java中我们经常看到的:

PP鲁
JavaScala大数据编程算法
发表了文章

聊聊Java/Scala的继承和多态

继承和多态是现代编程语言最为重要的概念。继承和多态允许用户将一些概念进行抽象,以达到代码复用的目的。本文用一些例子快速回顾一下Java/Scala的继承和多态。

PP鲁
面向对象编程JavaScala
发表了文章

互联网信息分发简明史

在我看来,这个世界是由三个要素构成的,也即是:物质、能量、信息。那么什么是信息呢?

PP鲁
编程算法推荐系统信息流搜索引擎
发表了文章

Flink Broadcast State实战案例:电商平台用户行为模式分析

Broadcast State是Flink 1.5引入的功能,本文将跟大家分享Broadcast State的潜在使用场景,并使用电商用户行为分析的例子来演示B...

PP鲁
编程算法大数据数据结构
发表了文章

ProcessFunction:Flink最底层API使用案例详解

之前提到的一些算子和函数能够进行一些时间上的操作,但是不能获取算子当前的Processing Time或者是Watermark时间戳,调用起来简单但功能相对受限...

PP鲁
编程算法UnixProcessing大数据
发表了文章

数据分析没思路?疫情分析是最好的实战教材

这些天新冠病毒肺炎疫情成了全世界关注的焦点,网上的各类言论满天飞,有散布焦虑的、有监督红会的,有买卖中药的、也有各类阴谋论的,很多文章毫无数据支撑,却得到了大量...

PP鲁
网络安全数据可视化数据分析大数据
发表了文章

Flink Checkpoint机制原理剖析与参数配置

在Flink状态管理详解这篇文章中,我们介绍了Flink的状态都是基于本地的,而Flink又是一个部署在多节点的分布式引擎,分布式系统经常出现进程被杀、节点宕机...

PP鲁
大数据编程算法分布式数据处理
发表了文章

Flink状态管理详解:Keyed State和Operator List State深度解析

有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能:

PP鲁
大数据编程算法数据结构Java文件存储
发表了文章

Flink时间系列:如何处理迟到数据

Event Time语义下我们使用Watermark来判断数据是否迟到。一个迟到元素是指元素到达窗口算子时,该元素本该被分配到某个窗口,但由于延迟,窗口已经触发...

PP鲁
GitHubGit开源大数据编程算法
发表了文章

Flink时间系列:如何在两个DataStream上进行Join操作

批处理经常要解决的问题是将两个数据源做关联Join操作。比如,很多手机APP都有一个用户数据源User,同时APP会记录用户的行为,我们称之为Behavior,...

PP鲁
大数据TypeScript编程算法
发表了文章

Flink窗口全解析:三种时间窗口、窗口处理函数使用及案例

我们经常需要在一个时间窗口维度上对数据进行聚合,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一...

PP鲁
Windows大数据Unix编程算法Processing
发表了文章

Flink时间语义、Event Time和Watermark机制深度解析

在流处理中,时间是一个非常核心的概念,是整个系统的基石。比如,我们经常会遇到这样的需求:给定一个时间窗口,比如一个小时,统计时间窗口的内数据指标。那如何界定哪些...

PP鲁
Unix大数据编程算法Processing
发表了文章

Flink进阶教程:以flatMap为例,如何进行算子自定义

总结下来不难发现,使用Flink的算子必须进行自定义,自定义时可以使用Lambda表达式,也可以继承并重写函数类。本文将带大家阅读一些Flink源码,并提供具体...

PP鲁
大数据Serverless文件存储Scala
发表了文章

Flink进阶教程:数据类型和序列化机制简介

几乎所有的大数据框架都要面临分布式计算、数据传输和持久化问题。数据传输过程前后要进行数据的序列化和反序列化:序列化就是将一个内存对象转换成二进制串,形成网络传输...

PP鲁
文件存储JavaScalaApache

个人简介

个人成就

  • 影响力总排行第 3943 名
  • 获得 101 次赞同
  • 文章被阅读 6.7K 次

扫码关注云+社区

领取腾讯云代金券