暴走大数据

162 篇文章
59.7K 次阅读
48 人订阅

全部文章

大数据真好玩

利用VisualVM监控Spark Driver/Executor

VisualVM是我们平时最常用的Java应用监控和性能分析工具,功能很丰富。我们有时会利用它来监控Spark作业,主要是Driver和Executor的运行情...

7120
大数据真好玩

用户行为分析-埋点实时数仓实践

此文重点讲述埋点的数据模型、数据格式、数据实时采集、加工、存储及用户关联。关于用户行为分析的概念、意义以及埋点相关的东西此文不作赘述

7620
大数据真好玩

漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。

11420
大数据真好玩

Flink流量控制与反压机制完全总结

笔者最近回顾自己对Flink技术栈细节的理解,发现对Flink的网络栈、流控与反压这一套机制存在比较大的盲区。虽然平时多次处理过作业反压的问题,但是不完全理解背...

10950
大数据真好玩

ES原理三连击 | 写入原理/查询原理/倒排索引

es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗?

13940
大数据真好玩

深入理解Kafka的核心调优参数

kafka的配置属性多达几百个,在生产环境中对kafka进行调优时,该如何设置这些属性值呢?

9840
大数据真好玩

ES运维实战之系统性能调优

文件句柄 Linux中,每个进程默认打开的最大文件句柄数是1000,对于服务器进程来说,显然太小,通过修改/etc/security/limits.conf来增...

8440
大数据真好玩

提交Spark作业 | 科学设定spark-submit参数

关于spark-submit的执行过程,读Spark Core的源码能够获得一个大致的印象。

12520
大数据真好玩

一文了解Kudu的核心原理

在前面的篇章中我们介绍了分布式文件系统HDFS 以及列式存储HBase,HDFS提供了可以横向扩展的存储引擎,适合离线分析场景,不适合于随机读写。HBase适合...

11330
大数据真好玩

Flink源码阅读之Checkpoint执行过程

对应Flink来说checkpoint的作用及重要性就不细说了,前面文章写过checkpoint的详细过程和checkpoint周期性触发过程。本篇我们在一起根...

6830
大数据真好玩

基于Flink+ClickHouse打造轻量级点击流实时数仓

Flink和ClickHouse分别是实时计算和(近实时)OLAP领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台,...

16030
大数据真好玩

Flink源码解读系列 | 任务提交流程

Flink在1.10版本对整个作业提交流程有了较大改动,详情请见FLIP-73。本文基于1.10对作业提交的关键流程进行分析,不深究。 入口: 依旧是main函...

11430
大数据真好玩

Flink源码解读系列 | Flink中异步AsyncIO的实现

主要区别是往下游output的顺序(注意这里顺序不是写库的顺序既然都异步了写库的顺序自然是无法保证的),有序的会按接收的顺序继续往下游output发送,无序就是...

6820
大数据真好玩

Flink源码解读系列 | Flink中的CEP复杂事件处理源码分析

其实CEP复杂事件处理,简单来说你可以用通过类似正则表达式的方式去表示你的逻辑,表现能力非常的强,用过的人都知道

12131
大数据真好玩

Flink源码解读系列 | Flink中接收端反压以及Credit机制

可以看到每个task都会有自己对应的IG(inputgate)对接上游发送过来的数据和RS(resultPatation)对接往下游发送数据, 整个反压机制通过...

8740
大数据真好玩

Flink源码解读系列 | Flink中发送端反压以及Credit机制

上一篇《Flink接收端反压机制》说到因为Flink每个Task的接收端和发送端是共享一个bufferPool的,形成了天然的反压机制,当Task接收数据的时候...

9320
大数据真好玩

Flink源码解读系列 | Flink中TaskManager端执行用户逻辑过程

TaskManager接收到来自JobManager的jobGraph转换得到的TDD对象,启动了任务,在StreamInputProcessor类的proce...

9630
大数据真好玩

Flink源码解读系列 | Periodic水印和Punctuated水印实现原理

在用户代码中,我们设置生成水印和事件时间的方法assignTimestampsAndWatermarks()中这里有个方法的重载

8130
大数据真好玩

Flink源码解读系列 | Job启动TaskManager端

先来看一下,TaskManager端用来接收JobManager发送过来的TDD对象的RPC接口

9130
大数据真好玩

Flink源码解读系列 | Flink集群Standalone启动脚本

在最后调用了jobmanager.sh start 这个脚本和config.sh 中的TMSlaves 这个方法,分别启动了jobmanager和taskma...

8420

扫码关注云+社区

领取腾讯云代金券