首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏作者
635
文章
1280170
阅读量
316
订阅数
Paimon新版本核心特性和生产实践解读
最近Apche Paimon发布了最新版本0.7.0,在这个版本中,Paimon对一些新特性进行了增强。
王知无-import_bigdata
2024-03-12
1470
Flink中的数据抽象&交换&Credit&背压问题详解
其中,第一个构造函数的checkBufferAndGetAddress()方法能够得到direct buffer的内存地址,因此可以操作堆外内存。
王知无-import_bigdata
2023-04-07
6690
一篇文章搞懂 Spark 3.x 的 CacheManager
CacheManager 是 Spark SQL 中内存缓存的管理者,在 Spark SQL 中提供对缓存查询结果的支持,并在执行后续查询时自动使用这些缓存结果。
王知无-import_bigdata
2023-04-07
6180
八股必备|Kafka幂等性原理深入解析
在正常情况下,Producer向Broker投递消息,Broker将消息追加写到对应的流(即某一Topic的某一Partition)中,并向Producer返回ACK信号,表示确认收到。
王知无-import_bigdata
2022-04-13
1.8K0
我出题,你来算。根据Flink TaskManager内存模型,各部分内存分配?
Hi,我是王知无,一个大数据领域的原创作者。 先上一张官方给出的Flink(1.10版本以后)内存模型图示:
王知无-import_bigdata
2022-03-11
5850
2022年最新版 | Flink经典线上问题小盘点
2020年和2021年分别写了很多篇类似的文章,这篇文章是关于Flink生产环境中遇到的各种问题的汇总。
王知无-import_bigdata
2022-03-11
4.2K0
【Spark重点难点】你的代码跑起来谁说了算?(内存管理)
这节课我们要讲的是Spark中的 【内存模型】,也就是决定我们Spark代码运行所需要的资源信息。
王知无-import_bigdata
2021-12-08
6260
Flink on YARN模式下TaskManager的内存分配探究
该作业启动了10个TaskManager,并正常运行。来到该任务的Web界面,随便打开一个TaskManager页面,看看它的内存情况。
王知无-import_bigdata
2021-06-01
1.3K0
Kafka 为了避免 Full GC,竟然还在发送端设计了内存池,自己管理内存,太巧妙了
在上一篇文章中,我们讲到了 Kafka 发送消息的八个流程,并且着重讲了 Kafka 封装了一个内存结构,把每个分区的消息封装成批次,缓存到内存里。
王知无-import_bigdata
2021-05-07
8500
Flume+Kafka双剑合璧玩转大数据平台日志采集
大数据平台每天会产生大量的日志,处理这些日志需要特定的日志系统。目前常用的开源日志系统有 Flume 和Kafka两种, 都是非常优秀的日志系统,且各有特点。下面我们来逐一认识一下。
王知无-import_bigdata
2020-11-06
1.7K0
HDFS应用场景、原理、基本架构及使用方法
如果一个文件大小为10K,则1亿个文件大小仅为1TB(但要消耗掉NameNode 20GB内存)
王知无-import_bigdata
2020-08-20
1.4K0
Redis系列 | 缓存穿透、击穿、雪崩、预热、更新、降级
Redis是高性能的分布式内存数据库,对于内存数据库经常会出现下面几种情况,也经常会出现在Redis面试题中:缓存穿透、缓存击穿、缓存雪崩、缓存预热、缓存更新、缓存降级。本篇分别介绍这些概念以及对应的解决方案。
王知无-import_bigdata
2020-07-22
11.2K0
JVM架构体系与GC命令小总结
Java虚拟机Java virtual machine(JVM) 是物理机器的软件实现。java编译器javac将源码文件.java编译成字节码文件.class,然后这个字节码文件.class被放到JVM中,装载并执行字节码文件.class。JVM架构图如下。
王知无-import_bigdata
2020-06-11
5120
循环查询数据的性能问题及优化
糟糕的代码,对代码维护、性能、团队协作都会造成负面影响,所以,先设计再实现,谋而后动。
王知无-import_bigdata
2020-06-06
3.2K0
实时统计分析系统-Apache Druid
Druid.io(以下简称Druid)是2013年底开源出来的, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。
王知无-import_bigdata
2020-06-04
1.9K0
Flink 1.10之改进的TaskManager内存模型与配置
Flink社区在FLIP-49提出了新版统一的TaskManager内存模型及配置,这也是Flink 1.10版本最主要的改进与优化点之一。根据社区的说法,该proposal致力于解决1.9版本及之前的TM内存配置的三个缺点:
王知无-import_bigdata
2020-05-20
3K1
HBase生产环境优化不完全指南
HBase集群一旦部署使用,再想对其作出调整需要付出惨痛代价,所以如何部署HBase集群是使用的第一个关键步骤。
王知无-import_bigdata
2020-04-02
1.5K0
Spark性能优化总结
Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。通过都会将数据序列化,降低其内存memory和网络带宽shuffle的消耗。
王知无-import_bigdata
2020-04-02
1.2K0
HBase优化笔记
一般安装好的HBase集群,默认配置是给Master和RegionServer 1G的内存,而Memstore默认占0.4,也就是400MB。显然RegionServer给的1G真的太少了。
王知无-import_bigdata
2020-04-02
1.1K0
设计HBase RowKey需要注意的二三事
这对Scan操作非常友好,因为RowKey相近的行总是存储在相近的位置,顺序读的效率比随机读要高。
王知无-import_bigdata
2020-04-01
1.3K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档