大数据技术架构

LV1
发表了文章

干货 | 再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵...

大数据技术架构
发表了文章

Spark性能调优指北:性能优化和故障处理

Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

大数据技术架构
发表了文章

Flink社区 | Flink CDC 2.0 正式发布,核心改进详解

摘要:本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink...

大数据技术架构
发表了文章

HBase原理 | HBase RegionServer宕机数据恢复

HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据...

大数据技术架构
发表了文章

数据湖|Flink + Iceberg 全场景实时数仓的建设实践

摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta...

大数据技术架构
发表了文章

盘点Hadoop生态中 6 个核心的大数据组件

大数据生态圈中有很多优秀的组件,可谓琳琅满目,按组件类别可分为存储引擎、计算引擎,消息引擎,搜索引擎等;按应用场景可分为在线分析处理OLAP型,在线事务处理OL...

大数据技术架构
发表了文章

Spark 闭包(Task not serializable)问题分析及解决

在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下...

大数据技术架构
发表了文章

史上第二全面的HBase读写性能优化总结

如果数据吞吐量较大,且一次查询返回的数据量较大,则Rowkey 必须进行散列化处理,同时建表必须进行预分区处理。对于以get为主的查询场景,则将表进行hash预...

大数据技术架构
发表了文章

Flink + Iceberg 在去哪儿的实时数仓实践

摘要:本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括:

大数据技术架构
发表了文章

数据湖实践 | Iceberg 在网易云音乐的实践

本文将从另一个角度为大家介绍 iceberg(结合之前推送的Iceberg快速入门,可以更深入的理解),然后分享 iceberg 在网易云音乐的一些实践,希望对...

大数据技术架构
发表了文章

ClickHouse原理 | ClickHouse特性及底层存储原理

ClickHouse是一款MPP架构的列式存储数据库,但MPP和列式存储并不是什么"稀罕"的设计。拥有类似架构的其他数据库产品也有很多,但是为什么偏偏只有Cli...

大数据技术架构
发表了文章

SparkListener监听机制使用及自定义事件处理

Spark 提供了一系列整个任务生命周期中各个阶段变化的事件监听机制,通过这一机制可以在任务的各个阶段做一些自定义的各种动作。SparkListener便是这些...

大数据技术架构
发表了文章

Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务,以将特征物化到在线特征存储库,不...

大数据技术架构
发表了文章

Flink + Iceberg 如何解决数据入湖面临的挑战

本文来自4月17日 Apache Flink x Iceberg Meetup 上海站胡争老师的分享,文末有视频回顾和PPT资源下载~

大数据技术架构
发表了文章

元数据管理 | Hive 元数据迁移与合并

在网易集团内部有大大小小几百套 hive 集群,为了满足网易猛犸大数据平台的元数据统一管理的需求,我们需要将多个分别独立的 hive 集群的元数据信息进行合并,...

大数据技术架构
发表了文章

不再需要ZooKeeper,Kafka 2.8将独立运行!

分布式发布与订阅系统Apache Kafka在即将发布的2.8版本,使用Kafka内部的Quorum控制器来取代ZooKeeper,因此用户第一次可在完全不需要...

大数据技术架构
发表了文章

Spark原理 | 关于 mapPartitions 的误区

今天 Review 了一下同事的代码,发现其代码中有非常多的 mapPartitions,问其原因,他说性能比 map 更好。我说为什么性能好呢?于是就有了这篇...

大数据技术架构
发表了文章

Iceberg 实践 | B 站通过数据组织加速大规模数据分析

交互式分析是大数据分析的一个重要方向,基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验,能够大大提升数据分析人员的工作效率和使用体验。限于...

大数据技术架构
发表了文章

Delta实践 | Delta Lake在Soul的应用实践

(一)业务场景 传统离线数仓模式下,日志入库前首要阶段便是ETL,Soul的埋点日志数据量庞大且需动态分区入库,在按day分区的基础上,每天的动态分区1200+...

大数据技术架构
发表了文章

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿

在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导...

大数据技术架构

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券