大数据技术架构-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏成员

149

文章

352225

阅读量

96

订阅数

Spark调优 | Spark OOM问题常见解决方式

mapreduce spark bash bash 指令 linux

Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型：Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。

大数据技术架构

2021-11-23

2.8K0

Spark性能调优指北：性能优化和故障处理

spark mapreduce 数据库 sql 文件存储

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

大数据技术架构

2021-08-25

9490

Spark 闭包（Task not serializable）问题分析及解决

文件存储编程算法 spark scala

在编写Spark程序中，由于在map等算子内部使用了外部定义的变量和函数，从而引发Task未序列化问题。然而，Spark算子在计算过程中使用外部变量在许多情形下确实在所难免，比如在filter算子根据外部指定的条件进行过滤，map根据相应的配置进行变换等。为了解决上述Task未序列化问题，这里对其进行了研究和总结。

大数据技术架构

2021-07-29

4.5K0

数据湖实践 | Iceberg 在网易云音乐的实践

日志数据 spark html hive https

本文将从另一个角度为大家介绍 iceberg（结合之前推送的Iceberg快速入门，可以更深入的理解），然后分享 iceberg 在网易云音乐的一些实践，希望对大家能有所帮助。

大数据技术架构

2021-07-05

1.3K0

SparkListener监听机制使用及自定义事件处理

Spark 提供了一系列整个任务生命周期中各个阶段变化的事件监听机制，通过这一机制可以在任务的各个阶段做一些自定义的各种动作。SparkListener便是这些阶段的事件监听接口类通过实现这个类中的各种方法便可实现自定义的事件处理动作。

大数据技术架构

2021-07-05

1.8K0

Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

特征工程 spark 存储 api 数据库

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务，以将特征物化到在线特征存储库，不仅仅保证低延迟访问，而且还保证在服务时间可以访问最新鲜的特征值。

大数据技术架构

2021-07-05

1.3K0

Iceberg 实践 | B 站通过数据组织加速大规模数据分析

网络安全大数据数据分析 spark sql

交互式分析是大数据分析的一个重要方向，基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验，能够大大提升数据分析人员的工作效率和使用体验。限于机器的物理资源限制，对于超大规模的数据的全表扫描以及全表计算自然无法实现交互式的响应，但是在大数据分析的典型场景中，多维分析一般都会带有过滤条件，对于这种类型的查询，尤其是在高基数字段上的过滤查询，理论上可以在读取数据的时候跳过所有不相关的数据，只读取极少部分需要的数据，这种技术一般称为Data Clustering以及Data Skipping。Data Clustering是指数据按照读取时的IO粒度紧密聚集，而Data Skipping则根据过滤条件在读取时跳过不相干的数据，Data Clustering的方式以及查询中的过滤条件共同决定了Data Skipping的效果，从而影响查询的响应时间，对于TB甚至PB级别的数据，如何通过Data Clustering以及Data Skipping技术高效的跳过所有逻辑上不需要的数据，是能否实现交互式分析的体验的关键因素之一。

大数据技术架构

2021-03-23

2.2K0

Delta实践 | Delta Lake在Soul的应用实践

spark hive 数据库 sql 数据湖

（一）业务场景传统离线数仓模式下，日志入库前首要阶段便是ETL，Soul的埋点日志数据量庞大且需动态分区入库，在按day分区的基础上，每天的动态分区1200+，分区数据量大小不均，数万条到数十亿条不等。下图为我们之前的ETL过程，埋点日志输入Kafka，由Flume采集到HDFS，再经由天级Spark ETL任务，落表入Hive。任务凌晨开始运行，数据处理阶段约1h，Load阶段1h+，整体执行时间为2-3h。

大数据技术架构

2021-03-05

1.4K0

蚂蚁绊倒大象？不起眼的小文件竟拖了Hadoop大佬的后腿

大数据 spark hive mapreduce node.js

在使用Hadoop过程中，小文件是一种比较常见的挑战，如果不小心处理，可能会带来一系列的问题。HDFS是为了存储和处理大数据集（M以上）而开发的，大量小文件会导致Namenode内存利用率和RPC调用效率低下，block扫描吞吐量下降，应用层性能降低。通过本文，我们将定义小文件存储的问题，并探讨如何对小文件进行治理。

大数据技术架构

2021-03-05

1.5K1

使用Apache Hudi构建大规模、事务性数据湖

数据处理数据库 sql 数据湖 spark

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk

大数据技术架构

2020-07-02

2.1K0

Spark速度比MapReduce快，不仅是内存计算

spark mapreduce

作为Hadoop的分布式计算框架，MapReduce扮演着分布式计算的任务，适用于离线批计算任务。Spark本身不具备存储数据功能，通常基于HDFS。我们经常会在各类文章中看到类似这样的描述：Spark是基于内存计算的，其速度远快于Hadoop的MapReduce。本文旨在讨论这一结论背后的原因。

大数据技术架构

2020-05-29

2K0

Hudi原理 | Apache Hudi 典型应用场景介绍

hadoop kafka spark 存储数据库

将数据从外部源如事件日志、数据库提取到Hadoop数据湖中是一个很常见的问题。在大多数Hadoop部署中，一般使用混合提取工具并以零散的方式解决该问题，尽管这些数据对组织是非常有价值的。

大数据技术架构

2020-05-25

2.6K0

Apache Hudi：统一批和近实时分析的存储和服务

数据湖 windows 大数据 spark hive

一篇由三位Hudi PMC在2018年做的关于Hudi的分享，介绍了Hudi产生的背景及设计，现在看来也很有意义。

大数据技术架构

2020-03-25

1.6K0

Apache Hudi 架构原理与最佳实践

apache 大数据 hadoop 存储 spark

Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。

大数据技术架构

2020-03-25

5.3K0

深度对比delta、iceberg和hudi三大开源数据湖方案

hive 开源 apache spark 大数据

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

大数据技术架构

2020-03-25

3.5K0

Apache Hudi 0.5.1版本重磅发布

spark apache scala 打包

历经大约3个月时间，Apache Hudi 社区终于发布了0.5.1版本，这是Apache Hudi发布的第二个Apache版本，该版本中一些关键点如下

大数据技术架构

2020-03-11

1.2K0

小米流式平台架构演进与实践

flink 数据集成大数据 spark 消息队列 CMQ 版

摘要：小米业务线众多，从信息流，电商，广告到金融等覆盖了众多领域，小米流式平台为小米集团各业务提供一体化的流式数据解决方案，主要包括数据采集，数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条，实时同步任务 1.5 万，实时计算的数据 1 万亿条。

大数据技术架构

2020-03-11

1.5K0

大数据正当时，理解这几个术语很重要

大数据 sql 存储 spark 云计算

目前，大数据的流行程度远超于我们的想象，无论是在云计算、物联网还是在人工智能领域都离不开大数据的支撑。那么大数据领域里有哪些基本概念或技术术语呢？今天我们就来聊聊那些避不开的大数据技术术语，梳理并补充我们对大数据的理解。

大数据技术架构

2019-08-23

2.7K0

必须要懂的Spark内存管理模型

Apache Spark是目前大数据领域主流的内存计算引擎，无论是在批处理还是实时流处理方面都有着广泛的应用。我们跑作业的时候，首先要给Spark Job分配一定的资源，比如一个executor分配5G内存，有时候我们会纠结于executor的内存有多少用于了实际计算。因此就需要了解一下Spark的内存管理，还有就是掌握了Spark的内存模型对于优化我们的作业也至关重要。

大数据技术架构

2019-08-21

3.7K0

Spark 设置指定 JDK 的正确姿势

这两天在测试环境提交 Spark Streaming 任务时，遇到了一个 JDK 版本问题导致 job 一直提交失败。

大数据技术架构

2019-08-16

2.5K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态