大数据技术架构-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏成员

149

文章

352043

阅读量

96

订阅数

干货 | 再来聊一聊 Parquet 列式存储格式

hive 存储文件存储编程算法

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

大数据技术架构

2021-08-25

3.3K0

Flink + Iceberg 在去哪儿的实时数仓实践

hive flink 大数据 kafka 数据库

摘要：本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括：

大数据技术架构

2021-07-05

1K0

数据湖实践 | Iceberg 在网易云音乐的实践

日志数据 spark html hive https

本文将从另一个角度为大家介绍 iceberg（结合之前推送的Iceberg快速入门，可以更深入的理解），然后分享 iceberg 在网易云音乐的一些实践，希望对大家能有所帮助。

大数据技术架构

2021-07-05

1.3K0

元数据管理 | Hive 元数据迁移与合并

hive 数据迁移数据库 sql

在网易集团内部有大大小小几百套 hive 集群，为了满足网易猛犸大数据平台的元数据统一管理的需求，我们需要将多个分别独立的 hive 集群的元数据信息进行合并，但是不需要移动 HDFS 中的数据文件，比如可以将 hive2、hive3、hive4 的元数据全部合并到 hive1 的元数据 Mysql 中，然后就可以在 hive1 中处理 hive2、hive3、hive4 中的数据。

大数据技术架构

2021-04-29

2.1K0

Delta实践 | Delta Lake在Soul的应用实践

spark hive 数据库 sql 数据湖

（一）业务场景传统离线数仓模式下，日志入库前首要阶段便是ETL，Soul的埋点日志数据量庞大且需动态分区入库，在按day分区的基础上，每天的动态分区1200+，分区数据量大小不均，数万条到数十亿条不等。下图为我们之前的ETL过程，埋点日志输入Kafka，由Flume采集到HDFS，再经由天级Spark ETL任务，落表入Hive。任务凌晨开始运行，数据处理阶段约1h，Load阶段1h+，整体执行时间为2-3h。

大数据技术架构

2021-03-05

1.4K0

蚂蚁绊倒大象？不起眼的小文件竟拖了Hadoop大佬的后腿

大数据 spark hive mapreduce node.js

在使用Hadoop过程中，小文件是一种比较常见的挑战，如果不小心处理，可能会带来一系列的问题。HDFS是为了存储和处理大数据集（M以上）而开发的，大量小文件会导致Namenode内存利用率和RPC调用效率低下，block扫描吞吐量下降，应用层性能降低。通过本文，我们将定义小文件存储的问题，并探讨如何对小文件进行治理。

大数据技术架构

2021-03-05

1.5K1

再来聊一聊 Parquet 列式存储格式

hive 存储 https 网络安全文件存储

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

大数据技术架构

2020-05-21

11.1K0

Apache Hudi：统一批和近实时分析的存储和服务

数据湖 windows 大数据 spark hive

一篇由三位Hudi PMC在2018年做的关于Hudi的分享，介绍了Hudi产生的背景及设计，现在看来也很有意义。

大数据技术架构

2020-03-25

1.6K0

Hive 调优，先掌握这几种优化模式

linux mapreduce hive

Hive和MapReduce中拥有较多在特定情况下优化的特性，如何利用好相关特性，是Hive性能调优的关键。本文就介绍那些耳熟但不能详的几种Hive优化模式。

大数据技术架构

2020-03-25

5060

Hive 常见的数据倾斜及调优技巧

Hive在执行MapReduce任务时经常会碰到数据倾斜的问题，表现为一个或者几个reduce节点运行很慢，延长了整个任务完成的时间，这是由于某些key的条数比其他key多很多，这些Key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。

大数据技术架构

2020-03-25

6K0

深度对比delta、iceberg和hudi三大开源数据湖方案

hive 开源 apache spark 大数据

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

大数据技术架构

2020-03-25

3.5K0

Hadoop，凉了？那还需要它吗？

hadoop hive mongodb 数据库云数据库 MongoDB

近日，Hadoop 领域发生几件不太美好的事情，先是 MapR 宣布如果无法获得新的投资，就必须要裁员百余人，并关闭硅谷总部，再是 Cloudera 股价暴跌 43%，估值缩水。

大数据技术架构

2019-08-16

3.2K0

玩转HBase百亿级数据扫描

hive hbase TDSQL MySQL 版 api

出于中通业务场景的特殊性，我们需要大量的回刷7-15天的数据，如果全部用离线抽取的方式，会给业务系统带来巨大压力，所以利用Hbaserowkey更新的特性，来存储业务数据的历史更新，每天ETL的任务需要大量从Hbase拉取数据，ETL任务需要扫描过滤近百亿数据。

大数据技术架构

2019-08-16

2K0

Apache Parquet 干货分享

大数据 sql hive spark

Parquet 是一种面向分析的、通用的列式存储格式，兼容各种数据处理框架比如 Spark、Hive、Impala 等，同时支持 Avro、Thrift、Protocol Buffers 等数据模型。

大数据技术架构

2019-08-16

1.8K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态