腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏作者

149

文章

318184

阅读量

95

订阅数

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

数据湖数据库 sql apache 存储

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

大数据技术架构

2022-12-01

1.5K0

干货 | 再来聊一聊 Parquet 列式存储格式

hive 存储文件存储编程算法

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

大数据技术架构

2021-08-25

1.9K0

盘点Hadoop生态中 6 个核心的大数据组件

分布式 kafka hadoop es 存储

大数据生态圈中有很多优秀的组件，可谓琳琅满目，按组件类别可分为存储引擎、计算引擎，消息引擎，搜索引擎等；按应用场景可分为在线分析处理OLAP型，在线事务处理OLTP型，以及混合事务与分析处理HTAP型等。有些组件主要存储日志数据或者只允许追加记录，有些组件可更好的支持CDC或者upsert数据。有些组件是为离线分析或批处理而生，有些则更擅长实时计算或流处理。本文整理了几个笔者认为非常重要且仍然主流的核心组件，供参考。

大数据技术架构

2021-07-29

2.2K0

史上第二全面的HBase读写性能优化总结

hbase TDSQL MySQL 版存储 http 缓存

如果数据吞吐量较大，且一次查询返回的数据量较大，则Rowkey 必须进行散列化处理，同时建表必须进行预分区处理。对于以get为主的查询场景，则将表进行hash预分区，均匀分布；如果以scan为主，则需要兼顾业务场景设计rowkey，在满足查询需求的前提下尽量对数据打散并进行负载均衡。

大数据技术架构

2021-07-05

2.4K0

ClickHouse原理 | ClickHouse特性及底层存储原理

数据备份存储分布式数据库 sql

ClickHouse是一款MPP架构的列式存储数据库，但MPP和列式存储并不是什么"稀罕"的设计。拥有类似架构的其他数据库产品也有很多，但是为什么偏偏只有ClickHouse的性能如此出众呢？ClickHouse发展至今的演进过程一共经历了四个阶段，每一次阶段演进，相比之前都进一步取其精华去其糟粕。可以说ClickHouse汲取了各家技术的精髓，将每一个细节都做到了极致。接下来将介绍ClickHouse的一些核心特性，正是这些特性形成的合力使得ClickHouse如此优秀。

大数据技术架构

2021-07-05

4.7K0

Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

特征工程 spark 存储 api 数据库

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务，以将特征物化到在线特征存储库，不仅仅保证低延迟访问，而且还保证在服务时间可以访问最新鲜的特征值。

大数据技术架构

2021-07-05

1.2K0

Hudi原理 | Apache Hudi 典型应用场景介绍

hadoop kafka spark 存储数据库

将数据从外部源如事件日志、数据库提取到Hadoop数据湖中是一个很常见的问题。在大多数Hadoop部署中，一般使用混合提取工具并以零散的方式解决该问题，尽管这些数据对组织是非常有价值的。

大数据技术架构

2020-05-25

2.5K0

再来聊一聊 Parquet 列式存储格式

hive 存储 https 网络安全文件存储

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

大数据技术架构

2020-05-21

10.4K0

Apache Hudi 架构原理与最佳实践

apache 大数据 hadoop 存储 spark

Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。

大数据技术架构

2020-03-25

5K0

Flink State 可以代替数据库吗？

大数据 api 存储数据库 https

有状态的计算作为容错以及数据一致性的保证，是当今实时计算必不可少的特性之一，流行的实时计算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分别提供对内置 State 的支持。State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据，部分情况下甚至可以直接用 State 存储结果数据，这让业界不禁思考: State 和 Database 是何种关系？有没有可能用 State 来代替数据库呢？

大数据技术架构

2019-11-28

2.1K0

日均5亿查询量的京东订单中心，为什么舍MySQL用ES?

存储云数据库 SQL Server 数据库 sql

京东到家订单中心系统业务中，无论是外部商家的订单生产，或是内部上下游系统的依赖，订单查询的调用量都非常大，造成了订单数据读多写少的情况。

大数据技术架构

2019-09-16

8320

面试题：InnoDB中一棵B+树能存多少行数据？

存储数据库云数据库 SQL Server sql

因为这是可以算出来的，要搞清楚这个问题，我们先从InnoDB索引数据结构、数据组织方式说起。

大数据技术架构

2019-08-28

1.7K0

大数据正当时，理解这几个术语很重要

大数据 sql 存储 spark 云计算

目前，大数据的流行程度远超于我们的想象，无论是在云计算、物联网还是在人工智能领域都离不开大数据的支撑。那么大数据领域里有哪些基本概念或技术术语呢？今天我们就来聊聊那些避不开的大数据技术术语，梳理并补充我们对大数据的理解。

大数据技术架构

2019-08-23

2.5K0

从 Elasticsearch 来看分布式系统架构设计

node.js Elasticsearch Service 系统架构分布式存储

分布式系统类型多，涉及面非常广，不同类型的系统有不同的特点，批量计算和实时计算就差别非常大。这篇文章中，重点会讨论下分布式数据系统的设计，比如分布式存储系统，分布式搜索系统，分布式分析系统等。

大数据技术架构

2019-08-16

7080

揭开 ClickHouse 快的面纱

存储分布式

其实早在去年我们就已经开始接触并研究clickhouse了，因为当时进行多表关联测试性能并不是特别优秀，所以并没有在线上大范围使用，当时研究的是分布式部署（感觉分布式会比单机好一些）最后发现性能并不怎么样而且分布式的sql也有很多限制，不支持单条删除和更新操作、不支持in和join（当时的版本，18.12.14之前），直到前几天看了携程一篇关于clickhouse的文章，将clickhouse的性能描述的神乎其神，再次勾起了我研究的欲望，附携程公众号文章干货 | 每天十亿级数据更新，秒出查询结果，ClickHouse在携程酒店的应用

大数据技术架构

2019-08-16

7.5K0

关于NoSQL，看这篇就够了

存储 hbase TDSQL MySQL 版分布式 mongodb

NoSQL（Not only SQL）数据库，可以理解为区别于关系型数据库如mysql、oracle等的非关系型数据库。

大数据技术架构

2019-08-16

8790

基于磁盘的Kafka为什么这么快

kafka 存储 socket编程缓存 jvm

Kafka是大数据领域无处不在的消息中间件，目前广泛使用在企业内部的实时数据管道，并帮助企业构建自己的流计算应用程序。Kafka虽然是基于磁盘做的数据存储，但却具有高性能、高吞吐、低延时的特点，其吞吐量动辄几万、几十上百万，这其中的原由值得我们一探究竟。本文属于Kafka知识扫盲系列，让我们一起掌握Kafka各种精巧的设计。

大数据技术架构

2019-08-16

4120

HBase漫谈 | HBase技术选型准则

TDSQL MySQL 版 hbase nosql 存储 api

NoSQL（Not only SQL）数据库，可以理解为区别于关系型数据库如mysql、oracle等的非关系型数据库。聊到NoSQL不得不提著名的CAP理论，全称 Consistency Available and Partition tolerance，即一致性、可用性与分区容错性，这是Eric Brewer教授提出的分布式系统设计理念，并给出了定论：任何分布式系统只能同时满足其中二点，无法做到三者兼顾。这可以说是NoSQL数据库的理论基石，至今NoSQL领域也称得上是百花齐放了，一直也没有哪一款NoSQL同时兼顾着这三点特性。

大数据技术架构

2019-08-16

3.1K0

Apache Spark 内存管理详解(下)

spark 文件存储存储缓存 hashmap

弹性分布式数据集（RDD）作为Spark最根本的数据抽象，是只读的分区记录（Partition）的集合，只能基于在稳定物理存储中的数据集上创建，或者在其他已有的RDD上执行转换（Transformation）操作产生一个新的RDD。转换后的RDD与原始的RDD之间产生的依赖关系，构成了血统（Lineage）。凭借血统，Spark保证了每一个RDD都可以被重新恢复。但RDD的所有转换都是惰性的，即只有当一个返回结果给Driver的行动（Action）发生时，Spark才会创建任务读取RDD，然后真正触发转换的执行。

大数据技术架构

2019-08-16

1K0

Apache Spark 内存管理详解(上)

jvm 文件存储 spark 存储 http

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

大数据技术架构

2019-08-16

1.9K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态