大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1405094

阅读量

322

订阅数

高性能、高稳定、高扩展：解读ByteHouse实时导入技术演进

分布式高性能架构数据性能

ByteHouse是火山引擎上的一款云原生数据仓库，为用户带来极速分析体验，能够支撑实时数据分析和海量离线数据分析；便捷的弹性扩缩容能力，极致的分析性能和丰富的企业级特性，助力客户数字化转型。

王知无-import_bigdata

2023-04-07

4270

「硬刚Doris系列」Apache Doris 架构原理及核心特性解读

分布式 android 存储

Doris主要分为FE和BE两个组件，FE主要负责查询的编译，分发和元数据管理（基于内存，类似HDFS NN）；BE主要负责查询的执行和存储系统

王知无-import_bigdata

2022-06-05

5.6K0

ClickHouse使用姿势系列之分布式JOIN

JOIN操作是OLAP场景无法绕开的，且使用广泛的操作。对ClickHouse而言，非常有必要对分布式JOIN实现作深入研究。

王知无-import_bigdata

2022-06-05

1.3K0

Flink新特性之非对齐检查点(unaligned checkpoint)详细解析

flink 大数据编程算法分布式

作为 Flink 最基础也是最关键的容错机制，Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。

王知无-import_bigdata

2022-06-05

5.5K0

大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler)

apache 开源 hadoop 分布式任务调度

大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。

王知无-import_bigdata

2022-04-13

7.9K0

「Clickhouse系列」分布式表&本地表详解

分布式 zookeeper 数据库 sql 存储

一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.

王知无-import_bigdata

2022-04-13

7.6K0

我们在学习Kafka的时候，到底在学习什么？

kafka node.js 分布式 spark 面向对象编程

我在之前《Kafka源码阅读的一些小提示》写了一些关于Kafka源码阅读的注意事项。

王知无-import_bigdata

2021-09-22

3350

Data Mesh，数据网格的道与术

大数据 linux 微服务分布式

周末的时候，看到有群友讨论关于 Data Mesh 的话题。这个名词我在2020年初的时候听到过一次，当时感觉就是一个概念，看的糊里糊涂，没有当回事。最近突然又被推上了话题风口，所以静下心来看了一下相关的论文和介绍。

王知无-import_bigdata

2021-07-12

9610

一致性哈希及其在Greenplum中的应用

编程算法数据迁移分布式

一致性哈希(consistent hashing)是分布式系统中非常重要的算法，在平滑扩缩容、动态负载均衡等方向有大量应用。相对于传统的线性(取模)哈希算法，一致性哈希可以保证在分布式哈希表中的桶数量发生变化时，受到影响需要重新映射的key尽量少。本文先简要复习下经典的割环一致性哈希方案，然后介绍它的变种——跳跃一致性哈希(jump consistent hash)。

王知无-import_bigdata

2021-05-07

7480

你爱或者不爱，他都在那里 - 云/边/端三协同下的边缘计算

5g 云计算分布式编程算法 apache

说实话，在下第一次接触这个概念也是「懵逼」的。然后我个人进行了一番总结和归纳，下面我用最通俗的语言来教教大家什么才是「边缘计划」。

王知无-import_bigdata

2021-03-15

9930

Kafka Connect | 无缝结合Kafka构建高效ETL方案

kafka 编程算法 api 分布式 node.js

很多同学可能没有接触过 Kafka Connect，大家要注意不是Connector。 Kafka Connect 是一款可扩展并且可靠地在 Apache Kafka 和其他系统之间进行数据传输的工具。

王知无-import_bigdata

2021-03-15

4.1K0

ClickHouse大数据领域企业级应用实践和探索总结

大数据分布式存储搜索引擎数据库

2020年下半年在OLAP领域有一匹黑马以席卷之势进入大数据开发者的领域，它就是ClickHouse。在2019年小编也曾介绍过ClickHouse，大家可以参考这里进行入门：

王知无-import_bigdata

2021-01-20

1.5K0

分布式系统：数据一致性解决方案

java 分布式 html 数据分析

在分布式系统中，随着系统架构演进，原来的原子性操作会随着系统拆分而无法保障原子性从而产生一致性问题，但业务实际又需要保障一致性，下面我从学习和实战运用总结一下分布式一致性解决方案。

王知无-import_bigdata

2020-12-18

3.5K0

ZooKeeper需要关注的点

Zookeeper主要是一个分布式服务协调框架，实现同步服务，配置维护和命名服务等分布式应用，基于对Zab协议（ZooKeeper Atomic Broadcast，zk原子消息广播协议，分布式一致性算法）的实现，能够保证分布式环境中数据的一致性。简单来看，zookeeper=文件系统+通知机制。

王知无-import_bigdata

2020-06-04

6810

从NoSQL运动谈分布式系统的CAP、BASE理论

数据分析 nosql hbase TDSQL MySQL 版分布式

自从上世纪80年代以降，关系型数据库（即传统的OLTP和OLAP数据库）一直都是后端业务系统的主导，能够满足很多需求。但是，随着数据量的激增、对查询响应要求提升、越来越多非结构化数据泛滥等原因，关系型数据库的领域面临挑战，因此催生了NoSQL（非关系型、not only SQL）运动——这个词在世纪之交才出现，但是NoSQL思想和数据库出现得要早得多。

王知无-import_bigdata

2020-05-20

1.3K0

HDFS读写数据过程原理分析

node.js 编程算法 hadoop 分布式 xml

在学习hadoop hdfs的过程中，有很多人在编程实践这块不知道该其实现的原理是什么，为什么通过几十行小小的代码就可以实现对hdfs的数据的读写。

王知无-import_bigdata

2020-05-20

5260

Flink面试通关手册

api sql 分布式数据结构数据处理

2019 年是大数据实时计算领域最不平凡的一年，2019 年 1 月阿里巴巴 Blink （内部的 Flink 分支版本）开源，大数据领域一夜间从 Spark 独步天下走向了两强争霸的时代。Flink 因为其天然的流式计算特性以及强大的处理性能成为炙手可热的大数据处理框架。

王知无-import_bigdata

2019-12-09

1.4K0

消息可靠性、重复消息、消息积压、利用消息实现分布式事务

消息队列 CMQ 版 kafka apache 分布式数据库

可以利用消息队列的有序性来验证是否有消息丢失。在Producer端给每个发出的消息附加一个连续递增的序号，然后在Consumer端来检查这个序号的连续性。如果没有消息丢失，Consumer收到消息的序号必然是连续递增的，如果检测到序号不连续，那就是丢消息了。还可以通过缺失的序号来确定丢失的是哪条消息，方便进一步排查原因

王知无-import_bigdata

2019-11-21

1.2K0

Cassandra原理 | Apache Cassandra简介

nosql apache 分布式数据结构数据库

Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库，它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型，由 Facebook 创建，在一些最流行的网站中得到应用。

王知无-import_bigdata

2019-09-26

4K0

Flink Exactly-Once 投递实现浅析

大数据缓存分布式

随着近来越来越多的业务迁移到 Flink 上，对 Flink 作业的准确性要求也随之进一步提高，其中最为关键的是如何在不同业务场景下保证 exactly-once 的投递语义。虽然不少实时系统（e.g. 实时计算/消息队列）都宣称支持 exactly-once，exactly-once 投递似乎是一个已被解决的问题，但是其实它们更多是针对内部模块之间的信息投递，比如 Kafka 生产（producer 到 Kafka broker）和消费（broker 到 consumer）的 exactly-once。而 Flink 作为实时计算引擎，在实际场景业务会涉及到很多不同组件，由于组件特性和定位的不同，Flink 并不是对所有组件都支持 exactly-once（见[1]），而且不同组件实现 exactly-once 的方法也有所差异，有些实现或许会带来副作用或者用法上的局限性，因此深入了解 Flink exactly-once 的实现机制对于设计稳定可靠的架构有十分重要的意义。

王知无-import_bigdata

2019-08-13

1.4K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态