开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何拆分Apache Druid hstorical节点和中间管理节点

Apache Druid是一款开源的实时分析数据库，用于处理大规模数据集并提供快速的查询和分析能力。它的架构包括Coordinator节点、Historical节点、Broker节点和Real-time节点。

拆分Apache Druid Historical节点和中间管理节点的目的是为了提高系统的可伸缩性和性能。下面是拆分这两种节点的步骤和相关概念：

Historical节点：
- 概念：Historical节点负责存储和提供历史数据，它从数据源加载数据并将其分割成可管理的段（segments），然后响应查询请求。
- 拆分步骤：为了拆分Historical节点，可以按照以下步骤进行操作：
  - 增加新的Historical节点：在集群中增加新的Historical节点，可以通过复制现有节点的配置文件并进行相应的修改来实现。
  - 配置数据加载均衡：在Coordinator节点上配置数据加载均衡策略，使其能够将数据均匀地分配给新的Historical节点。
  - 配置查询路由：在Broker节点上配置查询路由策略，使其能够将查询请求路由到新的Historical节点上。

中间管理节点：
- 概念：中间管理节点负责协调集群中的各个节点，并管理数据加载、数据分配和查询路由等任务。
- 拆分步骤：为了拆分中间管理节点，可以按照以下步骤进行操作：
  - 增加新的中间管理节点：在集群中增加新的中间管理节点，可以通过复制现有节点的配置文件并进行相应的修改来实现。
  - 配置节点协调：在新的中间管理节点上配置节点协调策略，使其能够与其他节点进行协调和通信。
  - 配置数据加载均衡和查询路由：在新的中间管理节点上配置数据加载均衡和查询路由策略，使其能够参与数据加载和查询路由的决策。

拆分Apache Druid Historical节点和中间管理节点的优势包括：

提高系统的可伸缩性：通过增加节点数量，可以处理更多的数据和查询请求，从而提高系统的可伸缩性。
提高系统的性能：通过将数据和任务分布到多个节点上，可以减轻单个节点的负载压力，提高系统的性能。
提高系统的可用性：通过增加节点数量，可以提高系统的冗余度，从而提高系统的可用性。

拆分Apache Druid Historical节点和中间管理节点适用于以下场景：

大规模数据集：当需要处理大规模数据集时，拆分节点可以提高系统的处理能力。
高并发查询：当需要处理大量并发查询请求时，拆分节点可以提高系统的并发处理能力。
高可用性要求：当对系统的可用性要求较高时，拆分节点可以提供冗余和故障恢复能力。

腾讯云提供了一系列与Apache Druid相关的产品和服务，包括云服务器、云数据库、云存储、云监控等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用指南。

相关搜索:xgboost如何拆分根节点和泰勒展开问题如何在BPEL SOA中使用Assign/XSLT拆分和分配嵌套节点中的值？如何在firebase android studio中将订单拆分到两个不同的子节点中，如酒吧和厨房柜台发送订单两个不同的计数器如何解决weblogic节点管理器进程中SWEET32和Logjam漏洞已在多节点模式下安装apache spark。现在，如果我安装yarn作为我的集群管理器，如何处理，因为我已经安装了Spark js case when js history清空 angular懒加载js animate.js插件 js data name

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

超详细sharding-jdbc分库分表实现（基于spring-boot)

demo 地址：https://github.com/FleyX/demo-project/tree/master/spring-boot/sjdemo 部分内容参考 ShardingSphere 官方文档：官方文档

02

【开发实践】美团为什么开发 Kylin On Druid（上）？

在大数据分析领域，Apache Kylin 和 Apache Druid （incubating）是两个普遍使用的 OLAP 引擎，都具有支持在超大数据上进行快速查询的能力。在一些对大数据分析非常依赖的企业，往往同时运行着 Kylin 和 Druid 两套系统，服务于不同的业务场景。

02

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

本章我们开始正式搭建大数据环境，目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境，使用原生的方式搭建Flink，Druid，Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式，共同完成大数据环境的安装。

01

面经：Druid实时数据分析系统设计与应用

作为一名专注于大数据处理与实时分析技术的博主，我深知Apache Druid作为一款高性能的实时数据分析系统，在现代数据栈中所发挥的关键作用。本篇博客将结合我个人的面试经历，深入剖析Druid的设计理念、核心功能及其在实际应用中的最佳实践，分享面试必备知识点，并通过示例进一步加深理解，助您在求职过程中自信应对与Druid相关的技术考察。

01

大数据Apache Druid（三）：Druid集群搭建

Druid进程可以以任意方式进行部署，为了方便部署，建议分为三种服务器类型：主服务器（Master）、查询服务器（Query）、数据服务器（Data）。

09

面试官三连问：你这个数据量多大？分库分表怎么做？用的哪个组件？

ShardingSphere是一套开源的分布式数据库中间件解决方案组成的生态圈，它由Sharding-JDBC、Sharding-Proxy和Sharding-Sidecar（计划中）这3款相互独立的产品组成。他们均提供标准化的数据分片、分布式事务和数据库治理功能，可适用于如Java同构、异构语言、云原生等各种多样化的应用场景。

03

爱奇艺|海量数据实时分析服务技术架构演进

爱奇艺目前使用到的大数据相关技术有Druid、Impala、Kudu、Kylin、Presto、ElasticSearch等，并且随着各技术框架的版本升级而升级。比如：

03

即席查询引擎对比：我为什么选择Presto

即席查询AD-HOC ：以单独的SQL语句的形式执行的查询就是即席查询，比如说：HUE里面输入SQL语句并获得结果或者使用dbeaver连接hiveserver2自己键入的SQL代码并获取结果，这样的操作就是即席查询。

02

Apache Druid 在 Shopee 的工程实践

当前集群部署方案是维护一个超大集群，基于物理机器部署，集群规模达 100+ 节点。Druid 集群作为相关核心业务数据项目的下游，可以通过批任务和流任务写入数据，然后相关业务方可以进行 OLAP 实时查询分析。

03

从1 s到0.1 s？微信海量数据查询优化

微信的多维指标监控平台，具备自定义维度、指标的监控能力，主要服务于用户自定义监控。作为框架级监控的补充，它承载着聚合前 45亿/min、4万亿/天的数据量。当前，针对数据层的查询请求也达到了峰值 40万/min，3亿/天。较大的查询请求使得数据查询遇到了性能瓶颈：查询平均耗时 > 1000ms，失败率居高不下。针对这些问题，微信团队对数据层查询接口进行了针对性的优化来满足上述场景，将平均查询速度从1000ms+优化到了100ms级别。本文为各位分享优化过程，希望对你有用！

02

0836-Apache Druid on HDP

Apache Druid是一个分布式的、面向列的、实时分析数据库，旨在快速获取大量数据并将其编入索引，并对大型数据集进行快速的切片和切分分析（“OLAP查询），常用于实时摄取、快速查询和对时间依赖性很高的数据库用户。因此，Druid可以为可视化的分析应用程序提供强力的数据源支持，或用作需要快速聚合的高并发API的后端。Druid最适合面向事件的数据。

02

迈向更灵活，贝壳 OLAP 平台架构演进

导语 |为了满足贝壳日益复杂、多样化业务场景下的多维数据分析需求，贝壳 OLAP 平台经历了从早期基于Hive+MySQL 原始阶段，到基于 Kylin单一引擎的平台化建设，再到支持多种不同OLAP引擎的灵活架构的发展历程。本文是对贝壳找房数据智能中心资深研发工程师——肖赞在云+社区沙龙online的分享整理，希望与大家一同交流。

OLAP引擎：基于Druid组件进行数据统计分析

Druid是一款基于分布式架构的OLAP引擎，支持数据写入、低延时、高性能的数据分析，具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景，是大数据基础架构建设中重要组件。

04

Druid 集群方式部署 —— 启动服务

如果你计划在 Master 服务器上还同时运行 ZK 的话，首先需要更新 conf/zoo.cfg 中的配置来确定你如何运行 ZK。然后你可以选择在启动 ZK 的同时启动 Master 服务器。

00

从理论到工程实践——用户画像入门宝典

用户画像是大数据顶层应用中最重要的一环，搭建一套适合本公司体系的用户画像尤为重要。但是，用户画像的资料往往理论居多，实践少，更少有工程化的实战案例。

03

从理论到工程实践——用户画像入门宝典

用户画像是大数据顶层应用中最重要的一环，搭建一套适合本公司体系的用户画像尤为重要。但是，用户画像的资料往往理论居多，实践少，更少有工程化的实战案例。

02

druid安装和使用

Druid是目前非常流行的一款高性能的、分布式列存储的实时OLAP框架，有比较多的用户需要部署该框架解决他们的业务问题。

04

Druid实时OLAP数据分析存储系统极简入门

Druid 是一个开源的，分布式的，列存储的，适用于实时数据分析的存储系统，能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。

02

Druid入门（1）—— 快速入门实时分析利器-Druid_0.17

http://druid.io/现在也会跳转https://druid.apache.org/

01

微信海量数据查询如何从1000ms降到100ms？

👉腾小云导读微信的多维指标监控平台，具备自定义维度、指标的监控能力，主要服务于用户自定义监控。作为框架级监控的补充，它承载着聚合前 45亿/min、4万亿/天的数据量。当前，针对数据层的查询请求也达到了峰值 40万/min，3亿/天。较大的查询请求使得数据查询遇到了性能瓶颈：查询平均耗时 > 1000ms，失败率居高不下。针对这些问题，微信团队对数据层查询接口进行了针对性的优化来满足上述场景，将平均查询速度从1000ms+优化到了100ms级别。本文为各位分享优化过程，希望对你有用！ 👉目录 1 背景介绍

05

日增百亿数据，查询结果秒出， Apache Doris 在 360商业化的统一 OLAP 应用实践

作者｜360 商业化数据团队窦和雨、王新新导读：360 商业化为助力业务团队更好推进商业化增长，实时数仓共经历了三种模式的演进，分别是 Storm + Druid + MySQL 模式、Flink + Druid + TIDB 的模式以及 Flink + Doris 的模式，基于 Apache Doris 的新一代架构的成功落地使得 360 商业化团队完成了实时数仓在 OLAP 引擎上的统一，成功实现广泛实时场景下的秒级查询响应。本文将为大家进行详细介绍演进过程以及新一代实时数仓在广告业务场景中的具

01

Druid 在有赞的实践

Druid 是 MetaMarket 公司研发，专为海量数据集上的做高性能 OLAP (OnLine Analysis Processing)而设计的数据存储和分析系统，目前 Druid 已经在 Apache 基金会下孵化。Druid 的主要特性：

04

史上最全数据库中间件详解

导读：本文详细介绍了中间件，主要从数据库拆分过程及挑战、主流数据库中间件设计方案、读写分离核心要点、分库分表核心要点展开说明。

03

数据库中间件详解（精品长文）

互联网当下的数据库拆分过程基本遵循的顺序是：垂直拆分、读写分离、分库分表(水平拆分)。每个拆分过程都能解决业务上的一些问题，但同时也面临了一些挑战。

02

数据库中间件那些事儿

互联网当下的数据库拆分过程基本遵循的顺序是：垂直拆分、读写分离、分库分表(水平拆分)。每个拆分过程都能解决业务上的一些问题，但同时也面临了一些挑战。

04

Hadoop大数据生态系统及常用组件

什么是大数据，多大算大，100G算大么？如果是用来存储1080P的高清电影，也就是几部影片的容量。但是如果100G都是文本数据，比如云智慧透视宝后端kafka里的数据，抽取一条mobileTopic的数据如下：【107，5505323054626937，局域网，局域网，unknown，0，0，09f26f4fd5c9d757b9a3095607f8e1a27fe421c9，1468900733003】，这种数据100G能有多少条，我们可想而知。

02

ShardingSphere 结合 MySQL 分表与分库

大家好，我是BNTang，最近又去忙其他事情去了，终于有时间来水一篇文章啦，本文给大家介绍一下如何使用 ShardingSphere + MySQL 进行分表分表，分表分库之后我们又该如何进行查询，好了废话不多说开始咯。

00

你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)

在上一章节《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(上)》，我们讲到实时数仓的建设，互联网大数据技术发展到今天，各个领域基本已经成熟，有各式各样的解决方案可以供我们选择。

02

Apache Druid历险记

Druid是一个快速的列式分布式的支持实时分析的数据存储系统。它在处理PB级数据、毫秒级查询、数据实时处理方面，比传统的OLAP系统有了显著的性能改进。

03

spring boot+sharding jdbc实现分库分表

当我们的数据量比较大（没接触过）就会考虑一下分库分表的策略。当然分库分表又分为多种策略：

01

大数据繁荣生态圈组件之实时大数据Druid小传(二)Druid架构与原理

索引服务是数据摄入创建和销毁Segment的重要方式，Druid提供一组支持索引服务(Indexing Service)的组件，即Overlord和MiddleManager节点。

03

Druid 0.17 入门（2）—— 安装与部署

micro-quickstart尺寸适合笔记本电脑等小型机器，目的是用于快速评估使用情况。

01

OLAP组件选型[通俗易懂]

OLTP系统强调数据库内存效率，强调内存各种指标的命令率，强调绑定变量，强调并发操作，强调事务性。OLAP系统则强调数据分析，强调SQL执行时长，强调磁盘I/O，强调分区。

03

理“ Druid 元数据”之乱

Druid 是一个专为大型数据集上的高性能切片和 OLAP 分析而设计的数据存储系统。

02

大数据处理引擎应该怎么选择

列存储是当今大数据处理和存储领域中经常被讨论的话题，有数百种格式、结构和优化方式可用于存储数据，甚至还有更多的检索方式，具体取决于计划如何使用这些数据。这种众多选项的出现，是由于不仅需要使用在线事务处理（OLTP）工具快速地摄入数据，而且需要使用在线分析处理（OLAP）工具更高效地消耗和分析数据。

01

【开发实践】美团为什么开发 Kylin On Druid（下）？

在上篇文章里，我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点，也分析了 Kylin on HBase 的不足，得出了使用 Druid 代替 HBase 作为 Kylin 存储的方案，最后介绍了美团开发的 Kylin on Druid 的架构和流程。在这篇文章中，我们接着上篇文章，将介绍如何使用 Kylin on Druid，Kylin on Druid 的性能表现，以及在使用过程中总结的一些经验。

02

你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)

场景描述：今年有个现象，实时数仓的建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库建设的文章和方案。

03

Hadoop Spark Kylin...你知道大数据框架名字背后的故事吗？

对软件命名并不是一件容易的事情，名字要朗朗上口，易于记忆，既不能天马行空，又要代表软件本身的功能和创新。本文将历数几款大数据框架及其创始背后的故事。

02

Sharding-JDBC:垂直拆分怎么做？

经过读写分离的优化后，小王可算是轻松了一段时间，读写分离具体的方案请查看这篇文章：Sharding-JDBC:查询量大如何优化？

03

关于OLAP和OLTP你想知道的一切

OLAP是英文Online Analytical Processing的缩写，中文称为联机分析处理。它是一种基于多维数据模型的分析处理技术，用于从不同的角度进行数据挖掘和分析，以帮助用户快速发现数据之间的相关性和趋势。

02

对比各大数据库连接池技术-Jdbc-Dbcp-C3p0-Druid-Hikaricp

连接池是一种用于提高具有动态数据库驱动内容的应用程序性能的技术。打开和关闭数据库连接可能看起来不是昂贵的费用，但它可以相当快地加起来。假设建立连接需要5ms，执行查询需要5ms（完全编号），50％的时间是建立连接。将此扩展到数千或数万个请求，并且浪费了大量网络时间。连接池本质上是开放数据库连接的缓存。打开并使用数据库连接而不是关闭它后，将其添加回池中。当你去获取一个新连接时，如果池中有一个可用，它将使用该连接而不是建立另一个连接

02

VHR配置数据库开发环境

vhr面向的群体范围并不大，并非属于互联网应用，所以市面上鼓吹的高并发，高性能对于这个项目来说并不适用。

04

Druid：通过 Kafka 加载流数据

本教程演示了如何使用 Druid 的 Kafka indexing 服务从 Kafka 流中加载数据至 Druid。

02

聊聊 Sharding-JDBC 分库分表

这是《ShardingSphere 进阶》专栏的第一篇文章，介绍一下Sharding-JDBC实现分库分表的详细配置。

03

开源OLAP系统的比较：ClickHouse、Druid和Pinot

从根本上讲，ClickHouse，Druid和Pinot都是相似的，因为它们在同一节点上存储数据并进行查询处理，这与去耦BigQuery体系结构不同。最近，我以Druid为例描述了一些固有的问题与耦合结构1，2）。目前没有与BigQuery等效的开源软件（也许是Drill吗？），我已经在本博文中探讨了构建此类开源系统的方法。

02

springboot实战之mysql分库分表

把存于一个库的数据分散到多个库中，把存于一个表的数据分散到多个表中。如果说读写分离是为了分散数据库读写操作压力，分库分表就是为了分散存储压力

04

Druid实时大数据分析原理

Druid是一个分布式支持实时分析的数据存储系统，为分析而生，在处理数据的规模和数据处理实时性方面比传统OLAP系统有显著的性能改进。与阿里的druid无关。

03

十分钟了解 Apache Druid

Apache Druid 适用于对实时数据提取，高性能查询和高可用要求较高的场景。因此，Druid 通常被作为一个具有丰富 GUI 的分析系统，或者作为一个需要快速聚合的高并发 API 的后台。Druid 更适合面向事件数据。

02

大数据OLAP系统比较

至于clickhouse/druid/pinot三者的比较可以参见这篇文章：Comparison of the Open Source OLAP Systems for Big Data: ClickHouse, Druid, and Pinot，整体写的非常好而且有深度，对比表格翻译如下：

02

OLAP在线分析引擎介绍及应用场景

核心原理： 1. 多维数据模型： OLAP的核心是一个多维数据模型，通常体现为数据立方体（Data Cube）。数据立方体由维度（Dimensions）、层次（Levels）和度量（Measures）组成。维度代表分析的角度，如时间、地理位置或产品类型；层次则提供了维度内的粒度细化，如年、季度、月；度量是分析的具体数值，如销售额、利润等。 2. 预计算与缓存：为了加快查询速度，OLAP引擎通常采用预计算（Precomputation）策略，通过预先计算并存储可能的查询结果（如聚合数据），减少实时计算负担。这包括使用技术如cube构建，其中汇总数据被提前计算并存储起来，以便快速响应查询。 3. MPP架构（Massively Parallel Processing）：许多现代OLAP引擎采用MPP架构，如Apache Kylin和ClickHouse，这种架构中，数据分布在多个节点上，每个节点独立处理自己的数据部分，然后汇总结果。MPP系统提供了水平扩展性，能够处理PB级别的数据集，并保持高性能。 4. 列式存储：与传统的行式存储相比，OLAP引擎常采用列式存储，这种存储方式特别适合于数据分析场景，因为它可以显著加速涉及大量聚合操作的查询。列式存储减少了需要读取的数据量，并且可以更有效地利用CPU的向量化执行能力。 5. 向量化执行引擎：一些OLAP引擎，如ClickHouse，采用了向量化执行引擎，这意味着它们会批量处理数据而不是逐行处理，从而提高了CPU的利用率和处理速度。SIMD（Single Instruction Multiple Data）指令集进一步优化了这种处理方式。 6. 索引与压缩：为了提高数据访问速度，OLAP引擎使用高效的索引结构，如稀疏索引和B树，以及数据压缩技术，减少存储空间需求并加速数据检索过程。 7. 实时与近实时处理：随着技术的发展，一些OLAP引擎如Apache Druid，专注于实时或近实时分析，能够在数据流入系统后几乎立即对其进行处理和分析，满足即时决策支持的需求。 OLAP引擎能够在大数据环境下提供快速、灵活的分析能力，支撑企业决策和业务洞察。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭