开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark-Cassandra在使用IN作为复合分区键时非常慢

Spark-Cassandra是一种用于在Apache Spark中与Cassandra数据库进行交互的工具。它提供了高效的数据读写操作，使得在大规模数据处理和分析中能够充分利用分布式计算的优势。

在使用IN作为复合分区键时，Spark-Cassandra可能会遇到性能问题。这是因为Cassandra的数据模型是基于分布式哈希的，而IN操作需要在多个分区中进行查询。这会导致Spark-Cassandra需要在多个节点上进行网络通信和数据传输，从而增加了查询的延迟和负载。

为了解决这个问题，可以考虑以下几点：

数据模型优化：重新设计数据模型，避免使用IN操作作为复合分区键。可以考虑将IN操作转换为多个单独的查询，以减少跨分区的数据传输。
数据分片：将数据分片存储在不同的分区中，以减少跨分区查询的数据传输量。可以使用Cassandra的分区键和集群列来实现数据的分片存储。
数据预取：通过预取数据到Spark的内存中，减少对Cassandra的频繁查询。可以使用Spark的缓存机制或者使用Cassandra的批量读取功能来实现数据的预取。
并行查询：通过将查询任务分解为多个并行的子任务，在多个节点上同时执行查询操作，以提高查询的并发性和响应速度。
硬件优化：优化Spark和Cassandra的硬件配置，包括增加节点数量、调整内存和磁盘配置等，以提高系统的整体性能。

腾讯云提供了一系列与Spark和Cassandra相关的产品和服务，可以帮助用户优化和加速数据处理和分析任务。其中包括：

腾讯云Spark：提供了托管的Spark集群，可快速部署和管理Spark应用程序，支持与Cassandra的集成。
腾讯云Cassandra：提供了托管的Cassandra数据库服务，具备高可用性和可扩展性，可用于存储和查询大规模数据。
腾讯云数据仓库：提供了基于Spark和Cassandra的数据仓库解决方案，支持数据的存储、处理和分析。
腾讯云大数据平台：提供了一站式的大数据解决方案，包括Spark、Cassandra等多种开源工具和组件，可满足各种数据处理和分析需求。

更多关于腾讯云相关产品和服务的详细介绍，请参考腾讯云官方网站：腾讯云。

相关搜索:Automated Chromium Webdriver在最后使用Selenium时变得非常慢 Mongodb:使用排序键作为复合索引的一部分，还是在它自己的索引中？Pandas append速度非常慢，在使用from_dict时遇到问题为什么在发布外键时获取空值(当我在seializers中使用slugrelatedfield获取外键作为字符串而不是整数时)使用CURRENT_DATE -1但不使用硬编码日期时，PostgreSQL postgres_fdw在大型外表上的查询速度非常慢使用JPA在复合主键上创建多个外键时出现问题在Dynamodb中可以使用常量作为分区键和唯一排序键吗？在Dynamodb中可以使用组合键作为分区键吗？在使用Aeson时，如何使用sum类型作为map中的键？在使用pandas from_dict转换为数据帧时，不要使用字典中的键作为索引

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

【问底】许鹏：使用Spark+Cassandra打造高性能数据分析平台（一）

【导读】笔者（许鹏）看Spark源码的时间不长，记笔记的初衷只是为了不至于日后遗忘。在源码阅读的过程中秉持着一种非常简单的思维模式，就是努力去寻找一条贯穿全局的主线索。在笔者看来，Spark中的线索就是如果让数据的处理在分布式计算环境下是高效，并且可靠的。在对Spark内部实现有了一定了解之后，当然希望将其应用到实际的工程实践中，这时候会面临许多新的挑战，比如选取哪个作为数据仓库，是HBase、MongoDB还是Cassandra。即便一旦选定之后，在实践过程还会遇到许多意想不到的问题。要想快速的解决开

08

Spring中国教育管理中心-Apache Cassandra 的 Spring 数据教程十二

要充分利用 Spring Data for Apache Cassandra 支持中的对象映射功能，您应该使用注释对映射的域对象进行@Table注释。这样做可以让类路径扫描器找到并预处理您的域对象以提取必要的元数据。仅使用带注释的实体来执行模式操作。在最坏的情况下， SchemaAction.RECREATE_DROP_UNUSED操作会删除您的表并丢失数据。以下示例显示了一个简单的域对象：

04

Spark介绍系列03--RDD

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

02

FAQ系列之Kudu

分析用例几乎只使用查询表中列的子集，并且通常在广泛的行上聚合值。面向列的数据极大地加速了这种访问模式。操作用例更有可能访问一行中的大部分或所有列，并且可能更适合由面向行的存储提供服务。Kudu 选择了面向列的存储格式，因为它主要针对分析用例。

04

【问底】许鹏：使用Spark+Cassandra打造高性能数据分析平台（二）

【导读】笔者（许鹏）看Spark源码的时间不长，记笔记的初衷只是为了不至于日后遗忘。在源码阅读的过程中秉持着一种非常简单的思维模式，就是努力去寻找一条贯穿全局的主线索。在笔者看来，Spark中的线索就是如何让数据的处理在分布式计算环境下是高效，并且可靠的。在对Spark内部实现有了一定了解之后，当然希望将其应用到实际的工程实践中，这时候会面临许多新的挑战，比如选取哪个作为数据仓库，是HBase、MongoDB还是Cassandra。即便一旦选定之后，在实践过程还会遇到许多意想不到的问题。要想快速的解决开

hudi中的写操作

在本节中，我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改，以及如何使用Hudi数据源通过upserts加速大型Spark作业。然后可以使用各种查询引擎查询这些表。

01

Spark2.3.0 创建RDD

Spark的核心概念是弹性分布式数据集（RDD），RDD 是一个可容错、并行操作的分布式元素集合。有两种方法可以创建 RDD 对象：

02

Apache Spark大数据分析入门（一）

Apache Spark的出现让普通人也具备了大数据及实时数据分析能力。鉴于此，本文通过动手实战操作演示带领大家快速地入门学习Spark。本文是Apache Spark入门系列教程（共四部分）的第一部分。全文共包括四个部分：第一部分：Spark入门，介绍如何使用Shell及RDDs 第二部分：介绍Spark SQL、Dataframes及如何结合Spark与Cassandra一起使用第三部分：介绍Spark MLlib和Spark Streaming 第四部分：介绍Spark Graphx图计

05

springboot第42集：李佳琦说工作这么久了，还不懂Kafka吗?

BigDecimal 是 Java 中的一个精确数字类，用于表示高精度的浮点数或整数，通常用于处理需要避免舍入误差的数值计算。它提供了高精度的算术运算，可用于处理非常大或非常小的数值，以及需要精确度的金融计算或科学计算。

02

Apache Kudu入门学习

Apache Kudu is an open source distributed data storage engine that makes fast analytics on fast and changing data easy.

03

系统设计之分区策略

对大数据集或非常高吞吐量，仅复制还不够，还需将数据拆分成为分区（partitions），也称分片（sharding）1。

01

Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、

1：什么是Spark的RDD？？？ RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。 2：RDD的属性： a、一组分片（Partition），即数据集的基本组成单位。对于RDD来说，每个分片都会被一个计算任务处理，

客快物流大数据项目（八十三）：Kudu的优化

TabletServer 在开始拒绝所有传入的写入之前可以消耗的最大内存量：memory_limit_h

04

如何将 Schemaless 演化成分布式 SQL 数据库

2016 年，我们发表了关于 Schemaless—Uber Engineering 的可扩展数据存储的博文（一、二）。在这两篇博文中，我们介绍了 Schemaless 的设计，并解释了开发它的原因。今天这篇文章我们将要讲的是 Schemaless 向通用事务性数据库 Docstore 的演化历程。

02

Apache Zeppelin 中 Cassandra CQL 解释器

Name Class Description %cassandra CassandraInterpreter 为Apache Cassandra CQL查询语言提供解释器启用Cassandra解

09

3.0Spark RDD实现详解

Spark技术内幕：深入解析Spark内核架构设计与实现原理第三章 Spark RDD实现详解 RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效：一是迭代式算法，这在图应用和机器学习领域很常见；二是交互式数据挖掘工具。这两种情况下，将数据保存在内存中能够极大地提高性能。为了有效地实现容错，RDD提供了一种高度受限的共享内存，即RDD是只读的，并且只能通过其他RDD上的批量操

07

Cassandra查询操作趟坑记录

cassandra主键是一个partition key主键和多个clustering key复合主键,而主键的查询顺序必须与定义表结构时一致.

02

Uber是如何通过Mesos和Cassandra实现跨多个数据中心每秒100万的写入速度的？

每隔三十秒就会有位置数据返回，包括来自于司机和乘客应用的各类数据，需要实时使用的实时数据非常之多，那么Uber是如何存储这些位置数据的呢？ Uber的解决方案非常全面：他们在Mesos顶层构建了自己的系统，运行Cassandra。Uber的软件工程师Abhishek Verma有一个演讲，题为《Uber跨多个数据中心运行在Mesos上的Cassandra》（阅读原文查看PPT），便对这个解决方案做了全面的解释。我们是否也该这么做呢？在聆听Abhishek的演讲时，这样的想法涌入脑海。如今，开发者有许多艰

09

列存储相关概念和常见列式存储数据库（Hbase、德鲁依）

列式数据库是以列相关存储架构进行数据存储的数据库，主要适合于批量数据处理和即时查询。相对应的是行式数据库，数据以行相关的存储体系架构进行空间分配，主要适合于大批量的数据处理，常用于联机事务型数据处理。

01

大数据开发最火的核心技术-Kafka

大数据时代来临，如果你还不知道Kafka那你就真的out了！据统计，有三分之一的世界财富500强企业正在使用Kafka，包括所有TOP10旅游公司，7家TOP10银行，8家TOP10保险公司，9家TOP10电信公司等等。

02

TDengine是怎么解决物联网大数据处理问题的

物联网平台里模块很多，但其中很重要的一块就是数据处理，包括采集、存储、查询、分析和计算，是整个物联网行业里面比较共性的部分，个性化程度不高。

01

百亿级图数据JanusGraph迁移之旅

目前我们的图数据库数据量为顶点 20 亿，边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库一个主库四个备库，机器的配置都比较高，256G 内存 SSD 的磁盘，单机数据量为 3T左右。在数据量比较小的情况下 AgensGraph 表现非常稳定优异，我们之前一主一备的情况下支撑了很长一段时间。但随着公司业务的急速发展，图越来越大，占用的磁盘越来越多，对应的查询量也越来越大，随之这种方案的问题就暴露出来了

05

存储量扩大千倍，Discord 是如何使用Rust语言和ScyllaDB数据库来改进架构的？

作者 | Bo Ingram 译者 | 平川策划 | Tina 本文最初发布于 Discord 官方博客。 2017 年，我们写了一篇关于我们如何存储数十亿条消息的博文，分享了我们开始时如何使用 MongoDB，但又将数据迁移到 Cassandra 的过程，因为我们正在寻找一个扩展性和容错性比较高而维护成本相对较低的数据库。我们确信自己会发展，而且我们确实做到了！我们想要一个能随着我们的发展而演进的数据库，但又不希望它的维护需求会随着我们的存储需求而增长。遗憾的是，我们发现事实并非如此——我们

02

Spark面试题持续更新【2023-07-04】

综上所述，Spark是一个高性能、可扩展且易用的分布式计算框架，具有丰富的功能和灵活的编程接口，适用于大规模数据处理、实时流处理、机器学习和图计算等各种场景。它在大数据领域发挥着重要的作用，并受到广泛的应用和支持。

01

从选型到实现——企业级云端大数据平台最佳实践

内容来源：2017 年 7 月 29 日，青云资深产品经理李威在“大数据与人工智能大会”进行《云端大数据平台最佳实践》演讲分享。IT 大咖说（微信id：itdakashuo）作为独家视频合作方，经主办方和讲者审阅授权发布。阅读字数：3289 | 9分钟阅读摘要很多企业在做大数据平台或大数据方案的时候，常常不知道该选用哪些产品来满足自己的需求。本次分享将从青云的云平台架构出发，探讨大数据平台的实践以及思考。嘉宾演讲视频及PPT回顾：http://suo.im/4A4Y7h 云平台架构青云提供了完整的

03

初识 Spark | 带你理解 Spark 中的核心抽象概念：RDD

RDD（Resilient Distributed Dataset, 弹性分布式数据集）是 Spark 中相当重要的一个核心抽象概念，要学习 Spark 就必须对 RDD 有一个清晰的认识。

03

ModelarDB：Modular + Model

长文预警，今天介绍一个时间序列管理系统的论文：《ModelarDB: Modular Model-Based Time Series Management with Spark and Cassandra》，三个作者都来自丹麦奥尔堡大学，这三个人在 2017 年 TKDE 有一篇很全面的时序数据库 Survey《Time Series Management Systems: A Survey》。

02

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + Spark Cor

我们需要一个效率非常快，且能够支持迭代计算和有效数据共享的模型，Spark 应运而生。RDD 是基于工作集的工作模式，更多的是面向工作流。但是无论是 MR 还是 RDD 都应该具有类似位置感知、容错和负载均衡等特性。

03

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

每一台 host 上面可以并行 N 个 worker，每一个 worker 下面可以并行 M 个 executor，task 们会被分配到 executor 上面去执行。stage 指的是一组并行运行的 task，stage 内部是不能出现 shuffle 的，因为 shuffle 就像篱笆一样阻止了并行 task 的运行，遇到 shuffle 就意味着到了 stage 的边界。 CPU 的 core 数量，每个 executor 可以占用一个或多个 core，可以通过观察 CPU 的使用率变化来了解计算资源的使用情况，例如，很常见的一种浪费是一个 executor 占用了多个 core，但是总的 CPU 使用率却不高（因为一个 executor 并不总能充分利用多核的能力），这个时候可以考虑让一个 executor 占用更少的 core，同时 worker 下面增加更多的 executor，或者一台 host 上面增加更多的 worker 来增加并行执行的 executor 的数量，从而增加 CPU 利用率。但是增加 executor 的时候需要考虑好内存消耗，因为一台机器的内存分配给越多的 executor，每个 executor 的内存就越小，以致出现过多的数据 spill over 甚至 out of memory 的情况。 partition 和 parallelism，partition 指的就是数据分片的数量，每一次 task 只能处理一个 partition 的数据，这个值太小了会导致每片数据量太大，导致内存压力，或者诸多 executor 的计算能力无法利用充分；但是如果太大了则会导致分片太多，执行效率降低。在执行 action 类型操作的时候（比如各种 reduce 操作），partition 的数量会选择 parent RDD 中最大的那一个。而 parallelism 则指的是在 RDD 进行 reduce 类操作的时候，默认返回数据的 paritition 数量（而在进行 map 类操作的时候，partition 数量通常取自 parent RDD 中较大的一个，而且也不会涉及 shuffle，因此这个 parallelism 的参数没有影响）。所以说，这两个概念密切相关，都是涉及到数据分片的，作用方式其实是统一的。通过 spark.default.parallelism 可以设置默认的分片数量，而很多 RDD 的操作都可以指定一个 partition 参数来显式控制具体的分片数量。看这样几个例子：（1）实践中跑的 Spark job，有的特别慢，查看 CPU 利用率很低，可以尝试减少每个 executor 占用 CPU core 的数量，增加并行的 executor 数量，同时配合增加分片，整体上增加了 CPU 的利用率，加快数据处理速度。（2）发现某 job 很容易发生内存溢出，我们就增大分片数量，从而减少了每片数据的规模，同时还减少并行的 executor 数量，这样相同的内存资源分配给数量更少的 executor，相当于增加了每个 task 的内存分配，这样运行速度可能慢了些，但是总比 OOM 强。（3）数据量特别少，有大量的小文件生成，就减少文件分片，没必要创建那么多 task，这种情况，如果只是最原始的 input 比较小，一般都能被注意到；但是，如果是在运算过程中，比如应用某个 reduceBy 或者某个 filter 以后，数据大量减少，这种低效情况就很少被留意到。最后再补充一点，随着参数和配置的变化，性能的瓶颈是变化的，在分析问题的时候不要忘记。例如在每台机器上部署的 executor 数量增加的时候，性能一开始是增加的，同时也观察到 CPU 的平均使用率在增加；但是随着单台机器上的 executor 越来越多，性能下降了，因为随着 executor 的数量增加，被分配到每个 executor 的内存数量减小，在内存里直接操作的越来越少，spill over 到磁盘上的数据越来越多，自然性能就变差了。下面给这样一个直观的例子，当前总的 cpu 利用率并不高：

02

Spark 基础（一）

Spark中，数据集被抽象为分布式弹性数据集（Resilient Distributed Datasets, RDDs）。

04

12.3 Cassandra数据定义

CQL是Cassandra提供的接近SQL的模型，因为数据包含在行列的表中，CQL中的表，行，列的定义与SQL是相同的。

03

超详细的大数据学习资源推荐（上）

今天为大家推荐一些翻译整理的大数据相关的学习资源，希望能给大家带来价值。

08

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

在 Spark 中，RDD 被表示为对象，通过对象上的方法调用来对 RDD 进行转换。经过一系列的transformations定义 RDD 之后，就可以调用 actions 触发 RDD 的计算 action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行 RDD 的计算(即延迟计算)，这样在运行时可以通过管道的方式传输多个转换。要使用 Spark，开发者需要编写一个 Driver 程序，它被提交到集群以调度运行 Worker Driver 中定义了一个或多个 RDD，并调用 RDD 上的 action，Worker 则执行 RDD 分区计算任务。

02

Kudu设计要点面面观

Kudu在大数据技术栈中是个相对年轻的角色，它原本是Cloudera的内部存储项目，用C++开发，其1.0版本在2016年9月发布，最新版本则是1.9。Kudu本质上是个列式存储引擎，主打“fast analytics on fast data”。由于Kudu非常适合我们的日历数据分析业务的场景，所以我们在一年多前就开始研究它，建设了Kudu集群承载相关业务，并运行至今。

04

Calcite技术研究

Apache Calcite是一个基础的软件框架，它提供了查询处理、查询优化以及查询语言支持的能力。很多流行的开源数据处理系统例如Apache Hive,Apache Storm,ApacheFlink,Druid等都采用了它。

04

热门通讯软件Discord万亿级消息存储架构

Discord 在创建之初采用的是一个单副本集的 MongoDB，没有使用 MongoDB 的分片，他们给出的理由是当时 MongoDB 分片很难用，而且不够稳定（这里就不去深究了）。消息数到达一亿条时，RAM 里已经存不下这么数据和索引，MongoDB 的延时开始变得不可控。

03

MovieBuzz系统设计：从头开始编写端到端系统

我们要存储1000万个用户详细信息和500万个电影详细信息。我们正在寻找一个高度可用的数据库。我们可以协调用户详细信息和电影详细信息的一致性。存储此类大数据的最佳选择是Cassandra。

03

RDD的几种创建方式

在RDD中，通常就代表和包含了Spark应用程序的输入源数据。当我们，在创建了初始的RDD之后，才可以通过Spark Core提供的transformation算子，对该RDD进行transformation(转换)操作，来获取其他的RDD。 Spark Core为我们提供了三种创建RDD的方式，包括：

03

Spark RDD编程指南

在高层次上，每个 Spark 应用程序都包含一个驱动程序，该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD)，它是跨集群节点分区的元素集合，可以并行操作。 RDD 是通过从 Hadoop 文件系统（或任何其他 Hadoop 支持的文件系统）中的文件或驱动程序中现有的 Scala 集合开始并对其进行转换来创建的。用户还可以要求 Spark 将 RDD 持久化到内存中，以便在并行操作中有效地重用它。最后，RDD 会自动从节点故障中恢复。

01

什么是Apache Spark？这篇文章带你从零基础学起

导读：Apache Spark是一个强大的开源处理引擎，最初由Matei Zaharia开发，是他在加州大学伯克利分校的博士论文的一部分。Spark的第一个版本于2012年发布。

06

详解Kafka：大数据开发最火的核心技术

大数据时代来临，如果你还不知道Kafka那你就真的out了(快速掌握Kafka请参考文章：如何全方位掌握Kafka核心技术)！据统计，有三分之一的世界财富500强企业正在使用Kafka，包括所有TOP10旅游公司，7家TOP10银行，8家TOP10保险公司，9家TOP10电信公司等等。

03

想学习Spark？先带你了解一些基础的知识

之前也学习过一阵子的Spark了，是时候先输出一些知识内容了，一来加深印象，二来也可以分享知识，一举多得，今天这篇主要是在学习实验楼的一门课程中自己记下来的笔记，简单梳理了一下，当做是需要了解得基础知识，让不熟悉Spark的同学也有一些简单的认识，里面若有写错的地方也希望大伙们指出哈。

01

键值对操作

键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。键值对 RDD 提供了一些新的操作接口(比如统计每个产品的评论,将数据中键相同的分为一组,将两个不同的 RDD 进行分组合并等)。

03

springboot第71集：字节跳动全栈一面经，一文让你走出微服务迷雾架构周刊

使用ThreadLocal来存储和管理每个线程的事务追踪对象，确保每个线程都有自己独立的事务上下文。方法首先尝试从ThreadLocal获取事务追踪对象，如果不存在，则尝试从数据库中查询。如果数据库中也不存在，则创建一个新的事务追踪对象，初始化其状态和时间信息，然后将其保存到数据库和ThreadLocal中。

01

Apache Spark常见的三大误解

最近几年关于Apache Spark框架的声音是越来越多，而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Google趋势可以证明这一点：如果

06

生产集群spark报错问题

shuffle write的分区数由上一阶段的RDD分区数控制，shuffle read的分区数则是由Spark提供的一些参数控制。

02

HBase分布式数据库关键技术与实战：面试经验与必备知识点解析

作为一名长期关注并实践HBase技术的博主，我深知其在大数据领域尤其是NoSQL数据库中的独特价值及其在面试中的重要地位。本文将深入探讨HBase的关键技术、实战应用，以及面试必备知识点与常见问题解析，助你在面试中展现出深厚的HBase技术功底。

01

Lamda架构研究「建议收藏」

Lambda架构整合离线计算和实时计算，融合不可变性（Immutability），读写分离和复杂性隔离等一系列架构原则，可集成Hadoop，Kafka，Storm，Spark，HBase等各类大数据组件。

03

2021年大数据Spark（十三）：Spark Core的RDD创建

官方文档：http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds

03

客快物流大数据项目(四十一)：Kudu入门介绍

从上面分析可知，这两种数据在存储方式上完全不同，进而导致使用场景完全不同，但在真实的场景中，边界可能没有那么清晰，面对既需要随机读写，又需要批量分析的大数据场景，该如何选择呢？这个场景中，单种存储引擎无法满足业务需求，我们需要通过多种大数据工具组合来满足这一需求。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭