读取所有分区的数据 - 腾讯云开发者社区

、、、、

我正在阅读Designing Data Intensive Applications一书，这本书目前是关于分区的一章，其中描述了一个例子，即本地索引(基于文档的分区)和全局索引，后者是术语分区的。下图显示了全局索引的示例。书中说，全局索引表现得更好，因为索引可以根据“术语”从单个分区读取。但是，我不明白的是，索引本身是否保存了包含这个术语的所有行，或者后面的索引读取</e

浏览 3提问于2021-08-12得票数 1

1回答

卡桑德拉耗尽了所有的堆内存

、

分配的Java堆内存= 8g写入一致性:仲裁，读取一致性:一个复制因子:3);从这一点开始，如果将更多的<

浏览 4提问于2017-05-10得票数 1

1回答

如何读取每个分区的kafka偏移量？

、、

我不能用循环读取每个分区的kafka，我不知道我的代码有什么问题，它没有显示我打印的值(对我来说，第一次在堆积如山的地方张贴。

浏览 4提问于2020-06-07得票数 1

回答已采纳

2回答

DynamoDB读取吞吐量低于容量，无任何限制

、、、、

我在使用Dynamo时遇到了一个问题，即读取吞吐量远远低于配置的容量，而图表中没有任何可见的节流。我的表有100 of的数据，类似于：这个结构不能改变太多，因为我可以查询与给定关键字关联的<

浏览 3提问于2017-12-18得票数 1

1回答

spark如何在幕后读取数据？

、、

例如，我有点困惑于spark是如何从s3读取数据的。假设要从s3读取100 GB的数据，而spark集群的总内存为30 GB。spark是否会在触发操作后读取所有100 GB的数据，并将最大数量的分区存储在内存中，并将剩余的分区溢出到磁盘?还是只读取可以存储在内存中的分区，对

浏览 2提问于2021-09-19得票数 2

1回答

我们可以重新发送消息到多个Kafka分区吗

、

我有一个有状态的应用程序，它维护与用户的会话。此应用程序有5个实例。所有主题都有5个分区。这些主题中的数据由应用程序实例本身生成。我的预期是，它将转到由在其本地状态存储中具有该用户的实例所使用的相同分区。是这样的吗？对于每条消息，它也应该由拥有此用户会话的其他

浏览 0提问于2020-07-25得票数 0

2回答

azure流分析是否读取来自所有分区的数据？

、、

Azure事件中心具有可伸缩性的分区功能。当使用app服务读取数据时，一个eventprocessorHost只能绑定到一个分区。无法对来自多个分区的数据采取集体行动。但是，当使用流分析时，我们可以根据时间来聚合数据。那么，它是否在聚合数据的同时处理所有分区？也就是说，如果将读数传递到8个分区，则聚合应该包括所有这些读数。谢谢

浏览 0提问于2017-09-09得票数 1

回答已采纳

1回答

亚马逊雅典娜如何从S3选择新文件/记录

、、

我不时地在亚马逊S3上添加文件，我正在使用亚马逊雅典娜对这些数据执行查询，并将其保存在另一个S3存储桶中作为CSV格式(聚合数据)，我正在尝试找到方法让雅典娜只选择新数据(这是雅典娜以前没有查询过的)，以优化成本并避免数据重复。

浏览 18提问于2020-09-07得票数 1

回答已采纳

3回答

MBR和待决数据

、、

我运行了fdisk -l，这显示了驱动器及其分区。在那之后我做了：我删除了MBR (所以分区表)，现在fdisk -l只显示关于磁盘(/dev/sdd)的信息，而不显示有关分区的信息但是，当我把摆在计算机上时，系统(Archlinux和XFCE)可以读取驱动器中的所有数据。我的<

浏览 0提问于2015-02-16得票数 1

1回答

在Parquet分区目录结构中读取不同的Schema

、、

我在hdfs上使用spark编写了以下分区拼接数据： |---Month |----Day|---dailydata.parquet 现在，当我从year path读取df时，spark读取dailydata.parquet。如何从所有分区中读取每月数据。我尝试使用设置选项mergeSchema = true，但出现错误。

浏览 4提问于2017-03-30得票数 0

1回答

通过火花流读取Kafka broker中主题特定分区的数据

、、

我有一个用例，在这个用例中，我希望在星火流的帮助下，从主题的特定分区读取数据。我正在使用Spark 来完成所有的工作。我已经创建了一个名为test的主题，该主题包含复制因子2和5个分区。希望在星火流卡夫卡集成指南的帮助下，我能够做所有的事情，比如创建一个JavaStreamingContext对象，创建一个直接流到Kafka，并能够从所有分区读取所有</

浏览 1提问于2016-02-26得票数 3

2回答

如何将火花流应用程序的输出写入单个文件

、、、、

我正在使用星火流读取Kafka的数据，并将其传递到py文件进行预测。它返回预测以及原始数据。它将原始数据与其预测保存到文件中，但是它正在为每个RDD创建一个文件。我需要一个单一的文件，包括收集的所有数据，直到我停止程序被保存到一个文件。我尝试过writeStream，它甚至没有创建一个文件。下面的代码创建一个文件夹output.csv并将所有文件输入其中。truncate","false&quo

浏览 5提问于2019-08-19得票数 2

回答已采纳

1回答

当新的分区比旧的分区有更多的列时，如何从Avro中读取所有列？

、、

我得到了按日期和时间划分的Avro格式的数据，我每小时都会收到新的数据。较新的分区可以包含比较旧分区更多的列。当我用Spark 2.4.3读取它时，我得到了第一个(最旧的)分区的模式的DataFrame，所有新添加的列都丢失了。我应该怎么做才能读取所有列？有什么变通方法吗？

浏览 13提问于2019-11-18得票数 0

2回答

如何避免在分布式计算中轮询工作时的冲突？

、

一个大数据作业被分成X个分区。分区存储在数据库中。每个分区上的状态也存储在数据库中，用于确保每个分区只由单个服务器处理一次。我有X台服务器，每个服务器都有一个唯一的id (int)，每个服务器都轮询数据库中的下一个Y分区(预读和缓冲区，然后循环和处理预读分区，直到不再有分区)。我可以在日志中看到许多冲突，例如当试图获得所有权时，

浏览 0提问于2018-07-22得票数 1

回答已采纳

1回答

Kafka使用者是否从分区中的活动段读取消息？

、、、

假设我有一个分区(分区-0)，其中包含4个已提交并符合压缩条件的段。因此，所有这些段都不会有任何重复的数据，因为压缩是在所有4个段上完成的。注意:我的目标是不为特定的密钥向使用者提供重复的数据。

浏览 1提问于2020-10-07得票数 1

回答已采纳

1回答

cassandra如何使用分区键和聚类键读取特定行？

我在读“数据是如何读取的”。它提到“在分区中，所有行的查询开销并不相等，分区的开头(按键定义聚集的第一行)查询成本略低，因为不需要查询分区级别的索引。”那么，在分区被定位以读取特定行或特定行之后，Cassandra会做什么呢？这是对所有行的简单迭代吗。还是有更有效的方法来查找特定行的偏移量？

浏览 2提问于2017-03-02得票数 1

回答已采纳

3回答

使用Spark结构化流媒体的Kafka消费者组和分区

、、

我有一个带有3个分区的Kafka主题，我正在使用spark structured streaming使用这些数据。我有3个消费者(假设消费者组A)分别从单个分区读取数据，到目前为止一切都正常。我有一个从相同主题读取的新需求，我想通过再次创建3个消费者(例如消费者组B)来并行它，每个消费者都从单个分区读取。因为我使用的是结构化流，所以不能明确提到group.id。来自指向单个/相同分

浏览 4提问于2019-02-28得票数 2

2回答

可以使用Kafka Simple Consumer从多个分区读取数据吗？

、

可以使用Kafka Simple Consumer从多个分区读取数据吗？简单消费者在以下位置使用分区：SimpleConsumer

浏览 2提问于2015-01-14得票数 6

回答已采纳

1回答

IoT集线器仅将消息路由到事件集线器的一个分区

、、

我在Azure中建立了一个数据管道，在那里我将消息发送到IoTHub，然后它将这些消息路由到EventHub。当我使用标准的EventProcessorHost方法从EventHub中读取数据时，我发现只有一个分区被读取。我假设实际上只有一个分区将消息路由到它。我没有在任何地方指定分区键，并且希望使用循环将消息路由到事件中心的所有分区(根据https://docs.microso

浏览 15提问于2019-03-23得票数 0

回答已采纳

3回答

当在分区内读取时，cassandra会在内存中加载整个分区吗？

这个问题很简单，因为我想知道cassandra在分区中是如何读取的？它是否从磁盘加载内存中的整个分区？场景：假设每个分区有100000行由唯一聚类键标识。那么，如果我在fetch查询中同时提供分区

浏览 1提问于2016-03-31得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

全局索引(术语分区)是否包含整个行本身？

卡桑德拉耗尽了所有的堆内存

如何读取每个分区的kafka偏移量？

DynamoDB读取吞吐量低于容量，无任何限制

spark如何在幕后读取数据？

我们可以重新发送消息到多个Kafka分区吗

azure流分析是否读取来自所有分区的数据？

亚马逊雅典娜如何从S3选择新文件/记录

MBR和待决数据

在Parquet分区目录结构中读取不同的Schema

通过火花流读取Kafka broker中主题特定分区的数据

如何将火花流应用程序的输出写入单个文件

当新的分区比旧的分区有更多的列时，如何从Avro中读取所有列？

如何避免在分布式计算中轮询工作时的冲突？

Kafka使用者是否从分区中的活动段读取消息？

cassandra如何使用分区键和聚类键读取特定行？

使用Spark结构化流媒体的Kafka消费者组和分区

可以使用Kafka Simple Consumer从多个分区读取数据吗？

IoT集线器仅将消息路由到事件集线器的一个分区

当在分区内读取时，cassandra会在内存中加载整个分区吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐