在JavaPairRDD中，小文件会跨分区分布吗？_在spring batch中可以跨单个文件进行分区吗？ - 腾讯云开发者社区

apache-spark、apache-spark-sql、rdd、apache-spark-dataset

这可能是一个愚蠢的问题，但我不能理解文件是如何跨分区拆分的。JavaPairRDD<String, PortableDataStream> rdd = sparkContext.binaryFiles(commaSeparatedfilePaths); rdd.map(new Function<Tuple2<String, PortableDataStream>, BloomCheckResponse>() 在这里的代码中，我将v1._1作为Filepath，并将PortableDat

浏览 19提问于2019-02-24得票数 0

1回答

在Cassandra中如何选择分区读取

cassandra、cassandra-3.0

我有3个节点，分区数据分布在3个节点上，./nodetool ring中看到不同的分区使用虚拟节点从-2 \f25 power 63 -2\f6分配到-2\f25 +2 \f25 power 63 -2\f6假设分区包含10亿个条目，RF = 3。单个分区中的数据会跨节点<em

浏览 10提问于2017-12-13得票数 0

回答已采纳

1回答

在单节点中使用cassandra，我还需要担心选择一个“好的”分区键吗？

cassandra

我们在单个节点上使用cassandra。据我所知，在集群中，智能分区密钥将允许数据跨集群分布，并将避免所有密钥存储在同一主机上。然而，在我们的例子中，只有一个主机，我可以使用一个常量(虚拟)分区键，但我想检查如果我这样做是否会错过一些东西。例如，cassandra的每个分区最多有20亿个单元。我可以在单个节点cassandra上拥有超过20亿个单元格的表吗

浏览 0提问于2017-07-01得票数 0

3回答

Spark 2.3 Dataframe分区-想要在n个分区中对key上的数据进行分区

scala、apache-spark、apache-spark-sql、partitioning

我需要spark(scala)数据帧分区方面的帮助。我需要将一个键列划分为n个分区，所有与相同key相关的行都应该在同一个分区中(即key不应该跨分区分布)例如:假设我有下面的数据帧诸若此类正如您所看到的，许多值共享相同的键我想将这个数据集划分为"n“个分区，其中相同的键应该在相同的分区中，并且键不应该跨分区分布</em

浏览 4提问于2020-03-13得票数 0

1回答

Spark Shuffle之所以发生，是因为Spark需要跨阶段传输数据

apache-spark

Spark文档:在spark中，数据通常不会跨分区分布到特定操作所需的位置。在计算期间，单个任务将在单个分区上操作-因此，要组织单个reduceByKey reduce任务执行的所有数据，Spark需要执行all- to -all操作。它必须从所有分区中读取以找到所有键的所有值，然后将跨分区的值聚合在一起，以计算每个键的最终结果-这称为无序排列。spark document：“这通常涉及到跨

浏览 1提问于2020-06-04得票数 0

1回答

如何确定中的分区大小

apache-spark、pyspark、databricks

对于在SE上发布的一个问题，我一直使用一个很好的答案来确定分区的数量，以及跨数据的分区的分布情况。谢谢

浏览 5提问于2020-10-29得票数 3

回答已采纳

1回答

Apache中的Keyby数据分发，逻辑还是物理操作符？

apache-flink、distributed-computing、flink-streaming、data-partitioning

根据Apache文档，KeyBy转换在逻辑上将流划分为不相交的分区。所有具有相同密钥的记录都分配给同一个分区。例如，假设我们从n个节点的Apache集群中获得分布式数据流。运行我们的流作业的Apache集群由m个节点组成。当keyBy转换应用于传入数据流时，它如何保

浏览 1提问于2020-10-05得票数 4

回答已采纳

1回答

如何避免热分区，同时仍然提供必要的访问模式

amazon-dynamodb

浏览 26提问于2019-10-02得票数 0

回答已采纳

2回答

重新分配__consumer_offsets主题的分区是否会导致问题？

apache-kafka

但是，__consumer_offsets主题的分区仅分布在3个代理上，并不像我们所期望的那样完全可用。这可能不是问题，因为kafka支持跨代理重新分配分区。集群信息：我的问题是:重新分配__consumer_offsets主

浏览 1提问于2018-03-26得票数 1

回答已采纳

2回答

火花如何将分区分配给执行器

python、apache-spark、pyspark

我有一个性能问题，在分析了Spark之后，我发现了数据的倾斜性：一开始我认为分区分布不均匀，所以我分析了每个分区的行数，但这似乎很正常(没有异常值)：因此，现在的假设是，分区在执行程序中的分布并不均匀，问题是：如何将火花分区分配给执行者？FROM <multiple joined hive tables>""" df =

浏览 1提问于2021-04-16得票数 3

回答已采纳

1回答

卡夫卡主题顺序

jdbc、apache-kafka、apache-kafka-connect

在此连接器写入的流中，记录以不同的顺序显示！他们加入了324084324066 (huh!!!?) 任何帮助理解这个行为的人都会很棒。

浏览 16提问于2019-11-07得票数 2

回答已采纳

1回答

Java上的文件存储- FS块大小对齐是否有意义？

java、filesystems、nio

我正在Java上开发跨平台的非分布式磁盘存储协议。文件将由相当独立的、通常较小(< 4KB)的“数据块”组成。避免跨FS块边界写入块会使协议更加健壮，因为FS块读取失败会影响更少的块吗？我是否可以假设，在大多数文件系统中，文件数据的开始是块对齐的？假设我知道，目标分区上的块大小是4KB。

浏览 2提问于2013-05-26得票数 0

2回答

达美表与维护策略

databricks、delta-lake

我正在从S3中读取数据，并使用Databricks加载到Delta表，然后通过DB公开它们。这听起来对吗？桑卡尔

浏览 3提问于2022-09-09得票数 1

1回答

Dynamodb UUID哈希键是否比顺序生成的哈希键更好

amazon-dynamodb

我想我理解没有热hashKeys的概念，这样您就可以在提供吞吐量时使用所有分区。但是，UUID hashKeys在跨分区分布方面是否比按数字排序的分区做得更好？在这两种情况下，是否由键和值生成的哈希码用于将其分配给分区？如果是这样的话，像"100444“和"100445”这样的两个字符串的哈希码有什么不同？他们亲近吗？

浏览 1提问于2014-08-05得票数 5

1回答

铸造过程中的火花writeDataFrame与partitioningByRange

apache-spark、palantir-foundry、foundry-code-repositories

为了能够在Palantir Foundry中使用，我们需要使用transforms.api.IncrementalTransformOutput.write_dataframe()和partitionBy当我在增量数据集(数据绝对均匀地分布在partitionBy列上)上这样做时，我得到了不同的文件大小，从128 6MB到6MB不等。partitionBy列只有24个不同的组合，我怀疑不同文件大小的原因是分区时的散列合并，我假设Foundry在本例中使用partitionBy()。有什么

浏览 15提问于2022-06-13得票数 1

回答已采纳

1回答

局部Java数据结构在星图调用中导致OOM错误

apache-spark

我试图在大约150万条条目的mapToPair上运行一个javaPairRDD函数。在调用之外，我有一个本地定义的JavaMap。如果我在Map函数中访问mapToPair，那么我的程序就会耗尽内存。对为什么会发生这种事有什么想法吗？我的假设是，访问匿名函数中的Map会导致火花多次复制它。工作代码 JavaPair

浏览 0提问于2018-06-21得票数 0

回答已采纳

1回答

Spring Cloud Stream Kafka消费模式

spring-cloud-stream

对于有多个分区的主题- 1)单个SpringBoot实例是否使用多个线程来处理(使用StreamListener注释的方法)来自每个分区的每条消息？2)是否可以为每个分区配置多个线程，或者是否必须手动将其从侦听器线程传递到工作池？

浏览 5提问于2017-02-05得票数 6

回答已采纳

1回答

如何跨容器分发Cosmos RU

azure-cosmosdb

1)在具有共享RU的数据库中，它如何跨容器分布RU。我们还知道，当创建一个新的容器时，至少会分配100RU给它。例如，如果我们在数据库级别有400RU，并且有4个容器。2)如何为分区分配RU。如果我们有一个分区键userid，在一个共享的RU数据库中有1000个用户，这个容器有100RU。RU将如何在这样的分区中分布。分区的RU分布的动态性如何

浏览 3提问于2019-11-13得票数 0

1回答

群values最大值的cassandra选择

cassandra

我在covid19键空间下创建了一个表“统计信息”： CREATE TABLE statistics(country_name text, dt date, confirmed_cases bigint

浏览 1提问于2022-02-23得票数 2

1回答

Spring Batch Partitioning - JMS通道的重用？

spring、spring-batch、spring-integration

我正在编写一个Spring批处理作业，它由4个独立的步骤组成，并希望将工作分布在集群的节点上。我在考虑使用流将作业分解为4个并行执行的作业。这4个作业中的每一个都将配置为作为单个分区运行。它似乎可以工作(未在集群中完全测试)，但需要定义单独的PartitionHandlers、请求和响应通道以及出站网关。还有其他建议的方法吗？

浏览 1提问于2014-01-29得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云