腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
JavaPairRDD
中
,
小文件
会
跨
分区
分布
吗
?
apache-spark
、
apache-spark-sql
、
rdd
、
apache-spark-dataset
这可能是一个愚蠢的问题,但我不能理解文件是如何
跨
分区
拆分的。
JavaPairRDD
<String, PortableDataStream> rdd = sparkContext.binaryFiles(commaSeparatedfilePaths); rdd.map(new Function<Tuple2<String, PortableDataStream>, BloomCheckResponse>() 在这里的代码
中
,我将v1._1作为Filepath,并将PortableDat
浏览 19
提问于2019-02-24
得票数 0
1
回答
在
Cassandra
中
如何选择
分区
读取
cassandra
、
cassandra-3.0
我有3个节点,
分区
数据
分布
在
3个节点上,./nodetool ring中看到不同的
分区
使用虚拟节点从-2 \f25 power 63 -2\f6分配到-2\f25 +2 \f25 power 63 -2\f6假设
分区
包含10亿个条目,RF = 3。单个
分区
中
的数据
会
跨
节点<em
浏览 10
提问于2017-12-13
得票数 0
回答已采纳
1
回答
在
单节点中使用cassandra,我还需要担心选择一个“好的”
分区
键
吗
?
cassandra
我们
在
单个节点上使用cassandra。据我所知,
在
集群
中
,智能
分区
密钥将允许数据
跨
集群
分布
,并将避免所有密钥存储
在
同一主机上。然而,
在
我们的例子
中
,只有一个主机,我可以使用一个常量(虚拟)
分区
键,但我想检查如果我这样做是否
会
错过一些东西。例如,cassandra的每个
分区
最多有20亿个单元。我可以
在
单个节点cassandra上拥有超过20亿个单元格的表
吗
浏览 0
提问于2017-07-01
得票数 0
3
回答
Spark 2.3 Dataframe
分区
-想要在n个
分区
中
对key上的数据进行
分区
scala
、
apache-spark
、
apache-spark-sql
、
partitioning
我需要spark(scala)数据帧
分区
方面的帮助。我需要将一个键列划分为n个
分区
,所有与相同key相关的行都应该在同一个
分区
中
(即key不应该
跨
分区
分布
)例如:假设我有下面的数据帧诸若此类 正如您所看到的,许多值共享相同的键我想将这个数据集划分为"n“个
分区
,其中相同的键应该在相同的
分区
中
,并且键不应该
跨
分区
分布</em
浏览 4
提问于2020-03-13
得票数 0
1
回答
Spark Shuffle之所以发生,是因为Spark需要
跨
阶段传输数据
apache-spark
Spark文档:
在
spark
中
,数据通常不会
跨
分区
分布
到特定操作所需的位置。
在
计算期间,单个任务将在单个
分区
上操作-因此,要组织单个reduceByKey reduce任务执行的所有数据,Spark需要执行all- to -all操作。它必须从所有
分区
中
读取以找到所有键的所有值,然后将
跨
分区
的值聚合在一起,以计算每个键的最终结果-这称为无序排列。spark document:“这通常涉及到
跨
浏览 1
提问于2020-06-04
得票数 0
1
回答
如何确定
中
的
分区
大小
apache-spark
、
pyspark
、
databricks
对于
在
SE上发布的一个问题,我一直使用一个很好的答案来确定
分区
的数量,以及
跨
数据的
分区
的
分布
情况。谢谢
浏览 5
提问于2020-10-29
得票数 3
回答已采纳
1
回答
Apache
中
的Keyby数据分发,逻辑还是物理操作符?
apache-flink
、
distributed-computing
、
flink-streaming
、
data-partitioning
根据Apache文档,KeyBy转换
在
逻辑上将流划分为不相交的
分区
。所有具有相同密钥的记录都分配给同一个
分区
。例如,假设我们从n个节点的Apache集群
中
获得
分布
式数据流。运行我们的流作业的Apache集群由m个节点组成。当keyBy转换应用于传入数据流时,它如何保
浏览 1
提问于2020-10-05
得票数 4
回答已采纳
1
回答
如何避免热
分区
,同时仍然提供必要的访问模式
amazon-dynamodb
我
在
定义主键、
分区
键和排序键以
跨
分区
分发数据并允许查询时遇到了困难。 用户将只能访问其域中的帖子。一些域名会比其他域名有更多的帖子。由于所有查询都需要基于域限制结果,如何在
分区
之间均匀
分布
数据(据我所知,您不能
跨
分区
进行查询)?我最初的想法是使用复合
分区
键和begins-with来查询: Domain | Post-Type | Post-Year | Post-Month | Post-Day | slug example.com当
浏览 26
提问于2019-10-02
得票数 0
回答已采纳
2
回答
重新分配__consumer_offsets主题的
分区
是否
会
导致问题?
apache-kafka
但是,__consumer_offsets主题的
分区
仅
分布
在
3个代理上,并不像我们所期望的那样完全可用。这可能不是问题,因为kafka支持
跨
代理重新分配
分区
。集群信息: 我的问题是:重新分配__consumer_offsets主
浏览 1
提问于2018-03-26
得票数 1
回答已采纳
2
回答
火花如何将
分区
分配给执行器
python
、
apache-spark
、
pyspark
我有一个性能问题,
在
分析了Spark之后,我发现了数据的倾斜性: 一开始我认为
分区
分布
不均匀,所以我分析了每个
分区
的行数,但这似乎很正常(没有异常值): 因此,现在的假设是,
分区
在
执行程序
中
的
分布
并不均匀,问题是:如何将火花
分区
分配给执行者?FROM <multiple joined hive tables>""" df =
浏览 1
提问于2021-04-16
得票数 3
回答已采纳
1
回答
卡夫卡主题顺序
jdbc
、
apache-kafka
、
apache-kafka-connect
在此连接器写入的流
中
,记录以不同的顺序显示!他们加入了324084324066 (huh!!!?) 任何帮助理解这个行为的人都会很棒。
浏览 16
提问于2019-11-07
得票数 2
回答已采纳
1
回答
Java上的文件存储- FS块大小对齐是否有意义?
java
、
filesystems
、
nio
我正在Java上开发
跨
平台的非
分布
式磁盘存储协议。文件将由相当独立的、通常较小(< 4KB)的“数据块”组成。避免
跨
FS块边界写入块会使协议更加健壮,因为FS块读取失败
会
影响更少的块
吗
?我是否可以假设,
在
大多数文件系统
中
,文件数据的开始是块对齐的? 假设我知道,目标
分区
上的块大小是4KB。
浏览 2
提问于2013-05-26
得票数 0
2
回答
达美表与维护策略
databricks
、
delta-lake
我正在从S3
中
读取数据,并使用Databricks加载到Delta表,然后通过DB公开它们。这听起来对
吗
?桑卡尔
浏览 3
提问于2022-09-09
得票数 1
1
回答
Dynamodb UUID哈希键是否比顺序生成的哈希键更好
amazon-dynamodb
我想我理解没有热hashKeys的概念,这样您就可以
在
提供吞吐量时使用所有
分区
。但是,UUID hashKeys
在
跨
分区
分布
方面是否比按数字排序的
分区
做得更好?在这两种情况下,是否由键和值生成的哈希码用于将其分配给
分区
?如果是这样的话,像"100444“和"100445”这样的两个字符串的哈希码有什么不同?他们亲近
吗
?
浏览 1
提问于2014-08-05
得票数 5
1
回答
铸造过程
中
的火花writeDataFrame与partitioningByRange
apache-spark
、
palantir-foundry
、
foundry-code-repositories
为了能够
在
Palantir Foundry中使用,我们需要使用transforms.api.IncrementalTransformOutput.write_dataframe()和partitionBy当我
在
增量数据集(数据绝对均匀地
分布
在
partitionBy列上)上这样做时,我得到了不同的文件大小,从128 6MB到6MB不等。partitionBy列只有24个不同的组合,我怀疑不同文件大小的原因是
分区
时的散列合并,我假设Foundry
在
本例中使用partitionBy()。有什么
浏览 15
提问于2022-06-13
得票数 1
回答已采纳
1
回答
局部Java数据结构
在
星图调用中导致OOM错误
apache-spark
我试图
在
大约150万条条目的mapToPair上运行一个
javaPairRDD
函数。
在
调用之外,我有一个本地定义的JavaMap。如果我
在
Map函数
中
访问mapToPair,那么我的程序就会耗尽内存。对为什么会发生这种事有什么想法
吗
?我的假设是,访问匿名函数
中
的Map
会
导致火花多次复制它。工作代码
JavaPair
浏览 0
提问于2018-06-21
得票数 0
回答已采纳
1
回答
Spring Cloud Stream Kafka消费模式
spring-cloud-stream
对于有多个
分区
的主题- 1)单个SpringBoot实例是否使用多个线程来处理(使用StreamListener注释的方法)来自每个
分区
的每条消息?2)是否可以为每个
分区
配置多个线程,或者是否必须手动将其从侦听器线程传递到工作池?
浏览 5
提问于2017-02-05
得票数 6
回答已采纳
1
回答
如何
跨
容器分发Cosmos RU
azure-cosmosdb
1)
在
具有共享RU的数据库
中
,它如何
跨
容器
分布
RU。我们还知道,当创建一个新的容器时,至少会分配100RU给它。例如,如果我们在数据库级别有400RU,并且有4个容器。2)如何为
分区
分配RU。如果我们有一个
分区
键userid,
在
一个共享的RU数据库中有1000个用户,这个容器有100RU。RU将如何在这样的
分区
中
分布
。
分区
的RU
分布
的动态性如何
浏览 3
提问于2019-11-13
得票数 0
1
回答
群values最大值的cassandra选择
cassandra
我
在
covid19键空间下创建了一个表“统计信息”: CREATE TABLE statistics(country_name text, dt date, confirmed_cases bigint
浏览 1
提问于2022-02-23
得票数 2
1
回答
Spring Batch Partitioning - JMS通道的重用?
spring
、
spring-batch
、
spring-integration
我正在编写一个Spring批处理作业,它由4个独立的步骤组成,并希望将工作
分布
在
集群的节点上。我
在
考虑使用流将作业分解为4个并行执行的作业。这4个作业
中
的每一个都将配置为作为单个
分区
运行。它似乎可以工作(未在集群
中
完全测试),但需要定义单独的PartitionHandlers、请求和响应通道以及出站网关。还有其他建议的方法
吗
?
浏览 1
提问于2014-01-29
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
Flink+ 数据湖 Iceberg 的体验
贝壳基于Spark的HiveToHBase实践
关于Impala优化的几点思考
海量小文件的开源存储方案选型建议
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券