开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

当从cassandra源读取数据时，spark中的重新分区会改变spark分区的数量吗？

当从Cassandra源读取数据时，Spark中的重新分区不会改变Spark分区的数量。

Spark的分区是在数据加载到Spark中时确定的，而重新分区只会改变数据的分布，而不会改变分区的数量。重新分区是指根据某种规则将数据重新分布到不同的分区中，以便更好地利用集群资源和提高计算性能。但是，重新分区不会增加或减少分区的数量。

在Spark中，分区是用来并行处理数据的基本单位。每个分区都包含一部分数据，Spark的任务会在每个分区上并行执行。分区的数量决定了并行处理的程度。如果需要改变分区的数量，可以使用repartition或coalesce等操作来重新分区数据。

总结起来，从Cassandra源读取数据时，Spark中的重新分区只会改变数据的分布，而不会改变Spark分区的数量。

相关搜索:Spark:当groupBy被调用时，重新分区到一个节点的数据帧是否会经历一次洗牌？Spark中几个任务中的重新分区数据瓶颈 Spark是否将数据从Kafka分区读取到executor中，用于排队的批处理？为什么Spark的重新分区没有将数据平衡到分区中？为什么我们不在Spark- cassandra -Connector中定义一个用于从cassandra DB读取数据的ReaderBuilder 从Spark读取sql表数据时的分区问题从存储桶读取时的spark分区数- S3 - GCS 从数据库读取时在Dask dataframe中设置分区大小的问题即使地块文件包含数据，外部未分区的配置单元表也会显示0条记录，使用spark.read.parquet读取时会显示正确的数据在Spark中，sc.newAPIHadoopRDD使用5个分区读取2.7 GB的数据

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

没有搜到相关的视频

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭