Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >在分区数据上运行groupByKey/ reduceBuKey，但使用不同的键

问在分区数据上运行groupByKey/ reduceBuKey，但使用不同的键
EN

Stack Overflow用户

提问于 2017-01-13 00:07:13

回答 1查看 971关注 0票数 3

我有一个((id, ts), some value)类型的排序RDD。仅在id字段上使用自定义分区器对此进行分区。

math.abs(id.hashCode % numPartitions)

现在，如果我在这个分区的RDD上运行以下两个函数，它会涉及数据集的洗牌和重新分区吗？

val partitionedRDD: ((id:Long, ts:Long), val:String) = <Some Function>
val flatRDD = orderedRDD.map(_ => (_._1.id, (_._1.ts, _._2)))

我想知道的是，flatRDD.groupByKey()和flatRDD.reduceByKey()是否将具有与partitionedRDD或Spark相同的分区，并重新洗牌数据集并创建新的分区？

谢谢你，德维

腾讯云会员中心

加入腾讯云会员，每月可领会员专属优惠券；会员云产品免费体验；云产品会员专享价；会员签到抽奖…

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-01-13 01:44:57

是的，在groupByKey或reduceByKey上执行flatRDD必然会导致另一次洗牌。

因为您知道flatRDD已经被id分区了，所以您可以安全地假设具有相同id的所有记录都驻留在一个分区中。因此，如果您想要groupBy(id)，您可以使用mapPartitions (与preservesPartitioning = true一起)并分别对每个分区执行该操作，从而防止Spark对您的数据进行洗牌：

flatRDD.mapPartitions({ it =>
  it.toList
    .groupBy(_._1).mapValues(_.size) // some grouping + reducing the result
    .iterator

}, preservesPartitioning = true)

这不会引起额外的洗牌：

票数 3

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41629953

复制

相关文章

删除SQL数据库表中的重复记录

数据库 sql count having select

在n条记录里,存在着些相同的记录,如何能用SQL语句,删除掉重复并保留一条呢？方法如下：

学派客

2023/04/07

4.3K0

SQL:删除表中重复的记录

--创建测试表 if object_id('test') is not null drop table test create table test ( id int identity(1,1) primary key, name varchar(50) ) --插入几条测试数据 insert into test select 'a' union all select 'a' union all select 'a' union all select 'a' union all select 'a

用户8983410

2021/11/02

4.8K0

SQL server 数据库基本插入、删除命令

sql server 数据库

一、实验素材：附加学生信息表（student）二、实验要求： 1、查询student表中所有学生的信息 select * from student 2、查询student表中“姓名”“所在班

L宝宝聊IT

2018/06/20

1K0

从 git 的历史记录中彻底删除文件或文件夹

git 开源 filter 推送协议

如果你对外开源的代码中出现了敏感信息（例如你将私钥上传到了仓库中），你可能需要考虑将这个文件从 git 的历史记录中完全删除掉。

walterlv

2023/10/22

8870

SQL Server判断表中是否存在记录的SQL语句

数据库 sql server 性能

SQL Server数据库判断记录是否存在，要不是语句不够简洁，要不就是性能有很大问题,简直就是忍无可忍！

跟着阿笨一起玩NET

2020/03/18

4.9K0

sql删除重复记录

count having min select title

where peopleId in (select peopleId from people group by peopleId having count(peopleId) > 1)

王念博客

2019/07/24

2.2K0

从列表中或数组中随机抽取固定数量的元素组成新的数组或列表

2：jQuery版本那么jQuery中怎么随机选出固定数组数组[1, 2, 3, 4, 5, 6, 7, 8, 9]中的三个元素，并构造成新数组的？

王小婷

2018/08/02

6K0

sql删除wordpress没用的postmeta记录

腾讯云开发者社区

支持多作者的wordpress博客，有时需要审核他们的文章内容，虽然UGC（User-generated content）整体是好的，但是也要控制一下质量，实在不相关或spam的文章就要毫不手软的删除。日志的记录已经删除了，但是日志扩展表 postmeta 里面的数据还没有删除，也人工清理下吧，减少数据库的占用

ytkah

2022/03/14

7080

sql删除或清空表数据[通俗易懂]

https java sql 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/132352.html原文链接：https://javaforall.cn

全栈程序员站长

2022/08/12

9.8K0

记录下关于SQL Server的东西

编程算法 sql

定义一个递归CTE，至少需要两个查询（或者更多），第一个查询称为定位点成员（anchor member），第二个查询称为递归成员（recursive member），基本格式如下：

Jerremy

2022/05/09

1.3K0

记录下关于SQL Server的东西

SQL Server中的GUID

gui java 编程算法 ide sql

GUID（Global unique identifier）全局唯一标识符，它是由网卡上的标识数字(每个网卡都有唯一的标识号)以及 CPU 时钟的唯一数字生成的的一个 16 字节的二进制值。

全栈程序员站长

2022/07/15

5.2K0

【Oracle笔记】数据表中删除重复记录的SQL

oracle 数据库 sql

ROWID是ORACLE中的一个重要的概念。用于定位数据库中一条记录的一个相对唯一地址值。通常情况下，该值在该行数据插入到数据库表时即被确定且唯一。 ROWID它是一个伪列，它并不实际存在于表中。它是ORACLE在读取表中数据行时，根据每一行数据的物理地址信息编码而成的一个伪列。所以根据一行数据的ROWID能找到一行数据的物理地址信息。从而快速地定位到数据行。数据库的大多数操作都是通过ROWID来完成的，而且使用ROWID来进行单记录定位速度是最快的。

程序员云帆哥

2022/05/12

2.8K0

【求助】从大表中删除小表中存在的记录问题

A表：30万，主键ID B表：300万，主键ID 从B表中删除ID=A表ID的记录。 DELETE FROM B WHERE EXISTS (SELECT 1 FROM (SELECT ID FROM (SELECT T.ID, ROWNUM RN FROM A) WHERE RN > 0 AND RN <= 50000) AB WHERE A.ID = B.ID); 但执行计划显示COST较大，且瓶颈是B表的全表扫描。需求是这里有B1 ... B10多个B表(都是300万)，串行操作

bisal

2019/01/29

5.1K0

SQL Server新建、修改、删除表结构。

1、点击[testdb] 2、点击[表] 3、点击[新建] 4、点击[表] 5、点击[列名] 6、点击[数据类型] 7、点击[nchar(10)] 8、点击[int] 9、点击[允许Null值] 10、点击[▲] 11、点击[设置主键] 12、点击[列名] 13、点击[数据类型] 14、点击[允许Null值] 15、点击[列名] 16、点击[数据类型] 17、点击[nchar(10)] 18、点击[int] 19、点击[文件]

裴来凡

2022/05/28

1.6K0

SQL Server新建、修改、删除表结构。

删除SQL数据库中事务日志方法

数据库 sql java 腾讯云开发者社区

DUMPTRANSACTION[数据库名]WITHNO_LOGBACKUPLOG[数据库数据库

Java架构师必看

2021/03/22

1K0

SQL server数据库的部署

sql server 数据库 sql windows server

一、实验目标 1、安装一台SQL SERVER（第一台）,然后克隆再一台（第二台），一共两台,修改两台的主机和IP地址。 2、使用注册的方式，用第二台远程连接第一台二、实验步骤 1）先打开一台Wi

L宝宝聊IT

2018/06/20

1.8K0

4 - SQL Server 2008 之使用SQL语句删除表格

数据库 sql server

本文介绍了如何使用 SQL Server 2008 中的 SQL 语句删除表格。首先介绍了删除表格的语法，然后通过两个示例讲解了如何删除表格。第一个示例是删除名为 Employee 的表格，第二个示例是删除名为 Person 的表格。在删除表格之前，需要先判断该表格是否存在，如果不存在则不进行任何操作。同时，在删除含有外键的表格之前，需要先删除外键引用的主键表格，否则会报错。

CNXY

2017/12/25

1.5K0

4 - SQL Server 2008 之使用SQL语句删除表格

SQL Server数据库碎片

数据库 sql server

当索引所在页面的基于主关键字的逻辑顺序，和数据文件中的物理顺序不匹配时，碎片就产生了。所有的叶级页包含了指向前一个和后一个页的指针。这样就形成一个双链表。理想情况下，数据文件中页的物理顺序会和逻辑顺序匹配。整个磁盘的工作性能在物理顺序匹配逻辑顺序时将显著提升。对某些特定的查询而言，这将带来极佳的性能。当物理排序和逻辑排序不匹配时，磁盘的工作性能会变得低效，这是因为磁头必须向前和向后移动来查找索引，而不是只象某个单一方向来搜索。碎片会影响I/O性能，不过对于位于SQL Server数据缓冲内的数据页而言，碎片

张善友

2018/01/22

2.8K0

SQL Server 数据库设计

数据库 sql sql server

SQL Server 系统数据库在安装软件时自动创建，用于协助系统共同完成对数据库的操作；也是数据库运行的基础；

剑指工控

2021/11/09

2.5K0

SQL Server 数据库设计

SQL server数据库部署

sql server https 网络安全数据库 sql

如今生活中，到处都有数据，我们手机上一个小小的APP软件，在他的身后可能有好几十台服务器支撑着，在服务器上呢拥有数据，每个软件都是有一个后台数据库的。常用的几个数据库有： SQL server 此数据库是微软开发的只能应用在Windows端，简单、易用 oracle 甲骨文公司开发的它面向所有的主流平台，安全、完善，但是操作复杂 DB2 IBM公司开发，面向所有主流平台，适用于大型企业环境，安全、完善 MySQL（Mariadb）甲骨文公司所收购，开源、体积小、速度快、稳定 SQL server数据库分为系统数据库和用户数据库两类，其中系统数据库有四个：

小手冰凉

2019/09/10

3.3K0

SQL server数据库部署

相似问题

如何从SQL Server数据库中删除记录

11

如何从sql server数据库中自动删除旧记录？

22

从SQL Server表中动态删除记录

34

SQL Server数据库不删除记录

42

固定删除SQL Server数据库记录？

10

活动推荐

即时通信IM，低门槛快速接入

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例