如何将RDD.groupBy()的结果从(key，[values])展平为(key，values)？

在RDD中，groupBy()操作将数据集按照指定的键进行分组，并返回一个键值对的RDD，其中键是分组的依据，值是属于该键的所有元素组成的迭代器。如果想要将groupBy()的结果展平为(key，values)的形式，可以使用flatMap()操作来实现。

具体步骤如下：

首先，使用groupBy()操作对RDD进行分组，得到一个键值对的RDD，其中键是分组的依据，值是属于该键的所有元素组成的迭代器。
然后，使用flatMap()操作对每个键值对进行处理。在flatMap()的函数中，将每个键值对展开为多个新的键值对，其中键保持不变，而值则是通过迭代器将所有元素逐个取出。
最后，得到展平后的RDD，其中每个元素都是(key，value)的形式。

下面是一个示例代码：

# 导入必要的库
from pyspark import SparkContext

# 创建SparkContext对象
sc = SparkContext("local", "RDD GroupBy Example")

# 创建一个包含键值对的RDD
data = [("key1", "value1"), ("key2", "value2"), ("key1", "value3")]

# 将数据转换为RDD
rdd = sc.parallelize(data)

# 使用groupBy()操作进行分组
grouped_rdd = rdd.groupBy(lambda x: x[0])

# 使用flatMap()操作展平结果
flattened_rdd = grouped_rdd.flatMap(lambda x: [(x[0], v) for v in x[1]])

# 打印展平后的结果
for item in flattened_rdd.collect():
    print(item)

输出结果如下：

('key1', 'value1')
('key1', 'value3')
('key2', 'value2')

在这个例子中，我们首先使用groupBy()操作将RDD按照键进行分组，得到一个键值对的RDD。然后，使用flatMap()操作将每个键值对展开为多个新的键值对。最后，我们得到了展平后的RDD，其中每个元素都是(key，value)的形式。

推荐的腾讯云相关产品：腾讯云分布式计算服务Tencent Distributed Compute Service（TDCS），产品介绍链接地址：https://cloud.tencent.com/product/tdcs

页面内容是否对你有帮助？

有帮助

没帮助

基于Seq[Any]的scala中的模式匹配

我不是scala专家，但我希望避免使用asInstanceOf，并将其替换为序列的模式匹配。下面的代码片段给出了一个错误non-variable type argument val seq : Seq[Any] = getSeq(); val rec = seq match { case rec: Seq[Record[Key, Value]] => rec case other => throw new Exception(s"Expected a Seq[Record[Key, Value]]") } 我有以下代码与asInstanc

浏览 40提问于2021-04-17得票数 0

回答已采纳

1回答

Dotnet AutoMapper平面架构到复杂层次结构

、、、

我有一个结构非常扁平的数据库表。我希望在返回给dotnet中的对象后，将结果查询创建为更具结构化和层次化的格式。为此，我创建了几个模型类，这些模型类表示我希望如何组织返回的数据。示例平面对象 Public class FlatObject { public string key1 {get; set;} public string key2 {get; set;} public string key3 {get; set;} public string key4 {get; set;} } 结果对象 public class ResultObject { pu

浏览 12提问于2020-08-14得票数 1

回答已采纳

2回答

如何使用redigo将地图保存和检索到redis中？

、、

我有一个这样的地图，我想使用redigo从redis中保存/检索它： animals := map[string]bool{ "cat": true, "dog": false, "fox": true, } 地图的长度可能会有所不同。我尝试了以下函数： func SetHash(key string, value map[string]bool) error { conn := Pool.Get() defer conn.Close() _, err := conn.Do("HMS

浏览 22提问于2020-01-31得票数 2

回答已采纳

1回答

如何在Tensorflow中使用2D数组作为输入来推断标量

、

我是Tensorflow的新手。我的工作是使用2d array作为输入来推断标量。我的输入有shape of (2,3)，输出是标量。我按如下方式实现该模型： my_model = Sequential() input_layer = layers.InputLayer(input_shape = [2,3]) xs = np.array( [[1,1,1], [1,1,1]], [[2,2,2], [2,2,2]], [[3,3,3], [3,3,3]]) ys = np.array([1,2,3]) my_model.add(in

浏览 0提问于2021-09-13得票数 0

1回答

将JSON数据写入CSV

、、

我有一个动态json，其中的关键字(属性)将根据记录而不同。我想把下面的json数据写入csv文件： [{"Id": "12345", "attributes": {"Address": [{"label": "United Kingdom", "value": {"AddressLine": [{"value": "Baker "

浏览 0提问于2019-08-06得票数 0

3回答

如何在Typescript中展平嵌套对象？

、

我正在尝试将下面的对象'raw‘展平为对象'flat’ raw = [ { "id":"123", "Date":"12/12/2020", "Type":{ "id":"456", "desc":"test1" } }, { "id":"124", "Date":

浏览 0提问于2021-06-03得票数 0

1回答

Ramda -从多个对象的嵌套数组中获取ids

我正在尝试获取存储在数组中的outgoingNodes in，该数组位于对象内部，如下面的示例所示，但我不知道从哪里开始... const nodes = { "818": { "id": "818", "index": 1, "outgoingNodes": [ "819" ], }, "819": { "id": "819

浏览 17提问于2021-04-12得票数 0

回答已采纳

1回答

从2d到1d的数组列表

、

我有一个数组列表，我想进行查询 def teams = province.competitions.teams def fromTansfer = Transfer.withCriteria { 'in'("teamOld",teams) eq("time", 0) eq("year", 2014) order("teamOld", "desc") } teams的结果是一个二维数组列表，withCriteria的in语句有问题：团队： TransferContro

浏览 0提问于2014-06-18得票数 0

1回答

以最大化同一初始集合的元素之间的距离的方式从多个集合创建单个集合

、

假设您有以下数据结构： val words = Seq("cat", "dog", "kid", "dee", "ding", "chip", "chord") val grouped = words.groupBy(_.charAt(0)) 通过在循环中获取grouped中序列的每个元素，创建另一个集合的好方法是什么？例如，类似于以下内容： Seq("kid", "dog", "cat", "dee", "

浏览 16提问于2021-09-15得票数 1

回答已采纳

1回答

Linq to Sql SelectMany

、、

我正在尝试理解to Sql SelectMany。我想在下面的查询中使用它，看看结果是如何使用SelectMany与Select生成的。我知道我可以在这里使用select……我有一个表users，Id是int，位置是字符串。当我运行下面的查询时，我得到了异常“类型System.String不支持序列运算符”。您能告诉我如何迭代SelectMany返回的结果并将结果打印到控制台吗？ UsersDataContext db = new UsersDataContext(); var results = db.Users.Where(u=> u.ID == 5 || u.ID == 6).S

浏览 0提问于2012-07-16得票数 2

回答已采纳

1回答

将聚合数据投影到平面数据

、、、

我怎样才能从中得到： var props = new List<RoomProperties>(); props.Add(new RoomProperties(new[] {3, 4, 5}, new string[] {"AC", "WC"})); props.Add(new RoomProperties(new[] {2}, new string[] {"AC", "TV"})); props.Add(new RoomProperties(new[] {3}, new string[] {"Music

浏览 2提问于2014-02-26得票数 0

2回答

如何在python中将mysql单列列表结果直接获取到列表中？

、、、

我有一个mysql调用： zip = 48326 cursor.execute (""" select distinct(name) from usertab where zip= %s """ , (zip)) result = cursor.fetchall() 结果以元组的形式返回，如下所示： result = (('alan',), ('bob',), ('steve',), ('tom',)) 但我需要一份这样的清单： mylist=

浏览 2提问于2013-07-11得票数 0

回答已采纳

1回答

如何合并jmespath中的一系列对象

、

在使用with_items执行include_vars之后，我得到了一组结果 results: - ansible_facts: tag_Cluster_A: name: Thinking cluster words: - Honk - Thonk - ansible_facts: tag_Cluster_B: name: Helloing Cluster words: - HOI - HOI HOI 我试图将包含结果的对象放到一个只包含tag_Cluster_*内容的平面对象中。

浏览 0提问于2017-12-12得票数 1

1回答

使用机器学习算法训练MFCC

、、、、

我有一个MFCC的数据集，我知道它是好的。我知道如何将行向量放入机器学习算法中。我的问题是如何使用MFCC，因为它是一个矩阵？例如，我如何将其放入机器学习算法中：？任何算法都可以工作。我正在寻找一个二进制分类器，但我会更深入地研究它。Scikit似乎是一个很好的资源。现在我只想知道如何将MFCC输入到算法中。一步一步会对我有很大帮助！我找了很多地方，但都没有找到答案。谢谢

浏览 3提问于2017-02-22得票数 1

2回答

bigquery在嵌套重复上连接

、

我在连接一个重复的嵌套字段时遇到了困难，同时仍然在BigQuery中保留了原始的行结构。在我的示例中，我将连接的两个表分别称为A和B。表A中的记录类似于： { "url":"some url", "repeated_nested": [ {"key":"some key","property":"some property"} ] } 表B中的记录如下所示： { "key":"some key", "proper

浏览 2提问于2016-03-11得票数 9

1回答

扩展数组元素

、、

如何将包含字符串数组的对象数组扩展为字符串数组？我有： data class MyClass ( @JsonProperty("applicant") val applicant: String, val products: List<Product> ) { fun getCiss(): List<String> = products........ companion object { data class Product( val cises: List<String>) } } 我有这个JS

浏览 9提问于2020-09-01得票数 0

回答已采纳

1回答

为什么一个numpy数组的形状在添加了另一个具有相同形状的numpy数组的元素后会变形？

、、

我有两个numpy数组，A的形状为(70,2048)，B的形状为(11200,2048)。我想将索引i处的一个元素从B附加到A，所以我这样做了： A = np.append(A, B[i]) 在此之后，A的形状突然变成(145408，)。当我查看B[i].shape时，我得到(2048，)。我猜这就是为什么A的形状会改变，但是我如何将Bi附加到A上呢？所以我得到了我想要的，一个包含(71,2048)的numpy数组。我觉得我对这件事不太了解，如果有人能帮我就太好了。提前感谢！

浏览 6提问于2021-02-16得票数 0

1回答

接受2组输入的CNN架构

有多个例子如何构建Tensorflow模型来从图像中识别猫和狗。现在假设我有与每张图片相关联的音频，并训练单独的网络来通过声音识别猫和狗。我想将这两个网络的预测反馈到另一个层中，以组合结果并提高最终预测成功率。我的模型应该是什么样子的？

浏览 11提问于2019-02-17得票数 0

1回答

如何检查元素是否存在于列表的字典中？

例如，如果我有一个包含3个列表作为值的字典"dict“：{1: ['A', 'B', 'C'], 2: ['D'], 3: ['Z']} 如何检查“D”是否是字典内3个列表中的任何一个元素？ 'C' in dict.values()不能工作，我认为这是因为"dict“只包含列表的值，而不是字母。

浏览 2提问于2018-07-31得票数 0

1回答

使用Vue访问嵌套JSON

、、、

我正在尝试使用Vue访问数组中的嵌套JSON，以进行基本搜索。每所学校都被包装在一个"hit“数组中，所以它认为”hit“只有一个结果，而不是返回每个学校的数据。我确定我只需要为每个学校实例添加hit，但我不确定如何添加。谢谢你的帮助。我的主应用程序文件： <template> <div class="app search">  <header id="searchHeader" class="search--heade

浏览 14提问于2018-08-17得票数 1

回答已采纳

1回答

vega-lite条形图堆叠的颜色值

"data": {"values": [{ "key": "test1", "doc_count": 14, "misc": { "min": 5, "max": 8, "avg": 6.5

浏览 10提问于2018-12-20得票数 0

回答已采纳

2回答

从多项选择字段的数据中获取不同的选项列表？

、

我有一个包含多选选择字段(字符串)的DataTable。字段中的值存储方式如下： Charlie Alpha Alpha; Charlie; Delta Bravo; Charlie Bravo Alpha; Bravo; Charlie 我正在尝试将唯一的列表显示在下拉列表中： Alpha Bravo Charlie Delta 方法拆分值并返回List<string> private static List<string> GetValues(string multiValueString) { string[] delimiters = {"; &

浏览 1提问于2010-11-18得票数 0

回答已采纳

1回答

Elastic Search -访问列表中元素的成员

我对elastic search比较陌生，对于访问list中的元素中的元素有一个问题。结构如下： { 'TestA':'1', 'TestB':{ 'TestC':'2', 'TestD':[ { 'TestE':'3', 'TestF':'4' }, {

浏览 0提问于2018-10-23得票数 1

3回答

如何在Ruby中展平数组？

在Ruby上。我有数组c = [["a"], ["b"]]的数组如何将其转换为c = a + b c = ["a", "b"] 用于任何数组。也许不使用其他变量也是可能的。内部的所有数组都未展平。 d = [ [["a"], ["b"]], [["c"], ["d"]], [["e"], ["f"]] ] 我需要[ [["a"], ["b"], ["c"], ["d"]

浏览 0提问于2017-11-23得票数 11

回答已采纳

1回答

在数组Ramda中根据id查找对象

、、

例如，我有这样的东西： const stuff = { "31": [ { "id": "11", "title": "ramda heeeelp" }, { "id": "12", "title": "ramda 123" } ], "33": [ { "id": "3",

浏览 13提问于2019-11-04得票数 1

回答已采纳

2回答

如何在AWS Glue中将JSON与扁平结构相关联

、、、、

尝试扁平化具有两个映射/字典字段(custom_event1和custom_event2)的输入JSON数据，这两个字段可能包含任何键值对数据。为了从数据框创建输出表，必须避免custom_events的扁平化，并将其作为JSON字符串存储在列中。在文档之后，Relationalize.apply也在拉平custom_events地图。 Sample JSON: { "id": "sklfsdfskdlfsdfsdfkhsdfssdf", "idtype": "cookieId", "event

浏览 0提问于2018-01-13得票数 1

1回答

Powershell json格式

、、

我有一个关于用powershell从json转换成json的问题。我需要一个具有特定格式的json (用于REST调用)，但是如果我执行一个来自-json和转换为-json的转换，格式是错误的，我不知道如何更改它。这是原始格式： { "property-content": [ { "statKey": "Test|Test1", "time

浏览 1提问于2018-04-03得票数 0

2回答

在字典中快速获取数组值

、

我试图在Dictionary中获取键和值，而我可以将键映射到字典中，但无法获取数组中的值。 var dict = [String: [String]] 我能够以数组的形式获得密钥，这就是我想要的： var keyArray = self.dict.map { $0.key } 如何获取已经是数组的值

浏览 17提问于2020-07-19得票数 0

回答已采纳

2回答

使用一行pandas命令将列连接到单个数据帧中

、

我有33个单列，每个列都作为一个数据帧工作： col1_df、col2_df、col3_df....col33_df 如何将它们连接到一个数据帧中？我的代码是 df = [col1_df, col2_df....col33_df], but the return is not a dataframe 有没有一个熊猫路线可以解决这个问题？

浏览 12提问于2021-01-12得票数 1

1回答

读取其中的所有文件和子文件夹

谁能指导我完成:这个函数通常读取整个文件夹架构。并显示为数组，但子文件夹也创建数组。但是我不需要每个子文件夹的数组，我只需要路径。有没有人能指引我。 function dirToArray($dir) { $result = array(); //$result1 = array(); $dummy = array(); $cdir = scandir($dir); foreach ($cdir as $key => $value) { if (!in_array($value,array(".",".."))) {

浏览 0提问于2015-11-10得票数 0

1回答

jssor图库不能同时使用缩略图和标题

、、、、

我已经为我的问题寻找了3天的答案，到目前为止还没有找到一个好的答案。我找到的最接近的是这个，但它对我不起作用。我正在使用jssor图库，我需要图库按照示例链接中所描述的那样工作我可以使用缩略图和标题来创建图库，但是当我尝试将两者结合起来时，却不能正常工作。这是我在图库中使用的代码，带有拇指和标题： jQuery(document).ready(function ($) { var _CaptionTransitions = []; _CaptionTransitions["MCLIP|B"] = { $

浏览 1提问于2015-04-02得票数 0

1回答

如何在CosmosDB查询中将值的数组展平为行？

、、

给定CosmosDB数据库中的以下集合数据： [ { "id": "1", "title": "Blog post #1", "tags": ["tag1", "tag2", "tag3"] }, { "id": "2", "title": "Blog post #2", "t

浏览 15提问于2021-07-16得票数 0

回答已采纳

1回答

为什么第一个致密层的维度不必等于CNNs中Flatten()的维度？

、

根据我对can的理解，Flatten用于从2D到1D，以便您可以使用密集层来执行分类。同样在我的理解中，扁平化会导致过滤器的尺寸乘以过滤器的数量。为什么在扁平化之后，第一个致密层不必具有与扁平化结果相同的尺寸(这将是滤镜*滤镜的暗淡)？第一个密集层的节点比flatten的暗度更少或更多的CNN都可以工作，但我不知道为什么。flatten不是应该为密集层提供输入吗？

浏览 15提问于2019-04-10得票数 0

回答已采纳

1回答

如何使用xlsx npm库将嵌套的json对象转换为excel表？

、、、

我有一个嵌套的json对象。为了简单起见： data = {'key1': 1, 'key2': 2, 'key3': {'nestedKey1': 3, 'nestedKey2': 4}} 真实的对象更大，但关键是它是嵌套的。值可以是字符串、数字或其他对象。现在我需要获取一个excel表(对于这个特定的json，如下所示)： |---------------------------------------- | key1 | key2 | key3 | | |

浏览 42提问于2019-06-14得票数 11

1回答

将原始变量表的最新拉取数据转换为正常表: Snowflake

、

我有一个变量表，其中原始json数据存储在名为" raw“的列中，如下所示。该表的每一行都是从API中提取的完整数据，并通过snowpipe获取。在json中有一个“pxQueryTimestamp”键和值对。此字段的最新值应包含最新数据。我如何才能只规范化这一行呢？通常，我的解决方法是只传递来自"s3“的最新数据，这样这个表只有一行，然后我将其规范化。我希望有一个所有数据拉取的历史表格，如下所示，但在归一化时，我们只关心最相关的最新数据。如有任何帮助，我们不胜感激！

浏览 8提问于2020-03-09得票数 0

回答已采纳

1回答

Python :包含列表和字典的转换Pandas数据帧

、、

我有一个以下格式的数据框： vector = pd.Series(np.empty((5,5)).tolist()) frame = pd.DataFrame({'list': [["Name1"], ['Name2'],['Name31', 'Name32'],['Name4'],['Name51', 'Name52'],], 'outcome': [{'Name1': ['X', 'Y', '

浏览 4提问于2020-11-03得票数 0

回答已采纳

1回答

Plotly不从pivot绘制条形图

、、

我正在尝试从使用pivot_table转换的CSV数据绘制条形图。条形图应该有y轴上的计数和x轴上的公司状态。我得到的结果是：最后，我想通过CompanySizeId堆叠bar。我一直在关注。 import plotly.graph_objects as go import plotly.offline as pyo import pandas as pd countcompany = pd.read_csv( 'https://raw.githubusercontent.com/redbeardcr/Plotly/master/Data/countcompany

浏览 13提问于2020-06-05得票数 0

回答已采纳

1回答

有人能解释一下下面的Scheme代码吗？

我一直在听斯坦福大学的，但我对以下代码(来自第20课)感到困惑。有人能逐行解释一下这是做什么的吗？谢谢。 (define (flatten sequence) (cond ((null? sequence) '()) ((list? (car sequence)) (append (flatten (car sequence)) (flatten (cdr sequence)))) (else (cons (car sequence)

浏览 1提问于2009-10-03得票数 3

回答已采纳

2回答

从LinkedHashMap中提取ArrayList格式的地图值

、、、、

我创建了一个简单的类MapExtension来容纳向listview适配器传递4个值，并使用LinkedHashmap添加MapExtension的ArrayList。 public class MapExtension { private String studname; private String studnumber; private String schedule; public MapExtension(String studname, String studnumber, String schedule) { this.studname = studname;

浏览 0提问于2017-09-09得票数 1

1回答

方案:移除子列表

、

我还没有幸运地创建一个删除子列表的函数。我有一份清单： '((("a" "c") ("a" "l")) (("b" "c") ("b" "l")) (("c" "hmm"))) 这应该是结果： '(("a" "c") ("a" "l") ("b" "c") ("b" "l") ("c&

浏览 0提问于2011-11-09得票数 1

回答已采纳

1回答

将嵌套的JSON拆分成大小相等的文件PySpark/Python

、、、、

我使用的是pyspark，它会生成一个嵌套的json，如下所示： { "batch_key": 1, "client_key": 1, "client_name": "ABC", "Claims": [ { "claim_key": "A", "client_key": "B", "client_name":

浏览 15提问于2020-09-16得票数 0

1回答

使用PIG进行XML解析

我有一个有3列的表格。第一个云是id，第二列是名称，第三列是具有3个元素的XML文档。我必须使用PIG解析XML，结果表应该包含5列，即id、name和来自XML的已解析元素。建议我一些猪的解决方案。输入 1，abc，指南1计算机144.95 2，bcd，指南2计算机250.95 输出应为 1，abc，Guide1，计算机1，44.95 2，bcd，Guide2，计算机2，50.95

浏览 2提问于2016-07-18得票数 0

1回答

Imagemagick (转换)控制台与php Imagick -不同的结果

、、

? ? 当我做convert 1.png 1.jpg时-我从png中删除了透明的，并且在jpg中看到了真正的背景，但当我在php Imagick中做同样的事情时： $piece = new Imagick("1.png"); $piece->mergeImageLayers(Imagick::LAYERMETHOD_FLATTEN); $piece->setImageFormat('jpg'); // How to refresh content of $piece w/o save to disk?

浏览 15提问于2019-12-22得票数 0

回答已采纳

1回答

选择...是否将1个查询结果限制为多行？

、

浏览 1提问于2013-10-01得票数 2

1回答

如何降维？

、、

让我们假设我有一个IEnumerable(Of IEnumerable(Of Integer))。所有内部IEnumerable都包含IDs。我想将所有的IDs Distinctly集合到一个IEnumerable(Of Integer)中。如果我这样做，我可以这样做： Dim result as New List(Of Integer) For Each element In IDs result.AddRange(element) Next result = result.Distinct 这种方法有两个问题：-当可能有一个我不知道的用于此目的的Function时，我必须编写迭代代

浏览 1提问于2016-08-25得票数 1

1回答

PreTokenGeneration无法识别的lambda输出

、、

我正尝试在身份令牌中添加帐户属性，但在从web应用程序运行它时遇到问题。我一直在使用测试事件测试lambda，它工作正常，我不知道问题可能是什么，我已经尝试将响应更改为回调和上下文，但它们也不起作用。我正在挂载这个触发器与无服务器框架，我有另一个PostConfirmation触发器与完全相同的设置，它的工作正常。给我带来麻烦的是PreTokenGeneration。我附加了我在函数中使用的代码： module.exports.execute = async (event, context) => { const { sub } = event.request.userAtt

浏览 21提问于2020-07-17得票数 1

1回答

包结构的IntelliJ设置

我正在处理一个Java项目，当我设置我的项目时，我设置了许多包，如下所示： MySetup 但我想这样设置它： Intended set up 我知道右键单击项目/标记为目录中有一个设置，我已经尝试了所有这些设置，除了测试目录。我该如何将其设置为预期的设置？提前谢谢。

浏览 12提问于2020-06-17得票数 0

回答已采纳

1回答

在Azure Cognitive Search中将2个Azure SQL表合并为1个索引

、、、、

我正在学习this example如何将两个不同的数据源组合成一个索引，结果正是我想要的:一个数据源的索引酒店，每个都有一个来自另一个数据源的房间详细信息的数组(或列表)。在我的例子中，我的两个数据源都来自一个Azure SQL数据库，该数据库不使用分区键： DataSource hotelSource = DataSource.AzureSql( name: "hotels-sql", sqlConnectionString: Configuration["ConnectionStrings"

浏览 12提问于2019-12-20得票数 1

回答已采纳

1回答

如何将两个列表合并到一个展平中是不起作用的

我有两个列表，我想合并成一个列表。 def values = [[name:"A",prof:"B"],[exp:["C","E"]]] def list3=values.flatten(); //flatten is not working println ("list 2 is"+list3); 结果是一样的 [[name:A, prof:B], [exp:[C, E]]] 预期输出： [[name:A, prof:B, exp:[C, E]]

浏览 13提问于2019-04-21得票数 0

回答已采纳

1回答

在保留关键点的同时展平数组

、

如何在保持数组键不变的情况下展平数组？例如，我有以下数组： array (size=2) 0 => array (size=1) 'bonus' => float 20 1 => array (size=1) 'bonus_percent' => float 2 array (size=1) 'bonus_all' => float 22 我怎么才能把它“压平”成这样呢？ array (size=2) 'bonus'

浏览 0提问于2015-11-02得票数 0