Spark:按另一列过滤时的GroupBy和collect_list

Spark是一个开源的分布式计算框架，用于处理大规模数据集的计算任务。它提供了高效的数据处理能力和丰富的API，可以在大规模集群上进行并行计算。

在Spark中，GroupBy是一种常用的操作，用于将数据集按照指定的列进行分组。而collect_list函数是一种聚合函数，用于将分组后的数据集中的某一列的值收集到一个列表中。

当按另一列进行过滤时，可以先使用GroupBy将数据集按照需要的列进行分组，然后再使用collect_list函数将分组后的数据集中的某一列的值收集到一个列表中。这样可以方便地对分组后的数据进行过滤操作。

Spark的优势包括：

高性能：Spark使用内存计算和基于任务的并行计算模型，能够快速处理大规模数据集。
易用性：Spark提供了丰富的API和开发工具，使得开发人员可以方便地进行分布式计算任务的开发和调试。
可扩展性：Spark可以在大规模集群上进行并行计算，支持横向扩展，可以处理PB级别的数据。
多语言支持：Spark支持多种编程语言，包括Java、Scala、Python和R，开发人员可以根据自己的喜好选择合适的语言进行开发。

在腾讯云中，推荐使用的与Spark相关的产品是TencentDB for Apache Spark。TencentDB for Apache Spark是腾讯云提供的一种高性能、高可靠性的云端分布式数据仓库服务，可以与Spark无缝集成，提供强大的数据处理和分析能力。您可以通过以下链接了解更多关于TencentDB for Apache Spark的信息：https://cloud.tencent.com/product/spark

将pyspark groupedData转换为pandas DataFrame

、、、、

我需要通过Spark分组一个大型数据集，我将其加载为两列的Pandas数据框架，然后重新转换为Pandas:基本上是做Pandas -> 'pyspark.sql.group.GroupedData‘-> Pandas。两列中的元素都是整数，分组后的数据需要以列表的形式存储，如下所示： df.a df.b 1 3 2 5 3 8 1 2 3 1 2 6 ... spark_df = spark.createDataFrame(df

浏览 1提问于2017-08-03得票数 1

1回答

“Dataframe”列列出火花源中的保存顺序

、、、、

我有一个星火数据have包含2列，"id“和"timetamp”。如何将"id“列转换为按时间戳保存原始顺序的列表？当我尝试收集的时候，订单是不保守的。谢谢

浏览 3提问于2020-05-28得票数 1

2回答

spark :将DataFrame或Dataset转换为单个逗号分隔字符串

、、、

下面是spark代码，它将打印一列DataSetRow import org.apache.spark.sql.{Dataset, Row, SparkSession} val spark: SparkSession = SparkSession.builder() .appName("Spark DataValidation") .config("SPARK_MAJOR_VERSION", "2").enableHiveSupport() .getOrCreate() val kafkaPath

浏览 0提问于2018-02-20得票数 6

回答已采纳

1回答

我在哪里运行spark - Standalone、Hadoop或Mesos

、、、

我正在学习Spark，但如果我必须在Hadoop/Yarn或Mesos上运行spark，我会感到困惑。如果我在Hadoop/Mesos上运行，会有什么性能提升吗？现在，我正在一个4节点集群上独立运行。有没有经验丰富的用户可以在这里提供一些指导？

浏览 0提问于2015-07-24得票数 1

1回答

将CassandraRDD转换为RDD[Array[String]]

、、、、

我有Cassandra表，我选择了一些列来对它们执行关联规则。我已经为每一列创建了case类，以便将它们保存在其中。我有类型的列数据 com.datastax.spark.connector.rdd.CassandraRDDSuperStoreSalesRG 其中，SuperStoreSalesRG是要将其转换为的单个列的case类。 RDD[ArrayString] 怎么做?！非常感谢.。到目前为止，这就是我所尝试的 val test_spark_rdd = sc.cassandraTable("demo1", "orders4") case clas

浏览 2提问于2017-10-24得票数 0

1回答

比较内存中的集群计算系统

、、、

我正在从事Spark(Berkeley)集群计算系统的工作。在我的研究中，我了解了一些其他的内存系统，如Redis，Memcachedb等。如果有人能给我一个SPARK和REDIS (以及MEMCACHEDB)的比较，那就太好了。Spark在哪些情况下比其他内存系统更有优势？

浏览 4提问于2013-05-22得票数 10

回答已采纳

2回答

Spark Java -合并同一列多行

、、

我使用的是Java Spark，我有一个这样的数据帧 +---+-----+------+ |id |color|datas | +----------------+ |1 |blue |data1| |1 |red |data2| |1 |orange|data3| |2 |black |data4| |2 | |data5| |2 |yellow| | |3 |white |data7| |3 | |data8| +----------------+ 我需要修改这个数据帧，使其看起来像这样： +---+-------------------

浏览 1提问于2017-05-23得票数 3

1回答

如何训练每个列值的单独模型？

、、

如何基于窗口显示Spark数据框中的某一列来运行不同的回归模型？假设我在一个Spark DF中有2个产品，其功能和标签与这些产品相关联。产品的ids显示在一个单独的列中。我想对每个产品进行回归分析。到目前为止，对于相对简单的分析，我一直使用 w = Window().partitionBy("id") F.sum(column).over(w) 例如，数据 sdf = spark.createDataFrame( [("a", 1.0, 2.0, 3.0), ("a", 4.0, 1.0, 5.0), ("b"

浏览 0提问于2017-12-22得票数 0

4回答

如何在不使用udaf的情况下创建映射列来计算出现次数

、、

我想创建一个Map列来统计出现的次数。例如： +---+----+ | b| a| +---+----+ | 1| b| | 2|null| | 1| a| | 1| a| +---+----+ 会导致 +---+--------------------+ | b| res| +---+--------------------+ | 1|[a -> 2.0, b -> 1.0]| | 2| []| +---+--------------------+ 目前，在Spark 2.4.6

浏览 55提问于2020-10-14得票数 3

回答已采纳

1回答

使用Apache Spark和AWS从每日CSV文件生成月度数据

、、、

我的CSV文件具有相同的列和一百万个匹配的ID，用于2018年的每一天。每一列都有5列，不包括ID。我想按月连接文件，这样每个月的文件都有5列*天数，因此1月份将有155个名称为Day1-Col1，Day1-Col2...第31天-Col5。这是我可以用Apache Spark做的事情吗？我选择Spark是因为我想将数据放入AWS Athena数据集中，而AWS Glue似乎可以通过Spark SQL查询来实现这一点。我想我们会先把CSV转换成拼图文件，然后生成一个每月的数据集，然后用AWS Quicksight可视化。

浏览 18提问于2019-09-17得票数 0

回答已采纳

2回答

星星之火:写入数据时“请求的数组大小超过VM限制”

、、、、

在运行我的Scala作业时，我遇到了一个"OutOfMemoryError: Requested数组大小超过VM限制“的错误。我在AWS EMR集群上运行此作业，其组成如下：主内存:1m4.4xLarge32 vCore，64 GiB内存核心:1 r3.4×32 vCore，122个GiB内存在EMR发布标签5.11.0上，我使用的Spark版本是2.2.1。我在火花外壳中运行我的工作，配置如下： spark-shell --conf spark.driver.memory=40G --conf spark.driver.maxResultSize=25G --c

浏览 0提问于2018-03-30得票数 0

4回答

Spark SQL会完全取代Apache Impala或Apache Hive吗？

、、、、

我需要在我们的服务器上部署大数据集群。但我只知道关于Apache Spark的知识。现在我需要知道Spark SQL是否能完全取代Apache Impala或Apache Hive。我需要你的帮助。谢谢。

浏览 3提问于2016-10-25得票数 7

2回答

如何将数据帧列聚合为具有计数的列表的新列？

、、

我在scala中有一个星星之火数据框架，类似： URL Browser A Chrome B Chrome C Firefox A Chrome A Firefox A Opera A Chrome B Chrome B Firefox C Tor URL列的数据范围很广，但浏览器列的集合有限。我希望在URL列上聚合，并按降序获取列表中每个浏览器的顶部计数，如下所示： URL FrequentlyUsedBrow

浏览 1提问于2019-10-30得票数 1

回答已采纳

4回答

Apache Spark vs Apache Ignite

、

目前我正在研究Apache spark和Apache ignite框架。本文中描述了它们之间的一些主要区别，但我意识到我仍然不理解它们的目的。我的意思是，对于哪些问题比点燃更可取，反之亦然？

浏览 96提问于2016-03-16得票数 33

回答已采纳

1回答

SparkSession在本地独立群集上占用的时间太长

、、、

我是大数据的新手，目前我正在学习Apache Spark。我已经创建了一个独立的集群，在同一台机器上有一个主集群和一个从集群。SPARK_WORKER_MEMORY设置为"1g“，SPARK_LOCAL_IP指向我的ip地址。因此，我编写了一段python代码来简单地创建一个SparkSession： from pyspark.sql import SparkSession from time import time def main( ): start_time = time( ) sparkSession = ( SparkSession.builder

浏览 0提问于2017-09-08得票数 1

1回答

Spark Dataframe在性能上如何优于Pandas Dataframe？

、、、、

谁能解释一下为什么Spark Dataframe在执行时间上比Pandas Dataframes更好。我正在处理中等容量的数据，并进行python函数供电的转换例如，我的数据集中有一个数字介于1到100,000之间的列，并希望执行基本的数值操作-创建一个新列，该列是现有数值列的多维数据集。 from datetime import datetime import numpy as np import pandas as pd def cube(num): return num**3 array_of_nums = np.arange(0,100000) dataset = pd

浏览 0提问于2019-04-30得票数 3

1回答

如何获得集群的最小和最大值

、、

我创建了一个scala程序，将k--方法应用于dataframe的特定列。Dataframe名称为df_items，列名为price。 import org.apache.spark._ import org.apache.spark.sql.types._ import org.apache.spark.ml.clustering._ import org.apache.spark.ml.feature.VectorAssembler val df_items = spark.read.format("csv").option("header","

浏览 1提问于2019-01-31得票数 0

回答已采纳

1回答

使用pyspark将Dataframe分割为Dict

、、

我有如下的数据帧 id | Key | Value | ----------------------- 0 | Key1 | 100 | 1 | Key1 | 101 | 2 | Key1 | 102 | 3 | Key1 | 103 | 4 | Key2 | 104 | 5 | Key2 | 105 | 6 | Key2 | 106 | 7 | Key3 | 107 | 8 | Key3 | 108 | 9 | Key3 | 109 | 我想使用下面的pyspark将数据框分组到某一列的dict { "

浏览 0提问于2020-06-11得票数 2

1回答