Spark在单个链中使用多个groupby。如何避免？

文章/答案/技术大牛

发布

1回答

这是我使用Spark的第二份工作，我想知道是否有可能避免类似的操作。 .groupBy( "task_attributes.call_sid") \ .pivot("call_ended").cast("

浏览 16提问于2020-02-27得票数 1

1回答

Microsoft Spark聚合方法

、、

我正在使用Microsoft.Spark Spark API并将GroupBy应用于DataFrame对象。我想在分组后将Agg应用于多个列。在pyspark中，我会用下面这样的东西来表达我想要实现的目标 new_df = df.groupBy("customer_id") func.mean("a").alias使用.NET应用程序接口，我已经设置了DataFra

浏览 18提问于2021-10-01得票数 0

回答已采纳

2回答

分组数据的火花并行处理

、、、

但是使用spark，特别是groupBy，可以将其缩减到一个可管理的大小。(适用于单个节点的RAM )如何确保将单个组的数据收集到单个节点？例如，我可能希望使用local matrix进行计算，但不希望遇到有关数据局部性的错误。

浏览 1提问于2016-04-20得票数 4

回答已采纳

5回答

PySpark中的Panda的value_counts()的等价物是什么？

、、、

我有以下python/pandas命令：我在这里获取DataFrameGroupBy如何在PySpark中执行此操作？

浏览 1提问于2018-06-27得票数 32

1回答

使用列名数组聚合Spark数据框，并保留这些名称

、、、

我希望使用列名数组作为输入来聚合Spark数据帧，同时保留列的原始名称。这是可行的，但不能保留名称。受到找到的答案的启发，我尝试了一下，但没有成功：error: no `: _*'annotation allowed heredf.

浏览 4提问于2016-09-08得票数 4

回答已采纳

1回答

什么是实现分散的、不信任的交易的最佳方式，涉及真实的金钱和虚拟货币？

、、、

这是否有可能使我们在现实世界中进行一项交易(用金钱购买商品/服务) 让我们举一个虚拟货币兑换的例子，有人在卖比特币，我想买，我们商定了条件和价格，现在他让我把钱转到他/她的银行账户。我们能避免这种情况吗？使用一个聪明的合同，可以持有真正的钱，只有转让给卖方，如果可以核实交易的区块链，如果不送我回去。

浏览 0提问于2017-06-08得票数 1

1回答

我注意到的基本要点是，当我将每个任务设置为使用一个核心(默认)时，我对工作人员的CPU利用率约为70%，每个执行器将同时执行36个任务(正如我所预期的)。但是，当我将配置更改为每个任务有6个核心(--conf spark.task.cpus=6)时，我会将每个执行器每次下降到6个任务(如预期的那样)，但我的CPU利用率也会下降到10%以下(出乎意料)。我会假设Spark会知道如何在这6个核心上并行工作负载。重要的实现细节是，我在DataFrame的一个列上运行一个UDF函数，并将结果作为该datafra

浏览 0提问于2018-01-04得票数 2

回答已采纳

1回答

Cassandra中的自定义分区程序

现在，为了通过Spark进行分析，我希望将特定devid的所有数据都放到同一个节点上，而不考虑维度和纪元，这样就有了良好的数据局部性，并且对于单个devid的分析，我可以避免Spark中的网络数据混洗。然而，每个devid的数据量将太大，在单个分区中效率不高。因此我不能定义像(devid，dimension，epoch)这样的主键。然而，这将开始将单个devid的数据放在多个节点上(然后Spark将

浏览 25提问于2019-02-15得票数 0

0回答

将pyspark 2.2.0数据帧分区写入S3并行化

、、、

开始使用pyspark，遇到了我用代码创建的瓶颈： g=df.groupBy(df.drive_id) rows=sorted(g.count().collect())如何使用单个写入命令替换循环，该命令将在单个操作中将所有分区

浏览 4提问于2017-12-10得票数 0

1回答

Scala:如何合并数据帧中的多个CSV文件

我正在编写下面的代码以获取RDD中的csv文件，我希望合并多个csv文件，并希望存储在单个RDD变量中。我能够在RDD中存储一个csv文件的数据，帮助我如何合并多个csv文件并存储在单个RDD变量中。val Rdd = spark.sparkContext.textFile(“File1.csv").map(_.split(","))

浏览 0提问于2018-01-11得票数 0

回答已采纳

2回答

如何防止jointjs / rappid中的循环

我正在构建一个使用jointjs / rappid的应用程序，我希望能够避免在多个单元格之间出现循环。Jointjs已经有了一些关于如何在单个单元格中避免这种情况的示例(将"out“端口连接到同一单元格的”端口“中)，但对于如何检测和防止循环在链中更高的位置上的发生没有任何了解。这就是我想要避免的。任何帮助都是非常感谢的。

浏览 2提问于2018-03-03得票数 1

回答已采纳

1回答

Spark/Koalas实现pandas resample('D')方法

、、、、

我有一个Spark数据帧需要填充。数据帧大小较大(>1亿行)。我可以使用pandas实现我想要的效果，如下所示。new_df = df_pd.set_index('someDateColumn') \ .groupby(['Column1', 'Column2', 'Column3'].reset_index(['Column1', 'Column2', 'Column3

浏览 5提问于2020-08-04得票数 0

2回答

设置多个NSWindowController对象和NSDocument

、、

我是NSDocument体系结构的新手，我希望为单个文档设置多个窗口(以及多个NSWindowController对象)。据我所知，NSDocument实际上是为了使用单个窗口而创建的，而且似乎在后面增加了多个窗口的能力。例如，似乎NSDocument应该始终是任何窗口的NIB文件的所有者。例如，在NSDocument子类中，我目前正在使用以下代码： [self

浏览 2提问于2015-10-18得票数 0

回答已采纳

1回答

火花DataFrame清除重复通过GroupBy第一

、、、

我正在使用groupBy函数来删除火花DataFrame中的重复项。对于每个组，我只想选择第一行，这将是最近的一行。我不想执行max()聚合，因为我知道结果已经存储在Cassandra中，并且希望避免不必要的计算。看使用熊猫，这正是我想要的，除了在星火。df = sqlContext.read\

浏览 2提问于2016-07-19得票数 2

回答已采纳

1回答

按文件进行Spark分区

、、

我在一个S3存储桶上有几千个压缩的CSV文件，每个文件的大小约为30MB(解压后约为120-160MB )，我想使用spark处理这些文件。在我的spark工作中，我对每一行执行简单的filter select查询。有没有一种方法可以获取文件和分区数据，使每个任务处理一个完整的文

浏览 0提问于2017-09-06得票数 1

1回答

遍历scala中的文件以根据文件名创建值

、、、、

我想可能有一个简单的解决方案，我想知道是否有人知道如何迭代一组文件并根据文件名输出一个值。我的问题是，我想读取每个月的一组图的边，然后创建一个单独的月图。

浏览 1提问于2016-02-05得票数 0

1回答

PySpark -在读取拼花后优化分区数

、、、

在一个由year和month分隔的拼花数据湖中，spark.default.parallelism设置为4，假设我想创建一个DataFrame，由2017年以来的11~12个月，以及2018年的1~3个月df = spark.read.parquet( "A.parquet/_YEAR={2018}/_MONTH"B.parquet/_Y

浏览 1提问于2018-06-05得票数 2

回答已采纳

1回答

Apache Spark* with Java :同时启动多个应用程序请求*

、、、

我们在java中使用spark，并创建了Java REST api来调用我们的spark代码。在调用REST url时，我的java方法将创建SparkSession和上下文以进行计算。这对于单个请求可以很好地工作，但是对于多个请求，我们同时收到了与SparkContexts相关的问题:在同一驱动程序JVM中有多个SparkContexts 也尝试使用: conf.set("spark.d

浏览 0提问于2019-06-10得票数 1

3回答

pyspark列不可迭代

、

当我尝试groupBy并获取最大值时，有了这个数据帧I正在获取列是不可迭代的：+---+-----++---+-----+ 65 linesWithSparkDF.show(10)---> 67 linesWithSparkGDF = linesWithSparkDF.groupBy(col("id")).agg(max(col("cycle"))) 68 print

浏览 4提问于2016-04-29得票数 23

回答已采纳

1回答

DataFrame - join /groupBy按-agg-分区

、、、、

在RDD的日子里，每当我想要执行.groupBy-agg时，我都会说reduceByKey (对于PairRDDFunctions)和一个可选的分区策略(使用的是分区的数量或分区工具) b. join(对于PairRDDFunctions)及其变体，我曾经有一种方法可以提供许多分区在DataFrame中，如何指定此操作过程中的分区数量？我可以在事后使用repartition()。但这将是工作的另一个阶段。在join

浏览 0提问于2017-07-12得票数 1

点击加载更多