将每个组的合计作为新行添加到Pyspark中的dataframe中

文章/答案/技术大牛

发布

1回答

、、

参考我之前的问题，如果我试图计算并添加每个品牌的总行数、parent Here和week_num (总使用量) 这是一个虚拟样本： df0 = spark.createDataFrame( ],

浏览 27提问于2020-09-23得票数 0

回答已采纳

1回答

每个组的行和，并将总计作为新行添加到Pyspark中的dataframe中。

、、

我有一个像这个样本一样的数据 [(2, "A" , "A2" , 2500),| 5| C| c27| 1100|+------+-----+-----+-----+ 我想做的是计算，每组的总使用量，并把它作为一个新

浏览 4提问于2020-09-11得票数 0

回答已采纳

1回答

用户定义对窗口中所有行的函数

、、

我有一组带有一组字符串特征ids的时间戳位置数据，这些ids被附加到每个位置。我想使用spark中的一个窗口将当前N行和下一个N行ala的所有这些特征id字符串的数组连接起来：from pyspark.sql.window import WindowwindowSpe

浏览 2提问于2017-04-13得票数 1

回答已采纳

2回答

SSRS中的合计不显示当前数字

、、、

原因可能在我的查询中，因为我使用了MAX来获取唯一的记录。但是现在我的SSRS报告不能显示正确的NetWrittenPremium金额。解决此问题的方法是什么？下面是我的问题： b.MonthNum, QLL.Description,GROUP BY b.YearNu

浏览 3提问于2016-08-26得票数 0

2回答

SSRS 2008中分组值的总行计数

、、

我有一个报告，其中显示了所有帐户的名称以及在每个帐户下执行的活动。我想对AccountName进行分组，并获取每个帐户执行的活动总数。ABC公司:1感谢您的帮助！

浏览 0提问于2013-05-01得票数 12

回答已采纳

1回答

使用动态列名设置组合计的格式

我想要完成的工作:1.将CaseNo列设置为，使新组在单独的行中突出显示，并且在记录新组之前，每个细节都遵循相同的列。2.调用特定组的组合计中的列的名称

浏览 0提问于2014-06-09得票数 0

1回答

我想知道是否有任何方法可以使用pyspark对数据进行过采样。我有10个类的目标变量的数据集。到目前为止，我正在像下面这样对每个类进行过采样以进行匹配 transformed_04=transformed.where(F.col('nps_score')==4) transformed_03=transformed.where对于ex，如果第四个类有2000行，第二个类有10行，则手动检查并相应地提供值16,12，如上面的代码所示请原谅我提到的代

浏览 121提问于2020-07-03得票数 0

3回答

将数据碎片添加到新列中的另一个数据文件中

、、、

一个是空的，另一个是包含很多行的。我希望用值对dataframe进行分组，然后对每个组的前3行进行切片，并将它们添加到空的dataframe中。我希望每个新的3行被放入一个新的列中。到目前为止我的代码是： df = pd.Dataframe

浏览 1提问于2019-04-29得票数 1

回答已采纳

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import pandas as pdfrom pyspark.sql import SQLContext py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 4

浏览 1提问于2018-04-14得票数 1

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。现在我为dataframe中的</em

浏览 1提问于2018-12-17得票数 0

1回答

如何插入分组总和的总和行

、、、

我正在尝试在groupby sum之后插入一个新的合计行。我可以得到我的表中的分组总和。我也可以用第二个groupby sum来计算groupby sum的和。我在这里尝试并搜索了一种解决方案，以在每个组之后插入/附加每个和作为新的行(例如，名为Total)，但无济于事。第一组总和 df.group

浏览 11提问于2019-02-15得票数 0

2回答

将rollup的输出添加为PySpark* DataFrame中的新行*

、、、

我正在将sql代码转换为Pyspark。我试着做同样的事情，但不知道如何得到总计数行。我有一个包含state、city和count的表，我想在州段的末尾为每个州添加一个总计数。Seattle 10MA Boston 11MA Quincy 5 这是我想要

浏览 0提问于2018-04-11得票数 0

回答已采纳

1回答

如何根据列值在现有的dataframe中添加新行？

、、

我有一个dataframe，但是我想根据现有的dataframe添加新的行。每个ID都有自己的组，从父ID继承。但是，我希望将新行附加到dataframe中，在其中，它会将父id添加到新id中，并添加一个基于其子id的组。

浏览 0提问于2019-06-19得票数 2

回答已采纳

4回答

从较短的列表中添加dataframe列

、、、

我有三列的数据。第一列指定每一行被分类的组。每个组通常由3个数据点(行)组成，但最后一个组有可能被“切断”，并且包含少于三个数据点。在现实世界中，这可能是由于实验或数据收集过程被过早切断。在下面的示例中，第3组被切断，并且只包含一个数据点。x_list = [1, 3, 5]我希望将这些列表作为新列

浏览 13提问于2022-07-01得票数 1

1回答

如何在Sharepoint 2013自定义列表中连接行

、、、

我有各种自定义列表，它们将最终的总分/数据发送到一个用作排行榜的主列表(通过SP2010工作流)。我将排行榜设置为以下列:按周创建共1周共2周共3周但是，当每个列表将“分数”发送到排行榜时，它会为用户创建一个新行。因此，使用上面的列作为参考，我将获得创建者，然后是wk1合计，那么第二行将是相同的创建者和wk2合计，第三列是创建者和wk

浏览 0提问于2015-03-31得票数 0

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

、、、、

下面是创建pyspark.sql DataFrame的代码import pandas as pddf = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),samplingRatio=0.1)a b c 1

浏览 0提问于2015-08-11得票数 6

2回答

如何在函数后将pandas组中的值添加到新的Dataframe中？

、

我正在尝试将一个Dataframe分成组，通过一个函数运行每个组，并将每个组第一行的返回值放入一个新的Dataframe中。当我尝试下面的代码时，我可以打印出我想要的信息，但是当我尝试将它添加到新的Dataframe中时，它只显示最后一个组的</em

浏览 14提问于2020-01-22得票数 1

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints<

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

SSRS报告-子组合计

每条记录都是单独的资产。我希望我的报告按某个字段分组，然后按由几个不同字段确定的特定标准分组。基本上有一个父组和三个相邻的子组。我的分组功能工作正常，但是我发现很难将总计添加到每个相邻的子组中。当我添加一个合计时，它是对整个数据集范围内的特定字段进行合计，而不是仅将合计限制

浏览 1提问于2014-06-17得票数 0

2回答

作为实际行的SSRS矩阵行组

我不确定如何解释这一点，我已经尝试了很多不同的选择，但我想要的是这样的。我希望矩阵行组在布局中显示为实际的行，而不是列。因此，如果我创建一个矩阵，其中包含一个资源列组和两个行组:项目组和项目名称，则这两个行组不应该在单独的列中。我只想让组变得粗体，并将同一列中的</

浏览 0提问于2009-05-20得票数 3

点击加载更多