按一列对Spark df进行分组，并将一列的结果拆分为多列-旋转和选择性合并

、、、、

我有以下spark df 请注意，只有在已经通过运行以下命令安装了spark的情况下，您才可以在本地运行此命令。否则，在Databricks集群上复制该问题，该集群将自动初始化spark上下文。= spark.sparkContext spark_dataframe = pd.DataFrame({'id' : ['867', '430', '658', '157', &

浏览 25提问于2020-07-03得票数 1

回答已采纳

1回答

按星火数据帧所有列分组并计数

、、、

我希望使用Spark对数据帧的每一列执行Group。Dataframe将有大约。1000列。val df = sqlContext .format("org.apache.spark.sql.cassandra")channelDf.group

浏览 0提问于2019-08-12得票数 1

回答已采纳

1回答

按栏分组，然后在熊猫中按索引绘制盒图

、

我有一个大的数据，我想按某一列分组，并使用方框图以图形方式检查每个组的分布情况。我发现df.boxplot()会对数据文件的每一列都这样做，并将它放在一个图中，正如我所需要的。问题是，在进行了groupby操作之后，我的数据都在一列中，索引中有组标签，所以我不能对结果调用box图。以下是一个例子： df = DataFrame(

浏览 2提问于2013-12-19得票数 6

回答已采纳

1回答

Python Groupby字符串的一部分

、

我正在按英国邮政编码对交易列表进行分组，但我只想按邮政编码的第一部分进行分组。因此，英国邮政编码分为向外和向内两部分，由空格分隔。例如W1 5DA。subtotals = df.groupby('Postcode').count() 是我现在这样做的方式，我现在考虑的方式是在DataFrame中添加另一列，只包含邮政编码列<e

浏览 24提问于2017-02-01得票数 2

回答已采纳

2回答

海运条形图:没有为MultiIndex定义isna

、、、

我想使用seaborn barplot()从多索引系列创建条形图。我通过两个变量对我的数据集进行了分组： module_7_a_df = module_7_df.groupby(by=['Reported Race "MONRACE"', 'Hispanic Origin"HISPORIG"'])['SENTENCE CAP "SENSPCAP"'].

浏览 144提问于2021-06-19得票数 0

4回答

Pandas -按一列分组，按另一列排序，从第三列获取值

、、、

我想以pandas数据帧为例，按一列对其进行分组，按另一列对其进行排序，并从第三列中提取第一个元素并填充原始数据帧。这是我最初的df。我会按col_1分组，按col_2 (升序)排序，从col_3中取出第一个元素，然后用结果填充col_4。df_in = pd.DataFrame({

浏览 120提问于2019-06-01得票数 2

回答已采纳

1回答

下面的代码(pandas.DataFrame.groupby())做了什么？

、、

我读了一篇关于预测巨型数据集的生存能力的博客。在清理数据时，博主使用以下代码填充空的Age值： #Age was the most intricate column to be filled.谢谢你的帮助，这真让我头疼。

浏览 1提问于2021-07-19得票数 1

1回答

.CSV文件拆分日期: 2016年1月16日至2016年1月16日1月1日

、、、、

这就是我遇到问题的地方，我需要获取我的.csv文件的' date‘列，该列列出的日期为1/16/2016，并将其分隔，以便我可以为过滤后的.csv输出文件仅选择月份。我要阅读的最后一列如下: NAME，MONTH，INFO 整个“日期”列分为两年- 2016年和2017年。我需要获取2016年的名称、月份和<

浏览 1提问于2018-02-15得票数 1

1回答

为什么BigDecimal的火花BigDecimal(min/max)总是返回0？

、、

我试图按DataFrame的一列进行分组，并在每个结果组中生成BigDecimal列的min和max值。结果总是产生一个很小的(大约0)值。(对双列的类似min/max调用会产生预期的、非零的值。)如果我创建以下DataFrame： import org.apache.

浏览 0提问于2019-02-11得票数 6

回答已采纳

2回答

熊猫数据分类词典

、、、

Subject_2 Music Day 7我希望对这些列进行分层分组pivot，并获得了所需的结果。df.pivot('Subject_id', 'Subject', 'Score').to_dict('index') 但是如果我再试一列(一层更深<

浏览 3提问于2018-01-15得票数 5

回答已采纳

1回答

如何按内容将excel排序结果输出到单独的列中

、、、

我有一个excel列，我想对结果进行排序，并将结果输出到一个单独的表中。我希望将输出分类为不同的列，这样输出表中的每一列都应该有它自己的内容类型，只有在原始表中显示的次数一样多。例如，如果原始列如下所示：LeftRight我要下一张纸显示：Right L

浏览 0提问于2020-06-16得票数 0

回答已采纳

1回答

在pandas dataframe python中创建子列

、、

我有一个包含多列的数据帧 df = pd.DataFrame({"cylinders":[2,2,1,1],1 2 100 6200 3 1 70 1200 我想创建一个新的数据帧，并用中位数和平均值创建两个权重子列，同时用

浏览 21提问于2019-01-13得票数 1

回答已采纳

2回答

我有一个计算，我必须为23个人执行(他们为每个人分配了不同数量的行，所以在excel中很难做到。我想做的是把每个人完成测试所用的总时间分成5个时间类别(20%)，这样我就可以更详细地了解他们的反应时间。我将手动完成此操作，但这将需要相当长的一段时间，因为他们每个人都有8组数据。我希望有人能告诉我使用循环的最好方法，或者让这个过程自动化一点。我试着理解这些例子，但恐怕我没有这方面的技能。因此，我会像下面这样手工操作，我只是根据每个主题进行过滤。我从选择相关的</

浏览 0提问于2020-10-13得票数 0

1回答

Pandas按列值将数据帧拆分为两个数据帧-不使用GroupBy

、

我想根据列值将我的Pandas数据帧按行拆分为两个数据帧。对于可以按列值对行进行分组的情况，有许多问题和答案。但是，在我的示例中，我希望在特定列中具有唯一字符串的行上拆分我的数据帧。我的计划是获取具有唯一列值的行的行索引，如下所示： split_row_

浏览 12提问于2020-08-26得票数 0

回答已采纳

3回答

如何将两列合并为新的DataFrame？

、、

我有两个DataFrames (Spark2.2.0和Scala2.11.8)。第一个DataFrame df1有一个名为col1的列，第二个df2也有一个名为col2的列。两个DataFrames中的行数相等。我尝试过join，但我认为应该有其他方法来实现它。另外，我尝试应用withColumm，但它没有编译。val resul

浏览 1提问于2017-11-24得票数 3

回答已采纳

1回答

从python中的另一个数据帧中计数具有特定模式的每组数据帧中的元素数。

、、

我试图计算一个数据帧中一个组的元素数，并根据第二个数据帧中某一列的某种条件将其分配给另一个数据帧中的另一列。，并计数df1中具有相同id并具有字符串‘df1’和df1的1-1部分的元素数，以便输出如下所示1 aaa-1-1 3 return <e

浏览 2提问于2019-12-11得票数 1

回答已采纳

1回答

根据非分组列中的条件对多列进行分组并附加值

、

我想对我的dataframe中的几个列进行分组，然后将一个新列附加到原始dataframe中，其中包含一个非聚合值，该值由分组之外的另一列中的条件确定。1,0,0,0,1,0,0,0,1,0,0,1], }) 我想按

浏览 4提问于2021-08-24得票数 1

回答已采纳

1回答

如何根据开始日期列和合并为一列来选择不同列的部分

、

我需要从不同的列中选择值(同一列的不同版本，例如datecol、col1_v1、col1_v2、col1_v3...)基于日期栏的开始和结束日期(因为每个版本都在特定日期开始和结束)，并将它们合并到单个列中我已经获得了作为键值对的开始和结束日期，并且使用.between函数，我能够根据日期条件之间的筛选条件来获得每一列的

浏览 0提问于2019-09-23得票数 0

1回答

使用spark* sql计算收入贡献*

、、

我有一张这样的桌子----- -----burger 500pizza1000pizza 1000 我需要计算汉堡和披萨的收入贡献。一种方法是首先获得单个项目的mrp总和，并存储在一个变量中，然后获得所有项目的总mrp的总和，执行division.But这将需要对单个项目进行循环。我想用spark

浏览 1提问于2017-07-19得票数 1

3回答

火花DataFrame总结

、

假设我有一个类似于这样的Spark：----------------- Sue F 2 Gil M 2 Kim F 3我想要创建这样一个单一值的报告：--------------------------------------- 2

浏览 1提问于2018-05-11得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

按星火数据帧所有列分组并计数

按栏分组，然后在熊猫中按索引绘制盒图

Python Groupby字符串的一部分

海运条形图:没有为MultiIndex定义isna

Pandas -按一列分组，按另一列排序，从第三列获取值

下面的代码(pandas.DataFrame.groupby())做了什么？

.CSV文件拆分日期: 2016年1月16日至2016年1月16日1月1日

为什么BigDecimal的火花BigDecimal(min/max)总是返回0？

熊猫数据分类词典

如何按内容将excel排序结果输出到单独的列中

在pandas dataframe python中创建子列

我需要在R中使用循环，但不知道从哪里开始

Pandas按列值将数据帧拆分为两个数据帧-不使用GroupBy

如何将两列合并为新的DataFrame？

从python中的另一个数据帧中计数具有特定模式的每组数据帧中的元素数。

根据非分组列中的条件对多列进行分组并附加值

如何根据开始日期列和合并为一列来选择不同列的部分

使用spark* sql计算收入贡献*

火花DataFrame总结

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐