Spark:仅对DataFrame中的部分行进行分组_如何在Apache Spark SQL中仅对某些列按汇总进行分组？_如何在spark.dataframe中对分组数据进行编码？ - 腾讯云开发者社区

、、

在给定的DataFrame中，我只想将几行分组在一起，并将其他行保持在相同的数据帧中。我目前的解决方案是： val aggregated = mydf.filter(col("check").equalTo("do_aggregate")).groupBy(...).agg() valfinalDF = aggregated.unionByName(mydf.filter(col("check"

浏览 22提问于2019-10-14得票数 0

2回答

Python: pandas数据帧中的条件group by

、、

如何在dataframe中执行条件group by操作，即只对满足特定条件的元素进行分组，而保持其他元素不变？假设我有以下数据帧： initial dataframe 如何仅对类型为"type 2“的元素进行分组并将新名称设置为"z” resulting dataframe

浏览 25提问于2020-11-05得票数 0

回答已采纳

1回答

将Hadoop中的大数据导入Spark的有效方法

、、

由于我在大数据领域才刚刚起步，我正在寻求关于如何将一些数据放入Spark以进行分析的最有效方法的建议。 SQL查询相当大，有多个子查询，每个子查询都有自己的"when“、"group by”等。The最终数据大约有100万到2000万行。如果我运行一个spark sql查询并使用pyspark将其保存到一个dataframe中，或者如果我将每个子查询提取到不同的spark <em

浏览 20提问于2021-02-07得票数 0

1回答

按聚合(求和)双进行分组在spark中产生不一致的结果

、、、、

我在Scala和Spark2.0中看到了一些不一致的行为，它们聚集双倍，然后根据聚合值进行分组。这只发生在集群模式下，我相信这与双数相加产生一个稍微不同的数字的顺序有关。在初始聚类后，我根据求和值对结果和分组进行分析。有时看到1行，有时根据小数点20位左右的值，看到2行。我无法显示完整的示例，但这里是REPL中的简化/

浏览 3提问于2017-03-07得票数 0

回答已采纳

2回答

将cache()和count()应用于数据库中的Spark是非常慢的。

、、、

然而，在我尝试这样做的过程中，我遇到了以下悖论：步骤1:从Azure数据湖存储帐户读取800万行 read_avro_data=spark.read.format("avro"我的应用程序有800万行，运行得很好，但我想在大数据环境中对我的应用程序进行压力测试。因为800万行不是大数据。因此，我复制了我的800万行--

浏览 0提问于2020-06-01得票数 3

回答已采纳

2回答

如何在DataFrame中跨组使用LinearRegression？

、、、

假设我的spark DataFrame (DF)看起来像----------------------------id | intercept| slope ----------------lr_object.intercept_, lr_ob

浏览 1提问于2017-05-04得票数 1

1回答

使一个函数成为.agg()在groupBy语句中的组件，将生成一个AssertionError

、、

= spark.sparkContextspark_dataframe = pd.DataFrame( 我的问题我按ID对数据进行分组，并希望将应用于函数中的聚合。因

浏览 3提问于2020-07-01得票数 1

回答已采纳

1回答

Excel扇区图表组行

、

现在我要显示图表中每个类别的总和。如何仅对图表中相同类别的行值进行分组？

浏览 0提问于2018-05-19得票数 0

回答已采纳

2回答

生成不相交的火花DataFrame集

、

只要多个列中的一个列具有相等值，我就会对Spark DataFrame进行分组。("a3", "b2", "c3"), ("a5", "b5", "c5") ).toDF("a", "b", "c&qu

浏览 20提问于2020-07-02得票数 1

1回答

使用Apache Spark和AWS从每日CSV文件生成月度数据

、、、

我的CSV文件具有相同的列和一百万个匹配的ID，用于2018年的每一天。每一列都有5列，不包括ID。我想按月连接文件，这样每个月的文件都有5列*天数，因此1月份将有155个名称为Day1-Col1，Day1-Col2...第31天-Col5。这是我可以用Apache Spark做的事情吗？我选择Spark是因为我想将数据放入AWS Athena数据集中，而AWS Glue似乎可以通过Spark SQL查询来实现这一点。我想我们会先把

浏览 18提问于2019-09-17得票数 0

回答已采纳

1回答

用Apache和Java对DataFrame进行分组和聚合？

、、

我有一个DataFrame，它在Spark中加载了以下模式：如何通过电子邮件对其进行分组，计算每个组中的记录，并使用此模式返回aDataFrame：电子邮件，first_name，last_name，order_count

浏览 0提问于2016-01-25得票数 1

回答已采纳

1回答

在Pandas DataFrame中对行进行排序

、、、

我正在尝试仅对DataFrame中的选定行进行排序。下面是我的代码： df = pd.DataFrame.from_dict(data_set) df.loc[df.category == 'Filter_Category'] = df.loc[df.category== 'Filter_Category'].sort_values(by=['Field_Name'], inplace=True) 这导致在更新

浏览 9提问于2020-03-30得票数 0

2回答

触发数据帧groupBy并将结果排序到列表中

、、

我有一个Spark Dataframe，我想按键对元素进行分组，并将结果作为排序列表df.groupBy("columnA").agg(collect_list("columnB")) 如何使列表中的项目按升序排列？

浏览 5提问于2016-08-01得票数 18

回答已采纳

1回答

如何在spark中从dataframe创建多个列表？

、、、

如何在spark中从dataframe创建多个列表。在我的例子中，我希望使用分组特定键对mongodb文档进行排序。并且创建多个列表，这些列表是基于模式的一个键进行分组的，请帮助我MongoSpark.load[

浏览 1提问于2017-08-24得票数 1

1回答

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

、、

我有这样的数据：|count| country|| 12| Ireland|+-----+--------+ AttributeError: 'DataFrame' object has no attribute谢谢你，感谢你的帮助。

浏览 3提问于2017-05-29得票数 1

2回答

将自定义函数应用于星火数据访问组

、、、、

我有一个非常大的时间序列数据表，其中包含以下列：我计划在dataframe中使用spark，但我对如何对spark分组数据执行自定义计算感到困惑。我需要做的</

浏览 2提问于2016-09-20得票数 10

回答已采纳

2回答

当我在window中使用partitionBy时，为什么spark/scala会得到不同的结果？

、

我使用Window.sum函数来获取RDD中的值的总和，但是当我将DataFrame转换为RDD时，我发现结果只有一个分区。重新分区发生在什么时候？5| 15|// | 7| 28|// +------+----+ val rdd=sc.parall

浏览 2提问于2017-06-13得票数 0

1回答

如何在两个不同的DataFrames中添加相应的整数值

、

我的代码中有两个DataFrames，维数完全相同，假设是1,000,000×50。我需要在两个数据文件中添加相应的值。如何实现这一目标。一个选项是添加另一个带有ids的列，union和DataFrames，然后使用reduceByKey。但还有其他更优雅的方式吗？谢谢。

浏览 5提问于2017-03-09得票数 0

回答已采纳

1回答

(py)Spark中分组数据的模式

、、、

我有一个有多列的spark DataFrame。我想根据一列对行进行分组，然后为每组找到第二列的模式。['y'])[0][0] ## x## 1 1在pyspark中，我能够找到单个列执行的模式 df = sql_context.createDataFrame(rand_val

浏览 1提问于2016-04-16得票数 10

回答已采纳

1回答

用另一个聚合行在dataframe中聚合行

、、、

c','e','','']} data现在，当我基于UID对数据进行分组并聚合成组行的数据时。注意，这里我不希望将带有uid = "“的行分组在一起。现在，我想按照上面的dataframe进行分组，让我们假设PID上的temp d

浏览 1提问于2020-08-21得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云