将Groupby with Join Spark SQL查询更改为Spark Dataframe

可以通过以下步骤实现：

首先，我们需要创建一个SparkSession对象，用于与Spark集群进行交互。

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Groupby with Join") \
    .getOrCreate()

接下来，我们可以使用SparkSession对象读取数据源并创建两个DataFrame对象，分别表示要进行Groupby和Join操作的数据。

# 读取数据源并创建DataFrame对象
df1 = spark.read.format("csv").option("header", "true").load("data1.csv")
df2 = spark.read.format("csv").option("header", "true").load("data2.csv")

然后，我们可以使用DataFrame的API进行Groupby操作。

# Groupby操作
grouped_df = df1.groupBy("column1").agg({"column2": "sum"})

接下来，我们可以使用DataFrame的API进行Join操作。

# Join操作
joined_df = df2.join(grouped_df, df2.column3 == grouped_df.column1, "inner")

最后，我们可以对结果进行进一步的处理或分析。

# 对结果进行处理或分析
result_df = joined_df.select("column4", "sum(column2)")

以上是将Groupby with Join Spark SQL查询更改为Spark Dataframe的步骤。在这个过程中，我们使用了SparkSession对象创建DataFrame，并使用DataFrame的API进行Groupby和Join操作。最后，我们可以对结果进行进一步的处理或分析。如果你想了解更多关于Spark Dataframe的信息，可以访问腾讯云的Spark文档：Spark Dataframe。

将Groupby with Join Spark SQL查询更改为Spark Dataframe

我最初使用Spark SQL编写脚本，但现在出于性能和其他原因，我尝试将Sql查询转换为PySpark数据帧。SQL查询列出了每个发货人发送的订单数量： sqlContext.sql("SELECT Shippers.ShipperName, COUNT(Orders.ShipperID) AS NumberOfOrders，当我尝试用Spark Dataframe替换上面的SQL<em

浏览 17提问于2018-09-04得票数 2

回答已采纳

1回答

SortMergeJoin不更改为广播连接

、

我调用了星火外壳并通过查询验证相同：res11: Long = 10240scala>

浏览 0提问于2019-09-03得票数 0

2回答

为什么在显示操作员之后不能加入？

、、、

val tempTableB = tableB.groupBy("idB") (right: org.apache.spark.sql.Dataset[_],joinExprs: org.apache.spark

浏览 0提问于2017-07-26得票数 2

回答已采纳

1回答

如何使用Spark* dataframe获取一个范围内两个表之间的日期差异*

我正在尝试将下面的spark Sql查询转换为Spark Dataframe。我的Spark SQL查询列出了每个发货人发送的订单数量： sqlContext.sql("SELECT Shippers.ShipperName, COUNT(Orders.ShipperID)by查询conversion.The的问题是日期和时间的转换，并得到1到10天之间的差异。.groupby<

浏览 9提问于2018-09-06得票数 1

回答已采纳

1回答

如何使用Spark在JDBC中持久化窗口()函数的输出？

、、

stream .flatMap(MyParser.parse(_)) val spark= SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate() val countsDf =

浏览 3提问于2016-08-28得票数 3

回答已采纳

1回答

Scala & Spark:回收SQL语句

、、

我花了相当长的时间编写多个SQL查询的代码，这些查询以前用于获取各种R脚本的数据。有了Spark 2.0，我已经想出了一种方法val tableDf = spark.read.jdbc另外，更复杂的查询，例如不协调子查询分解目前无法工作的查询。是否有一种更

浏览 1提问于2016-09-23得票数 11

1回答

使用Spark的Sybase中的SQLException(您请求的RSMDA列类型名称未知)

、、、、

"query = "(select * from Table_A A LEFT JOIN TABLE_B B ON A.id =因此，我将我的查询更改为如下所示，以删除order by query = "(select * from Table_A A LEFT JOIN TA

浏览 0提问于2020-03-18得票数 0

2回答

如何在Spark* SQL中使用交叉连接和交叉应用*

、、

我是Spark和Scala的新手，我编写Spark SQL代码。我在我的逻辑中应用交叉连接和交叉应用的情况。在这里，我将发布SQL查询，我必须将其转换为spark SQL。select Table1.Column1,Table2.Column2,Table3.Column3 from Table1 CROSS JOIN Table2 CROSS APPLY Table3我需要上面的查询转换成Spark</em

浏览 4提问于2016-11-23得票数 4

3回答

如何将注册为spark表的表放入数据帧

、、、

我已经使用spark-thriftserver connection将表从PostgreSQL数据库导入到spark-sql中，现在我可以从直线上看到这些表。有没有办法把这些表格转换成spark数据帧？

浏览 1提问于2016-09-25得票数 2

2回答

处理dataskew而不盐碱化spark中的连接键

、、

我试图用一个30行的dataframe内部连接一百万行数据，这两个表都有相同的连接键，spark正在尝试执行排序合并连接，并且由于这个原因，我的所有数据都在同一个执行器中结束，而Job永远不会完成。| | 1 | Jan |+-------+-----------+广播分区数的输出 spark.table("

浏览 8提问于2020-06-06得票数 1

7回答

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

、、

在使用spark、*Spark sql join*和*spark dataframe join*从HBASE获取和操作数据时，哪个更快？

浏览 2提问于2016-06-01得票数 2

5回答

重写scala代码使其更加实用

我试着教自己Scala，同时尝试编写函数式语言的惯用代码，即编写更好、更优雅、更实用的代码。我有以下代码可以运行：import org.apache.spark.sql.(df: DataFrame){ def featuresGroup1(groupBy: Seq[String], asAt: LocalDate): DataFrame = {df}featuresGroup2)都具有相同的

浏览 2提问于2018-05-23得票数 2

回答已采纳

1回答

如何在SQL中使用枢轴(不是作为DataFrame分组操作符)？

、、、

我有这个dataframe，我试图将这个dataframe操作转换成sql使用pivot函数。withColumn("splitted", split($"page_path", ",")) .groupBy我试过这样做， &quo

浏览 0提问于2020-05-11得票数 4

回答已采纳

2回答

Scala Spark* -统计Dataframe列中特定字符串的出现次数*

、、、、

如何使用按id分区的Spark来计算df列中字符串的出现次数在SQL中是： SUM(CASE WHEN name = 'testwindow AS (PARTITION BY id)以及像这样的东西： def getCount(df: DataFrame): DataFrame

浏览 0提问于2017-10-29得票数 4

1回答

新的Dataframe列作为其他行的通用函数(spark)

、、、

如何有效地在 DataFrame 中创建一个新列，该列是 spark 中其他行的函数from nltk.metrics.distance import edit_distanceas edit_distfrom pyspark.sql.types import IntegerType 'id': [1, 2, 3, 4, 5, 6],

浏览 0提问于2018-01-09得票数 0

回答已采纳

2回答

如何使用spark* dataframe API按最大(日期)选择*

、

List((41,"a1",1), (1, "a2", 2), (2, "b1", 3), (2, "b2", 4))).toDF("id", "v", "date") scala> val agg = df.groupBy("id&

浏览 1提问于2016-11-15得票数 3

1回答

在Spark* SQL中传递参数*

、

我需要在Spark SQL中传递参数。例如，我有以下查询作为Val时间戳=spark.sql("select timestamp from tablea ")，现在，我有另一个查询要在where类Spark.sql中传递这个时间戳(s“select但是上面的查询返回不匹配的表达式错误。有没有人能提个解决方案

浏览 1提问于2020-02-04得票数 0

1回答

Spark DataFrame groupBy和聚合抛出了NegativeArraySizeException

、、

我在Spark DataFrame上执行以下查询 .select("id") .agg(count("*").as("count")):234)at org.apache.spark.sq

浏览 0提问于2016-06-10得票数 0

1回答

Microsoft Spark聚合方法

、、

我正在使用Microsoft.Spark Spark API并将GroupBy应用于DataFrame对象。我想在分组后将Agg应用于多个列。在pyspark中，我会用下面这样的东西来表达我想要实现的目标 new_df = df.groupBy("customer_id") func.mean("a").alias使用.NET应用程序接口，我已经设置了DataFrame，但不了解如何以类似的方式使用.

浏览 18提问于2021-10-01得票数 0

回答已采纳

3回答

用Spark中另一个类别列的平均值替换列的空值

、、、

val df2 = dataFrame.groupBy(category).agg(mean(value)).rdd.map{ case r:Row => (r.getAs[String](output: Map(A ->4.16,B->0.5)现在我尝试了Sparksql中的update查询来填充列，但似乎spqrkSql不支持更新查询。我试图用填充空值，但失败了。我能做什么?

浏览 6提问于2017-02-21得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将Groupby with Join Spark SQL查询更改为Spark Dataframe

相关·内容

将Groupby with Join Spark SQL查询更改为Spark Dataframe

SortMergeJoin不更改为广播连接

为什么在显示操作员之后不能加入？

如何使用Spark* dataframe获取一个范围内两个表之间的日期差异*

如何使用Spark在JDBC中持久化窗口()函数的输出？

Scala & Spark:回收SQL语句

使用Spark的Sybase中的SQLException(您请求的RSMDA列类型名称未知)

如何在Spark* SQL中使用交叉连接和交叉应用*

如何将注册为spark表的表放入数据帧

处理dataskew而不盐碱化spark中的连接键

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

重写scala代码使其更加实用

如何在SQL中使用枢轴(不是作为DataFrame分组操作符)？

Scala Spark* -统计Dataframe列中特定字符串的出现次数*

新的Dataframe列作为其他行的通用函数(spark)

如何使用spark* dataframe API按最大(日期)选择*

在Spark* SQL中传递参数*

Spark DataFrame groupBy和聚合抛出了NegativeArraySizeException

Microsoft Spark聚合方法

用Spark中另一个类别列的平均值替换列的空值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐