文章/答案/技术大牛

发布

Spark SQL -连接两个表:如何引用列名？

在Spark SQL中，连接两个表可以使用JOIN操作。要引用列名，可以使用表别名或者表名加上列名的方式。

以下是连接两个表的示例代码：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("Spark SQL Join")
  .config("spark.some.config.option", "some-value")
  .getOrCreate()

// 创建两个DataFrame
val df1 = spark.read.format("csv").option("header", "true").load("table1.csv")
val df2 = spark.read.format("csv").option("header", "true").load("table2.csv")

// 使用表别名
val result1 = df1.alias("t1").join(df2.alias("t2"), $"t1.column1" === $"t2.column2", "inner")
result1.show()

// 使用表名加上列名
val result2 = df1.join(df2, df1("column1") === df2("column2"), "inner")
result2.show()

在上述代码中，我们使用了两种方式引用列名进行表连接。第一种方式是使用表别名，通过给表起别名，可以在引用列名时使用别名来指定表。第二种方式是直接使用表名加上列名的方式来引用列。

注意：上述代码中的表名、列名和连接方式需要根据实际情况进行修改。

对于Spark SQL中连接两个表的操作，可以使用的腾讯云相关产品是TencentDB for TDSQL，它是一种支持MySQL和PostgreSQL的云数据库产品，可以满足连接两个表的需求。您可以通过以下链接了解更多关于TencentDB for TDSQL的信息：TencentDB for TDSQL产品介绍。

Spark SQL -连接两个表:如何引用列名？

、

我有两个具有相同模式的表： StructFieldrendus as r但我得到一个错误：Message:我在很多页面上看到人们使用来自dataframe的连接方法。这是唯一的办法吗

浏览 18提问于2017-01-27得票数 2

回答已采纳

3回答

如何避免join中的键列名称重复？

、

我正在尝试在spark sql中连接两个表。每个表都有50+列。两者都将列id作为关键字。spark.sql("select * from tbl1 join tbl2 on tbl1.id = tbl2.id") 联接的表具有重复的id列。当然，我们可以像下面这样指定要保留的id列： spark.sql("select tbl1.id, .....from tbl1

浏览 79提问于2021-08-08得票数 2

2回答

使用scala在Apache spark中连接不同RDDs的数据集

、、、、

有没有办法在spark中连接两个不同RDD的数据集？需求是-我使用scala创建了两个具有相同列名的中间RDDs，需要组合这两个RDDs的结果并缓存结果以访问UI。我如何在这里组合数据集？RDDs的类型为spark.sql.SchemaRDD

浏览 2提问于2014-12-10得票数 35

回答已采纳

2回答

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的Hive外部表的分区？谢谢。更新: 由于某些原因，只有火花计划没有显示分区筛选器。

浏览 0提问于2019-08-24得票数 3

1回答

当列数未知时，如何在多个列上连接两个表(pyspark)

、、

假设我有两个表A和B。A中的列名相同，我希望在不同的列之间使用OR条件将它们连接起来。如何执行连接？我想做的伪代码将如下所示： select *join BOR A.col_2 == B.col_2 ......OR A.col_k == B.col_k --where k is the total number of columns in B 我已经为spark.sql创建了以下字符

浏览 15提问于2020-09-02得票数 1

回答已采纳

1回答

如何使用Spark从mariadb读取数据

、、、、

我需要使用从MariaDB读取一个表。import java.io.InputStream;import org.apache.spark.sql.Dataset; import org.apa

浏览 1提问于2018-10-09得票数 1

1回答

在spark中连接具有重复列名的表

、、、

我正在尝试连接spark上的多个MySQL表。其中一些表具有重复的列名(每个表都有一个特定于该表的id字段)。: Column 'id' in field list is ambiguous是因为两个表都有一个id字段(具有不同的含义)val t1DF = spark.read.jdbc(dbstringt2DF, Seq("a.t2_id", "b

浏览 7提问于2017-01-07得票数 1

5回答

如何从配置单元外部表创建数据帧

、、、、

我们喜欢在Hive外部表的顶部创建数据帧，并使用hive模式和数据进行spark级别的计算。我们是否可以从hive外部表中获取模式并将其用作Dataframe模式。

浏览 69提问于2017-05-11得票数 1

回答已采纳

1回答

在不更改列名的情况下创建PySpark数据框

、、、

我使用下面的CTAS命令使用SparkSQL创建表。但是，下面的data frame仅使用lowercase中的所有列名创建。而预期的结果是在camel case中，就像我在上面对CTAS所做的那样。df = spark.read.format('ORC') \ .option('header',True) \

浏览 12提问于2019-12-23得票数 1

回答已采纳

2回答

突触火花选择列与空间

、、

我正在尝试阅读synapse表，它在列名中有空格。Read表正在工作，直到我选择没有空格或特殊字符的列为止：val df = spark.read.synapsesql("<Pool>.<schema>.Country Code`")将返回此错误: com.microsoft.sqlserver.jdbc.SQLServer

浏览 0提问于2021-10-13得票数 2

回答已采纳

1回答

使用JDBC连接将数据写入Azure SQL DB with Scala代码Databricks notebook

、、、、

我正在尝试将数据从配置单元表插入Azure SQL DB表。SQL DB表已经存在，我只想用下面的Scala JDBC编写代码覆盖其中的数据。此代码将数据写入SQL DB表，但它正在更改其DDL (数据类型/列名)。我怎么才能避免它。我想要简单的插入表。 ?

浏览 18提问于2019-04-29得票数 0

1回答

无法更改Access 2013中的列引用

、、、

我想更新ODBC SQL连接的列引用。在SQL数据库中更改了列名。我已经更新了链接表管理器、查询、宏、表单引用，并完成了压缩和修复。没有读取数据的问题，但是当表单试图将写入数据库时，它引用了不存在的列名。[Microsoft][SQL Server Native Client 11.0][SQL Server]Invalid column name 'OldColumn'. (

浏览 4提问于2017-09-25得票数 0

回答已采纳

1回答

替代other_column中WHERE列的快速Spark

、、

我正在寻找一种快速的PySpark替代方案WHERE foo IN (SELECT baz FROM bar)我想到的一个选择是right JOIN作为IN的替代品，left_semi JOIN作为NOT IN的替代品，考虑一下下面的例子： bar_where_foo_is_in_baz = ba

浏览 2提问于2020-05-18得票数 2

2回答

引用“”column_name“”不明确

、、、

我正在尝试对java spark数据集执行以下连接查询：+ "FULL OUTER我正在尝试ScheduledTaskTable和来自OpenTaskTable的记录之间的外连接，它具有due_date =‘某些值’，并且不存在于ScheduledTaskTable中。但是当我尝试运行上面的查询时，spark给出了以下错误： Reference '

浏览 0提问于2018-06-19得票数 0

3回答

在Spark中将多个小表与大表连接的最佳方法

、、

我正在使用spark执行连接倍数表。其中一个表非常大，其他表很小(10-20个记录)。实际上，我想使用包含一对键值的其他表来替换最大表中的值。我的问题是；，这是加入表的最佳方式。(假设有100个或更多的小表) 1)收集小数据，把它转换成地图，广播地图，一步一步地转换大数据。bigdf.transform(ds.map(row => (small1.get(row.col1),.....) 2)利用选择方法广播表，进行连接

浏览 1提问于2018-02-13得票数 3

1回答

如何在T-SQL中为连接表的列名添加前缀？

、、、

我正在连接T-SQL中具有相同列名的两个表，我不仅希望通过引用来区分它们，而且还希望在得到的连接表中区分它们。我想为来自原始表或连接表的所有列添加前缀，例如Table1-Col1、Table2-Col1等。有没有一种快速的方法可以让我不必在查询中一个接一个地重复所有列？

浏览 0提问于2021-02-21得票数 0

3回答

如何左连接具有相同列名的两个表

、

我想左连接两个具有相同列名的表。我有两个表，我正在尝试连接，但我总是得到一个错误：在我的JSON输出中返回。我现在的问题是： SELECT SQL_CALC_FOUND_ROWS ".str_replace(" , ", " ", implode(", ", $aColumns

浏览 0提问于2011-11-14得票数 5

回答已采纳

1回答

使用jdbc返回具有列名的所有行

、、、

我是新来的火花，目前我正在处理从远程服务器连接的蜂巢数据库。我已经学习了许多关于如何将星星之火连接到hive的示例，而不是太多的工作。其中之一是使用下面的配置，但是，当将表提取到spark时，行值是列名。我的查询或火花配置有什么问题吗？from pyspark import SparkContext, SparkConfspark =SparkSess

浏览 1提问于2021-12-02得票数 0

2回答

使用最新spark版本时如何设置spark.sql.shuffle.partitions

、

我想在pyspark代码中重置spark.sql.shuffle.partitions配置，因为我需要连接两个大表。- coding: utf-8 -*-import pysparkfrom pyspark.sql.session"spark.sql.shuffle.partitions", "1000")

浏览 6提问于2017-10-01得票数 4

回答已采纳

2回答

Spark注册的临时表不能在sqlContext.read()中使用？

、

我有以下代码 props.put("dbtable", sql);lowerBound", "25"); props.put("numPartitions", "10"); String sqlmyTabl

浏览 2提问于2020-08-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark SQL -连接两个表:如何引用列名？

相关·内容

Spark SQL -连接两个表:如何引用列名？

如何避免join中的键列名称重复？

使用scala在Apache spark中连接不同RDDs的数据集

Apache不使用来自Hive分区外部表的分区信息

当列数未知时，如何在多个列上连接两个表(pyspark)

如何使用Spark从mariadb读取数据

在spark中连接具有重复列名的表

如何从配置单元外部表创建数据帧

在不更改列名的情况下创建PySpark数据框

突触火花选择列与空间

使用JDBC连接将数据写入Azure SQL DB with Scala代码Databricks notebook

无法更改Access 2013中的列引用

替代other_column中WHERE列的快速Spark

引用“”column_name“”不明确

在Spark中将多个小表与大表连接的最佳方法

如何在T-SQL中为连接表的列名添加前缀？

如何左连接具有相同列名的两个表

使用jdbc返回具有列名的所有行

使用最新spark版本时如何设置spark.sql.shuffle.partitions

Spark注册的临时表不能在sqlContext.read()中使用？

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐