基于OR条件在spark scala中连接两个数据帧_在连接Spark数据帧时使用过滤条件: Spark/Scala_Spark scala连接数据帧中的数据帧 - 腾讯云开发者社区

、、、、

我有两个数据框1)帐户和2)客户。2 2344 testq@gmail.com 7 64562 test1@gmail.com 我需要连接这两个数据帧该连接应保留在所有帐户记录中。

浏览 25提问于2020-07-19得票数 0

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据</e

浏览 13提问于2016-09-22得票数 0

1回答

如何在pyspark中使用azure-sqldb-spark连接器

、、、

我想每天写大约10 GB的数据到Azure SQL server DB，使用PySpark.Currently，使用JDBC driver，这需要花费数小时逐个制作insert语句。我计划使用azure-sqldb-spark连接器，它声称可以使用批量插入来加速写入。import com.microsoft.azure.sqldb.spark.config.Config import com.microso

浏览 2提问于2018-10-27得票数 7

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我有涉及多个列的连接。我是否只需要确保存在一组惟一的列名，而不管我应用na().fill()方法的dataFrame中的表别名是什么？给定： <em

浏览 4提问于2016-02-28得票数 3

1回答

如何在Spark中连接其他数据帧时从其中一个数据帧中选择结果列？

、、、

我有两个数据帧：当我在外部连接中连接这两个数据帧之后，我得到了下面的

浏览 0提问于2021-04-14得票数 0

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。我们可以在SparkSQL中编写像上面这样的SQL查询吗？我只是在检查为什么显示create没有使用spark

浏览 6提问于2018-09-04得票数 1

1回答

Spark Scala dataframe使用列列表和joinExprs动态连接

、、、

我正在创建一个函数，它以连接键和条件作为参数，动态地连接两个数据帧。我理解Spark Scala Dataframe join done the following ways 1) join(right: Dataset[_]): DataFrame 2) join(right它负责连接键列表，但是我如何也添加条件呢？(注意:为了简单起见，我在这里使用了相同的数据帧) %

浏览 93提问于2021-08-18得票数 0

回答已采纳

2回答

错误:类型不匹配：：找到:布尔值：：必需: org.apache.spark.sql.Column问题：：Spark/Scala

、

我在spark Df1和Df2中有两个数据帧我基于一个公共列(即Id )连接这两个数据帧，然后添加一个额外的列结果，并使用或条件检查多个列。如果有任何列数据匹配，则需要插入新列作为匹配，如果没有匹配的条件，则需要在该列中传递为“未匹配”。我正在写下面的代码。error: type mismatch; found :

浏览 36提问于2020-05-15得票数 0

4回答

Spark在spark数据帧where子句中指定多个逻辑条件

、、

在spark scala dataframe中定义多个逻辑/关系条件时，得到下面提到的错误。但同样的事情在scala中也能正常工作df2=df1.where(((col('a')==col('b')) & (abs(col('c')) <= 1)) | ((col('a'

浏览 12提问于2019-08-02得票数 0

3回答

字符串列包含通过spark* scala进行精确匹配的单词*

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike

浏览 1提问于2021-02-12得票数 0

3回答

Spark异常“无法广播大于8 8GB的表”，'spark.sql.autoBroadcastJoinThreshold'：'-1‘不工作

、、、、

在我们的一个Pyspark作业中，我们有一个场景，我们在一个大的数据帧和相对较小的数据帧之间进行连接，我相信spark正在使用广播连接，我们遇到了以下错误 org.apache.spark.SparkException$$anonfun$withExecutionId$1.apply(SQLExecution.scala:101) at org.apache.spa

浏览 752提问于2020-04-22得票数 0

1回答

数据帧的scala* joinWithCassandraTable结果*

、、

我正在使用Datastax spark- Cassandra -connector来访问Cassandra中的一些数据。我的需求是将RDD与Cassandra表连接起来，获取结果并将其存储在hive表中。我正在使用joinWithCassandraTable加入cassadra表。] = CassandraJoinRDD[17] at RDD at CassandraRDD.scala:19 我尝试了以下步骤来转换为数据帧，但所有

浏览 20提问于2020-07-17得票数 0

2回答

如何将DF转换为添加包含在另一列中的字符串列表的列

、

假设我在scala中有一个关键字列表 val keywords = List("pineapple", "lemon") 和像这样的数据帧 +---+-------------------------|Pineapple's are delicious | +---+-------------------------------------------+ 如何将此数据帧转换为包含

浏览 23提问于2021-03-24得票数 1

回答已采纳

2回答

Apache Spark当调用repartition($" key ")时，当每个键的所有记录的大小大于单个分区的大小时会发生什么？

、、、

假设我有一个10 c1的数据帧，其中一个列的"c1“对于每条记录都有相同的值。每个单独的分区最大为128 MB(默认值)。

浏览 34提问于2021-09-23得票数 2

回答已采纳

2回答

Spark SQL过滤多个相似字段

、

有没有更好的方法在spark数据帧上编写多个条件的过滤器，这些条件在本质上是相似的。假设df是具有时间戳列t1、t2、t3、t4的spark数据帧。因为我是scala的新手，所以我还不知道用scala编写代码的最佳实践。感谢任何人的帮助。

浏览 43提问于2019-01-19得票数 0

1回答

诊断:容器在丢失节点上释放

、、、

我有两个输入文件(一个在JSON中，另一个在parquet中)，我试图在这两个大数据帧上做一个连接，并将连接的数据帧写入s3(作为JSON)。该作业将永远停滞不前(将联接的JSON写入s3)。中间持久化-持久化( memory_disk和disk_only类型)连接的df持久化两个输入(在连接之前)，在

浏览 0提问于2019-02-12得票数 1

1回答

Spark SQL -在SparkSQL中连接两个数据帧

、、

我有两个数据帧，每个数据帧只有一条记录和一列，我希望将它们连接起来，以便在一行中检索结果。当前：(两个分离的数据帧)|women color|| 14||men

浏览 0提问于2018-04-08得票数 0

0回答

Scala比较2个Spark数据帧中的值

、

我正在尝试在Scala中编写一个条件语句来连接两个Spark数据帧：如果在allDataUSE

浏览 5提问于2018-07-13得票数 0

回答已采纳

2回答

基于两个条件spark和Java的筛选列

、

我试图在我的数据帧上添加一个过滤器，由于某些原因，||条件在Java中不起作用，它在Scala中工作得很好。代码甚至不能编译。在java中如何在过滤条件中使用||运算符The operator || is undefined for the argument type(s) org.apache.spark.sql.Column, org.apache.spa

浏览 6提问于2018-08-01得票数 0

回答已采纳

1回答

Azure Synapse分析笔记本中数字列名的PySpark缺少列名错误

、

在使用Azure Synapse SQL专用池作为数据源创建dataframe时，我遇到了这个问题。某些列具有数字列名，如"240“。我使用了scala中的synapsesql连接器，然后使用spark.sql抓取数据帧到pyspark数据帧。即使我能够毫无问题地打印出数据帧的模式，尝试选择任何具有数字名称的列也会产生错误。%%spark val df

浏览 25提问于2021-09-06得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云