基于多列的Spark join 2数据帧

文章/答案/技术大牛

发布

1回答

、、

我有两个数据帧df1和df2。我在map中定义了这些数据帧的连接条件。但是，连接列名是不同的。我知道我可以这样做，val df3 = df2.join(df1, df2("col1") <=> df1("col5") && df2("col2") <=> df1("col6

浏览 3提问于2020-06-18得票数 1

2回答

在PySpark中将标识符保留在exceptAll中

、

我很好奇是否有一种简单的方法可以在PySpark的exceptALL命令中保留标识ID。例如，假设我有两个数据帧(DF1，DF2)，它们都有一个ID列和另一个列“A”。我希望将值为"A“的行保留在DF1中，而不是保留在DF2中，因此基本上我尝试使用exceptAll的常规输出来保留标识符。我附上了一张具有理想输出的图像。 ? 干杯!

浏览 48提问于2020-01-16得票数 1

2回答

Spark scala将数据框列复制到新的数据框

、

浏览 5提问于2017-10-03得票数 0

1回答

如何在Spark中连接其他数据帧时从其中一个数据帧中选择结果列？

、、、

我有两个数据帧：当我在外部连接中连接这两个数据帧之后，我得到了下面的数据帧。-+ 为了避免在最终输出中出现重复<

浏览 0提问于2021-04-14得票数 0

3回答

如何连接具有相同列的数据集并选择一个？

、、、

我有两个Spark数据帧，之后我会加入并选择它们。我想选择其中一个数据帧的特定列。但是在另一个中存在相同的列名。因此，我得到了一个二义列的异常。我已经尝试过了： d1.as("d1").join(d2.as("d2"), $"d1.id" === $"d2.id",

浏览 0提问于2017-12-28得票数 5

回答已采纳

2回答

错误:类型不匹配：：找到:布尔值：：必需: org.apache.spark.sql.Column问题：：Spark/Scala

、

我在spark Df1和Df2中有两个数据帧我基于一个公共列(即Id )连接这两个数据帧，然后添加一个额外的列结果，并使用或条件检查多个列。如果有任何列数据匹配，则需要插入新列作为匹配，如果没有匹配的条件，则需要在该列中传递为“未匹配”。我正在写下面的代码。df1.join(df2,df1(&

浏览 36提问于2020-05-15得票数 0

1回答

基于不同类型列的Spark join数据帧

、、

我有两个数据帧df1和df2。我加入了基于列col1和col2的df1和df2。然而，col1的数据类型在df1中为string，而col2的类型在df2中为int。当我像下面这样尝试加入时， val df3 = df1.join(df2,df1("col1") === df2("

浏览 3提问于2020-06-19得票数 0

2回答

基于旧dataFrame中的重格式化列创建新的dataFrame

、、

我从一个数据库导入了数据"mongodb://127.0.0.1若要删除我们使用的特殊字符

浏览 1提问于2018-07-06得票数 2

回答已采纳

1回答

在以下情况下，方法参数不足: Spark/scala dataframe

、、

我在spark Df1和Df2中有两个数据帧我基于一个公共列(即Id )连接这两个数据帧，然后添加一个额外的列结果，并使用或条件检查多个列。如果有任何列数据匹配，则需要插入新列作为匹配，如果没有匹配的条件，则需要在该列中传递为“未匹配”。我正在写下面的代码。df1.join(df1,df2(&

浏览 2提问于2020-05-15得票数 1

1回答

Apache Spark SQL -多阵列分解和1:1映射

我是Apache Spark SQL的新手，正在尝试实现以下目标。我有下面的DF文件，我想把它转换成一个中间DF文件，然后再转换成json文件。array [a,b,c,d,e] and array [1,2,3,4,5]a 1c 3谢谢你的帮助..

浏览 0提问于2018-04-13得票数 0

2回答

如何在apache spark中删除两个csv文件中的两个重复值？

、、、

我想要做的是从两个csv文件中删除两个重复的密钥。我已经尝试了dropDuplicates()和distinct()，但是所有的工作都是删除一个值。

浏览 10提问于2017-03-10得票数 0

2回答

如何在Scala中连接两个数据帧，并通过索引从数据帧中选择一些列？

、、

我必须连接两个数据帧，这非常类似于这里给出的任务我在任何地方都找不到如何根据数据</em

浏览 1提问于2017-05-09得票数 1

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据</e

浏览 13提问于2016-09-22得票数 0

1回答

基于列值高效地从宽Spark数据帧中删除列

、、

如果我有一个只包含IP地址的宽数据帧(200m cols)，并且我想删除包含空值或格式不佳的IP地址的列，那么在Spark中执行此操作的最有效方法是什么？我的理解是Spark并行地执行基于行的处理，而不是基于列的处理。因此，如果我尝试在列上应用转换，将会有大量的混洗。首先转置数据帧</

浏览 11提问于2019-10-31得票数 1

1回答

连接两个h2o数据帧

我有两个h2o帧，我想基于这两个列中存在的一个相同的列来连接它们，我使用Java API并从spark dataframes中获取h2o帧。H2OFrame trainDataFrame = h2oContext.asH2OFrame(train_validation); H2OFrame validationDataFrame= h<

浏览 8提问于2017-06-22得票数 2

2回答

在Scala中，通过List[String]过滤Spark* Cassandra RDD的正确方法是什么？*

、、、、

我有一个字符串格式的I列表，这个列表大约有20,000个I的长度：timelineIds = timelineIds.distinct.cachefor later当我在我的cassandra表上使用这个列表时，无论timelineIdsString的<

浏览 33提问于2021-05-14得票数 1

回答已采纳

1回答

Spark Join:分析异常引用不明确

、、、

您好，我正在尝试连接spark中的两个数据帧，并收到以下错误：could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源的说法，当您尝试将两个不同的数据帧连接在一起时，可能会发生这种情况，这两个数据</

浏览 8提问于2017-02-14得票数 1

回答已采纳

1回答

以列表作为条目的数据帧上的联接条件

、

我有两个包含以下条目的数据文件: df1-| id1| joinKey1|| id2| joinKey2| +-----------列表中的元素有些相同。我想加入这两个数据格式，条件是joinkey1和joinkey2至少

浏览 0提问于2019-01-20得票数 2

回答已采纳

1回答

如何更新Spark中的数据框列

、、、

我有一个数据帧，其中有2个json列。我需要更新基于j1列的j2列。如果j2列的元素为空，则从j1列中选取元素值。j1为JSON字符串，j2为JSON数组。输入数据帧， +---------------------------+---------------------------------------+ |

浏览 22提问于2021-08-04得票数 1

回答已采纳

1回答

我的程序从一个目录中的文件读取数据，这些文件的大小是5 GB。我对这些数据应用了许多函数。我在一个具有32 GB RAM的虚拟机上以独立(本地)方式运行spark。使用的命令： bin/spark-submit --class ripeatlasanalysis.AnalyseTraceroute --master local --driver-memory0.0.5-SNAPSHOT-jar-with-depend

浏览 0提问于2019-01-04得票数 3

回答已采纳

点击加载更多