我们如何比较spark scala中的两个数据帧来找出这两个文件之间的差异，哪一列？和价值呢？

在Spark Scala中，我们可以使用DataFrame API来比较两个数据帧并找出它们之间的差异。具体步骤如下：

导入必要的Spark包和类：

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.functions._

创建SparkSession对象：

val spark = SparkSession.builder()
  .appName("DataFrame Comparison")
  .getOrCreate()

加载两个数据文件并创建对应的数据帧：

val df1 = spark.read.format("csv").load("file1.csv")
val df2 = spark.read.format("csv").load("file2.csv")

对两个数据帧进行比较，找出差异：

val diffDF = df1.except(df2)

指定要比较的列：

val diffColumns = diffDF.columns

计算差异的价值：

val diffCount = diffDF.count()

在上述代码中，我们首先导入了必要的Spark包和类。然后，创建了一个SparkSession对象，用于执行Spark操作。接下来，我们加载了两个数据文件并创建了对应的数据帧。使用DataFrame API的except方法，我们可以找出df1中存在而df2中不存在的行，从而得到差异的数据帧diffDF。通过diffDF.columns可以获取差异的列名，而diffDF.count()可以获取差异的行数，即差异的价值。

需要注意的是，上述代码中的文件路径需要根据实际情况进行修改，以适应你的数据文件路径。

推荐的腾讯云相关产品：腾讯云云服务器（CVM）、腾讯云对象存储（COS）、腾讯云数据万象（CI）、腾讯云云数据库 MySQL 版（CDB）等。你可以通过访问腾讯云官网获取更详细的产品介绍和文档：腾讯云产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

如何比较SQL语句中两种数据的模式？

scala、apache-spark、apache-spark-sql

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。示例查询1: SELECT DISTINCT target_person FROM INFORMATION_SCHEMA.COLUMNS WHERE COLUMN_NAME IN ('columnA','ColumnB') AND TABLE_SCHEMA='ad_facebook' 示例查询2: SELECT count(*) FROM information_schema.columns WHERE table_n

浏览 6提问于2018-09-04得票数 1

3回答

字符串列包含通过spark scala进行精确匹配的单词

scala、apache-spark、apache-spark-sql

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在spark scala SQL中或使用dataframe的spark scala函数来开发此逻辑吗？请帮我弄一下这个。

浏览 1提问于2021-02-12得票数 0

1回答

Scala中的值减去不是org.apache.spark.sql.DataFrame的一个成员

scala、apache-spark、apache-spark-sql

在Scala中，尝试使用减法时，我得到以下错误 <console>:29: error: value subtract is not a member of org.apache.spark.sql.DataFrame 但是，从下面的链接中，我可以看到它在Python中存在斯派克·斯卡拉有减法吗？如果不是的话，它的替代品是什么？我的示例代码如下所示： scala> val myDf1 = sc.parallelize(Seq(1,2,2)).toDF myDf1: org.apache.spark.sql.DataFrame = [value: int] scala

浏览 5提问于2017-06-26得票数 1

回答已采纳

1回答

DataFrame na()填充方法和不明确引用的问题

apache-spark、dataframe

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我构建了一个"table.column“-> "value”的映射，并将其传递给fill方法。但我得到的是异常而不是成功:(。我有什么选择？我看到有一个dataFrame.withColumnRenamed方法，但我只能重命名一列。我有涉及多个列的连接。我是否只需要确保存在一组惟一的列名，而不管我应用na().fill()方法的dataFrame中的表别名是什么？给定： scala>

浏览 4提问于2016-02-28得票数 3

1回答

如何在scala中通过表创建数据帧

scala、spark-dataframe

我正在尝试为scala中的两个表创建一个dataframe，并在尝试运行时获取syntax error。对scala非常陌生。 import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.sql.functions._ object testfunction extends App { val session = SparkSession.builder().master("local").getOrCreate() import session.implicits._ va

浏览 6提问于2017-06-29得票数 0

1回答

将2个Scala Spark Dataframe和一个Long值转换为一个JSON字符串

scala、apache-spark

我在scala/spark数据管道中有3个对象。2是数据帧，1是长值。我需要创建一个单独的json对象，其中包括3个对象。例如，如果将特定日期作为请求传递给应用程序api： val df1 = getDF_1(date) val df2 = getDF_2(date) val value_3 = getValue_3(date) 我可以单独地将它们转换为json，但我很难创建一个JSON响应，比如： response = {"date":date, "values"{ "df1&#

浏览 8提问于2020-08-06得票数 0

1回答

Spark SCALA -连接两个数据帧，其中一个数据帧中的连接值位于第二个数据帧中的两个字段之间

apache-spark、apache-spark-sql、spark-streaming

我有两个数据帧(删除与问题无关的字段)： df1: org.apache.spark.sql.DataFrame = [rawValue: bigint] df2: org.apache.spark.sql.DataFrame = [startLong: bigint, endLong: bigint] 我现在想连接两个数据帧，其中： rawValue(df1) >= startLong(df2) AND <= endLong(df2) 有没有人能推荐一种有效的方法呢？我想的一个选择是连接df2，然后做一个直接的连接，但是如果有一个有效的方法来做上面的join，我不想这么做。

浏览 0提问于2018-03-09得票数 0

1回答

如何查看Delta Lake中特定版本的数据的具体变化

scala、apache-spark、delta、delta-lake、data-quality

现在，我有一个测试数据，其中有一个分区，在该分区中有两个parquet文件如果我将数据读取为： val df = spark.read.format("delta").load("./test1510/table@v1") 然后我得到了10,000行的最新数据，如果我读到： val df = spark.read.format("delta").load("./test1510/table@v0") 然后我得到了612行，现在我的问题是:我如何才能只查看在版本1中添加的那些新行，这些新行只有10,000 - 612 = 9388

浏览 12提问于2020-02-03得票数 2

1回答

合并地图的所有值，其中每个值都是一个数据帧

scala、dataframe、scala-collections

在使用Spark的Scala中，我有一个映射，其中键是一个字符串，值是一个DataFrame。模式如下所示： scala.collection.immutable.Map[String,org.apache.spark.sql.DataFrame] = Map(Key_A -> [value_col1: string, value_col2: string ... 1 more field], Key_B -> [value_col1: string, value_col2: string ... 1 more field]) 我不关心这里的钥匙。我想要一个数据帧，它结合了所有

浏览 12提问于2019-05-25得票数 1

回答已采纳

1回答

如何编写从json文件读取spark应用的单元测试

scala、unit-testing、apache-spark、mocking

我在scala中有一个简单的Spark应用程序。现在，我希望我的spark应用程序只创建一个sparkSession并将Json文件读取到DataFrame中。 object SparkAppExample { def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder() .appName("Spark Scala Example") .getOrCreate() val records: DataFrame = sparkSession.read

浏览 15提问于2020-04-10得票数 0

2回答

处理星火中的模式不匹配

scala、apache-spark

我正在使用Scala中的Spark读取一个csv文件。模式是预定义的，我正在使用它进行阅读。这是一个很好的代码： // create the schema val schema= StructType(Array( StructField("col1", IntegerType,false), StructField("col2", StringType,false), StructField("col3", StringType,true))) // Initialize Spark session val

浏览 0提问于2018-11-14得票数 5

回答已采纳

1回答

如何将从RDBMS表读取的数据帧的模式与Hive上的相同表进行比较？

scala、apache-spark

我通过从postgres读取RDBMS表创建了一个数据帧，如下所示： val yearDF = spark.read.format("jdbc").option("url", connectionUrl) .option("dbtable", s"(${execQuery}) as year2017") .option("user", devUserName) .

浏览 4提问于2018-09-04得票数 0

1回答

如何在spark中连接两个数据帧并添加字段

scala、apache-spark、dataframe、merge

例如，我有两个数据帧， DF1 +----+-------+------+------+ |id | value1|value2|value3| +----+-------+------+------+ | 1 |10 |20 |30 | | 2 |20 |30 |40 | | 3 |30 |40 |50 | +----+-------+------+------+ DF2 +----+-------+------+------+ |id | value1|value2|value3| +----+-------+---

浏览 19提问于2019-03-30得票数 1

1回答

UnsupportedOperationException:找不到org.apache.spark.sql.Row的编码器

scala、apache-spark

我正在尝试创建一个dataFrame。似乎spark无法从scala.Tuple2类型创建数据帧。我该怎么做呢？我是scala和spark的新手。下面是代码运行中的错误跟踪的一部分 Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row - field (class: "org.apache.spark.sql.Row", name: "_1") - root class:

浏览 71提问于2021-10-23得票数 0

6回答

scala中两种数据格式的模式比较

scala、apache-spark-sql、schema

我试图编写一些测试用例来验证源(.csv)文件和目标(单元表)之间的数据。验证之一是表的结构验证。我已经将.csv数据(使用定义的模式)加载到一个数据中，并将蜂窝表数据提取到另一个数据中。当我现在尝试比较这两个数据文件的模式时，它返回false。不知道为什么。能告诉我这个吗？源数据格式： scala> res39.printSchema root |-- datetime: timestamp (nullable = true) |-- load_datetime: timestamp (nullable = true) |-- source_bank: string (nu

浏览 13提问于2017-12-18得票数 19

3回答

使用Scala和Python联合Spark数据格式时的不同分区号

scala、apache-spark、pyspark、union、partition

我正在检查2完全相同的 Spark的联合分区的数目，并注意到结果在Scala和Pyhton之间并不相同。对于Python，联合的分区数是两个数据文件的分区数之和，这是预期的行为。 Python from pyspark.sql.types import IntegerType df1 = spark.createDataFrame(range(100000), IntegerType()).repartition(10) print("df1 partitions: %d" %df1.rdd.getNumPartitions()) df2 = spark.createDa

浏览 6提问于2020-06-12得票数 1

回答已采纳

3回答

Spark Scala中的SaveAsTable : HDP3.x

scala、apache-spark、hive、apache-spark-sql、hdp

我在Spark中有一个数据帧，我正在将它作为table.But保存在我的hive中，以获取下面的错误消息。 java.lang.RuntimeException: com.hortonworks.spark.sql.hive.llap.HiveWarehouseConnector does not allow create table as select.at scala.sys.package$.error(package.scala:27) 有没有人可以帮助我，我应该如何将这个保存为hive中的表。 val df3 = df1.join(df2, df1(&

浏览 32提问于2020-05-15得票数 0

2回答

scala中以往数据与当前数据的比较

scala、apache-spark-sql

我想按月将Prev.data与当前数据进行比较。我的数据如下所示。 Data-set 1 : (Prev) Data-set 2 : (Latest) Year-month Sum-count Year-Month Sum-count -- -- 201808 48 201807 30 201807 22

浏览 0提问于2018-09-11得票数 1

回答已采纳

2回答

Spark Scala中的R's cbind功能

r、scala、apache-spark、dataframe、cbind

我需要cbind，因为它发生在使用scala的spark中的R两个数据帧中，这两个数据帧没有ID列。关于它的任何现成的功能或其他解决方法，有什么建议吗？示例： DF1： Name Age ABC 10 BCD 11 DF2： Marks 75 85 所需结果： DF3: Name Age Marks ABC 10 75 BCD 11 85

浏览 0提问于2017-07-07得票数 2