Spark如何在Scala中获取两个JSONS中更改的键数？

Spark是一个开源的分布式计算框架，可以用于处理大规模数据集的计算任务。在Scala中，可以使用Spark提供的API来处理JSON数据。

要获取两个JSON中更改的键数，可以按照以下步骤进行操作：

导入Spark相关的库和模块：

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

创建SparkSession对象：

val spark = SparkSession.builder()
  .appName("JSON Comparison")
  .master("local")
  .getOrCreate()

加载JSON数据：

val json1 = spark.read.json("path/to/json1.json")
val json2 = spark.read.json("path/to/json2.json")

其中，"path/to/json1.json"和"path/to/json2.json"分别是两个JSON文件的路径。

使用Spark的内置函数来比较两个JSON的键：

val keys1 = json1.columns.toSet
val keys2 = json2.columns.toSet

val addedKeys = keys2 -- keys1
val removedKeys = keys1 -- keys2
val changedKeys = keys1.intersect(keys2).filter { key =>
  json1.select(col(key)).except(json2.select(col(key))).count() > 0 ||
  json2.select(col(key)).except(json1.select(col(key))).count() > 0
}

这段代码中，首先将两个JSON的键转换为集合，然后使用集合操作符来获取新增的键、删除的键和更改的键。更改的键通过比较两个JSON中相同键的值是否相等来判断。

打印结果：

println("Added keys: " + addedKeys.mkString(", "))
println("Removed keys: " + removedKeys.mkString(", "))
println("Changed keys: " + changedKeys.mkString(", "))

以上代码会打印出新增的键、删除的键和更改的键。

对于Spark相关的产品和产品介绍链接地址，可以参考腾讯云的文档和官方网站。

Spark如何在Scala中获取两个JSONS中更改的键数？

、、、

我有两个数据帧，我试图找出它们之间的差异。这2个数据帧包含结构数组。我不需要在该结构中有一个键。所以我首先将其删除，然后将其转换为JSON字符串。有没有办法在spark中做到这一点？ base_data_set和target_data_set都包含ID和KEY。= $"target_picks") 即使有1个元素发生更改，它也会返回false，但只有当超过n个(比如n =3)个元素(数组中)发生更改时，我才需要返回false。

浏览 11提问于2019-05-15得票数 10

1回答

Scala Spark Dataframe中的扁平嵌套json

、、、

我有来自任何restapi的多个jsons，我不知道它的模式。我无法使用dataframes的爆发函数，因为我不知道列名，它是由spark创建的。1.可以通过解码dataframe.schema.fields中的值来存储嵌套数组元素的键，因为spark只提供数据行中的值部分，并以顶层键作为列名。示例Json -： "stacko

浏览 4提问于2020-05-18得票数 5

回答已采纳

1回答

影响preservesPartitioning RDD真/假给出了相同的mapPartitions结果

、、

第二次尝试，正如最初提出的错误例子。从医生那里： preservesPartitioning指示输入函数是否保留分区器，除非这是一对RDD，并且输入函数不修改键，否则它应该是false。不错的散文，但它真正意味着什么呢？这里是一个人为的琐碎例子，不管我是否将true或false传递给mapPartitions，对于新的RDD，每个分区的数据分区仍然是相同的，即使我改变了K，V的K值，那么，意义是什么呢？一定是我错过了一些基本的东西。

浏览 0提问于2020-01-02得票数 2

回答已采纳

1回答

分区键谓词必须包括所有分区键列

我正在尝试使用scala语言在spark中创建查询，数据在cassandra数据库中以表格的形式提供。在Cassandra表中，我有两个键，1)主键2)分区键CREATE TABLE A.B ( id2 text, value float, PRIMARY KEY ((id1, id2), timin

浏览 0提问于2017-10-25得票数 2

1回答

星火RDD中的分区数

、、

我通过指定分区数来从文本文件创建一个RDD (Spark1.6)。但是它给出了与指定分区不同的分区数。案例1people: org.apache.spark.rdd.RDD对于例2，显式指定的分区数为0，但实际分区数为1(

浏览 0提问于2020-05-31得票数 0

1回答

N列m行的动态数据帧

、

示例数据帧：import spark.implicits._ (1, "ABC"), (3, "GHIJ")someDF: org.apache.spark.sql.DataFra

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

java，如何在spark 1.4.1中调用UDF

、、、

在spark 1.4.1中，callUdf方法的参数是没有任何方法可以直接作用于列，如1.5.1中的方法那么如何在1.4.1中调用UDF呢？或如何将列类型更改为 scala.collection.Seq<

浏览 1提问于2016-11-28得票数 0

回答已采纳

1回答

"Exchange散列分区“在spark中是如何工作的

、、、、

目前，我使用按列重新分区和分区数将数据移动到特定分区。该列标识相应的分区(从0开始到(固定的) n)。结果是scala/some正在生成一个意外的结果，并且创建了更少的分区(其中一些分区是空的)。令我惊讶的是:我得到了预期的结果。但是，对我来说，将dataframe转换为RDD并不是一个解决方案，因为它需要太多的资源。scala> import org.apache.spar

浏览 0提问于2019-01-16得票数 0

回答已采纳

1回答

如何过滤星火数据的MapType字段？

、、、

我有一个，其中一个字段是maptype .我可以获取映射类型字段的任何键的数据，但是当我为特定键的特定值应用筛选器时，我无法获取数据. val line = List (("Sanjay", Map("one" -> 1, "two" -> 2)), ("Taru", Map("one" -> 10, "two" -> 20))

浏览 3提问于2015-09-15得票数 4

回答已采纳

1回答

java.util.NoSuchElementException:表abc.company_vals: companyId，companyName中找不到的列

、、、

.option("keyspace", "abc") .save();java.util.NoSuchElementException: Colum

浏览 0提问于2019-05-31得票数 1

回答已采纳

1回答

在map调用中获取Spark上的行

、、、

我尝试从HDFS中的文件中聚合数据。我需要添加一些细节，从这些数据的价值在hbase中的一个特定表。(RDD.scala:286) at org.apache.spark.api.java.JavaRDDLike$class.mapToPair(JavaRDDLike.scala:113)我的问题是:如何使用hbase表中包含的值来完成我的RDDs。例如:

浏览 11提问于2017-02-02得票数 2

回答已采纳

1回答

Scala中的逐元矩阵乘法

、、、

1.0matrix1的维数为3*4。我需要用另一个矩阵逐个元素进行matrix乘法，这样两个矩阵的维数在所有情况下都是相同的。假设我有另一个名为matrix2的矩阵3.0 0.0 2.0 1.02.0 5.0 0.0 0.0 对于维数3*4，我

浏览 0提问于2018-07-12得票数 0

回答已采纳

1回答

如何使用scala连接到Apache中的postgreSQL数据库？

、、

我想知道如何在scala中执行以下操作？编写SQL查询，如SELECT、UPDATE等，以修改数据库中的表。我知道如何使用scala来实现它，但是如何在打包时将psql scala的连接器jar导入sbt？

浏览 0提问于2014-07-23得票数 40

回答已采纳

1回答

用于机器学习的Apache mllib.linalg向量与spark.util向量的差异

、、、

我正在尝试在spark和scala中实现神经网络，但无法执行任何向量或矩阵乘法。Spark提供了两个向量。Spark.util向量支持点运算，但已弃用。mllib.linalg向量不支持scala中的操作。如何使用mllib在spark scala中执行向量乘法，如w*x，其中w是向量或权重矩阵，x是输入。pyspark向量支持

浏览 0提问于2016-01-20得票数 8

3回答

Spark & HCatalog？

、、、

我对使用Pig加载HCatalog感到很舒服，并且想知道是否有可能使用Spark来代替Pig。不幸的是，我对Spark还很陌生。你能提供一些关于如何开始的材料吗？有没有什么Spark库可以使用？

浏览 0提问于2014-08-14得票数 3

1回答

负逻辑实现不能与spark/scala一起工作

、、、、

Hive中的减号逻辑我尝试用下面的方法(同时支持主键和组合键)在spark/scala中实现同样的</e

浏览 9提问于2017-06-20得票数 0

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。我们可以在SparkSQL中编写像上面这样的SQL查询吗？我只是在检查为什么显示create没有使用spark，是因为它是一个临时表吗？s

浏览 6提问于2018-09-04得票数 1

2回答

Scala火花:为json找到的多个源

、、

在我的hadoop集群上执行spark2-submit时，当在hdfs中读取.jsons目录时，我不知道如何解决它。我在几个黑板上发现了一些关于这方面的问题，但没有一个是很受欢迎的，也没有一个有答案。我尝试过显式导入org.apache.spark.sql.execution.datasources.json.JsonFileFormat，但导入SparkSession似乎是多余的，因此没有得到认可不过，我可以确认这两个类都是可用的。

浏览 0提问于2020-07-05得票数 0

回答已采纳

1回答

如何在spark* scala中从两个表中获取列的数据*

、

有两个表Customer1和Customer2 如何在spark scal

浏览 2提问于2019-07-04得票数 0

4回答

从Eclipse运行Spark应用程序

、、、

我正在尝试在Eclipse上开发一个spark应用程序，然后通过逐步调试来调试它。import o

浏览 0提问于2015-03-29得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark如何在Scala中获取两个JSONS中更改的键数？

相关·内容

Spark如何在Scala中获取两个JSONS中更改的键数？

Scala Spark Dataframe中的扁平嵌套json

影响preservesPartitioning RDD真/假给出了相同的mapPartitions结果

分区键谓词必须包括所有分区键列

星火RDD中的分区数

N列m行的动态数据帧

java，如何在spark 1.4.1中调用UDF

"Exchange散列分区“在spark中是如何工作的

如何过滤星火数据的MapType字段？

java.util.NoSuchElementException:表abc.company_vals: companyId，companyName中找不到的列

在map调用中获取Spark上的行

Scala中的逐元矩阵乘法

如何使用scala连接到Apache中的postgreSQL数据库？

用于机器学习的Apache mllib.linalg向量与spark.util向量的差异

Spark & HCatalog？

负逻辑实现不能与spark/scala一起工作

如何比较SQL语句中两种数据的模式？

Scala火花:为json找到的多个源

如何在spark* scala中从两个表中获取列的数据*

从Eclipse运行Spark应用程序

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐