使用嵌套数组和StructType Spark Scala展平镶木地板文件

scala、apache-spark、apache-spark-sql、parquet、flatten

我希望用Scala高效地在Spark中动态展平拼图文件。我想知道实现这一点的有效方法是什么。拼图文件包含多个深度级别上的多个数组和结构类型嵌套。拼接文件模式将来可能会更改，因此我不能对任何属性进行硬编码。所需的最终结果是平面化的分隔文件。使用平面映射和递归分解的解决方案可以工作吗？

浏览 16提问于2019-03-21得票数 1

1回答

火花镶嵌嵌套值展平

apache-spark、parquet

我有镶木地板的文件。我用Spark.And加载的其中一个值是嵌套的键、值对。如何展平？

浏览 2提问于2016-05-03得票数 0

1回答

我在Java中使用Spark 1.5.2，并且我试图读入一个包含来自JSON文件的数据的parquet文件。我已经浏览了Spark页面以读取拼图文件，但似乎没有一个示例与我正在寻找的相匹配。我做了一些搜索，找到了与scala相似但特定于scala的东西。我读了镶木地板的档案，然后做了一场表演。true),true)) 我猜我需要为该字段创建一个模式，但是我不知道如何使用Spark

浏览 1提问于2016-01-30得票数 3

1回答

在Apache Spark Scala中将嵌套的json with array展平为单行数据帧

scala、apache-spark

我已经看过很多文章，展示了如何使用数组将复杂的/嵌套的json对象展平为多行。但是，我不想将json展平为多行。我只想要一个如输出所示的单行数据帧。数组索引将转换为列名。我如何在Apache Spark Scala中实现这一点？

浏览 39提问于2021-08-26得票数 1

2回答

如何在spark数据帧/spark sql中读取带模式的json

scala、apache-spark、dataframe、apache-spark-sql

sql/dataframes，请帮我解决这个问题，或者就如何阅读这个json提供一些好的建议。 "billdate":"2016-08-08', "accountdetails":{ "category":[ "desc":"one", "

浏览 0提问于2016-09-07得票数 9

回答已采纳

1回答

验证镶嵌块文件中的空值

apache-spark、pyspark

我在读第三方的镶木地板文件。似乎无论文件是如何编写的，parquet总是将文件的模式转换为可空的列。在读取这些文件时，我希望拒绝在特定列中包含空值的文件。使用csv或json，您可以执行以下操作： schema = StructType([StructField("id", IntegerType(), False), StructField("col1它还将拒绝完整的数据帧和所有<e

浏览 29提问于2020-09-25得票数 0

回答已采纳

2回答

如何展平结构数组类型的列(由Spark ML API返回)？

apache-spark、apache-spark-sql、apache-spark-ml

也许只是因为我对API比较陌生，但我觉得Spark ML方法经常返回不必要的难以使用的DFs。scala> val arrayType = ArrayType(new StructType().add("itemId", IntegerType).add("rating", FloatType)) scala> v

浏览 0提问于2017-10-14得票数 6

回答已采纳

1回答

Spark AnalysisException在Spark SQL中“扁平化”DataFrame时

apache-spark、apache-spark-sql

我正在使用给定here的方法来扁平化Spark SQL中的DataFrame。下面是我的代码： package com.acme.etl.xml import org.apache.spark.sql.val df = .format("xml") val schema: StructType</e

浏览 19提问于2019-04-20得票数 6

回答已采纳

2回答

将海量JSON文件读入Spark* Dataframe*

json、scala、apache-spark、dataframe

我有一个很大的嵌套NDJ (新行分隔的JSON)文件，我需要将其读取到单个spark dataframe中并保存到parquet中。在尝试呈现模式时，我使用以下函数： f.dataType match {

浏览 2提问于2016-12-10得票数 5

2回答

用于嵌套Json的火花指定模式

apache-spark

使用spark 1.2.0我想保存从卡夫卡流到地板的数据。在使用jsonRDD创建表时，将架构应用于JSON数据集。如前所述， val schemaString = "name age gender

浏览 4提问于2015-06-25得票数 1

回答已采纳

2回答

扁平化非常嵌套的Spark* Scala数据框架*

scala、apache-spark、nested、spark-dataframe

我有一个非常嵌套的数据框架，我正试图将其扁平化。| |-- Style: array (nullable = true)我可以使用递归函数展平大多数字段protected def flatten(path: Seq[String], schema: DataType): Seq[Column] = schema match { case s: StructTypen =>

浏览 0提问于2016-09-30得票数 1

1回答

有没有办法在spark* streaming中扁平化嵌套的JSON？*

java、apache-spark-sql、spark-streaming

我已经编写了一个数据集火花作业(批处理)代码来扁平化数据，它工作得很好，但是当我试图在火花流作业中使用相同的代码片段时，它抛出了以下错误:必须用writeStream.start()执行流源查询；那么，有没有办法在流式作业中扁平化嵌套的JSON呢？return flattenJSONdf(exploded_ds); S

浏览 18提问于2020-04-27得票数 0

1回答

Spark中区分大小写的拼图模式合并

apache-spark、parquet

我正在试着用Spark加载和分析一些镶木地板文件。我使用schemaMerge加载文件，因为较新的文件有一些额外的列。此外，一些文件的列名是小写的，而其他文件的列名是大写的。模式合并被委托给spark sql的StructType merge方法。据我所知，该方法只能以区分大小写的方式工作。在内部，它使用映射按名称查找字段，如果大小写不匹配，它会将其解释为新字段。

浏览 23提问于2019-07-31得票数 4

回答已采纳

3回答

修改Spark* dataframe中的结构列*

apache-spark、pyspark、struct、apache-spark-sql、schema

其中包含一个列"student“，如下所示： "name" : "kaleem",}structTypestudent_details" : { "rollno" : "12"}

浏览 3提问于2020-05-27得票数 2

回答已采纳

1回答

用嵌套的用户数据类型保存星火DataFrames

apache-spark、apache-spark-sql

我想将包含自定义类的星火DataFrame作为一个列保存(作为一个拼花文件)。该类由另一个自定义类的Seq组成。at scala.collection.IterableLike$class.foreach(IterableLike.scala:72) at org.apache.spark.sql.types.StructType.foreach(StructType.scala:92) at scala.collection.TraversableL

浏览 2提问于2015-09-17得票数 8

回答已采纳

2回答

Databricks Delta和Hive事务表

apache-spark、hive、databricks、delta-lake

我从两个来源看到，现在你不能以任何有意义的方式与Spark的HIVE事务表进行交互。我看到Databricks发布了一个名为的事务性功能。现在可以使用此功能读取配置单元事务性表吗？

浏览 0提问于2018-12-13得票数 2

3回答

通过Spark读取保存在文件夹中的所有拼图文件

scala、apache-spark、apache-spark-sql

我有一个包含拼图文件的文件夹。parquet")org.apache.spark.sql.AnalysisException: Unable to(DataSource.scala:189) at s

浏览 0提问于2017-03-27得票数 13

回答已采纳

2回答

基于目标JSON结构的Spark* Scala创建模式*

json、scala、apache-spark

我无可救药地试图基于我想要的JSON结构生成我的Spark Schema。2.4.8中创建以下Schema来重新创建结构，该模式在Scala中运行： val targetSchemaSO = StructType( StructField("key1Spark row时： val outputDictSO = scala.collection.mutable.LinkedHashMap[String, Any]( "key1" ->

浏览 38提问于2021-06-22得票数 0

2回答

火花中不同的阅读选项之间有什么区别？

python、csv、apache-spark、pyspark、apache-spark-sql

我正在通过以下代码读取csv文件： spark = SparkSession.builder \.master("local[2]") \现在有四个不同的选项可读： df = spark.read.csv("/....

浏览 3提问于2018-07-02得票数 2

0回答

将数组展平为字符串

scala、apache-spark、dataframe、amazon-redshift、scala-collections

我正在尝试使用spark-redshift连接器将嵌套的JSON保存到redshiftval basketItems = df.select($"OrderContainer.BasketInfo.BasketId&qu

浏览 2提问于2016-07-13得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花镶嵌嵌套值展平

使用Java从拼图文件中读取嵌套JSON

在Apache Spark Scala中将嵌套的json with array展平为单行数据帧

如何在spark数据帧/spark sql中读取带模式的json

验证镶嵌块文件中的空值

如何展平结构数组类型的列(由Spark ML API返回)？

Spark AnalysisException在Spark SQL中“扁平化”DataFrame时

将海量JSON文件读入Spark* Dataframe*

用于嵌套Json的火花指定模式

扁平化非常嵌套的Spark* Scala数据框架*

有没有办法在spark* streaming中扁平化嵌套的JSON？*

Spark中区分大小写的拼图模式合并

修改Spark* dataframe中的结构列*

用嵌套的用户数据类型保存星火DataFrames

Databricks Delta和Hive事务表

通过Spark读取保存在文件夹中的所有拼图文件

基于目标JSON结构的Spark* Scala创建模式*

火花中不同的阅读选项之间有什么区别？

将数组展平为字符串

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐