Spark dataframe中ListType、MapType、StructType字段的通用处理

在Spark DataFrame中，ListType、MapType和StructType是三种常见的复杂数据类型，用于表示嵌套结构的字段。下面是对它们的通用处理方法：

ListType（列表类型）： ListType表示一个包含多个元素的列表。在处理ListType字段时，可以使用Spark DataFrame的内置函数和方法进行操作。以下是一些常见的处理方法：

获取列表的长度：使用size函数。
获取列表中的某个元素：使用getItem函数，传入元素的索引。
判断列表是否包含某个元素：使用array_contains函数。
对列表进行过滤：使用filter函数。
对列表中的元素进行操作：使用explode函数将列表展开为多行数据，然后对每个元素进行操作。

推荐的腾讯云相关产品：腾讯云数据仓库 ClickHouse，详情请参考腾讯云 ClickHouse。

MapType（映射类型）： MapType表示一个键值对的映射。在处理MapType字段时，可以使用Spark DataFrame的内置函数和方法进行操作。以下是一些常见的处理方法：

获取键值对的数量：使用size函数。
获取指定键的值：使用getItem函数，传入键名。
判断是否包含指定键：使用map_contains函数。
对键值对进行过滤：使用filter函数。

推荐的腾讯云相关产品：腾讯云数据库 TDSQL-C，详情请参考腾讯云 TDSQL-C。

StructType（结构类型）： StructType表示一个包含多个字段的结构。在处理StructType字段时，可以使用Spark DataFrame的内置函数和方法进行操作。以下是一些常见的处理方法：

获取字段的值：使用.操作符，加上字段名。
对字段进行重命名：使用withColumnRenamed方法。
对字段进行过滤：使用filter函数。
对字段进行排序：使用orderBy方法。

推荐的腾讯云相关产品：腾讯云数据仓库 ClickHouse，详情请参考腾讯云 ClickHouse。

以上是对Spark DataFrame中ListType、MapType和StructType字段的通用处理方法的介绍。通过使用这些方法，可以方便地对复杂数据类型进行操作和处理。

Spark dataframe中ListType、MapType、StructType字段的通用处理

、、

如何在Scala中对Spark StructType执行通用处理，如按名称选择字段、遍历映射/列表字段等？在spark dataframe中，我有类型为"ArrayType“的列"instances”，其模式如下： instances[ArrayType]: 0 [ StructType: name [StringType] address[StringType] experiences[MapType]: Company-1[StringType]:

浏览 117提问于2020-07-10得票数 0

1回答

如何从MapType Scala Spark列中提取数据作为Scala Map？

、

嗯，问题就是这样。让我提供一个示例： import org.apache.spark.sql.functions._ import org.apache.spark.sql.{DataFrame, Column, Dataset} val data = List( Row("miley", Map("good_songs" -> "wrecking ball", "bad_songs" -> "younger now" ) ),

浏览 14提问于2019-12-05得票数 2

回答已采纳

1回答

支持嵌套结构的星火StructType

、、、

Spark的方法的javadocs表明，第二个参数需要是一个扩展DataType的类。在这种情况下，我需要将相当复杂的MapType作为StructType上的字段添加。具体来说，这个MapType字段是几个嵌套结构的映射： Map<String,Map<Integer,Map<String,String>>> 因此，它是一个包含2个嵌套/内部映射的映射。Map<String,String>类型的最内部地图if (所以用火花的说法，MapType[StringType,StringType])。中间的地图是Map<Integer,Ma

浏览 3提问于2016-10-06得票数 0

回答已采纳

1回答

更新Pyspark中映射类型列的结构化值

、、、、

浏览 3提问于2021-01-04得票数 3

回答已采纳

1回答

将Spark DataFrame映射转换为`{"Key"：key，"Value"：value}`的映射数组

、

怎样才能得到这样一个结构的Spark DataFrame： val sourcedf = spark.createDataFrame( List( Row(Map("AL" -> "Alabama", "AK" -> "Alaska").asJava), Row(Map("TX" -> "Texas", "FL" -> "Florida", "NJ" -> "New Jersey").

浏览 17提问于2019-10-08得票数 1

回答已采纳

1回答

从当前dataframe的模式编写Spark数据code模式(代码中)

、、、

如果手动编写Spark dataframe的整个模式是不可行的(当dataframe中可能有很多字段)，并且您有所述数据have的预期模式时，在代码中声明预期模式的最节省时间的方法是什么？更详细的是： val schema = StructType(Array(StructField("colName", ...You 说，您有一个包含许多字段(可能包含MapType和ArrayType StructFields)的dataframe，而且由于字段数量众多，所以声明整个模式是不可行的，因为知道dataframe的当前模式是您希望数据have在未来始终具有的模式。为此，您希望

浏览 3提问于2019-10-16得票数 1

回答已采纳

2回答

两个DataFrames上的左联接不能应用于(org.apache.spark.sql.Dataset，org.apache.spark.sql.Column，String)

、

我能够读到它们两个数据格式，但是加入它们会给我一个错误，我可以加入到笔记本中。 val s3Reader = new S3Reader(new S3Configuration, sparkSession, "mece_gaia_gaia_property_mapping") val geoFeaturesPropertyDF = s3Reader.get(StorageFormat.PARQUET, "s3n:" + giNewBucket + geoInsightsPath + "/properties.parquet") val mece

浏览 7提问于2022-07-14得票数 0

回答已采纳

3回答

将模式数据类型JSON混合到PySpark DataFrame

、、

我需要将JSON的列表转换为pySpark DataFrames。JSON都有相同的架构。问题是JSON中dicts的值条目有不同的数据类型。例如:字段complex是一个Dicts数组，Dict有四个键，但类型不同(整数、字符串、浮点数和嵌套Dict)。参见下面的示例JSON。如果我使用df = spark.createDataFrame(json_list)从jsons中创建我的DataFrame，因为他无法正确地推断模式，所以pyspark“删除”了一些数据。PySpark决定complex-field的架构应为：StructType("complex", Array

浏览 23提问于2022-03-28得票数 0

回答已采纳

5回答

展平嵌套的Spark数据帧

、、

有没有办法扁平化一个任意嵌套的Spark Dataframe？我看到的大多数工作都是为特定的模式编写的，我希望能够用不同的嵌套类型(例如StructType、ArrayType、MapType等)来通用地扁平化数据帧。假设我有一个模式，比如： StructType(List(StructField(field1,...), StructField(field2,...), ArrayType(StructType(List(StructField(nested_field1,...), StructField(nested_field2,...)),nested_array,...))) 希

浏览 0提问于2015-12-14得票数 14

1回答

用包含MapType的复杂模式创建数据

、、

浏览 2提问于2020-01-27得票数 0

回答已采纳

2回答

如何修改复杂嵌套结构的Spark Dataframe？

、、、

我有一个复杂的DataFrame结构，希望可以轻松地将列设置为空。我已经创建了隐式类，这些类可以连接功能并轻松处理2D DataFrame结构，但是一旦使用ArrayType或MapType使DataFrame变得更加复杂，我就没有多少运气了。例如：我将模式定义为： StructType( StructField(name,StringType,true), StructField(data,ArrayType( StructType( StructField(name,StringType,true), S

浏览 0提问于2016-04-20得票数 9

2回答

使用spark连接器从snowflake自定义数据类型映射

、、、

使用snowflake spark连接器从snowflake复制表时，默认行为是将结构化数据映射到spark字符串：https://docs.snowflake.net/manuals/user-guide/spark-connector-use.html#from-snowflake-to-spark-sql 例如，给定snowflake中的一个表： create table schema.table as select array_construct('1','a') as array_col, object_construct(

浏览 26提问于2019-05-30得票数 1

3回答

如何将“爆炸的列”附加到保存所有现有列的数据帧中？

我试图将爆炸的列添加到dataframe中： from pyspark.sql.functions import * from pyspark.sql.types import * # Convenience function for turning JSON strings into DataFrames. def jsonToDataFrame(json, schema=None): # SparkSessions are available with Spark 2.0+ reader = spark.read if schema: reader.schema(s

浏览 9提问于2022-12-02得票数 1

1回答

如何使用listOfData和模式创建spark DataFrame

、、

我正在尝试从数据列表创建一个DataFrame，并希望在其上应用模式。在Spark Scala文档中，我尝试使用这个接受行列表和模式作为StructType的createDataframe签名。 def createDataFrame(rows: List[Row], schema: StructType): DataFrame 下面是我正在尝试的示例代码 import org.apache.spark.sql.types._ import org.apache.spark.sql.Row val simpleData = List(Row("James", "Sal

浏览 36提问于2020-10-01得票数 0

回答已采纳

1回答

在dataframe的一行中创建struct字段

、

下面的代码是我试图创建一个星火DataFrame的代码，这个字段是一个结构。我应该用什么来代替???来让它起作用。 import org.apache.spark.sql.types._ import org.apache.spark.sql.{DataFrame, Row, SparkSession} val spark: SparkSession = SparkSession.builder() .appName("NodesLanesTest") .getOrCreate() val someData = Seq( Row(1538161836000L, 1

浏览 0提问于2018-09-26得票数 0

回答已采纳

1回答

用Spark的from_json解析任意JSON

、

我有一个数据集，如下所示： ~ ❯ head example.csv ix,value 1,{"abc": {"name": "bob", "profession": "engineer"}} 2,{"def": {"name": "sarah", "profession": "scientist"}, "ghi": {"name": "matt", "profession"

浏览 2提问于2018-05-14得票数 4

1回答

从发电机数据库转储到s3的Json中的数据加载到Spark中的问题

、、

我需要帮助解析成火花Dataframe.json这些数据 json文件的结构如下： "categories": { "M": { "schoolHash": { "N": "0.27235612" }, "audioBooksHash": { "N": "0.7517752" }, "contk": { "N":

浏览 18提问于2021-11-10得票数 0

回答已采纳

1回答

如何最好地处理模式冲突，将MongoRDD转换为DataFrame？

、、、、

我正在尝试从mongo数据库中读取一些文档，并在spark中解析模式。到目前为止，我已经成功地从mongo读取并使用由case类定义的模式将结果mongoRDD转换为DataFrame，但是有一种情况是，mongo集合有一个包含多个数据类型的字段(字符串数组和嵌套对象数组)。到目前为止，我只是将字段解析为一个字符串，然后使用spark的from_json()来解析新模式中的嵌套对象，但是我发现当一个字段不符合模式时，它返回模式中所有字段的null -而不仅仅是不符合的字段。是否有一种方法来解析这一点，以便只有与模式不匹配的字段才会返回null？ //creating mongo test da

浏览 6提问于2020-03-04得票数 1

回答已采纳

1回答

结构化流如何动态解析kafka的json数据

、、

我正在尝试使用结构化流从Kafka读取数据。从kafka收到的数据采用json格式。我的代码如下所示:在代码中，我使用from_json函数将json转换为dataframe以供进一步处理。 val **schema**: StructType = new StructType() .add("time", LongType) .add(id", LongType) .add("properties",new StructType() .add("$app_version", StringType)

浏览 3提问于2019-10-15得票数 4

回答已采纳

2回答

模式不匹配-写入Delta的火花DataFrame

、、

当将dataframe写入增量格式时，由此产生的增量似乎不遵循所编写的dataframe的架构。具体来说，字段的'nullable‘属性在结果的增量中似乎总是'true’，而不管源dataframe模式如何。这是意料之中的还是我在这里犯了一个错误？是否有一种方法可以使所编写的增量的模式与源df完全匹配？ scala> df.schema res2: org.apache.spark.sql.types.StructType = StructType(StructField(device_id,StringType,false), StructField(val1,Stri

浏览 1提问于2020-05-19得票数 0

回答已采纳

1回答

scala类的spark scala冒号.immutable.$ scala.MatchError $colon

、、、、

我正在通过查询和合并hive表的列来构建结构列的映射。稍后，我在id列上对这些记录进行分组，以便为这些id构建相关的映射。在将其写回配置子表之前，它将在稍后连接到其他Dataframe。 import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.SQLContext import org.apache.spark.sql.hive.HiveContext; import org.apache.spark.sql._ import org.apache.sp

浏览 23提问于2017-01-16得票数 0

1回答

如何更改DataFrame的模式(修复某些嵌套字段的名称)？

、、

我有一个问题，当我们将Json文件加载到Spark中时，将其存储为Parquet，然后尝试从Impala访问Parquet文件；Impala抱怨列的名称，因为它们包含SQL中非法的字符。 JSON文件的“特性”之一是它们没有预定义的模式。我希望Spark创建架构，然后我必须修改具有非法字符的字段名。我的第一个想法是对withColumnRenamed中的字段名称使用DataFrame，但这只适用于我认为的顶级字段，因此我无法使用它，因为Json包含嵌套数据。因此，我创建了下面的代码来重新创建DataFrames模式，递归地遍历结构。然后，我使用这个新模式重新创建DataFrame。 (使用

浏览 0提问于2017-07-20得票数 3

回答已采纳

2回答

使用定义的StructType转换Spark数据帧的值

、、、

有没有一种方法可以使用StructType转换数据帧的所有值？让我用一个例子来解释我的问题：假设我们从文件读取后获得了一个数据帧(我提供了一个生成此数据帧的代码，但在我的真实项目中，我是在从文件读取后获得此数据帧的)： import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import spark.implicits._ val rows1 = Seq(

浏览 7提问于2018-07-28得票数 4

回答已采纳

2回答

RDD到Dataframe Spark Couchbase

、、、

我已经从NOSQL数据库创建了RDD，我想将RDD转换为数据帧。我已经尝试了许多选项，但都会导致错误。 val df = sc.couchbaseQuery(test).map(_.value).collect().foreach(println) {"accountStatus":"AccountOpen","custId":"140034"} {"accountStatus":"AccountOpen","custId":"140385"} {"

浏览 1提问于2016-11-28得票数 0

1回答

将复杂的StructType转换为MapType

、、、

如何将datafame字段从只提供非空StructFields的StructType字段转换为MapType？考虑以下数据帧： from pyspark.sql.types import * rdd = sc.parallelize([ ('Joe', 'Doe', (('Alice', 40), ('Bob', 50), None)), ('Jack', 'Jackson', (('Alice', 40), None, None)), ('Jo

浏览 12提问于2021-04-25得票数 0

回答已采纳

1回答

是否有可能使用Spark与星火结构流的库？

、、、

我想对我从一个卡夫卡集群中获得的消息流执行tweet情绪分析，该集群反过来从Twitter v2中获取这些消息。当我尝试应用预先训练过的情感分析管道时，我会收到一条错误消息，上面写着：Exception: target must be either a spark DataFrame, a list of strings or a string，我想知道是否有办法解决这个问题。我已经检查了文档，在流数据上找不到任何东西。这是我使用的代码： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functi

浏览 7提问于2022-03-23得票数 1

回答已采纳

2回答

如何在MutableAggregationBuffer中添加/修改映射对象？

、、

我使用Spark2.0.1和Scala2.11。这是一个与星火库中的用户定义聚合函数有关的问题.我使用提供的示例回答来问我的问题： import org.apache.spark.sql.expressions._ import org.apache.spark.sql.types._ import org.apache.spark.sql.functions.udf import org.apache.spark.sql.{Row, Column} object DummyUDAF extends UserDefinedAggregateFunction { def inputSch

浏览 4提问于2017-06-01得票数 2

回答已采纳

1回答

从ArrayType()和StructType()创建MapType

、、、

我有一个JSON，看起来像这样： "mapping_field" : { "values" : { "key1" : { "id" : "key1", "field1" : "value1", "field2" : "value2", }, "key2

浏览 22提问于2020-11-24得票数 0

回答已采纳

3回答

如何在Seq[Map<String，String>]中的单个字段上应用udf

、、、

我有一个Dataframe，它有两个类型为String和Seq[MapString，String]的列。类似于： Name Contact Alan [(Map(number -> 12345 , type -> home)), (Map(number -> 87878787 , type -> mobile))] Ben [(Map(number -> 94837593 , type -> job)),(Map(number -> 346 , type -> home))] 因此，我需要的是在字段ud

浏览 0提问于2018-04-03得票数 1

回答已采纳

1回答

在DataFrame中将RDD转换为PySpark

、、

我无法将RDD数据转换为pyspark中的Dataframe。这是我写的代码。 from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType, Row from pyspark.sql import * spark = SparkSession \ .builder \ .appName("pyspark") \ .master("

浏览 5提问于2021-04-02得票数 0

2回答

Scala Spark -调用createDataFrame时获取重载方法

、、

我尝试从双精度数组(Array[ArrayDouble])创建一个DataFrame，如下所示： val points : ArrayBuffer[Array[Double]] = ArrayBuffer( Array(0.19238990024216676, 1.0, 0.0, 0.0), Array(0.2864319929878242, 0.0, 1.0, 0.0), Array(0.11160349352921925, 0.0, 2.0, 1.0), Array(0.3659220026496052, 2.0, 2.0, 0.0), Array(0.31809629470827383,

浏览 16提问于2017-02-13得票数 1

回答已采纳

1回答

java.lang.ClassNotFoundException: org.json4s.JsonAST$JValue

、、、

我正在kafka上尝试POC，在那里我正在将数据集加载到主题中并从中读取数据。我正在尝试创建一个结构，如下所示，以应用于我将从kafka主题读取的数据： import org.apache.spark.sql.DataFrame import org.apache.spark.sql.types.{MapType, StringType, StructField, StructType} import org.apache.spark.sql.functions._ //import org.apache.spark.sql.types.DataType.j //import org

浏览 271提问于2021-11-10得票数 0

1回答

从scala.collection.immutable.Iterable[org.apache.spark.sql.Row]到DataFrame？错误:具有替代项的重载方法值createDataFrame

、、、、

我有一些sql.Row对象，我希望在Spark1.6.x中将它们转换为DataFrame 我的行如下所示： events: scala.collection.immutable.Iterable[org.apache.spark.sql.Row] = List([14183197,Browse,80161702,8702170626376335,59,527780275219,List(NavigationLevel, Session)], [14183197,Browse,80161356,8702171157207449,72,527780278061,List(StartPlay, Ac

浏览 0提问于2017-10-12得票数 0

1回答

用复杂类型的StructType构造StructField

、

有一种 case class RSSEntry( source: RSSFeed, uri: String, title: String, links: List[RSSLink], content: List[RSSContent], description: RSSContent, enclosures: List[RSSEnclosure], publishedDate: Long, updatedDate: Long, authors: List[RSSPerson], contributors: List[RSSPerson] ) 我使用字

浏览 5提问于2019-12-09得票数 1

1回答

PySpark Dataframe.groupBy MapType柱

、、、

我有一个带有MapType列的dataframe，其中键是id，值是另一个StructType，它有两个数字，一个计数器和一个收入。看起来是这样： +--------------------------------------+ | myMapColumn | +--------------------------------------+ | Map(1 -> [1, 4.0], 2 -> [1, 1.5]) | | Map() | | Map(1 ->

浏览 5提问于2016-03-16得票数 4

回答已采纳

2回答

将海量JSON文件读入Spark Dataframe

、、、

我有一个很大的嵌套NDJ (新行分隔的JSON)文件，我需要将其读取到单个spark dataframe中并保存到parquet中。在尝试呈现模式时，我使用以下函数： def flattenSchema(schema: StructType, prefix: String = null) : Array[Column] = { schema.fields.flatMap(f => { val colName = if (prefix == null) f.name else (prefix + "." + f.name)

浏览 2提问于2016-12-10得票数 5

3回答

如何将(带有嵌套StructTypes的) DataFrame的所有列转换为Spark中的string

、、、

出于某种原因，我正在尝试将数据帧(带有嵌套的structTypes)的所有字段转换为字符串。我已经在StackOverflow中看到了一些解决方案(但它们只适用于没有嵌套结构的简单数据帧)(就像这里的 ) 我将通过一个例子来解释我真正需要什么： import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import spark.implicits._ val row

浏览 14提问于2018-07-25得票数 2

回答已采纳

1回答

如何将数据架构的字符串拆分为每个结构

、、

我想将dataframe的架构拆分为一个集合。我正在尝试这个方法，但是模式被打印成一个字符串。我是否可以将其拆分为每个StructType的集合，以便对其进行操作(比如只从输出中提取数组列)？我试图平平一个复杂的多层次的结构+数组数据。 import org.apache.spark.sql.functions.explode import org.apache.spark.sql._ val test = sqlContext.read.json(sc.parallelize(Seq("""{"a":1,"b":[2,3],"

浏览 0提问于2018-03-09得票数 0

回答已采纳

1回答

多态JSON的火花处理

、、、

考虑到这个JSON输入(为可读性以多行形式显示，但实际的输入文档是一行CR分隔的)： { "common": { "type":"A", "date":"2020-01-01T12:00:00" }, "data": { "name":"Dave", "pets": [ "dog", "cat" ] } } { "common": { "type":

浏览 3提问于2021-04-23得票数 0

回答已采纳

4回答

如何将空映射类型列添加到DataFrame？

、、、、

我想向dataframe添加一个新的map类型列，如下所示： |-- cMap: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true) 我试过密码： df.withColumn("cMap", lit(null).cast(MapType)).printSchema 错误是： :132: error:重载的方法值转换为可选方法： (致: String)org.apache.spark.sql.Column ( to : org.apache.sp

浏览 12提问于2017-05-28得票数 10

回答已采纳

1回答

Spark DataFrame嵌套结构是否仅供选择？

、

我有一个包含一些数据的json文件，我可以从中创建DataFrame，我感兴趣的特定部分的模式如下所示： val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes: struct (nullable = true) | |-- Address2: array (nullable = true) | | |-- value: struct (nullable = true) | | | |-- Zi

浏览 1提问于2015-05-28得票数 23

回答已采纳

3回答

在星火中嵌套结构中递归重命名列

、、

我试图在我的DataFrame的所有列中替换某些字符，这些列有很多嵌套的结构类型。我试图递归地处理模式字段，出于某种原因，它只是在顶层重命名字段，即使是通过它到达叶节点。我正在尝试将列名中的:字符替换为_ 下面是我编写的scala代码： class UpdateSchema { val logger = LoggerFactory.getLogger(classOf[UpdateSchema]) Logger.getLogger("org").setLevel(Level.OFF) Logger.getLogger("akka"

浏览 0提问于2018-07-13得票数 1

回答已采纳

2回答

如何在Java中实现以下scala代码片段

、、

我正在实现一段代码，用于将多个列动态添加到行中具有空值的Dataframe中我在scala中找到了以下代码片段，其中使用了Dataframe对象的map函数。 import org.apache.spark.sql.catalyst.encoders.RowEncoder import org.apache.spark.sql.types.{DataTypes, NullType, StructType} import org.apache.spark.sql.{DataFrame, Encoders, Row, SparkSession} import org.apache.spark.s

浏览 1提问于2019-04-03得票数 0

1回答

Apache和UDF

、、

Spark 1.6 / Java-7 带有新列的初始数据帧 # adding new column for the UDF computation: df = df.withColumn("TEMP_COLUMN", lit(null)); UDF函数创建新StructType并将其放入单元格的正确格式是什么？ public static DataFrame compute(SQLContext sqlContext, DataFrame df) { sqlContext.udf().register("compute", new MyUdf(), ne

浏览 2提问于2021-01-13得票数 0

回答已采纳

3回答

向星火MapType列添加新的键/值对

、、、

我有一个带有MapType字段的Dataframe。 >>> from pyspark.sql.functions import * >>> from pyspark.sql.types import * >>> fields = StructType([ ... StructField('timestamp', TimestampType(), True), ... StructField('other_field', StringType(), True),

浏览 10提问于2018-01-10得票数 6

回答已采纳

2回答

为什么可变地图在星火中的UserDefinedAggregateFunction中自动变为不可变

、、、

我正试图在星火中定义一个UserDefinedAggregateFunction(UDAF)，它计算组的一个列中每个唯一值的出现次数。这是一个例子:假设我有这样一个dataframe df， +----+----+ |col1|col2| +----+----+ | a| a1| | a| a1| | a| a2| | b| b1| | b| b2| | b| b3| | b| b1| | b| b1| +----+----+ 我要一个DistinctValues val func = new DistinctValues 然后将其应用于dat

浏览 2提问于2016-04-14得票数 7

回答已采纳

1回答

自定义转换器中的Spark (Java) transformSchema()

、、、、

我想将我的自定义转换器与StandardScaler一起使用： VectorizerTransformer vectorizerTransformer = new VectorizerTransformer(field.getName()); pipelineStages.add(vectorizerTransformer); StandardScaler scaler = new StandardScaler() .setInputCol(vectorizerTransformer

浏览 0提问于2016-10-27得票数 1

2回答

如何将Spark DataFrame中的嵌套结构转换为嵌套映射

、、

我正在尝试批量写入到AWS DynamoDB中，在加载之前我必须重新格式化dataFrame，现在我的问题是如何将深度structType dataFrame转换为DynamoDB可以识别的深度映射格式，而不需要手动按字段定义字段？环境: Apache Spark 2.4.3/Spark 2.4.3 in Databricks，Scala 2.11，DynamoDB 源代码有一个深层结构，如下所示 root |-- PK: string (nullable = false) |-- SK: string (nullable = false) |-- ee: struct (nulla

浏览 31提问于2021-08-02得票数 1

回答已采纳

2回答

火花使用dbutils.fs.ls().toDF在.jar文件中

、、、

我正试图将基于代码的jar打包到databricks笔记本中。下面一行在databricks中工作，但在scala代码中抛出了一个错误： import com.databricks.dbutils_v1.DBUtilsHolder.dbutils val spark = SparkSession .builder() .appName("myApp") .master("local") .enableHiveSupp

浏览 7提问于2021-10-26得票数 2

2回答

PySpark聚合操作，该操作将DataFrame列中的所有行之和为MapType(*，IntegerType())

、、

假设您使用一个精确的模式创建了一个火花DataFrame： import pyspark.sql.functions as sf from pyspark.sql.types import * dfschema = StructType([ StructField("_1", ArrayType(IntegerType())), StructField("_2", ArrayType(IntegerType())), ]) df = spark.createDataFrame([[[1, 2, 5], [13, 74, 1]],

浏览 11提问于2022-11-29得票数 0

回答已采纳