将ArrayType列传递给Spark Scala中的UDF

、、、

我正在尝试为Spark创建一个Scala，它可以在Spark中使用。该函数的目标是接受任何列类型作为输入，并将其放入ArrayType中，除非输入已经是ArrayType。下面是我到目前为止掌握的代码：importo

浏览 8提问于2022-05-06得票数 0

1回答

、、

我在Scala中的Spark dataframe中有一个列，它是使用以下命令聚合多列后生成的 agg(collect_list(struct(col(abc), col(aaa)).as(def)我希望将此列传递给UDF进行进一步处理，以便处理此聚合列中的一个索引。当我将参数传递给我的UDF时： .withColumn(def, remove

浏览 21提问于2021-10-19得票数 1

回答已采纳

2回答

使用Scala、Spark UDF中的类型多态性将一系列Map展平为Map

、、

我有以下函数，它将字符串的映射序列展平为双精度。如何将类型字符串转换为双泛型？,DoubleType,false),Some(List(ArrayType(MapType(StringType,DoubleType,false),true)))) 我需要像这样的东西， val flattenSeqOfMaps编辑1:我使用的是spark 2.3。我知道spark 2.4中的高阶函数编辑2:我变得更接近了。在val flattenSe

浏览 34提问于2019-03-20得票数 1

回答已采纳

1回答

定义一个接受Spark DataFrame中的对象数组的UDF？

、、、、

在使用Spark的DataFrames时，需要用户定义函数(UDF)来映射列中的数据。UDF要求显式指定参数类型。在我的例子中，我需要操作一个由对象数组组成的列，但我不知道要使用哪种类型。对列中的数据执行基本操作相对简单data.select($"topic", size($

浏览 2提问于2016-08-18得票数 29

回答已采纳

1回答

具有空值的pyspark UDF check和if语句

如果传递给pyspark UDF的数组中不存在空值，则此方法有效。concat_udf = udf() 我不明白我们如何通过一个带有If的空/无检查来适应这一点。如何正确地适应下面不起作用的以下内容： concat_udf = udf(

浏览 14提问于2020-10-27得票数 0

回答已采纳

1回答

Spark dataframe中ListType、MapType、StructType字段的通用处理

、、

如何在Scala中对Spark StructType执行通用处理，如按名称选择字段、遍历映射/列表字段等？在spark dataframe中，我有类型为"ArrayType“的列"instances”，其模式如下： instances[ArrayType]: 0 [ StructType:，如下所示，但我没有找到任何在Scala-spark中实现上述伪代码<em

浏览 117提问于2020-07-10得票数 0

1回答

星星之火SQL (语言而不是API)和从UDF访问数据行

、、、

我在Spark表达式( SQL语言)中使用自己的Spark函数(不是通过Spark )。如果在我的UDF函数中出现故障，我想使用所有列访问整行，并公开此信息(例如，通过自定义异常或日志)，以更好地处理错误。现在，我不知道如何访问UDF中的行列，甚至不知道如何通过SQL将所有列传递给我的UDF。请建议一下。

浏览 1提问于2020-02-25得票数 2

回答已采纳

1回答

用UDF火花将字符串的嵌套ArrayType转换为日期的嵌套ArrayType

、、、、

输入：f1：ArrayType(ArrayType(StringType))的模式我希望使用spark将日期值从字符串转换为日期格式。这里的输入可能有Array[Any]。我编写了udf，它适用于一维值，比如["2

浏览 4提问于2017-08-28得票数 0

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

、、、、

例如，我想获取其中包含特定ID的行数。或者使用

浏览 1提问于2018-10-30得票数 2

回答已采纳

1回答

接受带有数组的嵌套JSON结构的用户定义函数的输入参数的类型是什么？

、、

我有下面的嵌套JSON对象(cellsDF)描述多边形(许多多边形因此使用Scala和Spark)： |-- geometry: struct (nullable = true) |我用scala编写了UDF来查找这些数据，但是Spark似乎不喜欢在这个嵌套的JSON上运行UDF的方式。注意，还没有编写inPolygon UDF，只是想测试整个概念是否适用于UDF。candidateCells是预先定义

浏览 2提问于2017-05-29得票数 1

1回答

在数组类型的列spark数据帧中不区分大小写的搜索

、

我有如下的spark数据帧： |col1 |wordstime, and, money] | 我想从上面的列中筛选不区分大小写的数据目前我是这样做的。 df.filter(array('words, "

浏览 48提问于2017-07-26得票数 1

回答已采纳

2回答

如何展平结构数组类型的列(由Spark* ML API返回)？*

、、

也许只是因为我对API比较陌生，但我觉得Spark ML方法经常返回不必要的难以使用的DFs。scala> val arrayType = ArrayType(new StructType().add("itemId", IntegerType).add("ratingitemId: intege

浏览 0提问于2017-10-14得票数 6

回答已采纳

3回答

如何使用udf更新包含数组的spark数据框列

、、、

因此，我可以使用udf更新这个字段，如下所示： "Mr. " + sdf.withColumn("person(false)+---------++---------++---------+def updateArray = udf<

浏览 30提问于2019-10-29得票数 3

回答已采纳

1回答

Apache当类型是对象数组时如何获得TypedColumn？

、、

我试图根据现有列向我的数据框架添加一个新列，其中数据是一个自定义对象数组。at org.apache.spark.sql.catalyst.encoders.ExpressionEncoder$.javaBean(ExpressionEncoder.scala:87) ~[spark-catalyst_2.11-2.2.0.jar:2.2.0] at org.apache.spark.sql.Encoders$.bean(Encoders.scala:142) ~[spa

浏览 5提问于2017-09-19得票数 0

回答已采纳

1回答

当输出是要从Pyspark使用的复杂类型(使用StructType和StructField)时，如何传递Scala* UserDefinedFunction*

、、、、

因此，我想创建一个可以在Pyspark中使用的scala UDF。它适用于Scala Spark。我的问题是试图让这个在pyspark中可调用。import org.apache.spark.sql.functions.udfimport org.apache.spark.sql.api.jav

浏览 29提问于2020-10-09得票数 4

回答已采纳

1回答

在Apache中，从用户定义的聚合函数返回多个数组

、、、、

我正在尝试使用Apache在Java中创建一个用户定义的聚合函数，该函数在完成时返回多个数组。我已经在网上搜索过了，找不到任何关于如何做到这一点的例子或建议。我能够返回一个数组，但无法知道如何在计算()方法中以正确的格式获取数据以返回多个数组。由于我可以在below ()方法中打印出数组，所以UDAF确实可以工作，但我不知道如何将这些数组返回给调用代码(如下所示，以供参考)。，但是关键的方法是dataType()和计算方法()，这是首先显示的<

浏览 4提问于2015-11-26得票数 9

回答已采纳

1回答

spark dataframe中键值对的字符串(无Pyspark)

、、

例如:我有一个带有字符串的列。我需要将其转换为元组或数组。主要的挑战是我需要整数形式的键和双精度形式的值。Array. 如果有人给我提供一个想法或建议，那就太好了。

浏览 15提问于2020-07-15得票数 0

回答已采纳

1回答

将结构的2D数组嵌套为二维数组的结构

我有一个array<array<struct<a: String, b: Int>>>类型的列。我想要一个struct<a: array<array<String>>, b: array<array<Int>>类型的列。理想情况下，这个过程应该自动取消所有struct字段(即，无需我手动指定字段"a“和"b”)，但是在这里工作的任何内容都会非常有用。示例代码(我正在尝试将ds转换为expected)。case c

浏览 2提问于2019-06-17得票数 3

回答已采纳

2回答

如何在PySpark中将向量类型的列转换为数组/字符串类型？

、、、

考虑以下pyspark中的dataframe：| Col A|| [0.5, 0.6]| | [1.1, 1.5]| A列的类型是向量，如何创建一个值为A列但类型为数组或字符串的新列？

浏览 1提问于2020-03-04得票数 1

2回答

将Array[struct]类型的两列附加到Scala* DataFrame的单个列中*

、、

add("col1",ArrayType(new StructType(). add("name",StringType).add("pages",IntegerType))) val df = spark.createDataFrame(spark.spark

浏览 5提问于2022-08-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scala火花UDF函数，它接受输入并将其放入数组中