spark UDF不接受数组_Spark创建不接受输入的UDF_Spark: UDF多次执行 - 腾讯云开发者社区

scala、apache-spark

为什么Spark UDF函数不支持scala数组，而使用WrappedArray则可以呢？在这里的函数定义中，ArrayDate给出了Classcast异常。billdate"+billdate) } return billdate import org.apache.spark.sql.functions.udfval udffn = udf(getDate

浏览 10提问于2020-10-11得票数 0

1回答

数组()和array()之间的差异

arrays、scala、apache-spark

我在Shell (1.6)中将字符串列表转换为如下所示的数组：val values = array(mapData.map(col): _*) 一切都很好，，值的类型现在发生了变化，正在使用它的udf不接受</

浏览 2提问于2018-03-21得票数 0

回答已采纳

2回答

Spark创建不接受输入的UDF

scala、apache-spark、apache-spark-sql、spark-dataframe、udf

我想向我的Spark dataframe添加一个具有随机生成的id的列。为此，我使用UDF调用UUID的随机UUID方法，如下所示： UUID.randomUUID().toString()val newDf = myDf.withColumn("id", idUdf($"colName")) 显然，我的getRandomId函数不

浏览 4提问于2017-01-26得票数 5

回答已采纳

1回答

Spark 2.1将UDF注册到functionRegistry

apache-spark、apache-spark-sql、spark-dataframe、user-defined-functions、apache-spark-2.0

嗨，我想注册一个已经创建的UDF对象。我使用的是SPART2.1，sparkSession.udf.register()函数不接受UDF参数，而只接受常规scala函数。很容易从大型Spark中漏掉一些东西，所以只需问一下，是否有一个函数或构造函数可以在2.1中允许这样做？

浏览 3提问于2017-11-17得票数 0

回答已采纳

2回答

可以在Spark* Dataframe列中存储numpy数组吗？*

numpy、pyspark、spark-dataframe

此函数返回一个numpy array，代码如下：dataframe = dataframe.withColumn('vector', create_vector_udf('text'))现在<

浏览 4提问于2017-07-07得票数 10

3回答

我在spark Dataframe中有一个"StructType“列，它有一个数组和一个字符串作为子字段。我想修改数组并返回相同类型的新列。我能用UDF处理它吗？或者，还有其他选择吗？import org.apache.spark.sql.types._val sub_schema = StructType(StructField，类似于 val u = udf((x:Row) => x

浏览 2提问于2017-03-21得票数 22

1回答

用于Spark的累积产品UDF

apache-spark、apache-spark-sql、user-defined-functions

我在其他文章中也看到过这样做是为了数据格式：spark.udf.register("prod",prod) spark.sql("""Select prod(table.vals) from table""").show(100array<decimal(38,18)> type, howe

浏览 0提问于2020-04-09得票数 1

回答已采纳

1回答

定义一个接受Spark* DataFrame中的对象数组的UDF？*

scala、apache-spark、dataframe、apache-spark-sql、user-defined-functions

在使用Spark的DataFrames时，需要用户定义函数(UDF)来映射列中的数据。UDF要求显式指定参数类型。在我的例子中，我需要操作一个由对象数组组成的列，但我不知道要使用哪种类型。来执行任意操作val enhance = udf { topic : String => topic.toUpperCase来操作"subjects“列中的对象数组，

浏览 2提问于2016-08-18得票数 29

回答已采纳

1回答

如何使用Scala解压缩星火DataFrame中的列

scala、apache-spark、gzip

目前，我的Spark (用Scala编写)作业使用Java.io Reader链来压缩内容：val byteArrayInputStream

浏览 0提问于2019-04-16得票数 1

1回答

Spark管道中的UDF

apache-spark、pyspark、user-defined-functions

我在python中创建了一个UDF，用于计算表中两个日期列之间的日期数组，并将其注册到spark会话中。我在管道中使用这个UDF来计算一个新列。现在，当我将这个流水线保存到HDFS，并希望它被读回以便在不同的程序中执行(使用不同的spark会话)时，UDF是不可用的，因为它没有在任何地方全局注册。由于该进程是通用的，并且需要运行多个管道，因此我不想添加UDF定义并将其注册到spark会话中。有没有办法让我在所有spark会话中全局注

浏览 1提问于2018-02-12得票数 0

1回答

如何使用Spark* SQL创建和执行set操作？*

python、apache-spark、pyspark、apache-spark-sql

我使用Spark SQL创建了一个名为todays_ids和previous_days_ids的ID数组。我希望能够直接使用Spark SQL将这些ID数组转换为集合，然后计算一列的ID与另一列的ID之间的差异。到目前为止，我已经使用了UDF：... query to generate today and previous day's ID array columns

浏览 28提问于2021-05-15得票数 1

回答已采纳

1回答

是否在所有节点上支持用户定义的内存数据结构？

apache-spark、apache-spark-sql

我正在使用Spark，并且对它的漂亮特性感到满意。谢谢,

浏览 0提问于2016-03-04得票数 1

回答已采纳

1回答

如何索引数组中的每个元素？

arrays、indexing、pyspark、slice

我有一个ArrayType列，其中每个元素都是一个数组，正好包含2个元素。from pyspark.sql import SparkSession {"u": ["apple", 23]},] +------------+|[banana, 12]|我想用第一个元素替换每个内部数组。如果我写的是香草Pytho

浏览 6提问于2022-04-25得票数 0

回答已采纳

1回答

无法从spark* dataframe导出数据*

pyspark、johnsnowlabs-spark-nlp

作为测试，我使用spark NLP解析了50万条tweet。数据帧看起来没问题。我将数组转换为字符串。(my_list): array_to_string_udf = udf"])).withColumn('ner', array_to_string_udf(result["n

浏览 7提问于2021-07-29得票数 1

1回答

Apache:等列数据结构，UDF函数的不同结果

arrays、scala、apache-spark、spark-dataframe

我有两个列数组arrayColumns2: org.apache.spark.sql.ColumnarrayColumns1是从Array("col1","col2")到array的转换，使用以下函数： arrayColumns2来自于编写文本<em

浏览 4提问于2017-07-12得票数 0

回答已采纳

1回答

使用Map作为输入的Spark UDF

scala、apache-spark

我创建的UDF如下所示： UserDefinedFunction userDefinedFunction = functions.udf(String value, Map<String, IntegeruserDefinedFunction.apply( col("valueColumnName"), <<pass java map here>>); 如何将此java.util.Map传递到UDF

浏览 35提问于2019-09-10得票数 1

1回答

mlflow.pyfunc.spark_udf与向量结构类型

pyspark、databricks、mlflow

因此我需要让它在星火中发挥作用logged_model = 'runs:/e905f5759d434a131bbe1e54a2b/best-model' loaded_model = mlflow.pyfunc.spark_udf(spark, model_uri=logged_model) # Predict on a Spark DataFrametype

浏览 4提问于2021-07-26得票数 1

回答已采纳

1回答

将spark.sql查询转换为spark/scala查询

scala、apache-spark、apache-spark-sql

实现是使用UDF完成的，UDF有10个以上的参数，因此在使用UDF之前我们需要先注册UDF。已完成以下工作val new_col(String, String, ..., Timestamp)org.apache.spark.sql.expressions.UserDefinedFunction

浏览 0提问于2019-04-20得票数 0

1回答

为什么Spark在调用另一个udf之前转换udf生成的列，而不是raw列？

scala、apache-spark、user-defined-functions

当我试图将它与在创建数据帧时定义的“原始”array<int>一起使用时，在使用我的array<double>之前，Spark不会将其转换为udf。但是，当我从另一个udf生成array<int>时，Spark在调用我的udf之前在array<double>中强制转换该列。这些演员阵容背后的哲学是什么？什么分析器规则对此强制转换负责？下面是一些代码来演示/重现： import org.apache.spark.sql.types

浏览 16提问于2020-12-29得票数 2

1回答

从列到数组Scala Spark

sql、arrays、scala、apache-spark

有这样的错误required: Array[Double] quant现在我得到了这个错误：[error] found : Double(0.75) [error]

浏览 1提问于2018-10-03得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云