为什么Spark在调用另一个udf之前转换udf生成的列，而不是raw列？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我正在尝试使用Seq[Double] => Seq[Double]定义的自定义项。当我试图将它与在创建数据帧时定义的“原始”array<int>一起使用时，在使用我的array<double>之前，Spark不会将其转换为udf。但是，当我从另一个udf生成array<int>时，Spark在调用

浏览 16提问于2020-12-29得票数 2

1回答

把熊猫变成火花公子

因此，我正在尝试将python算法转换为Spark友好代码，并且遇到了以下问题：它基本上比较一列和另一列，并为可能相同的列生成索引对(记录匹配)。我的代码： df1 =

浏览 0提问于2018-07-25得票数 0

回答已采纳

1回答

用火花将字段添加到Csv中

、、、

为了对我们有用，我们将空间信息转换为"geohash"，将时间信息转换为"timehash“。在<

浏览 0提问于2018-08-02得票数 0

回答已采纳

1回答

从列到数组Scala Spark

、、、

我正在尝试在scala的Column上应用一个函数，但是我遇到了一些困难。有这样的错误required: Array[Double]更新： quant

浏览 1提问于2018-10-03得票数 1

1回答

为什么在rand()生成的列上运行的PySpark UDF会失败？

、、

给定以下Python函数： return colfrom pyspark.sql import functionsas Fudf = F.udf(f, returnType=DoubleType()).asNondeterministic() df.withCo

浏览 0提问于2019-04-24得票数 6

回答已采纳

2回答

使用udf在spark* dataframe中添加引用另一个dataframe的列*

、、

我有一个包含列的数据帧"Forecast“- Store, Item, FC_startdate, FC_enddate, FC_qty 另一个包含columns - Store, Item, Saledate, Sales_qty的数据帧"Actual“。我想创建一个带有参数的UDF - p_store, p_item, p_startdate, p_enddate，并在这些日期之间获得Sales_qty的总和，并将其作为新列(A

浏览 1提问于2020-01-02得票数 1

2回答

什么是非类型化Scala和类型化Scala？他们有什么不同？

、、

API with caution; 在Spark3.0中，默认情况下不允许使用org.apache.spark.sql.functions.udf但是，在Spark3.0中，如果输入值为null，UDF将返回Java类型的默认值。例如，val = udf((x: Int) => x，IntegerType)

浏览 9提问于2020-12-03得票数 6

回答已采纳

2回答

在星火Dataset<Row>中使用custome UDF* withColumn；不能将java.lang.String转换为org.apache.spark.sql.Row*

、、、、

我有一个包含许多字段的JSON文件。我在java中使用spark的Dataset读取该文件。当我运行上述代码时，会得到一个强制转换错误。不能将java.lang.String转换为org.apache.spark.sql.Row1-读取行数据集是唯一的选

浏览 2提问于2017-08-25得票数 4

回答已采纳

1回答

我可以给熊猫发送一个火花数据作为论据吗？

、、、、

是否有可能发送一个火花数据作为一个论据给熊猫UDF和得到一个熊猫的数据作为回报。下面是我正在使用的示例代码集，并且在调用函数时出错：from pyspark.sql import SparkSession .builder \ .appName("PrimeBatc

浏览 4提问于2020-11-26得票数 1

回答已采纳

1回答

如何使用Scala在查询中使用自定义函数

、

我将数据从数据库加载到Spark，名为DF，然后必须从其ID具有特殊条件的Dataframe中提取一些记录。}DF.filter(hash_id("ID")===3)value === is not a member of Int DF有ID列。任何帮助都会很感激的。

浏览 2提问于2021-09-21得票数 0

回答已采纳

1回答

使用Java使用Spark列从java Map读取值

、

我尝试了下面的代码，通过java中的spark列获取Map值，但根据每个关键字搜索，从Map获取期望精确值的null值。Spark数据集包含一列，名称为KEY，数据集名称为dataset1 数据集中的值： KEY2 Java代码- Map<String,string> map1 = new HashMap<>()get(col("KEY")))); 当前输出为： ABCD (Column name)null

浏览 118提问于2021-10-14得票数 1

回答已采纳

1回答

使用带有必需列的UDF将在我的中创建一个可空列。

、、、、

输出表中的一个列是我需要在管道中生成的必需ID。我是用UDF来做这件事的，但是不管我尝试了什么，列都被创建为可空。我是如何创建UDF的： (UDF1<String, String>) this::generateEmailCommID, DataTypes.StringT

浏览 5提问于2022-10-20得票数 1

回答已采纳

1回答

使用udf以编程方式从dataframe中选择列

、、

我正在尝试使用包含UDF的配置文件提取数据帧的列。如果我在客户机上将选择列定义为列表，它就可以工作，但是如果我从配置文件导入列表，则列列表的类型为string。有没有别的办法。version 2.2.0SparkSession available as 'spark' ************

浏览 8提问于2019-06-18得票数 1

2回答

Spark创建不接受输入的UDF

、、、、

我想向我的Spark dataframe添加一个具有随机生成的id的列。为此，我使用UDF调用UUID的随机UUID方法，如下所示： UUID.randomUUID().toString()val newDf = myDf.withColumn(&

浏览 4提问于2017-01-26得票数 5

回答已采纳

1回答

Python中的星星之火--使用UDF时执行卡住

、、、、

我有一个用Python编写的spark作业，它使用DataBricks CSV读取器从CSV文件中读取数据。我希望通过应用udf函数将一些列从字符串转换为双列，而udf函数实际上也改变了浮点分隔符。convert_udf = F.udf( returnTypeelse: ret

浏览 3提问于2016-02-02得票数 1

回答已采纳

1回答

基于需要外部API调用的现有列，创建新的列的最佳方法是什么？

、、、

我在一个基于Python的木星笔记本中使用了一个数据采集卡。我想根据现有列的内容添加一个额外的列，其中新列的内容来自于对原始列运行外部API调用。我尝试的解决方案是使用基于Python的UDF。的访问时间，然后计算数据中有多少条目具有由UDF生成的空值。因此，添加了另一个单

浏览 0提问于2018-04-05得票数 0

回答已采纳

2回答

使用熊猫udf返回包含平均值的完整列

、、

这是非常奇怪的，我尝试在星星之火的df上使用熊猫udf，只有当我选择并返回一个值，即列的平均值时，它才能工作。@pandas_udf(DoubleType()) cl = np.average(col) 这将工作并返回包含

浏览 19提问于2022-10-26得票数 0

1回答

Scala -当我们将GMM模型与数据拟合成两个单独的列时，如何将我们得到的概率列(向量列)分开？

、、、

15,0.9999999999999979]|将上面的数据转换为另外两个列：prob1 & prob2，每个列都有对应的值，如probability列中所示。我发现了类似的问题--一个在PySpark中，另一个在Scala。我不知道如何翻译PySpark代码，而且我收

浏览 3提问于2017-06-13得票数 5

回答已采纳

1回答

如何使用Spark* SQL创建和执行set操作？*

、、、

我使用Spark SQL创建了一个名为todays_ids和previous_days_ids的ID数组。我希望能够直接使用Spark SQL将这些ID数组转换为集合，然后计算一列的ID与另一列的ID之间的差异。到目前为止，我已经使用了UDF：... query to generate today and previous day

浏览 28提问于2021-05-15得票数 1

回答已采纳

1回答

定义一个接受Spark* DataFrame中的对象数组的UDF？*

、、、、

在使用Spark的DataFrames时，需要用户定义函数(UDF)来映射列中的数据。UDF要求显式指定参数类型。在我的例子中，我需要操作一个由对象数组组成的列，但我不知道要使用哪种类型。对列中的数据执行基本操作相对简单data.select($"t

浏览 2提问于2016-08-18得票数 29

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云