Pyspark UDF -复杂返回类型的性能命中

、

我有一个返回字符串元组的PySpark UDF，我已经将其编码为一个结构。这是一个玩具的例子， def my_func(x): spark.udf.register("my_func", lambda x: my_func(x),StructField("three", StringType()]) 我称之为 spark.sql("select col1,

浏览 22提问于2019-10-10得票数 1

回答已采纳

1回答

如何在Pyspark中返回double列表？

、、、、

from pyspark.sql import functions as funcdef iqrOnList(accumulatorsList: list):grouped_df = grouped_df.withColumn("SecondList", iqrOnList(grouped_df.dataList)) 这些操作

浏览 3提问于2019-11-12得票数 2

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

、、

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。For column literals, use 'lit', 'array', 'struct' or 'create_map' function...的pyspark内置函数运行相同查询的代码出

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

是否有一种方法可以获得pyspark.sql.column.Column的dtype而不首先在pyspark.sql.DataFrame上调用它？

、、

这可能是一个小众问题，但假设您有一个定义如下的udf：import pyspark.sql.types as stWithout调用pyspark.sql.DataFrame上的udf，并在resultWithout上使用dtype()函数将该函数的returnType存储在单独

浏览 2提问于2021-11-20得票数 0

回答已采纳

1回答

ClassDict (用于pyspark.mllib.linalg.DenseVector)的构造所期望的零参数

、、、、

我知道错误了我有一个函数，我将其转换为udf，用于从dataframe转换列的值。如下所示： #does something udfunc = udf(func, ArrayType

浏览 0提问于2016-07-07得票数 7

回答已采纳

1回答

向量列到doubleType的电火花变换

、

我有一个向量类型的列，每个向量中有一个值。我只想得到这个值，并将该列保持为doubleType。示例输入df：[1.3]|[3.4]||testcol||1.2|我到目前为止的代码是：ex= ex.withColumn("testcol", remove_vector_func("testc

浏览 1提问于2019-04-10得票数 1

2回答

Spark (2.3+)可从PySpark/Python调用的Java函数

、、

除了名称和函数本身之外，还可以选择指定返回类型。当未指定返回类型时，我们将通过反射来推断它。参数：javaClassName - java类的全限定名 returnType -注册的Java函数的返回类型。该值可以是pyspark.sql.types.DataType对象，也可以是DDL格式的类型字符串。我的问题

浏览 76提问于2018-08-11得票数 0

2回答

带有函数的pySpark* withColumn*

、、、

我有一个dataframe，它有两列: account _ id和电子邮件 _ address，现在我想再添加一列'updated _ 电子邮件 _ 地址‘，我在电子邮件中调用了一些函数 _ 获取更新的地址下面是我的代码： def update_email(email): today = datetime.date.todaynull | +---------------+--------------+--------

浏览 38提问于2019-12-13得票数 1

回答已采纳

1回答

pySpark中UDF返回对象的动态模式推断

、、、、

我想在pySpark中使用UDF，它不返回原子值，而是返回嵌套结构。我知道我可以注册UDF并手动设置它将返回的对象的模式。StructField('text',StringType()) ) spark.udf.register('functionName', functionObject, fo

浏览 3提问于2017-03-16得票数 3

1回答

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

、、

我在下面的代码中遇到了pandas_udf错误。代码是创建一个基于另一列的数据类型的列。相同的代码适用于正常的较慢的udf (注释掉)。基本上，任何比"string"+data更复杂的东西都会返回一个错误。# from pyspark.sql.functions import udf import pyspark.sql.ty

浏览 109提问于2019-11-28得票数 3

回答已采纳

1回答

将int列转换为列表类型pyspark

我的DataFrame有一个列num_of_items。这是一个计数字段。现在，我想将它从int类型转换为list类型。from pyspark.sql.types import ArrayType return [x]

浏览 1提问于2019-01-07得票数 3

回答已采纳

2回答

对清单进行排序的udf

、

我有一个名为stopped的列是：| stopped||[nintendo, dsitractor, door, m...||[kaleidoscope, to...|我想要创建另一个列，它包含相同的列表，但其中的关键字是有序的。据我所知，我需要创建一个接收并返回列表的<em

浏览 3提问于2017-07-03得票数 0

回答已采纳

0回答

如何在PySpark中创建一个返回字符串数组的自定义函数？

、、、、

我有一个返回字符串列表的udf。这应该不会太难。我在执行udf时传入了数据类型，因为它返回一个字符串数组：ArrayType(StringType)。import ArrayType, FloatType, StringType label_udf = udf(my_udf, ArrayType)) 结果就是

浏览 6提问于2017-12-07得票数 26

回答已采纳

1回答

使用整行udf过滤Pyspark* Dataframe*

、、

有没有办法选择整行作为一列输入到Pyspark过滤器udf中？我有一个复杂的过滤函数"my_filter“，希望应用于整个DataFrame：new_df= df.filter(my_filter_udf(col("*"))col("*") 引发错误，因为这不是有效的操作。我知道

浏览 2提问于2018-08-28得票数 4

回答已采纳

1回答

在Pyspark中使用UDF函数时，稠密向量应该是什么类型？

、、、、

我希望在pySpark中将列表更改为向量，然后使用此列进行机器学习模型的培训。但是我的星火版本是1.6.0，它没有VectorUDT()。那么，在我的udf函数中应该返回哪种类型呢？from pyspark.sql import SQLContextfrom pyspark.sql.functions,column re

浏览 1提问于2018-04-03得票数 8

回答已采纳

1回答

如何使用PySpark得到对应于最高tf的词？

、、

我见过类似的帖子，但没有完整的答案，因此在这里张贴。 idf = IDF(inputCol="rawFeatures", outputCol=&quo

浏览 3提问于2018-10-10得票数 3

回答已采纳

1回答

UDF转换输出

、、

在Pyspark上，我定义了一个UDF如下：from scipy.spatial.distance import cdist" Find closest point from a list of points. """ udf_closest_point= udf(cl

浏览 1提问于2017-11-22得票数 0

回答已采纳

1回答

比较稀疏向量的Pyspark UDF

、、、、

我正在尝试编写一个pyspark UDF，它将为我比较两个稀疏向量。我想写的是： from pyspark.sql.functions import udf from pyspark.sql.types import ArrayType, IntegerType, FloatTypenumpy数据类型有关。以前，我可以通过在返回之前将numpy数组强制转换为列表来解决这些问题，但在这种情况下，我似乎甚至无法从SparseVector中提取数据，例如，甚

浏览 15提问于2019-03-12得票数 3

3回答

如何在PySpark中返回自定义项中的“元组类型”？

、、、、

IntegerType",我必须编写一个UDF(在pyspark中)，它返回一个元组数组。我给它的第二个参数是什么，是udf方法的返回类型？这将会是一些关于Ar

浏览 5提问于2016-04-25得票数 21

回答已采纳

1回答

从UDF返回ArrayType of StructType时出错(并且在多个UDF中使用单个函数)

(编辑)更改的字段名(来自foo，bar，.)因为旧的命名令人困惑from pyspark.sql.types import IntegerType, StructType, StringType from pyspark.sql.functionsArrayType的其他类型</em

浏览 0提问于2019-08-07得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Pyspark中返回double列表？

pyspark寄存器内置函数及其在spark.sql查询中的使用

是否有一种方法可以获得pyspark.sql.column.Column的dtype而不首先在pyspark.sql.DataFrame上调用它？

ClassDict (用于pyspark.mllib.linalg.DenseVector)的构造所期望的零参数

向量列到doubleType的电火花变换

Spark (2.3+)可从PySpark/Python调用的Java函数

带有函数的pySpark* withColumn*

pySpark中UDF返回对象的动态模式推断

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

将int列转换为列表类型pyspark

对清单进行排序的udf

如何在PySpark中创建一个返回字符串数组的自定义函数？

使用整行udf过滤Pyspark* Dataframe*

在Pyspark中使用UDF函数时，稠密向量应该是什么类型？

如何使用PySpark得到对应于最高tf的词？

UDF转换输出

比较稀疏向量的Pyspark UDF

如何在PySpark中返回自定义项中的“元组类型”？

从UDF返回ArrayType of StructType时出错(并且在多个UDF中使用单个函数)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐