有没有办法在Spark中实现矢量化的UDF？_有没有办法在Outlook中实现拖放？_ALS在Spark中的实现 - 腾讯云开发者社区

、、

在Pandas中，您可以这样做： @pandas_udf(df.schema, PandasUDFType.GROUPED_MAP) returnpdf.assign(v=pdf.v - pdf.v.mean()) df.groupby('id').apply(subtract_mean) 我们有没有办法在Spark中做到这一点？

浏览 26提问于2021-11-09得票数 0

1回答

Spark中的用户定义函数(UDF)是否在集群工作节点上并行运行？

、

假设我在python中创建了一个函数，所以将一个数字求幂为2： def squared(s): return s * s 然后我在Spark session中注册了这个函数，如下所示： spark.udf.register("squaredWithPython", squared) 然后当我在Spark SQL中调用UDF时，如下所示： spark.range(1, 20).

浏览 33提问于2019-10-10得票数 0

回答已采纳

3回答

Spark函数与UDF性能？

、、、、

Spark现在提供了可以在数据帧中使用的预定义函数，而且它们似乎是高度优化的。我最初的问题是哪个更快，但我自己做了一些测试，发现spark函数至少在一个实例中快了10倍。有没有人知道为什么会这样，什么时候udf会更快(只有在存在相同的spark函数的情况下)？下面是我的测试代码(在Databricks社区版上运行)： # <em

浏览 26提问于2016-07-11得票数 58

回答已采纳

1回答

Spark管道中的UDF

、、

我在python中创建了一个UDF，用于计算表中两个日期列之间的日期数组，并将其注册到spark会话中。我在管道中使用这个UDF来计算一个新列。现在，当我将这个流水线保存到HDFS，并希望它被读回以便在不同的程序中执行(使用不同的spark会话)时，UDF是不可用的，因为它没有在任何地方全局注册。由于该进程是通用的</e

浏览 1提问于2018-02-12得票数 0

1回答

Pyspark中的Pandas Udf在yarn客户端或集群模式下仅在一个执行器中运行

、、、

我有一个从Hive Table读取数据并应用pandas udf的代码，当它从表中读取数据时，它在11个执行器中运行，但是当它执行一个pandas udf时，它只使用一个执行器。有没有办法指派10个执行者来执行pandas udf？spark-submit --master yarn --deploy-mode client --conf spark.dynamicAllocation.enabled=false -

浏览 12提问于2020-10-01得票数 0

1回答

在给定行的Spark DataFrame中并行运行UDF

withColumn("resultA",expensiveUDF($"inputA")).show()我试图增加spark.task.cpus，但

浏览 2提问于2018-11-05得票数 0

1回答

如何注销星火UDF

、、、

我在Java中使用Spark1.6.0。 if(StringUtils.isNumeric((String)value)) {}, DataTypes.IntegerType); sqlContext.f

浏览 3提问于2017-06-09得票数 1

2回答

在Spark* dataframe withColumn方法中使用spark RDD.map*

、、

spark的情况下做了一些计算。; return first_summation.sum(); df.withColu

浏览 2提问于2017-07-02得票数 1

1回答

如何注册永久spark* udf？*

、、、

我想在其他会话或视图中使用我的udf，那么有没有办法注册用Python或scala编写的永久Spark UDF？

浏览 4提问于2018-12-17得票数 1

1回答

如何使用pandas_udf对(创建带有预测的新列)上的py手电筒模型进行推断？

、、、、

是否有一种方法可以以矢量化的方式(使用pandas_udf)在电火花数据框架上运行pytorch模型的推断。import torch import torc

浏览 2提问于2020-02-05得票数 8

1回答

用UDF火花将字符串的嵌套ArrayType转换为日期的嵌套ArrayType

、、、、

：f1：ArrayType(ArrayType(StringType))的模式我希望使用spark将日期值从字符串转换为日期格式。这里的输入可能有Array[Any]。我编写了udf，它适用于一维值，比如["2017-08-07","2013

浏览 4提问于2017-08-28得票数 0

2回答

要应用于PySpark中的窗口的用户定义函数？

、、、、

我正在尝试将用户定义的函数应用于PySpark中的窗口。我读到过UDAF可能是可行的，但我找不到任何具体的东西。= SparkSession.builder.master("local").config(conf=SparkConf()).getOrCreate() a = spark.createDataFrame([[1, "a"], [2, "b"], [3, "c"], [4, "d&qu

浏览 0提问于2018-01-09得票数 11

回答已采纳

2回答

pandas_udf在两个ArrayType(StringType())字段上操作

、、

我写了一本UDF。它非常慢。我想用pandas_udf代替它，以利用矢量化的优势。我知道没有UDF我也能达到同样的效果。这是因为我简化了这个例子，

浏览 0提问于2019-09-05得票数 3

回答已采纳

1回答

使用PySpark并行化自定义函数

、

我熟悉使用UDF将自定义函数逐行应用于DataFrame。但是，我想知道如何将自定义函数并行应用于我的DataFrame的不同子集。下面是一个简化的例子：import pandas as pd '

浏览 1提问于2018-07-20得票数 2

3回答

在Spark* UDF中操作数据帧*

、、、

我有一个从dataframe过滤和选择值的UDF，但它遇到了"object not serializable“错误。详情见下文。"))java.io.NotSerializableException: org.apache.spark.sql.Column-object not serializable (class: org.apache.spark.sql.Column, value: Y1) 我查了一下，发现

浏览 20提问于2018-02-21得票数 3

回答已采纳

1回答

注册匿名类功能

在编写spark代码时，我使用了UDF (用户定义函数)。UDF是一个接口，它以下面的方式实现。(SparkSession spark) { spark.udf().register("registerCountryCodeFunctionUDF", new UDF1<String当我使用UDF1接口创建实例时，JVM创建了实现UDF1接口的</e

浏览 32提问于2020-01-12得票数 0

回答已采纳

2回答

使用spark实现散列

、、、、

因此，我用Java语言实现了分离链接散列：https://github.com/Big-data-analytics-project/Static-hashing-closed/blob/main/Static%20hashing%20closed 下一步是使用spark实现它，我试着阅读教程，但我仍然迷失方向。

浏览 21提问于2020-11-04得票数 0

1回答

如何在星火数据库中实现链式功能？

、、

如何在星火数据库中实现链式功能？在我的代码中，我想先做大写，然后进行布尔转换。但我的密码不起作用。谢谢val trimStr: String => String = _.trim import org.apache.spark.sql.functions.udf<

浏览 2提问于2016-12-03得票数 1

回答已采纳

2回答

在PySpark UDF酸洗错误中使用外部库

、、、、

pyspark.sql import SparkSessionfrom pyspark.sql import functions as F m = MorphAnalyzer() gen = F.udf(gender, T.S

浏览 7提问于2022-10-07得票数 1

回答已采纳

1回答

将spark.sql查询转换为spark/scala查询

、、

我使用在scala中返回true/false的一些业务逻辑，在中添加了一列。实现是使用UDF完成的，UDF有10个以上的参数，因此在使用UDF之前我们需要先注册UDF。已完成以下工作 // writing the <e

浏览 0提问于2019-04-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云