如何将dataframe传递给spark udf？_如何将UDF中使用的模块传递给spark submit_在dataframe API中使用spark SQL udf - 腾讯云开发者社区

apache-spark、pyspark、scikit-learn、mlflow、mlops

我想在mlflow上记录一个模型，一旦我这样做了，我就可以用python加载的模型来预测概率，但不能用spark_udf来预测。问题是，我仍然需要在模型中有一个预处理功能。(X), pd.DataFrame(y,columns=["target"])X.columns = [f"col_{idx}" for idx in range, encodes the variables INSIDE; this WORKS loaded_model.predic

浏览 4提问于2021-12-09得票数 0

1回答

spark read在Scala UDF函数中不起作用

scala、apache-spark

我正在尝试使用spark.read来获取我的UDF中的文件数，但当我执行该程序时，它会在这一点挂起。我正在调用dataframe的withcolumn列中的UDF。udf必须读取一个文件并返回它的计数。但它不起作用。我将一个变量值传递给UDF函数。当我删除spark.read代码并简单地返回一个数字时，它可以工作。但是spark.read不是通过UDF工作的。def prepareRowCountfromParqu

浏览 24提问于2019-04-15得票数 2

1回答

将ArrayType列传递给Spark Scala中的UDF

scala、apache-spark、apache-spark-sql

我在Scala中的Spark dataframe中有一个列，它是使用以下命令聚合多列后生成的 agg(collect_list(struct(col(abc), col(aaa)).as(def)我希望将此列传递给UDF进行进一步处理，以便处理此聚合列中的一个索引。当我将参数传递给我的UDF时： .withColumn(def, remove (col(xyz), col(def))) UDF-类型为SeqRow: val removeUnst

浏览 21提问于2021-10-19得票数 1

回答已采纳

2回答

如何将Spark Dataframe列的每个值作为字符串传递给python UDF？

python、apache-spark、pyspark、apache-spark-sql

我正在尝试GPG加密一个spark dataframe列FName我已经创建了一个udf，它接受字符串值作为输入，并提供加密的字符串作为输出。gpg = gnupg.GPG(

浏览 4提问于2018-11-18得票数 1

1回答

Apache注册一个UDF返回的数据

scala、apache-spark、user-defined-functions

我有一个返回数据的UDF。就像下面的那个res3: org.apache.spark.sql.DataFrame: Schema for type org.apache.spark.sql.DataFrame is not supported at org.apache.spark.sql.ca

浏览 3提问于2016-12-20得票数 3

回答已采纳

2回答

为什么不能在UDF中访问dataframe？[阿帕奇火花斯卡拉]

scala、apache-spark、dataframe、spark-structured-streaming

但是，在访问UDF中的masterWord数据时，我遇到了问题。当我试图访问UDF内部的数据时，火花返回此错误为什么不能在UDF中访问dataframe？从另一个dataframe获得价值的最佳实践是什么？&q

浏览 0提问于2019-03-10得票数 1

回答已采纳

1回答

如何将dataframe传递给spark udf？

apache-spark、dataframe、user-defined-functions

我想定义一个udf。在函数体中，它将从外部数据帧中搜索数据。我该怎么做呢？我尝试将数据帧传递给udf。但它不能工作。示例代码： val countryDF = spark.read .option("header", "true") val geo = (originString: String, da

浏览 19提问于2019-03-13得票数 1

1回答

运行时评估功能不能很好地使用Spark数据集/RDD

scala、apache-spark、rdd

), true val inputRecs = spark.sparkContext.parallelize$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD(JavaSerializer.scala:75)

浏览 0提问于2019-01-18得票数 1

1回答

在UDF如何通过Row？

java、apache-spark、apache-spark-sql

我正在用Java编写一个UDF。 UDF1<Dataset<Row>,String> myUDF = new UDF1<Dataset<Row>,String>() { retu

浏览 0提问于2018-12-16得票数 1

1回答

UDF注册错误:不支持org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]类型的架构

scala、apache-spark、apache-spark-sql、spark-dataframe

当注册低于错误的UDF函数时，其他UDF函数正在工作，但只有这个UDF提供问题。错误: org.apache.spark.sql.Datasetorg.apache.spark.sql.Row类型的架构不支持spark.udf.register("udfname",udf_name _) def udf_name(paramter1: Strin

浏览 2提问于2017-03-28得票数 0

1回答

对pyspark dataframe的多个列应用不同的函数

apache-spark、pyspark、user-defined-functions、rdd

我有一个有几列的pyspark dataframe col1 col2 col31. 2.1. 3.2import pyspark.sql.functionsas F f1_udf = F.udf(lambda x: float(np.sin(x)), FloatTy

浏览 49提问于2020-07-29得票数 0

回答已采纳

1回答

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

python-2.7、pyspark、spark-dataframe

我们如何在dataframe中的列中迭代以单独对同一数据same中的部分或所有列执行计算，而不为单个列创建不同的数据same(类似于map在rdd中遍历行，并在行上执行计算而不为每一行创建不同的rddl = list of column namesdef plusone(df_column):print df1.show() 通过这

浏览 3提问于2017-03-10得票数 1

1回答

spark Dataframe字符串到配置单元变量字符

apache-spark、hive、apache-spark-sql、spark-dataframe

我通过spark JDBC连接到DataFrame从Oracle读取数据。我有一个列，它显然是dataframe中的StringType。我尝试使用UDF，但由于dataframe没有varchar或char类型，因此UDF不起作用。我还使用以下命令在Hive中创建了一个临时视图：val df = spark.sql("select cast<em

浏览 0提问于2018-04-23得票数 2

1回答

火花UDF作为函数参数，UDF不在函数范围内。

scala、apache-spark、apache-spark-sql、spark-dataframe、udf

我想将几个UDF作为函数参数与数据帧一起传递。val lkpUDF = udf{(i: Int) => if (i > 0) 1 else 0} .withColumn("new_col{(i: Int) => if (i > 0) 1 else 0} def appendCols(df: <em

浏览 1提问于2017-02-08得票数 0

回答已采纳

2回答

如何在AWS-Glue脚本中编写自定义函数？

python、pyspark、aws-glue

我们如何在动态框架或数据框架上使用PySpark (Python)在AWS-Glue脚本中编写用户定义的函数？

浏览 1提问于2018-09-21得票数 1

1回答

将UDF函数应用于星火窗口，其中输入参数是范围内所有列值的列表

scala、apache-spark

因此，我尝试实现的是在聚合窗口中使用具有输入参数List() (或任何超类)的UDF，它具有所有可用行的值。withColumn("test", udftestf(dfRetail2("salesMth")).over(w)) 如果没有更多行可用，则为Expected output: List( 1,2,3,4)，并将其作为udfudf函数应该返回一个计算值，如果可用行数小于10行，则返回0。以上代码终止：Expression 'UDF(salesMth#152L)

浏览 0提问于2019-03-27得票数 1

1回答

在Java中创建SparkSQL UDF

java、apache-spark、dataframe、apache-spark-sql、user-defined-functions

但是，除非它在SQL查询中，否则我不能使用它：import org.apache.spark.sql.SQLContext; (String(name) AS name_upper FROM df"); ，我被困在那

浏览 4提问于2016-03-27得票数 5

回答已采纳

1回答

Apache的.Net UDF必须从笔记本中调用

azure、apache-spark、databricks、azure-databricks

//Register UDFs spark.Udf().Register("UDF_GetName", getName); DataFrame dataFrame= sp

浏览 2提问于2022-10-18得票数 0

回答已采纳

1回答

用户定义函数返回序列

apache-spark、pyspark、user-defined-functions

']}) d2 = dataframe.astype(str).radd(dataframe.columns + ':')dd_spark = spark.createDataFrame(dd) defget_vector(data

浏览 3提问于2021-07-21得票数 2

回答已采纳

2回答

从返回Seq[Row]

scala、apache-spark、apache-spark-sql、user-defined-functions

我正在使用Spark和Scala进行一些数据处理。我将XML数据映射到dataframe。我将Row作为参数传递给UDF，并试图提取两个复杂类型的对象作为列表。星星之火给了我以下错误： val firstObject = testI

浏览 3提问于2017-01-06得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Mlflow log_model，无法用spark_udf进行预测，但使用python工作。

spark read在Scala UDF函数中不起作用

将ArrayType列传递给Spark Scala中的UDF

如何将Spark Dataframe列的每个值作为字符串传递给python UDF？

Apache注册一个UDF返回的数据

为什么不能在UDF中访问dataframe？[阿帕奇火花斯卡拉]

如何将dataframe传递给spark udf？

运行时评估功能不能很好地使用Spark数据集/RDD

在UDF如何通过Row？

UDF注册错误:不支持org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]类型的架构

对pyspark dataframe的多个列应用不同的函数

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

spark Dataframe字符串到配置单元变量字符

火花UDF作为函数参数，UDF不在函数范围内。

如何在AWS-Glue脚本中编写自定义函数？

将UDF函数应用于星火窗口，其中输入参数是范围内所有列值的列表

在Java中创建SparkSQL UDF

Apache的.Net UDF必须从笔记本中调用

用户定义函数返回序列

从返回Seq[Row]

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐