Pyspark :使用udf多次加载模型_无法使用pyspark udf_使用Pandas UDF的Pyspark流 - 腾讯云开发者社区

、、、、

尝试将udf应用于根据某些条件进行模型预测的大型csv文件，但由于某种原因，该模型被多次加载。下面是该流程的示例代码片段： # main.py loads predict.py | Class1 | | data.withColumn("Col

浏览 75提问于2021-11-12得票数 1

1回答

ValueError:当提供input_signature时，必须将input_signature函数的所有输入转换为张量：

、、、、

abd hdbh jbj3 bvj hvhgvgh现在，我想将我的desc列转换为向量，所以我使用Google语句编码器作为udf，下面是我的代码：model

浏览 14提问于2022-09-01得票数 2

1回答

无法在PySpark项目中生成文档而不运行session

、、、、

我有一个Python包，其中有一个模块，其中包含要在PySpark设置中使用的UDF。在运行单元测试时，我已经想出了一种初始化和关闭Spark会话的方法，但是我在创建文档时遇到了问题。我使用的是，所以我只需运行make clean docs并遇到以下错误： File "/usr/local/lib/python3.9/site-packages/pyspark/sql/pandas"/usr&

浏览 8提问于2022-03-31得票数 1

回答已采纳

1回答

Spark广播训练有素的tensorflow SavedModel

、、

我试图在spark中广播加载的模型，但是从pyspark/broadcast.py中得到这个错误-_pickle.PicklingError: Could not serialize broadcast: TypeError: can't pickle _thread.RLock objectsimport tensorflowas tf from pyspark.sql import Spar

浏览 6提问于2020-09-17得票数 1

1回答

PicklingError:无法序列化对象: TypeError:不能对fasttext_pybind.fasttext对象进行筛选

、、、

我建立了一个快速文本分类模型，以便对facebook的评论进行情感分析(在windows上使用pyspark 2.4.1 )。当我使用预测模型函数预测句子的类时，结果是一个元组，其形式如下：但当我试

浏览 0提问于2019-07-10得票数 4

回答已采纳

2回答

在pyspark dataframe中从lat-long查找状态名称

、、

我有一个pyspark数据帧df，它保存了大量的rows.Once列是lat-long。我想从经纬度中找到州的名称。我使用下面的代码 import reverse_geocoder as rglist_long_lat = a["lat_long"].tolist

浏览 12提问于2020-07-01得票数 0

回答已采纳

1回答

TypeError:不能对_abc_data对象进行筛选

、

我试图用pyspark从一个泡沫化的模型生成预测，我使用下面的命令获得模型将deserialize_python_object/sql/udf.py”, line 189, in wrapper File “/Users/gmg/anaconda3/envs/env/lib/py

浏览 4提问于2019-11-26得票数 3

回答已采纳

1回答

在Pyspark中使用UDF函数时，稠密向量应该是什么类型？

、、、、

我希望在pySpark中将列表更改为向量，然后使用此列进行机器学习模型的培训。但是我的星火版本是1.6.0，它没有VectorUDT()。那么，在我的udf函数中应该返回哪种类型呢？from pyspark.sql import SQLContextfrom pyspark.sql.functionsimport * from pyspark.mllib.lina

浏览 1提问于2018-04-03得票数 8

回答已采纳

2回答

熊猫UDF (PySpark) -错误类型错误

、、、、

我正在尝试使用spaCy和Pandas (PySpark)提取实体，但我得到了一个错误。def __get_entities(x): nlp = spacy.load("en_core_web_lg"

浏览 4提问于2020-09-01得票数 0

回答已采纳

1回答

PySpark +语句转换器- UDF不能选择“_thread.RLock”对象

、、、

我想使用PySpark和库语句转换器来加速文档集的嵌入。据我所知我不能就这么打电话：因为模型不能被腌制，不能传递给工人。= udf(self.embedd_text, returnType=ArrayType(ArrayType(FloatType()))) return df.withColumn("

浏览 15提问于2022-09-14得票数 0

5回答

如何修复"ImportError: PyArrow >= 0.8.0必须安装；但是，没有找到“？

、、

我使用PySpark 2.4.0并在pyspark中执行以下代码Python 2.7.16 (default, Mar 25 2019, 15:07:04)>>> from pyspark.sql.functions import pandas_udf, PandasUDFType >>> from pyspark.sq

浏览 6提问于2019-03-27得票数 4

回答已采纳

1回答

udf来自SparkSession和udf来自pyspark.sql.functions有什么区别？

、、、

我有两种方法来使用udf：spark = pyspark.sql.SparkSession.builder.getOrCreate()output:print(udf)<fu

浏览 4提问于2021-12-20得票数 0

回答已采纳

1回答

计算日期之间的天数，忽略周末使用火星雨。

、

如何使用pyspark计算两个日期之间的天数(忽略周末)import numpy as npfrom pyspark.sql.types import IntegerType@udf(returnType=IntegerType())

浏览 3提问于2020-09-28得票数 4

回答已采纳

1回答

pyspark中的投票分类器UDF

、、、、

我正在尝试在pyspark中实现一个投票分类器。我使用了函数predict_from_multiple_estimator。传递给函数的参数是在pyspark中训练和拟合管道模型的estimators1，X测试数据帧，可能的类标签和权重值。然后，我尝试将此函数转换为pyspark UDF。# Convert integer predictions to original labels: from <

浏览 23提问于2021-11-15得票数 0

1回答

具有多个参数的用户定义函数返回空值。

、、、、

我试图将python函数转换为PySpark用户定义的函数，如下所示：from pyspark.sql.functions importudf,col,arrayfrom datetime import/input/applicationloan/loan.txt&quo

浏览 8提问于2022-07-11得票数 2

回答已采纳

1回答

用腌制的PySpark模型和pandas_udf进行预测

、、、、

我使用随机搜索找到了一个LightGBM模型，该模型使用MLFlow保存到.pkl文件中。我们的目标是将这个被腌制的模型加载到Pyspark中，并在那里进行预测。简单的不腌制就能做到这一点吗？with open(path, 'rb') as f:然后应用pandas_udf： @F.panda

浏览 1提问于2021-06-11得票数 2

回答已采纳

1回答

_thread.lock模型: TypeError: can't pickle Keras objects

、、、、

我在PySpark中使用训练有素的Keras模型时遇到了问题。使用以下版本的库：h5py==2.7.0另外，我使用的是Spark 2.4.0。from pyspark.sql import SparkSessionfrom keras.models import load_modelget_prediction_udf</

浏览 1提问于2018-12-10得票数 0

1回答

Mlflow log_model，无法用spark_udf进行预测，但使用python工作。

、、、、

我想在mlflow上记录一个模型，一旦我这样做了，我就可以用python加载的模型来预测概率，但不能用spark_udf来预测。问题是，我仍然需要在模型中有一个预处理功能。# Load model as a Spark UDF.将encode_catcolumn合并到sklearn管道中(使用

浏览 4提问于2021-12-09得票数 0

1回答

Pyspark使用窗口函数和我自己的函数

、、、

我希望用pyspark和spark dataframe做同样的事情。我知道我必须使用窗口函数，但它比熊猫更难理解，所以我迷路了…… 我有这个，但我不知道如何让它工作。

浏览 29提问于2020-06-26得票数 0

回答已采纳

1回答

使用PySpark整数列作为参数

我正试图解析一个PySpark列，其中包含一个"=“号。DF.withColumn("parsedString",2,instr(columnName,"=")) 我收到一个错误：TypeError: int()参数必须是字符串或数字，而不是‘列’问题似乎是PySpark

浏览 4提问于2017-08-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云