使用PySpark Pandas UDF中的scikit ValueError train_test_split函数时的学习_使用部分函数的pyspark pandas_udf出错_Pandas UDF中lambda函数的PySpark等效项 - 腾讯云开发者社区

python、pyspark、scikit-learn、user-defined-functions

我想为Pyspark创建一个pandas udf函数，在这个函数中我使用了scikit-learn train_test_split函数并返回了一个数据帧。我有一个这样的数据框架： ?但在我的数据帧中，没有id列。因此，我在dataframe中添加了id列。这就是我所做的。@pandas_udf</

浏览 10提问于2021-02-01得票数 0

回答已采纳

1回答

无法用Sklearn模型进行预测

python、machine-learning、pyspark、scikit-learn、prediction

在运行下面给定的代码时，会得到下面提到的一个错误。请帮助我得到的代码，以作出预测与滑雪板模型上的电火花。我也找过相关的问题，但没有找到解决的办法。method #call predict method for model

浏览 11提问于2022-03-16得票数 2

回答已采纳

2回答

使用带有逻辑语句的pandas_udf触发异常错误

pandas、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我正在尝试使用pandas_udf部署一个简单的if-else函数。以下是代码：from pyspark.sql.functions import *如果

浏览 10提问于2021-01-13得票数 1

回答已采纳

1回答

一起使用PyFlink吗？

pyspark、apache-flink、pyflink

我正在探索PyFlink，我想知道是否有可能将PyFlink与ML工程师通常使用的所有ML库一起使用: PyTorch、Tensorflow、Scikit Learn、Xgboost、LightGBM等等根据的说法，PySpark不能直接在UDF内部使用Scikit学习，因为Scikit学习算法不能实现分布式，而Spark是分布式运行的。考虑到PyFlink类似于

浏览 2提问于2021-03-15得票数 0

回答已采纳

2回答

如何在Pyspark中使用@pandas_udf返回多个数据帧？

python、pandas、pyspark、scikit-learn、user-defined-functions

我想为Pyspark创建sklearn的train_test_split函数。我使用pandas udf来创建这个函数这就是我所做的。@pandas_udf(schema, PandasUDFType.GROUPED_MAP) # splitting

浏览 0提问于2021-01-29得票数 0

回答已采纳

1回答

如何在结构化查询中使用scikit学习模型？

apache-spark、scikit-learn、pyspark、spark-structured-streaming

我正在尝试将使用泡菜检索的scikit模型应用于结构化流数据流的每一行。我尝试过使用pandas_udf (版本1)，它给了我这个错误：代码：pyspark.sql.types import * import

浏览 4提问于2019-11-20得票数 1

回答已采纳

1回答

PySpark:带有标量Pandas的无效returnType

apache-spark、pyspark、apache-arrow

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。from pyspark.sql.functions import pandas_udfimport numpy as np 65 C:\opt\spar

浏览 2提问于2018-03-26得票数 5

回答已采纳

2回答

使用Pandas矢量化UDF的Spark 3

apache-spark、pyspark、apache-spark-sql

我正在考虑在PySpark (v3)中使用Pandas UDF。由于许多原因，我知道迭代和自定义定义函数通常是不好的，我也知道我在这里展示的简单示例可以使用SQL函数来完成PySpark -所有这些都不是重点！SparkSession spark = SparkS

浏览 19提问于2020-06-30得票数 0

回答已采纳

1回答

是否有任何spark配置参数可以调整，以减少驱动程序节点的内存消耗？

apache-spark、pyspark、hadoop-yarn

是否有任何spark配置参数可以调整，以减少驱动程序节点的内存消耗？我正在使用pyspark、scikit-learn和joblibspark在纱线集群上执行分布式超参数RandonSearchCV。看起来驱动程序节点的内存消耗大致等于所有工作节点的内存消耗总和。因为每个节点的内存消耗是有限的，所以驱动节点很快就会达到这个限制。

浏览 14提问于2020-02-27得票数 0

回答已采纳

1回答

ValueError:不能处理连续和多类的混合

python、machine-learning、scikit-learn、decision-tree

我想根据我在scikit学习中使用的数据来估计模型。我使用的是DecisionTreeClassifier.score函数，但在运行代码时，我将收到一个ValueError： from sklearn import datasetsimport matplotlib.pyp

浏览 2提问于2018-12-22得票数 0

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

apache-spark、pyspark、apache-spark-sql

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。尝试使用...TypeError: Invalid argument, not a string or column: -5 of type <class 'int'>.For column literals, use

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

PySpark将对象和库复制到所有工作节点- Pandas

apache-spark、pyspark

看看在星火中使用熊猫的例子(pySpark)。指向这个片段的链接：。如果一个人确

浏览 1提问于2019-12-20得票数 1

回答已采纳

1回答

在python中对csv文件中的一行进行洗牌和均匀传播。

python、csv、dataset、shuffle

) csv.writer(f).writerows([header] + l) 然而，具有1预测值的行只占整个数据集的我怎么能在洗牌的时候做到这一点？

浏览 0提问于2018-01-30得票数 0

回答已采纳

1回答

有什么方法可以使用`.pkl`滑雪板模型在DataFrame中呢？

python、pandas、dataframe、pyspark

如果使用熊猫的数据，下面是我所做的lgbm_v5 = joblib.load('model.pkl') b = lgbm_v5.predict_proba(X_test)有什么方法可以使用.pkl滑雪模型在DataFrame中吗？

浏览 2提问于2021-09-30得票数 0

回答已采纳

2回答

熊猫PySpark数据行的udf循环

pandas、dataframe、apache-spark、pyspark、user-defined-functions

我正在尝试使用pandas_udf，因为我的数据在一个PySpark数据中，但是我想使用一个熊猫库。我有很多行，所以我不能将我的PySpark数据转换成Pandas数据。spark.createDataFrame( ('cup dad', 'mug'),], [

浏览 4提问于2021-02-12得票数 3

回答已采纳

1回答

将ValueError应用于分组pandas_udf时

dataframe、apache-spark、pyspark、group-by、apache-spark-sql

，并使用applyInPandas函数将其应用于ID。from sklearn.metrics import mean_absolute_percentage_errordef gr_mape_val(join_df):ValueErr

浏览 9提问于2022-04-22得票数 0

2回答

使用部分函数的pyspark* pandas_udf出错*

python-3.x、pyspark、pandas-groupby、user-defined-functions

我定义了一个pandas udf函数，并希望将除pandas.Series或pandas.DataFrame之外的其他参数传递给udf函数。我想使用partial函数来做这件事，但它出错了。我的代码如下： from functools import partial from pyspa

浏览 15提问于2019-12-18得票数 0

回答已采纳

1回答

不能从张量流数据集加载数据

python-3.x、tensorflow

类Jarvis(Model)：def init(self)：self.model = Sequential() self.model.add(Conv2D(64, (5, 5), activation="relu")) self.model.add(Conv2D(64, (5, 5), activation="relu")) self.model.add(MaxPooling2D

浏览 3提问于2020-06-15得票数 0

回答已采纳

1回答

如何将参数传递给使用applyInPandas的函数？

pyspark

我有一个由两列组成的dataframe。我使用一个函数作为udf，并使用applyInPandas在pyspark中运行该函数。下面是代码from pyspark.sql.functions import pandas_udf, ceil df = spark.createDataFrame的规范化函数</em

浏览 19提问于2022-09-06得票数 1

回答已采纳

4回答

使用带参数的分组Map Pandas UDF

python、apache-spark、pyspark、pandas-groupby

我希望使用data.groupby.apply()将函数应用到每个组的Pyspark的每一行。我还尝试了在这个问题中提出的解决方案(对熊猫数据格式) @pandas</e

浏览 0提问于2019-04-30得票数 22

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云