腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PySpark
Pandas
UDF
中
的
scikit
ValueError
train_test_split
函数
时
的
学习
python
、
pyspark
、
scikit-learn
、
user-defined-functions
我想为
Pyspark
创建一个
pandas
udf
函数
,在这个
函数
中
我
使用
了
scikit
-learn
train_test_split
函数
并返回了一个数据帧。 我有一个这样
的
数据框架: ?但在我
的
数据帧
中
,没有id列。因此,我在dataframe
中
添加了id列。 这就是我所做
的
。@
pandas
_
udf</
浏览 10
提问于2021-02-01
得票数 0
回答已采纳
1
回答
无法用Sklearn模型进行预测
python
、
machine-learning
、
pyspark
、
scikit-learn
、
prediction
在运行下面给定
的
代码
时
,会得到下面提到
的
一个错误。请帮助我得到
的
代码,以作出预测与滑雪板模型上
的
电火花。我也找过相关
的
问题,但没有找到解决
的
办法。method #call predict method for model
浏览 11
提问于2022-03-16
得票数 2
回答已采纳
2
回答
使用
带有逻辑语句
的
pandas
_
udf
触发异常错误
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
、
user-defined-functions
我正在尝试
使用
pandas
_
udf
部署一个简单
的
if-else
函数
。以下是代码:from
pyspark
.sql.functions import *如果
浏览 10
提问于2021-01-13
得票数 1
回答已采纳
1
回答
一起
使用
PyFlink吗?
pyspark
、
apache-flink
、
pyflink
我正在探索PyFlink,我想知道是否有可能将PyFlink与ML工程师通常
使用
的
所有ML库一起
使用
: PyTorch、Tensorflow、
Scikit
Learn、Xgboost、LightGBM等等根据
的
说法,
PySpark
不能直接在
UDF
内部
使用
Scikit
学习
,因为
Scikit
学习
算法不能实现分布式,而Spark是分布式运行
的
。考虑到PyFlink类似于
浏览 2
提问于2021-03-15
得票数 0
回答已采纳
2
回答
如何在
Pyspark
中
使用
@
pandas
_
udf
返回多个数据帧?
python
、
pandas
、
pyspark
、
scikit-learn
、
user-defined-functions
我想为
Pyspark
创建sklearn
的
train_test_split
函数
。我
使用
pandas
udf
来创建这个
函数
这就是我所做
的
。@
pandas
_
udf
(schema, PandasUDFType.GROUPED_MAP) # splitting
浏览 0
提问于2021-01-29
得票数 0
回答已采纳
1
回答
如何在结构化查询中
使用
scikit
学习
模型?
apache-spark
、
scikit-learn
、
pyspark
、
spark-structured-streaming
我正在尝试将
使用
泡菜检索
的
scikit
模型应用于结构化流数据流
的
每一行。我尝试过
使用
pandas
_
udf
(版本1),它给了我这个错误:代码:
pyspark
.sql.types import * import
浏览 4
提问于2019-11-20
得票数 1
回答已采纳
1
回答
PySpark
:带有标量
Pandas
的
无效returnType
apache-spark
、
pyspark
、
apache-arrow
我正在尝试从
pandas
_
udf
返回一个特定
的
结构。它在一个集群上工作,但在另一个集群上失败。我尝试在组上运行
udf
,这需要返回类型为数据框架。from
pyspark
.sql.functions import
pandas
_
udf
import numpy as np 65 C:\opt\spar
浏览 2
提问于2018-03-26
得票数 5
回答已采纳
2
回答
使用
Pandas
矢量化
UDF
的
Spark 3
apache-spark
、
pyspark
、
apache-spark-sql
我正在考虑在
PySpark
(v3)中
使用
Pandas
UDF
。由于许多原因,我知道迭代和自定义定义
函数
通常是不好
的
,我也知道我在这里展示
的
简单示例可以
使用
SQL
函数
来完成
PySpark
-所有这些都不是重点!SparkSession spark = SparkS
浏览 19
提问于2020-06-30
得票数 0
回答已采纳
1
回答
是否有任何spark配置参数可以调整,以减少驱动程序节点
的
内存消耗?
apache-spark
、
pyspark
、
hadoop-yarn
是否有任何spark配置参数可以调整,以减少驱动程序节点
的
内存消耗?我正在
使用
pyspark
、
scikit
-learn和joblibspark在纱线集群上执行分布式超参数RandonSearchCV。看起来驱动程序节点
的
内存消耗大致等于所有工作节点
的
内存消耗总和。因为每个节点
的
内存消耗是有限
的
,所以驱动节点很快就会达到这个限制。
浏览 14
提问于2020-02-27
得票数 0
回答已采纳
1
回答
ValueError
:不能处理连续和多类
的
混合
python
、
machine-learning
、
scikit-learn
、
decision-tree
我想根据我在
scikit
学习
中
使用
的
数据来估计模型。我
使用
的
是DecisionTreeClassifier.score
函数
,但在运行代码
时
,我将收到一个
ValueError
: from sklearn import datasetsimport matplotlib.pyp
浏览 2
提问于2018-12-22
得票数 0
2
回答
pyspark
寄存器内置
函数
及其在spark.sql查询
中
的
使用
apache-spark
、
pyspark
、
apache-spark-sql
在spark.sql查询中注册和
使用
pyspark
version 3.1.2内置
函数
的
正确方式是什么? 下面是一个创建
pyspark
DataFrame对象并在纯SQL
中
运行简单查询
的
最小示例。尝试
使用
...TypeError: Invalid argument, not a string or column: -5 of type <class 'int'>.For column literals, use
浏览 4
提问于2021-08-19
得票数 0
回答已采纳
1
回答
PySpark
将对象和库复制到所有工作节点-
Pandas
apache-spark
、
pyspark
看看在星火中
使用
熊猫
的
例子(
pySpark
)。指向这个片段
的
链接:。如果一个人确
浏览 1
提问于2019-12-20
得票数 1
回答已采纳
1
回答
在python
中
对csv文件
中
的
一行进行洗牌和均匀传播。
python
、
csv
、
dataset
、
shuffle
) csv.writer(f).writerows([header] + l) 然而,具有1预测值
的
行只占整个数据集
的
我怎么能在洗牌
的
时候做到这一点?
浏览 0
提问于2018-01-30
得票数 0
回答已采纳
1
回答
有什么方法可以
使用
`.pkl`滑雪板模型在DataFrame
中
呢?
python
、
pandas
、
dataframe
、
pyspark
如果
使用
熊猫
的
数据,下面是我所做
的
lgbm_v5 = joblib.load('model.pkl') b = lgbm_v5.predict_proba(X_test)有什么方法可以
使用
.pkl滑雪模型在DataFrame
中
吗?
浏览 2
提问于2021-09-30
得票数 0
回答已采纳
2
回答
熊猫
PySpark
数据行
的
udf
循环
pandas
、
dataframe
、
apache-spark
、
pyspark
、
user-defined-functions
我正在尝试
使用
pandas
_
udf
,因为我
的
数据在一个
PySpark
数据
中
,但是我想
使用
一个熊猫库。我有很多行,所以我不能将我
的
PySpark
数据转换成
Pandas
数据。spark.createDataFrame( ('cup dad', 'mug'),], [
浏览 4
提问于2021-02-12
得票数 3
回答已采纳
1
回答
将
ValueError
应用于分组
pandas
_
udf
时
dataframe
、
apache-spark
、
pyspark
、
group-by
、
apache-spark-sql
,并
使用
applyInPandas
函数
将其应用于ID。from sklearn.metrics import mean_absolute_percentage_errordef gr_mape_val(join_df):
ValueErr
浏览 9
提问于2022-04-22
得票数 0
2
回答
使用
部分
函数
的
pyspark
pandas
_
udf
出错
python-3.x
、
pyspark
、
pandas-groupby
、
user-defined-functions
我定义了一个
pandas
udf
函数
,并希望将除
pandas
.Series或
pandas
.DataFrame之外
的
其他参数传递给
udf
函数
。我想
使用
partial
函数
来做这件事,但它出错了。我
的
代码如下: from functools import partial from
pyspa
浏览 15
提问于2019-12-18
得票数 0
回答已采纳
1
回答
不能从张量流数据集加载数据
python-3.x
、
tensorflow
类Jarvis(Model):def init(self):self.model = Sequential() self.model.add(Conv2D(64, (5, 5), activation="relu")) self.model.add(Conv2D(64, (5, 5), activation="relu")) self.model.add(MaxPooling2D
浏览 3
提问于2020-06-15
得票数 0
回答已采纳
1
回答
如何将参数传递给
使用
applyInPandas
的
函数
?
pyspark
我有一个由两列组成
的
dataframe。我
使用
一个
函数
作为
udf
,并
使用
applyInPandas在
pyspark
中
运行该
函数
。下面是代码from
pyspark
.sql.functions import
pandas
_
udf
, ceil df = spark.createDataFrame
的
规范化
函数</em
浏览 19
提问于2022-09-06
得票数 1
回答已采纳
4
回答
使用
带参数
的
分组Map
Pandas
UDF
python
、
apache-spark
、
pyspark
、
pandas-groupby
我希望
使用
data.groupby.apply()将
函数
应用到每个组
的
Pyspark
的
每一行。我还尝试了在这个问题中提出
的
解决方案(对熊猫数据格式) @
pandas</e
浏览 0
提问于2019-04-30
得票数 22
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Python开源数据分析工具TOP 3!
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
大数据下Python的三款大数据分析工具
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券