腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
中
的
投票
分类
器
UDF
、
、
、
、
我正在尝试在
pyspark
中
实现一个
投票
分类
器
。 我使用了函数predict_from_multiple_estimator。传递给函数
的
参数是在
pyspark
中
训练和拟合管道模型
的
estimators1,X测试数据帧,可能
的
类标签和权重值。 然后,我尝试将此函数转换为
pyspark
UDF
。并调用具有测试数据帧qa特征属性
的
函数来预测类别标签。import <e
浏览 23
提问于2021-11-15
得票数 0
1
回答
火花放电
的
UDF
能返回与列不同
的
对象吗?
、
、
、
我想将一些函数应用到pysaprk dataframe
的
列
中
,这是一个用
UDF
实现这一点
的
管理方法,但是我希望返回是另一个对象,而不是dataframe
的
一个列、一个熊猫数据框、一个python列表等等我使用
分类
器
将每一列划分为类,但我希望结果是类
的
摘要,而不是修改,我不知道这是否适用于
UDF
。我
的
代码是这样
的
import pandas as pd impor
浏览 0
提问于2018-12-18
得票数 1
回答已采纳
1
回答
Pyspark
使用窗口函数和我自己
的
函数
、
、
、
我有一个Pandas
的
代码,它计算出x窗口上线性回归
的
R2。参见我
的
代码: def lr_r2_Sklearn(data): X = pd.Series(list(range(0,len(data),1return(regressor.score(X,Y)) r2_rolling = df[['value']].rolling(300).agg([lr_r2_Sklearn]) 我做了一个大小为300
的
滚动,并计算每个窗口
的
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
2
回答
按顺序排列
的
串联字符串列
我有一个数据与以下列-用户,订单,食品。df = spark.createDataFrame(pd.DataFrame([['A','B','A','C','A'],[1,1,2,1,3],['Eggs','Salad','Peaches','Bread','Water']],index=['User','Order','Food']).T) 我想把所有的食物串联成一个字符串,按
浏览 1
提问于2019-08-28
得票数 2
回答已采纳
1
回答
PicklingError:无法序列化对象: TypeError:不能对fasttext_pybind.fasttext对象进行筛选
、
、
、
我建立了一个快速文本
分类
模型,以便对facebook
的
评论进行情感分析(在windows上使用
pyspark
2.4.1 )。当我使用预测模型函数预测句子
的
类时,结果是一个元组,其形式如下:但当我试图将其应用于“文本
浏览 0
提问于2019-07-10
得票数 4
回答已采纳
1
回答
udf
来自SparkSession和
udf
来自
pyspark
.sql.functions有什么区别?
、
、
、
我有两种方法来使用
udf
:spark =
pyspark
.sql.SparkSession.builder.getOrCreate()output:print(
udf
)<function <e
浏览 4
提问于2021-12-20
得票数 0
回答已采纳
1
回答
将标记字符串转换为二进制向量
pyspark
、
我有如下所示
的
数据: | Id | ----Tags---- | some_text || 1 | <a><c> ||| 1 | 1 | 0 | 1 | ex2 | | 2 | 0 | 1 | 1 | ex3 | 我想使用
pyspark
浏览 17
提问于2019-09-19
得票数 0
回答已采纳
1
回答
正在分析
的
pyspark
udf
打印行
、
、
、
、
我在一个
pyspark
udf
函数
中
遇到了一个问题,我想打印产生问题
的
行号。import
pyspark
.sql.functions as F myF.lineNumber += 1 print(myF.line
浏览 2
提问于2019-01-18
得票数 3
2
回答
如何将
pyspark
UDF
导入到主类
中
、
、
、
functions.py有一个函数,并从该函数创建一个
pyspark
udf
。main.py会尝试导入该自定义项。但是,在访问functions.py
中
的
函数时,main.py似乎遇到了问题。functions.py:from
pyspark
.sql.types import StringType return x + 'hello
浏览 3
提问于2017-10-04
得票数 5
回答已采纳
1
回答
如果我使用类方法作为
pyspark
中
的
udf
,会发生什么呢?
、
、
我理解如果我定义一个Python函数并将它用于
PySpark
UDF
,会发生什么。但是,我并不完全清楚,当调用实例化对象
的
方法时,
PySpark
在做什么: _const = 1 return x +_const 执行者是如何发挥这一作用
的
?对象是保存在管理
器</
浏览 0
提问于2018-10-08
得票数 2
回答已采纳
1
回答
- erfinv函数不能正常工作。
、
、
import pandas_
udf
from
pyspark
.sql.functions import
udf
from scipy.special import erfinv
pyspark
/worker.py",:由于阶段失败而中止
的
任务:阶段6.0
中
的
任务0失败4次,最近
的
失败:阶段6.0
中
丢失
的
任务0.3 (TID 21,D2-td-cdh.boigroup p.ne
浏览 1
提问于2021-08-24
得票数 0
1
回答
如何从
Pyspark
中
的
UDF
函数发送日志
、
、
如果在
PySpark
中将任何类型
的
登录添加到
UDF
函数
中
,它将不会出现在任何地方。这是一种实现这一目标的方法吗?例如。logger.error(e)我将其转换为
UDF
: import
pyspark
.sql.functions
浏览 0
提问于2019-10-15
得票数 5
1
回答
计算日期之间
的
天数,忽略周末使用火星雨。
、
如何使用
pyspark
计算两个日期之间
的
天数(忽略周末)import numpy as npfrom
pyspark
.sql.types import IntegerType@
udf
(returnType=IntegerType()) def dateDiffWeekdays(end,
浏览 3
提问于2020-09-28
得票数 4
回答已采纳
1
回答
self._sock.recv_into(b) socket.timeout:超时
、
、
、
、
目标是使用
UDF
对行进行
分类
。我用
的
是窗户上
的
电火花。任何关于如何解决超时/套接字故障
的
指导都会有帮助(请参阅下面的错误)。from
pyspark
.sql.types import IntegerType,StringTy
浏览 0
提问于2021-02-05
得票数 0
回答已采纳
2
回答
Pyspark
UDF
- TypeError:“module”对象不可调用
、
、
根据我在网上找到
的
一些教程,我正在尝试运行以下代码:from
pyspark
.sql import SparkSessionfrom
pyspark
.sql import
udf
data={'integers': [1, 2, 3],) df = spark.createD
浏览 1
提问于2019-03-01
得票数 1
1
回答
具有多个参数
的
用户定义函数返回空值。
、
、
、
、
我试图将python函数转换为
PySpark
用户定义
的
函数,如下所示:from
pyspark
.sql.functions import
udf
,col,arrayfrom datetime import:源文件“loan.txt”
的
截图:上面
浏览 8
提问于2022-07-11
得票数 2
回答已采纳
1
回答
Pyspark
中
的
Pandas
Udf
在yarn客户端或集群模式下仅在一个执行
器
中
运行
、
、
、
我有一个从Hive Table读取数据并应用pandas
udf
的
代码,当它从表
中
读取数据时,它在11个执行
器
中
运行,但是当它执行一个pandas
udf
时,它只使用一个执行
器
。有没有办法指派10个执行者来执行pandas
udf
?spark.dynamicAllocation.enabled=false --conf spark.executor.instances=20 code_test.py from
浏览 12
提问于2020-10-01
得票数 0
1
回答
在火花放电
UDF
中使用蓄能器
、
、
我想要访问
pyspark
内部
的
累加
器
:from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.types import StringType re
浏览 12
提问于2022-08-28
得票数 0
回答已采纳
1
回答
ML DecisionTreeClassifier -连续特性
、
、
如何告诉ml.DecisionTreeClassifier在不使用Bucketizer或QuantileDiscretizer方法
的
情况下对连续特征而不是
分类
特征进行评分?下面是我将连续特征传递到ML
的
DecisionTreeClassifier
中
的
代码,如果没有into (Buckizer)特征,大部分评分集将被忽略,而不是被评分(spark 2.1不支持keep)。from
pyspark
.mllib.linalg import Vectors from
pyspark</e
浏览 2
提问于2017-07-29
得票数 1
1
回答
使用
PySpark
整数列作为参数
我正试图解析一个
PySpark
列,其中包含一个"=“号。我为此目的创建
的
两个函数分别工作:同时,当我创建子字符串列时我收到一个错误:TypeError: int()参数必须是字符串或数字,而不是‘列’问题似乎是
PyS
浏览 4
提问于2017-08-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
机器学习中如何选择分类器
在Python中构建可部署的ML分类器
PySpark,大数据处理的超级英雄,一个让数据分析提速100倍的Python库!
电阻器的分类
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券