腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1279)
视频
沙龙
1
回答
Dataproc
:
pyspark
UDF
的
functools.partial
no
attribute
'__
module__
‘
错误
、
、
、
在我
的
私有spark/hadoop独立集群中,在定义pysparkUDF时使用
functools.partial
是没有问题
的
。 return base ** exponent# see whether1971, in
udf
File "
浏览 4
提问于2018-08-01
得票数 0
2
回答
使用部分函数
的
pyspark
pandas_
udf
出错
、
、
、
我定义了一个pandas
udf
函数,并希望将除pandas.Series或pandas.DataFrame之外
的
其他参数传递给
udf
函数。我想使用partial函数来做这件事,但它出错了。我
的
代码如下: from functools import partial from
pyspark
.sql importSparkSession from
pyspark
.sql.functi
浏览 15
提问于2019-12-18
得票数 0
回答已采纳
1
回答
Textblob模块在集群中找不到
、
、
、
、
我正在使用
Dataproc
云进行火花计算。问题是我
的
工作节点无法访问textblob包。我怎么才能修好它?我在jupyter笔记本上用火花放电内核编写代码PythonException: udfs.append(read_single_
udf
(pickleSer, in
浏览 17
提问于2022-01-12
得票数 0
2
回答
在Google
Dataproc
上升级Spark版本
、
我有一个
Dataproc
集群v-1.2,它当前
的
Spark版本是2.2.0,但我们
的
程序目前失败了,Spark版本2.2.1和2.3.0中已经引入了修复。有没有一种方法可以在不影响或破坏当前集群中任何依赖
的
情况下升级Spark版本。
浏览 0
提问于2017-11-09
得票数 1
1
回答
Python单击:来自部分func
的
子命令
、
假设我有一个函数不是由def创建
的
,而是由partial()调用创建
的
(甚至是通过赋值创建
的
)。在下面的示例中,如何将bar作为单击子命令添加到cli组中?我不能使用装饰方法(和foo一样)。我失败
的
方法如下所示。' object has no
attribute
'name' # results in: AttributeError: '
functools.partial
' object
浏览 5
提问于2022-10-28
得票数 0
回答已采纳
1
回答
PySpark
使用RDD和json.load解析Json
、
、
、
DogsAllowed: False", "WheelchairAccessible: True" ...你好,我正在使用
PySpark
浏览 2
提问于2018-02-08
得票数 1
1
回答
Dataproc
上
的
Pyspark
作业在阶段0处停滞
、
我有一个包含2个工作节点
的
Dataproc
集群。我
的
pyspark
程序非常简单在第三步,作业停留在阶段0,并且什么也不做。我是
Pyspark
的
新手,但我不这么认为,数据太大了,它会被挂起。请帮帮我。我
的
用户定义项来自RDkit库。有没有可能使
UDF
有效,从而以秒为
浏览 4
提问于2020-02-04
得票数 3
2
回答
Pyspark
应用程序仅部分利用
dataproc
集群资源
、
、
、
我
的
pyspark
应用程序在106,36MB
的
数据集(817.270条记录)上运行
UDF
,使用常规
的
python lambda函数需要大约100个小时。我已经创建了一个包含20个工作节点
的
Google
Dataproc
集群,每个工作节点有8个vCPU。但是,在执行时,总共只使用3个节点和3个vCPU。显然,我希望集群使用我提供
的
所有资源。我得到
的
数据帧
的
默认分区数是8。我尝试将其重新分区到100,但集群仍然只使用3个
浏览 10
提问于2019-07-23
得票数 4
回答已采纳
1
回答
无法在
PySpark
项目中生成文档而不运行session
、
、
、
、
我有一个Python包,其中有一个模块,其中包含要在
PySpark
设置中使用
的
UDF
。在运行单元测试时,我已经想出了一种初始化和关闭Spark会话
的
方法,但是我在创建文档时遇到了问题。我使用
的
是,所以我只需运行make clean docs并遇到以下
错误
: File "/usr/local/lib/python3.9/site-packages/
pyspark
/sql/pand
浏览 8
提问于2022-03-31
得票数 1
回答已采纳
3
回答
由于python版本而运行
PySpark
DataProc
作业时出错
、
、
我使用以下命令创建
dataproc
集群--initialization-actions \然而,当我提交我
的
PySpark
作业时,我得到了以下
错误
例外情况: worker中
的
Python版本与驱动程序3.7中<
浏览 0
提问于2018-07-19
得票数 7
回答已采纳
1
回答
将不带返回值
的
Python Lambda函数转换为
Pyspark
、
、
、
、
我在Python语言中有一个有效
的
lambda函数,它可以计算dataset1中
的
每个字符串与dataset2中
的
字符串之间
的
最高相似度。没有返回值,因为该函数
的
目的是向bigquery数据集中插入一行。这个过程需要相当长
的
时间,这就是为什么我想使用
Pyspark
和
Dataproc
来加速这个过程。 将熊猫数据帧转换为spark很容易。我在注册
udf
时遇到了问题,因为它没有返回值,而
pyspark
需要一个返回值。此外,
浏览 16
提问于2019-07-19
得票数 2
回答已采纳
2
回答
如何将
pyspark
UDF
导入到主类中
、
、
、
functions.py有一个函数,并从该函数创建一个
pyspark
udf
。main.py会尝试导入该自定义项。但是,在访问functions.py中
的
函数时,main.py似乎遇到了问题。functions.py:from
pyspark
.sql.types import StringType 这会导致
错误
浏览 3
提问于2017-10-04
得票数 5
回答已采纳
1
回答
当我使用
UDF
操作一个列时,它有一个问题
、
、
当我使用
UDF
处理一列时,我不确定
UDF
处理是不是从这一列逐个处理元素?如果是的话,我不明白为甚麽会有问题。import
pyspark
.sql.types as typdef parse_model(v):Parse_model=pandas_
udf
(parse_mode
浏览 14
提问于2019-05-20
得票数 0
回答已采纳
2
回答
Pyspark
-为什么在
udf
中不能使用isupper(),islower(),istitle()?
、
、
、
我尝试创建
udf
来检查名称字符串是全部大写还是小写。为什么它没有产生我所期望
的
结果?.select("firstName","casecheck").show() 输出低于这个值,这显然是
错误
的
。我尝试使用islower(),istitle(),也产生了
错误
的
结果。(对于所有记录,它将返回全部是或全部否)。你知道为什么它不能在
udf
中工作吗? 谢谢!casecheck").show() 现在我得到了
错误
浏览 16
提问于2020-08-29
得票数 0
回答已采纳
1
回答
Python2.7.x中部分函数
的
动态生成
、
、
、
、
它将类似于以下内容(create_new_f是我正在寻找
的
)。ci = 20result = new_f([20,30,50,80])new_f =
functools.partial
(f, ci=20)AttributeError: '
functools.partial
'object has no
浏览 3
提问于2014-06-02
得票数 4
回答已采纳
1
回答
气流DataprocSubmitJobOperator -如何使用XCOMS或其他替代方式在任务之间传递数据
、
、
、
delete_
dataproc
_cluster run_
dataproc
_spark_getcutomers --使用
Pyspark
代码从Mongo获取数据,随后
的
任务使用DataprocSubmitJobOperator,即run_
dataproc
_spark_insights、run_
dataproc
_spark_alarmblock (以及很少有其他未列出
的
任务)。我试图使用XCOMS,但它给了我
错误
-请参阅下面的代码。任务代码- run_<em
浏览 9
提问于2022-07-16
得票数 1
2
回答
在spark中将字符串名称转换为sql数据类型
、
、
我一直在参考下面的文章 问题是上面帖子中
的
答案使用了classof[DataTypes],但是DataTypes类在
pyspark
中不可用。我尝试做
的
是动态创建Schema。TimestampType', 'TimestampType', 'StringType', 'StringType', 'IntegerType', 'DoubleType'] 并
浏览 6
提问于2018-01-08
得票数 0
回答已采纳
3
回答
Google
Dataproc
Pyspark
属性
、
、
我正在尝试向google
dataproc
集群提交一个
pyspark
,并且我想在命令行中指定
pyspark
配置
的
属性。文档说我可以用--properties标志指定这些属性。我尝试运行
的
命令如下所示:gcloud
dataproc
jobs sub
浏览 22
提问于2018-02-14
得票数 1
1
回答
在
Dataproc
上在Anaconda中导入
PySpark
错误
、
、
我已经用Anaconda作为附加组件构建了一个
Dataproc
集群。我创建了一个虚拟env。并在里面安装了RDkit。现在我
的
问题是,当我打开python终端并尝试这样做时:它抛出
错误
: 我可以在Anaconda中安装
PySpark
,然后它就可以工作
浏览 2
提问于2020-01-28
得票数 1
1
回答
尝试在数据处理工作流中使用
PySpark
读取BigQuery表时出现问题
、
、
我正在尝试使用GCP +
Dataproc
+
PySpark
自动化一个过程。", data_project)\ .load() 此脚本由使用以下bash脚本创建
的
Dataproc
add-job
pyspark
file:///root/folder/main.py \ --workflow-templa
浏览 28
提问于2021-04-29
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上)
Python学习(八)-面向对象类之进阶
基于NVIDIA GPU和RAPIDS加速Spark 3.0
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券