Dataproc: pyspark UDF的functools.partial no attribute '__module__‘错误 - 腾讯云开发者社区

、、、

在我的私有spark/hadoop独立集群中，在定义pysparkUDF时使用functools.partial是没有问题的。 return base ** exponent# see whether1971, in udf File "

浏览 4提问于2018-08-01得票数 0

2回答

使用部分函数的pyspark pandas_udf出错

、、、

我定义了一个pandas udf函数，并希望将除pandas.Series或pandas.DataFrame之外的其他参数传递给udf函数。我想使用partial函数来做这件事，但它出错了。我的代码如下： from functools import partial from pyspark.sql importSparkSession from pyspark.sql.functi

浏览 15提问于2019-12-18得票数 0

回答已采纳

1回答

Textblob模块在集群中找不到

、、、、

我正在使用Dataproc云进行火花计算。问题是我的工作节点无法访问textblob包。我怎么才能修好它？我在jupyter笔记本上用火花放电内核编写代码PythonException: udfs.append(read_single_udf(pickleSer, in

浏览 17提问于2022-01-12得票数 0

2回答

在Google Dataproc上升级Spark版本

、

我有一个Dataproc集群v-1.2，它当前的Spark版本是2.2.0，但我们的程序目前失败了，Spark版本2.2.1和2.3.0中已经引入了修复。有没有一种方法可以在不影响或破坏当前集群中任何依赖的情况下升级Spark版本。

浏览 0提问于2017-11-09得票数 1

1回答

Python单击:来自部分func的子命令

、

假设我有一个函数不是由def创建的，而是由partial()调用创建的(甚至是通过赋值创建的)。在下面的示例中，如何将bar作为单击子命令添加到cli组中？我不能使用装饰方法(和foo一样)。我失败的方法如下所示。' object has no attribute 'name' # results in: AttributeError: 'functools.partial' object

浏览 5提问于2022-10-28得票数 0

回答已采纳

1回答

PySpark使用RDD和json.load解析Json

、、、

DogsAllowed: False", "WheelchairAccessible: True" ...你好，我正在使用PySpark

浏览 2提问于2018-02-08得票数 1

1回答

Dataproc上的Pyspark作业在阶段0处停滞

、

我有一个包含2个工作节点的Dataproc集群。我的pyspark程序非常简单在第三步，作业停留在阶段0，并且什么也不做。我是Pyspark的新手，但我不这么认为，数据太大了，它会被挂起。请帮帮我。我的用户定义项来自RDkit库。有没有可能使UDF有效，从而以秒为

浏览 4提问于2020-02-04得票数 3

2回答

Pyspark应用程序仅部分利用dataproc集群资源

、、、

我的pyspark应用程序在106，36MB的数据集(817.270条记录)上运行UDF，使用常规的python lambda函数需要大约100个小时。我已经创建了一个包含20个工作节点的Google Dataproc集群，每个工作节点有8个vCPU。但是，在执行时，总共只使用3个节点和3个vCPU。显然，我希望集群使用我提供的所有资源。我得到的数据帧的默认分区数是8。我尝试将其重新分区到100，但集群仍然只使用3个

浏览 10提问于2019-07-23得票数 4

回答已采纳

1回答

无法在PySpark项目中生成文档而不运行session

、、、、

我有一个Python包，其中有一个模块，其中包含要在PySpark设置中使用的UDF。在运行单元测试时，我已经想出了一种初始化和关闭Spark会话的方法，但是我在创建文档时遇到了问题。我使用的是，所以我只需运行make clean docs并遇到以下错误： File "/usr/local/lib/python3.9/site-packages/pyspark/sql/pand

浏览 8提问于2022-03-31得票数 1

回答已采纳

3回答

由于python版本而运行PySpark DataProc作业时出错

、、

我使用以下命令创建dataproc集群--initialization-actions \然而，当我提交我的PySpark作业时，我得到了以下错误例外情况: worker中的Python版本与驱动程序3.7中<

浏览 0提问于2018-07-19得票数 7

回答已采纳

1回答

将不带返回值的Python Lambda函数转换为Pyspark

、、、、

我在Python语言中有一个有效的lambda函数，它可以计算dataset1中的每个字符串与dataset2中的字符串之间的最高相似度。没有返回值，因为该函数的目的是向bigquery数据集中插入一行。这个过程需要相当长的时间，这就是为什么我想使用Pyspark和Dataproc来加速这个过程。将熊猫数据帧转换为spark很容易。我在注册udf时遇到了问题，因为它没有返回值，而pyspark需要一个返回值。此外，

浏览 16提问于2019-07-19得票数 2

回答已采纳

2回答

如何将pyspark UDF导入到主类中

、、、

functions.py有一个函数，并从该函数创建一个pyspark udf。main.py会尝试导入该自定义项。但是，在访问functions.py中的函数时，main.py似乎遇到了问题。functions.py：from pyspark.sql.types import StringType 这会导致错误

浏览 3提问于2017-10-04得票数 5

回答已采纳

1回答

当我使用UDF操作一个列时，它有一个问题

、、

当我使用UDF处理一列时，我不确定UDF处理是不是从这一列逐个处理元素？如果是的话，我不明白为甚麽会有问题。import pyspark.sql.types as typdef parse_model(v):Parse_model=pandas_udf(parse_mode

浏览 14提问于2019-05-20得票数 0

回答已采纳

2回答

Pyspark -为什么在udf中不能使用isupper()，islower()，istitle()？

、、、

我尝试创建udf来检查名称字符串是全部大写还是小写。为什么它没有产生我所期望的结果？.select("firstName","casecheck").show() 输出低于这个值，这显然是错误的。我尝试使用islower()，istitle()，也产生了错误的结果。(对于所有记录，它将返回全部是或全部否)。你知道为什么它不能在udf中工作吗？谢谢!casecheck").show() 现在我得到了错误

浏览 16提问于2020-08-29得票数 0

回答已采纳

1回答

Python2.7.x中部分函数的动态生成

、、、、

它将类似于以下内容(create_new_f是我正在寻找的)。ci = 20result = new_f([20,30,50,80])new_f =functools.partial(f, ci=20)AttributeError: 'functools.partial'object has no

浏览 3提问于2014-06-02得票数 4

回答已采纳

1回答

气流DataprocSubmitJobOperator -如何使用XCOMS或其他替代方式在任务之间传递数据

、、、

delete_dataproc_cluster run_dataproc_spark_getcutomers --使用Pyspark代码从Mongo获取数据，随后的任务使用DataprocSubmitJobOperator，即run_dataproc_spark_insights、run_dataproc_spark_alarmblock (以及很少有其他未列出的任务)。我试图使用XCOMS，但它给了我错误-请参阅下面的代码。任务代码- run_<em

浏览 9提问于2022-07-16得票数 1

2回答

在spark中将字符串名称转换为sql数据类型

、、

我一直在参考下面的文章问题是上面帖子中的答案使用了classof[DataTypes]，但是DataTypes类在pyspark中不可用。我尝试做的是动态创建Schema。TimestampType', 'TimestampType', 'StringType', 'StringType', 'IntegerType', 'DoubleType'] 并

浏览 6提问于2018-01-08得票数 0

回答已采纳

3回答

Google Dataproc Pyspark属性

、、

我正在尝试向google dataproc集群提交一个pyspark，并且我想在命令行中指定pyspark配置的属性。文档说我可以用--properties标志指定这些属性。我尝试运行的命令如下所示：gcloud dataproc jobs sub

浏览 22提问于2018-02-14得票数 1

1回答

在Dataproc上在Anaconda中导入PySpark错误

、、

我已经用Anaconda作为附加组件构建了一个Dataproc集群。我创建了一个虚拟env。并在里面安装了RDkit。现在我的问题是，当我打开python终端并尝试这样做时：它抛出错误：我可以在Anaconda中安装PySpark，然后它就可以工作

浏览 2提问于2020-01-28得票数 1

1回答

尝试在数据处理工作流中使用PySpark读取BigQuery表时出现问题

、、

我正在尝试使用GCP + Dataproc + PySpark自动化一个过程。", data_project)\ .load() 此脚本由使用以下bash脚本创建的Dataprocadd-job pyspark file:///root/folder/main.py \ --workflow-templa

浏览 28提问于2021-04-29得票数 0

点击加载更多