在lambda中使用pyspark sql函数会导致pickle错误

。这是因为在lambda函数中，pyspark sql函数使用了pickle来序列化和反序列化数据，而pickle在lambda环境中的限制导致了错误。

为了解决这个问题，可以考虑以下几种方法：

避免使用pyspark sql函数：如果可能的话，可以尝试使用其他方法来处理数据，而不是依赖于pyspark sql函数。例如，可以使用pandas库来进行数据处理和分析。
使用AWS Glue：AWS Glue是亚马逊AWS提供的一项数据集成服务，它可以帮助处理和转换大规模数据集。通过使用AWS Glue，可以避免在lambda函数中使用pyspark sql函数导致的pickle错误。
使用AWS EMR：AWS EMR是亚马逊AWS提供的一项大数据处理服务，它支持使用Apache Spark进行数据处理。通过使用AWS EMR，可以在一个独立的集群中运行Spark作业，而不是在lambda函数中使用pyspark sql函数。
自定义解决方案：如果以上方法都不适用，可以考虑自定义解决方案。例如，可以将数据存储在AWS S3中，然后使用AWS Lambda触发AWS Glue作业来处理数据。

总结起来，lambda中使用pyspark sql函数会导致pickle错误。为了解决这个问题，可以尝试避免使用pyspark sql函数，或者考虑使用AWS Glue或AWS EMR等云计算服务来处理数据。

在lambda中使用pyspark sql函数会导致pickle错误

apache-spark、pyspark、apache-spark-sql

select( f.col("y"), ) 我试图在lambda内对dataframe d_s_a进行的任何访问都会导致以下错误： TypeError Traceback (most recent callPicklingError: Could

浏览 82提问于2021-10-10得票数 0

1回答

使用rdd.map在PySpark中对字符串进行解密和编码

python、hadoop、encoding、pyspark、rdd

我需要将代码从PySpark 1.3移植到2.3 (也只在Python2.7上)，并且在rdd上有以下映射转换：import base64 my_rdd.map

浏览 0提问于2018-09-14得票数 1

回答已采纳

2回答

如何将pyspark UDF导入到主类中

python、apache-spark、pyspark、user-defined-functions

functions.py有一个函数，并从该函数创建一个pyspark udf。main.py会尝试导入该自定义项。但是，在访问functions.py中的函数时，main.py似乎遇到了问题。functions.py：from pyspark.sql.types import StringType def do_some

浏览 3提问于2017-10-04得票数 5

回答已采纳

2回答

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

python-3.x、pyspark、aws-lambda

我正在尝试使用AWS Lambda函数运行我的PySpark作业代码。下面是错误:无法导入模块'lambda_function'：没有名为'pyspark‘的模块我的PySpark工作具有以下导入。那么，我如何将下面的库导入到我的Lambda函数中呢？如何在Lambda函数中安装这些？from pyspar

浏览 0提问于2018-12-11得票数 0

1回答

PicklingError:未能序列化对象:同时将数据插入到dynamoDB

amazon-web-services、apache-spark、amazon-dynamodb

我试图在dynamoDB中插入200万项(WCU = 40,000)。但是当我使用星图时，它是抛出的错误。%livy.pysparkfrom typing import Text, Listtable = dynamodb.Table("<dynamboDB>") df=spark

浏览 6提问于2021-02-27得票数 0

1回答

PicklingError:无法序列化对象: TypeError:不能对fasttext_pybind.fasttext对象进行筛选

data-science-model、dataframe、pyspark、serialisation

我建立了一个快速文本分类模型，以便对facebook的评论进行情感分析(在windows上使用pyspark 2.4.1 )。当我使用预测模型函数预测句子的类时，结果是一个元组，其形式如下：但当我试

浏览 0提问于2019-07-10得票数 4

回答已采纳

2回答

用火花酸洗错误-提交"_pickle.PicklingError:来自newobj args的args[0]有错误的类“

python、pyspark、pickle、user-defined-functions、apache-zeppelin

行中，在udf文件"/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/functions.py"，第1830行中，在"/usr/lib/spark/python/hadoop/anaconda/lib/python3.6&#

浏览 3提问于2017-10-22得票数 1

1回答

将自定义函数应用于spark 2.0中的SparseVector列

apache-spark、pyspark、spark-dataframe、apache-spark-mllib

我正在尝试将自定义函数应用到包含SparseVectors (使用pyspark.ml.feature.IDF创建)的PySpark df中的列。最初，我试图应用一个更复杂的函数，但在任何函数的应用中都会遇到相同的错误。所以为了举个例子：df = df.withColumn("vec_sum", udfS

浏览 2提问于2016-10-11得票数 2

1回答

：没有名为_winreg的模块

python、apache-spark、pyspark

一份对我非常有用的剧本在大约一周前就停止了。当我编译一个lambda函数时，问题就出现了，我后来用它来创建我的RDD。考虑下面的守则：@staticmethod """ __import__(name)

浏览 2提问于2015-11-02得票数 1

1回答

在AWS lambda函数上使用pyspark二进制文件时，错误Java网关进程在向驱动程序发送其端口号之前已退出

python、amazon-web-services、pyspark

我的lambda函数(python 3.6)有问题，lambda函数使用pyspark (spark-2.3.0-bin-hadoop2.7二进制文件)。由于pyspark二进制文件非常大(226MB的压缩文件)，我将其上传到S3存储桶中。lambda函数将文件解压到/tmp文件夹中。os.path.join(root, d), 0o775) for f in filenames:

浏览 5提问于2018-05-02得票数 0

1回答

在Pyspark的列上应用UDF时遇到的问题

pyspark、nlp、databricks、lemmatization

我的目标是清理Pyspark中列中的数据。我写了一个清洁的函数。ram bheem buddy like run get well weekend File "/databricks/spark/python/pyspark

浏览 12提问于2022-08-03得票数 0

回答已采纳

1回答

如何解决pyspark中的pickle错误？

python、dictionary、unicode、apache-spark、pyspark

我正在遍历文件，以收集有关字典中它们的列和行的值的信息。我注释了上面的最后两行，并尝试使用spark，因为这是需要运行分布式的东西的原型：conf = SparkConffile_object: find_nulls(file_object)) 但是，在使用spark时，这会导致以下错误</e

浏览 0提问于2015-11-07得票数 1

回答已采纳

1回答

如何在结构化查询中使用scikit学习模型？

apache-spark、scikit-learn、pyspark、spark-structured-streaming

我正在尝试将使用泡菜检索的scikit模型应用于结构化流数据流的每一行。我尝试过使用pandas_udf (版本1)，它给了我这个错误：代码：inputPath = "/FileStore/df_training/streaming_df_1_nh_nd/" from pyspark.s

浏览 4提问于2019-11-20得票数 1

回答已采纳

1回答

用于转换PySpark错误的UDF，用于构造ClassDict (用于numpy.dtype)的预期为零的参数

apache-spark、pyspark、user-defined-functions

我试图在PySpark中创建一个UDF，用于将UTM转换为经度和纬度。误差import pyspark.sql.functions as Fimp

浏览 0提问于2020-04-13得票数 1

7回答

PySpark错误: AttributeError：'NoneType‘对象没有属性_jvm

apache-spark、pyspark、apache-spark-sql

我有时间戳数据集，它的格式为>>> df_ts_list.withColumn("one_tag", on_time("ts_list")).select("one_tag").show() 错误/worker.py”，第172行，主进程()文件“/usr/lib/ main /

浏览 4提问于2016-10-28得票数 32

1回答

使用火花放电时酸菜与苦味的冲突

python、pyspark、conda、pickle、dill

目前，pyspark使用2.4.0版本作为conda安装的一部分。pip安装允许使用更高版本的pyspark，即3.1.2。但是使用这个版本，dill库与泡菜库有冲突。如果我在测试脚本中导入dill库，或者导入dill的任何其他测试，并且使用pytest来运行dill，那么它就会中断。它给出的错误给出了下面给定的错误。在持久性id和备注检查之后，它尝试获取obj的类型，如果它是“cell”类，它将尝试使用<

浏览 11提问于2021-09-28得票数 2

1回答

将python数据对象保存到google存储中，从dataproc中运行的pyspark作业中保存文件。

python、pyspark、google-cloud-storage、google-cloud-dataproc

我在使用dataproc运行pyspark作业时收集度量，并且无法在google存储中持久化它们(只使用python函数，而不是使用Spark)。关键是我可以保存它们，在执行过程中，我成功地读取和修改了它们，但是当作业结束时，我的google存储文件夹中什么都没有。#

浏览 0提问于2018-02-08得票数 2

1回答

在不跳转到RDD的情况下将pyspark转换为LabeledPoint

pyspark、spark-dataframe

我刚开始使用火花放电DataFrame，这让我很不爽。也许我没能正确理解。map函数降到RDD。LabeledPoint(z[0], z[1:]) rdd.take(2)为什么不能像下面这样使用from pyspark.sql.functions import udf z = [float(y) for y in

浏览 4提问于2016-08-17得票数 1

回答已采纳

1回答

如何从SparseVector到带有PySpark的字符串数组中获得单词的顶部X

python、apache-spark、pyspark

我正在使用K-均值，并继续我的数据与TF-以色列国防军感谢PySpark方法.现在我想得到每个集群的前10个单词：getTopwords_udf = udf(lambda vector/pyspark.zip/pyspark/sql/udf.py", line 167, in __call__ File "/opt/bigpipe/s

浏览 0提问于2019-03-26得票数 1

回答已采纳

1回答

ModuleNotFoundError:没有名为'sklearn‘的模块

python、python-3.x、pyspark、scikit-learn、user-defined-functions

我正在运行一段代码，它使用pickled来使用一个泡沫化的sklearn模型来获取数据。在我将引擎更改为Python3.6之前，这在Python2.7中似乎没有问题。见下面的脚本：from pyspark.sql.functions import udf from pyspark.sql.types import DoubleType/lib/spark2/python&#x

浏览 12提问于2022-02-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在lambda中使用pyspark sql函数会导致pickle错误

相关·内容

在lambda中使用pyspark sql函数会导致pickle错误

使用rdd.map在PySpark中对字符串进行解密和编码

如何将pyspark UDF导入到主类中

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

PicklingError:未能序列化对象:同时将数据插入到dynamoDB

PicklingError:无法序列化对象: TypeError:不能对fasttext_pybind.fasttext对象进行筛选

用火花酸洗错误-提交"_pickle.PicklingError:来自newobj args的args[0]有错误的类“

将自定义函数应用于spark 2.0中的SparseVector列

：没有名为_winreg的模块

在AWS lambda函数上使用pyspark二进制文件时，错误Java网关进程在向驱动程序发送其端口号之前已退出

在Pyspark的列上应用UDF时遇到的问题

如何解决pyspark中的pickle错误？

如何在结构化查询中使用scikit学习模型？

用于转换PySpark错误的UDF，用于构造ClassDict (用于numpy.dtype)的预期为零的参数

PySpark错误: AttributeError：'NoneType‘对象没有属性_jvm

使用火花放电时酸菜与苦味的冲突

将python数据对象保存到google存储中，从dataproc中运行的pyspark作业中保存文件。

在不跳转到RDD的情况下将pyspark转换为LabeledPoint

如何从SparseVector到带有PySpark的字符串数组中获得单词的顶部X

ModuleNotFoundError:没有名为'sklearn‘的模块

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐