文章/答案/技术大牛

发布

社区首页 >问答首页 >用spark.sparkContext.addPyFile导入Pandas

问用spark.sparkContext.addPyFile导入Pandas
EN

Stack Overflow用户

提问于 2021-08-30 21:50:30

回答 1查看 216关注 0票数 2

我有下面的玩具例子。我正在用引导脚本在我的工作节点上安装熊猫和pyarrow。当我在jupyter笔记本上运行以下代码时，它不会出错。

# Declare the function and create the UDF
def multiply_func(a: pd.Series, b: pd.Series) -> pd.Series:
    return a * b

@f.pandas_udf("float")
def udf_multiply(a: pd.Series, b: pd.Series) -> pd.Series:
    df = pd.DataFrame({'a': a, 'b': b})
    df['product'] = df.apply(lambda x : multiply_func(x['a'], x['b']), axis = 1)
    return df['product']

x = pd.Series([1, 2, 3])
#print(multiply_func(x, x))
# 0    1
# 1    4
# 2    9
# dtype: int64

# Create a Spark DataFrame, 'spark' is an existing SparkSession
df = spark.createDataFrame(pd.DataFrame(x, columns=["x"]))

# Execute function as a Spark vectorized UDF
df.select(udf_multiply(f.col("x"), f.col("x"))).show()

然而，我有很多熊猫_udf我想导入到我的工作空间，我不想复制粘贴在我的木星笔记本顶部的每一个。我想要的目录结构如下所示：

eda.ipynb
helpful_pandas_udfs/toy_example.py

我查看了其他SO帖子，并确定我应该能够像这样添加Python文件：

spark.sparkContext.addPyFile("helpful_pandas_udfs/toy_example.py")
from toy_example import udf_multiply

然而，当我试图运行这段代码时，我会得到以下错误：

AttributeError: 'NoneType' object has no attribute '_jvm'

请帮帮我！我完全搞不懂这件事。

python

pandas

pyspark

databricks

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-04 19:41:46

我能够通过在创建星火会话之后复制我的UDF作为文本来解决这个问题。这不是我满意的解决方案，但确实有效。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68990691

复制

相似问题

问用spark.sparkContext.addPyFile导入Pandas
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用spark.sparkContext.addPyFile导入PandasEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用spark.sparkContext.addPyFile导入Pandas
EN