我必须在Spark中以UDF的形式运行一个非常重的python函数,并且我希望在UDF中缓存一些数据。这个案例类似于提到的一个
我知道这是缓慢和错误的。但是,现有的基础设施正在酝酿之中,我不希望在这种情况下建立一个新的基础设施,分别处理数据加载/并行/失败安全问题。
我的星火计划就是这样的:
from mymodule import my_function # here is my function
from pyspark.sql.types import *
from pyspark.sql.functions import udf
from pyspark.sql.session imp