有没有办法强制spark工作人员使用分布式的numpy版本，而不是安装在他们身上的版本？

是的，可以通过使用PySpark来强制Spark工作人员使用分布式的NumPy版本。PySpark是Spark的Python API，它允许开发人员在Spark集群上使用Python进行分布式计算。

在PySpark中，可以使用pyspark.sql.functions模块中的pandas_udf函数来实现分布式的NumPy版本。pandas_udf函数允许将自定义的Python函数应用于Spark DataFrame中的列，并且可以使用NumPy库进行高性能的分布式计算。

以下是一个示例代码，演示如何在PySpark中使用分布式的NumPy版本：

from pyspark.sql import SparkSession
from pyspark.sql.functions import pandas_udf
import pandas as pd
import numpy as np

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [(1, 2), (3, 4), (5, 6)]
df = spark.createDataFrame(data, ["col1", "col2"])

# 定义自定义函数，使用分布式的NumPy版本
@pandas_udf("double")
def sum_of_squares(col1, col2):
    # 使用NumPy进行分布式计算
    return np.square(col1) + np.square(col2)

# 应用自定义函数到DataFrame的列
df = df.withColumn("sum_of_squares", sum_of_squares(df["col1"], df["col2"]))

# 显示结果
df.show()

在上述示例中，我们定义了一个名为sum_of_squares的自定义函数，使用了分布式的NumPy版本来计算两列的平方和。然后，我们将该函数应用到DataFrame的列上，并将结果存储在新的列sum_of_squares中。

这样，我们就可以在Spark集群上使用分布式的NumPy版本进行计算，而不是依赖于工作人员的本地安装版本。

腾讯云提供了适用于Spark的云计算服务，您可以参考Tencent Spark了解更多相关产品和服务信息。