我在Python语言中有一个函数(有许多不同的函数,但情况相同),我正在将它转换为PySpark,然而,这个函数有一个不同整数类型的列表作为输入,有一个输出是一个列表,其中包含n个整数类型的列表,举个例子: #I know some libraries are not necessary righ nowfrom pyspark import SQLContext
frompy
我想把这些解析成一个PySpark DataFrame。我编写了一个解析函数,并希望将其应用于目录中的每个文件,并将其输入到我的DataFrame中。我对PySpark完全陌生,所以任何帮助都是非常感谢的。.] # Is there a PySpark way to iterate through files in a directory?my_data = map(parser, data_files) # How do I collect each of these into the same obj