我想使用Pyspark在数百个csv文件中读取,创建一个数据文件,即(粗略地)连接所有csv。因为每个csv都可以安装在内存中,但一次不超过一到两个,这似乎是一个很好的契合。我的策略不起作用,而且我认为这是因为我想在映射函数的内核函数中创建一个Pyspark dataframe,从而导致一个错误:
# initiate spark session and other variabl
我在Spark上使用python,并希望将csv转换为dataframe。
"This package can be added to Spark using the --jars command line option.example, to include it when starting the spark shell: $ bin/spark-shell --packages com
我如何将一个.csv文件导入?我甚至尝试在Pandas中读取csv文件,然后使用createDataFrame将其转换为createDataFrame,但它仍然显示出一些错误。有人能指引我渡过难关吗?另外,请告诉我如何导入xlsx文件?我试图将csv内容导入熊猫数据格式,然后将其转换为spark数据帧,但它显示了错误:
"Py4JJavaError" An error occurred while