我有一个包含多个工作表的大型Excel(xlsx and xls)文件,我需要将它转换为RDD或Dataframe,以便以后可以将它加入到其他dataframe。我正在考虑使用并将其保存为CSV,然后在dataframe中读取csv。但是,如果有任何库或API可以在这个过程中提供帮助,那就很容易了。任何帮助都是非常感谢的。
我希望通过使用python的Spark框架在表上运行许多查询,方法是并行运行它们,而不是按顺序运行。 当我使用for循环运行查询时,它的执行速度非常慢,因为(我相信)它不能并行地中断作业。FREQ
from {1} group by {0} order by FREQ desc limit 5".format(fieldName, tableName)) 我尝试创建一个数据帧,其中包含一个名为'queryStr‘<em