下面是我的数据示例,有10个行头,然后恰好1000行数据,然后重复30个周期(这些是实验室实验的试验)。我有8个相同格式的文件,我想提取每批文件,这样我就可以做一些事情了。如何创建一个循环,每次创建一个新的dataframe来存储新的行?it to make newdataframes j=j+1
我已经非常接近了,但我被困在如何继续为每一批或一个大批获取单独的数据帧
我无法从pyspark数据帧列表创建RDD,如下所示:df = sqlContext.createDataFrame(l)df2Trace: py4j.Py4JException: Method __getnewargs__([]) does not exist
在parallelize调用中。它适用于像[1,2,3]这样的简单列表,但是当列表的元素变成一