转储和加载数据是没有问题的,但是当我尝试实际访问数据时,它是一个pandas.Series对象。其次,该系列中的每一行都是包含整个数据集的元组。# Before dumping, the original df has 100k rows.
# Each column has one value except for 'counts' which# Meaning that df['counts'] give me a sparse matrix
所以,我一直想知道如何使用pyspark来处理两个不同的数据帧。第一个数据帧,比如df,包含了人们在不同日子看电视的数据。我需要这个最终的数据帧为每个用户和每个程序有单独的行。换句话说,我需要一个数据帧,它可以在同一天为每个程序复制第一个数据帧中的每一行。到目前为止,我创建了以下方法:我迭代第一个dataframe,对于每一行,我找到第二个dataframe中具有相同日期的所有行,合并它并添加到第三个(最终) dataframe。[] # all programs