我有一个很大的.csv文件,需要根据订购数量对具有相同名称的产品进行分组,这是我通过groupby()完成的。但是,我需要使用文件中的所有7列,但是在连接这些行之后,只剩下qty_ordered和name_hash,其余的列都消失了。有没有办法在连接基于name_hash和qty_ordered的行的同时,将我的所有7列都保留在我的数据帧中?这是我的代码:
import pandas as p
This answer很好地解释了如何使用pyspark的groupby和pandas_udf进行自定义聚合。StructField("key", StringType()),]) 因为我将返回具有自动生成的名称的100+列。有没有办法告诉PySpark只隐含地使用我的函数返回的模式,并假定它对所有工作节点都是相同的?这个模式在运