我有一个PySpark数据帧(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名称相同,而不是PySpark以下是一个例子: df- PySpark数据帧</em
我希望加入到一个值的基础上,最接近的匹配低于该值。在SQL中,我可以很容易地做到这一点。考虑以下数据: tblActuals |Date |Temperature:|10/02/2020 |15.3|12tblCoefficients b where b.Metric <= a.Temperature order by b.Metric desc) as coefficient
from
我使用toPandas()将pyspark数据帧转换为pandas数据帧。但是,因为某些数据类型不对齐,所以pandas会将数据帧中的某些列强制转换为object。我似乎不能让对象注册为int64或float64,所以我不能这样做 if df[col].dtype == np.object:我也不能使用.str.contains,因为即使包含数值的列是dtype