我正在尝试将X(连续)和Y(二进制)的总体平均拆分(通过计数),直到找到“断点”。例如,下面的代码应该生成5,000个观察值,每个观察值的0和1的比例各不相同。然后我想用更大比例的1来分割一半,依此类推,直到没有办法再分割为止。import numpy as npimport random
random.seed(191range( 5000 ), k =
它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗?例如Pandas中的代码: for i, d in df2:Is there a difference in howto iterate groupby in Pyspark or have to use aggregation and count?