我有一个dataframe值为false、true或null。我想创建两个dataframes,1)只使用True列名,2)只使用假列名。我是pySpark新手,我想知道如何在不硬编码任何列名(我有几百列)的情况下做到这一点,我知道我不能遍历行,因为这样做会违背pySpark的目的。每一列将只有一个boolen -一个T或F,因此每列多个空。我尝试使用.filter,但它只过滤了一列,它实际上打印了其他所有列,而不是F列。w/ True Column Name
我正在尝试理解DataFrame列类型。当然,DataFrame不是一个物化的对象,它只是一组Spark的指令,将来要转换成代码。但我认为,这个类型列表代表了在执行操作时JVM中可能出现的对象类型。import pysparkimport pyspark.sql.functions as Fd()root