通过给定的数据帧: Account ID Account Name First Name Created On Unnamed: 4 Unnamed: 5 Unnamed: 6 Unnamed,并检测哪些行是无效的。目前,我已经删除了无效的(所有NaN)行,并忽略了它们的无效ids,并检测到具有NaN帐户ids的行,并检测到它们无效: def cl
我正在尝试删除基于column1的重复项,并选择column2中具有最大值的行。column2的值为"year"(2019,2020等),类型为"String“。= newDs.groupBy("column1").max("column2Int"); // drops all other columns
当我执行"group by“时,这种方法会删除原始数据集”ds“中的</em