我试图使用排序函数对数据进行排序,但排序不正确,似乎是按块排序。可能是对各个分区进行排序,而不是对sort.However where子句进行梳理。我也使用过排序函数和普通sql查询,它们似乎都不起作用。System.setProperty("hadoop.home.dir", "C:\\winutils");
val tempDir
= newDs.groupBy("column1").max("column2Int"); // drops all other columns
当我执行"group by“时,这种方法会删除原始数据集因此,我必须在'ds‘和'newDS’之间进行连接,以获取所有原始列。另外,将字符串列转换为Integer看起来像是一种无效的解决方法。是否可以删除重复项,并从原始数据集本身获取具有更大字符串值的行?
我想知道星火是否知道分割键的地板文件,并使用这些信息,以避免洗牌。运行Spark2.0.1运行本地SparkSession。之后,在另一个脚本中,我读取了这个SomeFile.parquet拼板文件,并对其进行了一些操作。import org.apache.spark.sql.expressions.Window
val d