,然后转换为groupBy product_category_id,但在groupBy之后,sortBy或orderBy无法工作。> prdDF.groupBy("product_category_id")
res294: org.apache.spark.sql.GroupedData = org.apache.spark.sql.GroupedDatasort is not a member of org.apache.spark.sql.
1| 1| +--------------------+------+ 我正在考虑创建一个包含列"term“和"然后可以通过“term”来减少新的df: val test = Seq.empty[Term].toDF()
df.foreach(spark.sql("INSERT INTO test VALUES
我正在使用hadoop 3.0.0和spark 2.2.0中的以下scala代码处理数据帧。BAQ是ID列,AAA是日期YYMMDD的字符串列。scala> val dtfAbnoFirs=dtfAbno.filter("AAA>='20201201' and BAQ<>'0'").| groupBy("BAQ").agg("AAA"->
这与唯一id无关,因此我并不打算使用增加唯一编号api,而是尝试通过自定义查询来解决它 考虑给定值,例如30,现在current dataframe df需要添加一个名为hop_number的新列,以便该列中的每个字段从顶部到底部将从30开始递增2,因此 with 2 parametersy -> like step or offset, here is 2
--------------- 32 36