DataFrame sql - Spark scala order by没有给出正确的顺序

是因为在Spark Scala中，order by语句默认是按照升序进行排序的。如果想要按照特定的顺序进行排序，需要使用orderBy函数的asc或desc方法来指定排序方式。

例如，假设有一个DataFrame对象df，其中包含一个名为column_name的列，我们想要按照降序对该列进行排序，可以使用以下代码：

import org.apache.spark.sql.functions._

val sortedDF = df.orderBy(col("column_name").desc)

这样就可以按照指定的列以降序进行排序了。

另外，如果需要按照多个列进行排序，可以在orderBy函数中传入多个列名，并指定每个列的排序方式。例如：

val sortedDF = df.orderBy(col("column_name1").asc, col("column_name2").desc)

这样就可以先按照column_name1列进行升序排序，再按照column_name2列进行降序排序。

对于DataFrame的排序操作，可以在Spark官方文档中找到更详细的介绍和示例：DataFrame排序。

此外，腾讯云提供了一系列与Spark相关的产品和服务，如腾讯云EMR（Elastic MapReduce）和腾讯云COS（Cloud Object Storage），可以用于大数据处理和存储。你可以在腾讯云官方网站上找到更多关于这些产品的信息和文档。

星火数据中心，WithColumn

、、

我在中尝试了下面的代码，它运行得很好。 val df2 = df3.withColumn("Escore", when($"col2" === $"col3",10).otherwise(0))orderBy(asc("col2"),desc("Escore"),desc("col5")) 但是，当我使用SBT在IntelliJ的Scala中尝试相同的命令时，我将面临以下错误。在Scala中： val df2: DataFrame = df3.withColumn("Escore"

浏览 1提问于2017-02-26得票数 1

回答已采纳

2回答

火花数据挖掘中的orderBy列列表

、

我有一个包含列名的变量列表。我试图用它来调用数据文件上的orderBy。 val l = List("COL1", "COL2") df.orderBy(l.mkString(",")) 但是mkstring将列名组合成一个字符串，从而导致这个错误- org.apache.spark.sql.AnalysisException: cannot resolve '`COL1,COL2`' given input columns: [COL1, COL2, COL3, COL4]; 如何将这个字符串列表转换为不同的字符串，以便查找&#

浏览 6提问于2020-04-10得票数 0

回答已采纳

3回答

对星火数据帧/蜂巢结果集进行排序

、、

我正在尝试从一个Hive表中检索列列表，并将结果存储在一个中。 var my_column_list = hiveContext.sql(s""" SHOW COLUMNS IN $my_hive_table""") 但我无法按字母顺序对数据进行排序，甚至无法对显示列查询的结果进行排序。我尝试使用排序和orderBy()。我如何按字母顺序对结果进行排序？更新：添加了我的代码示例 import org.apache.spark.{ SparkConf, SparkContext } import org.apache.spark.sql.Dat

浏览 8提问于2016-11-08得票数 4

回答已采纳

2回答

scala中使用多列的Spark数据帧排序

、

在Spark 1.6中，基本上我希望应用分区，然后使用两列进行排序，这样我就可以对每个分区应用等级逻辑 val str = "insertdatetime,a_load_dt" val orderByList = str.split(",") val ptr = "memberidnum" val partitionsColumnsList = ptr.split(",").toList val landingDF = hc.sql("""select memberidnum,insertdate

浏览 38提问于2019-09-26得票数 0

1回答

Scala忽略导入的成员

、

我有以下代码片段： package org.test.test.datahelper import org.apache.spark.rdd.RDD import org.apache.spark.sql._ class WeatherHelper(sparkSession: SparkSession, weather: DataFrame) { def prepareRRRColumn: DataFrame = { import org.apache.spark.sql.functions weather.withColumn("Year", ye

浏览 5提问于2018-12-26得票数 0

回答已采纳

2回答

按不同顺序排列两列的Spark Dataframe

、、、、

比方说，我有一个这样的表： A,B 2,6 1,2 1,3 1,5 2,3 我希望以列A的升序对其进行排序，但在其中我希望以列B的降序对其进行排序，如下所示： A,B 1,5 1,3 1,2 2,6 2,3 我曾尝试使用orderBy("A", desc("B"))，但它给出了一个错误。我应该如何在Spark 2.0中使用dataframe编写查询？

浏览 0提问于2018-11-27得票数 6

回答已采纳

1回答

将简单值从映射映射到spark DataFrame错误

、、

我最近开始在Scala中使用Spark，我发现自己处于这样一种情况:我想要将一些值从hashmap/map映射到dataframe，而不必构造新的dataframe，然后执行某种连接。我有这个数据框架： +---+-------+---+----------+---------+ | id| name|age| date|genderKey| +---+-------+---+----------+---------+ | 1|Rodrigo| 30|2019-01-01| male| | 2|Roberto| 23|2019-01-01| male| |

浏览 2提问于2020-04-10得票数 0

1回答

按表达式对数据进行平添排序

、、、

我目前正在阅读Spark the definitive guide，并且有一个通过使用expr来实现DataFrame的示例，但是它不起作用： from pyspark.sql.types import * from pyspark.sql.functions import * from pyspark.sql import Row schema = StructType([ StructField("origin", StringType(), True), StructField("destination", StringType(), True)

浏览 4提问于2020-07-27得票数 0

回答已采纳

1回答

在Scala中使用select进行Unix时间转换

、

我加载了datingDF，它看起来像； +---+--------+------+---+---------+ |Uid|Zip_Code|Height|Age|Meet_Date| +---+--------+------+---+---------+ | 1| 90117| 171| 22|881250949| | 2| 90340| 168| 24|891717742| | 3| 92552| 170| 38|878887116| | 4| 90455| 175| 41|880606923| | 5| 91045| 165| 25|886

浏览 18提问于2020-02-22得票数 0

2回答

如何在apache spark scala中对多列数据进行排序？

、

我有这样的数据集，我从csv文件中获取，并使用scala将其转换为RDD。 +-----------+-----------+----------+ | recent | Freq | Monitor | +-----------+-----------+----------+ | 1 | 1234 | 199090| | 4 | 2553| 198613| | 6 | 3232 | 199090| | 1 | 8823 | 498831| |

浏览 2提问于2016-04-19得票数 2

3回答

Spark中的sort函数和orderBy函数有什么不同

、

浏览 2提问于2016-11-15得票数 30

回答已采纳

1回答

Json在推荐引擎的Scala中的Dataframe字段中

、、、

我试图建立一个推荐引擎的基础上，一家网络商店，出售房屋产品。对于这个例子，我将保持这个简单。使用scala和Spark。我有一个包含4个字段的数据文件。 1. A unique ID (INT) 2. A ProductName (String) 3. A ProductPrice (Number) 4. ProductCategories (Json field) 我也有第二个数据，其中包含这些产品的销售。总之，我在看一个电影推荐引擎的例子，这是相当简单的。使用电影镜头数据集。我希望把它转到这里，以这个产品为例。但是，每个产品的ProductCategories可以如下所示：例如

浏览 5提问于2022-02-21得票数 0

回答已采纳

2回答

如何将星火列的别名作为字符串？

、

如果我在val中声明一列，如下所示： import org.apache.spark.sql.functions._ val col: org.apache.spark.sql.Column = count("*").as("col_name") col是org.apache.spark.sql.Column型的。是否有访问其名称("col_name")的方法？类似于： col.getName() // returns "col_name" 在本例中，col.toString返回"count(1) AS col_name&

浏览 2提问于2020-07-08得票数 0

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。这是我的代码： val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")

浏览 1提问于2017-11-27得票数 0

回答已采纳

2回答

logistic回归后的Scala/Spark相关矩阵

、

在对数据集(n =100000)运行logistic回归算法后，我希望获得特征的相关矩阵。这是我的数据预览： results.columns res16: Array[String] = Array(label, Pclass, Sex, Age, SibSp, Parch, Fare, Embarked, SexIndex, EmbarkIndex, SexVec, EmbarkVec, features, rawPrediction, probability, prediction) scala> val fts = results.select("features"

浏览 0提问于2016-12-28得票数 1

2回答

星火Scala -需要在dataframe中遍历列。

、、

得到下一个数据： +---+----------------+ |id |job_title | +---+----------------+ |1 |ceo | |2 |product manager | |3 |surfer | +---+----------------+ 我希望从dataframe中获得一列，并创建另一列，其指示名为“秩”： +---+----------------+-------+ |id |job_title | rank | +---+----------------+-------+ |

浏览 1提问于2018-06-20得票数 0

回答已采纳

3回答

在Spark UDF中操作数据帧

、、、

我有一个从dataframe过滤和选择值的UDF，但它遇到了"object not serializable“错误。详情见下文。假设我有一个dataframe df1，它的列具有名称("ID“、"Y1”、"Y2“、"Y3”、"Y4“、"Y5”、"Y6“、"Y7”、"Y8“、"Y9”、"Y10")。我想要根据来自另一个dataframe df2的匹配的"ID“和"Value”对"Y“列的子集求和。我尝试了以下几种方法： val y_list = ("Y1

浏览 20提问于2018-02-21得票数 3

回答已采纳

1回答

如何将csv文件中的数据作为流读取

、、

我有下表： DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count United States Romania 15 United States Croatia 1 United States Ireland 344 Egypt United States 15 表表示为数据集。 scala> dataDS res187: org.apache.spark.sql.Dataset[FlightData]

浏览 1提问于2019-02-10得票数 0

2回答

Angular:按混合了ASC和DESC的属性列表排序

、、

我有一个ng-repeat，我正在试着得到一个特定的订单。我看到我可以使用属性列表进行排序： ng-repeat="client in clients | orderBy: ['isOpen', 'lastAccessTime']" 我的问题是，如何配置升序和降序？我想在isOpen上使用DESC进行主要排序，在lastAccessTime上使用ASC进行辅助排序。如何在我的ng-repeat中实现这一点编辑:我在下面试过了，但是当两个项目都是isOpen时，最高的lastAccessTime不在顶部： ng-repeat="clie

浏览 0提问于2014-01-31得票数 2

1回答