spark scala数据帧groupBy和orderBy

文章/答案/技术大牛

发布

1回答

、、

我需要计算pair在第一列和第二列中出现的次数，并按降序排序。如果在计数中有平局，请在第二列中首先列出数字最小的一对。下面的工作，除了平局打破部分。如何按计数说明和c2 asc排序？new_df.groupBy($"_c0",$"_c1").count().orderBy($"count".desc).limit(10).show() +---+---+-----+ |_c0|_c1

浏览 70提问于2019-10-18得票数 0

回答已采纳

3回答

什么是火花-scala的解决方案来对分组数据中的非键非整数列中的数据进行排序？

、、

，然后转换为groupBy product_category_id，但在groupBy之后，sortBy或orderBy无法工作。> prdDF.groupBy("product_category_id") res294: org.apache.spark.sql.GroupedData = org.apache.spark.sql.GroupedDatasort is not a member of org.apache.spark.sql.

浏览 1提问于2019-08-12得票数 1

3回答

如何仅使用SQL合并行？

、、

我既不能用电火花也不能用scala。我只能编写SQL代码。我有一个包含两个列的表--条目id，名称。item_id, names2 name4-name5 如何使用Spark创建这样的表？

浏览 1提问于2020-10-15得票数 2

回答已采纳

2回答

如何使用Dataset API (如SQL的“按1分组”或“按2排序”)使用序数？

、、

我能够在Spark‘文字’查询中使用序数(在GROUP BY和ORDER BY之后的这些整数)：但是对于DataFrames/DataSet，我必须始终使用列名： df.select($"ProfileName").groupBy($"ProfileName").count().orderBy

浏览 3提问于2017-07-19得票数 2

回答已采纳

1回答

Spark SQL -计算所有列中不同单词的数量

、、

1| 1| +--------------------+------+ 我正在考虑创建一个包含列"term“和"然后可以通过“term”来减少新的df： val test = Seq.empty[Term].toDF() df.foreach(spark.sql("INSERT INTO test VALUES

浏览 39提问于2021-09-25得票数 1

回答已采纳

1回答

scala 2.10如何在sum之前将字符串转换为数字

我使用的是Spark 1.6和scala 2.10。我有以下数据帧res24: org.apache.spark.sql.DataFrame = [DEST_COUNTRY_NAME: string, ORIGIN_COUNTRY_NAME: string, count: string]df.groupBy("DEST_COUNTRY_NAME") .sum("count&q

浏览 4提问于2018-01-04得票数 0

2回答

如何计算pyspark数据帧中每个不同值的计数？

、、

例如:当"TX"和"NJ"出现两次时，输出应该是(("TX":3),("NJ":2))。我对pyspark还是个新手，所以我被这个问题难住了。任何帮助都将不胜感激。

浏览 1提问于2017-02-25得票数 41

回答已采纳

2回答

PySpark根据第二个DataFrame的列向一个DataFrame添加值

、、

]| 0|| [6]| 1|| [8]| 0|| [10]| 0| 和DataFrame我已经尝试了一些使用lambda函数和sql语句的不同技巧，但在解决方案上遇到了不足。

浏览 2提问于2017-08-16得票数 1

回答已采纳

1回答

Spark dataframe筛选器最小值(列)失败

、、

我正在使用hadoop 3.0.0和spark 2.2.0中的以下scala代码处理数据帧。BAQ是ID列，AAA是日期YYMMDD的字符串列。scala> val dtfAbnoFirs=dtfAbno.filter("AAA>='20201201' and BAQ<>'0'").| groupBy("BAQ").agg("AAA"->

浏览 34提问于2021-04-08得票数 0

回答已采纳

2回答

如何使用DataFrame窗口表达式和withColumn而不改变分区？

、、

我的接口是RDD，所以我必须将DataFrame转换为RDD，当我使用df.withcolumn时，分区更改为1，所以我必须使用repartition和sortBy RDD。rdd.toDF() .withColumn("csum", sum($"col1").over(Window.orderBy($"col1"))) .withColumn("rownum"

浏览 100提问于2017-06-06得票数 1

回答已采纳

2回答

按部门ID统计员工数量，找出员工ID最多的前两个部门

、、、

首次使用Spark的用户。我为两个csv文件(employees和dept)创建了RDDs。我想提供一个按部门ID统计员工数量的输出，并确定员工ID最多的前两个部门名称。"

浏览 15提问于2019-10-04得票数 0

回答已采纳

1回答

与Scala相比，使用groupBy的Pyspark聚合非常慢。

、、、

sc.textFile(src)parsed = noheader.map(parse) return MatchedData(pieces[0], pieces[1], pieces[2:11], pieces[11]) val parsed = noheader.map(line =&g

浏览 5提问于2017-01-25得票数 0

2回答

对spark数据帧中的列进行分组并对其他列进行计数

数据看起来像 Store| Bookno1 1023 4015 502 5|2 对于GROUP尝试处理spark数据帧。

浏览 24提问于2020-07-06得票数 0

回答已采纳

3回答

添加包含按df分组的列数og的列

、、、

| +------------+-------+-----+ df.withColumn("n", df.groupByexpands to) org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]df.withColumn("n", df.grou

浏览 46提问于2019-11-25得票数 2

回答已采纳

2回答

如何在Spark列中编写函数，使列中的每个字段递增值？

、

这与唯一id无关，因此我并不打算使用增加唯一编号api，而是尝试通过自定义查询来解决它考虑给定值，例如30，现在current dataframe df需要添加一个名为hop_number的新列，以便该列中的每个字段从顶部到底部将从30开始递增2，因此 with 2 parametersy -> like step or offset, here is 2 --------------- 32 36

浏览 17提问于2020-07-01得票数 0

回答已采纳

1回答

Scala:如何按行号拆分数据帧？

、、、、

我想要将一个270万行的数据帧拆分为100000行的小数据帧，这样最终得到大约27个数据帧，我也想将其存储为csv文件。我已经看过这个partitionBy和groupBy了，但我不需要担心任何条件，除了它们必须按日期排序。我正在尝试编写自己的代码来实现这一点，但是如果你知道一些我可以使用的Scala (Spark)函数，那就太好了！感谢大家的建议！

浏览 10提问于2019-03-14得票数 2

回答已采纳

2回答

pyspark -按多列分组/计数性能

、、、

我有以下语句，它在一个大型数据帧(数十亿条记录)上执行需要几个小时。我读到groupby是昂贵的，需要避免.Our spark版本是spark-2.0.1。df.groupby("_c1","_c2","_c3","_c4","_c5").count() window = Window.partitionBy(df['_c1']).orderBy(df

浏览 21提问于2020-12-23得票数 0

回答已采纳

1回答

如何对org.apache.spark.sql.DataFrame绘制条形图？

、

我刚开始使用Scala和Spark，我正在尝试用org.apache.spark.sql.DataFrame做一个条形图。var numberOfAppsInCategory=df.select("Category").groupBy("Category").count().orderBy("count")你能帮我在尼龙内核中使用黄牛角还是用另一种方式对o

浏览 0提问于2019-07-16得票数 0

回答已采纳

2回答

向流式数据帧添加ROW_NUMBER列

、、、、

我是Spark和SQL的新手。我正在尝试向我的df中添加一列(然后将其保存到Delta表中)，该列为每条记录/行提供唯一的id，并在每次更新特定记录时递增该列。

浏览 1提问于2020-08-19得票数 3

1回答

为什么Dataset.unpersist级联到所有依赖的缓存数据集？

、

scala> val df = spark.range(1, 1000000).withColumn("rand", (rand * 100).cast("int")).cacheaggD

浏览 0提问于2019-01-01得票数 3

回答已采纳

点击加载更多