在spark中检查groupBy和orderBy的结果_groupBy在Spark中的应用_如何在laravel中的一个查询中执行orderby和groupby - 腾讯云开发者社区

python、pyspark、spark-dataframe

类似于： order_items.groupBy("order_item_order_id").count().orderBy(desc("count")).show() 我试过： order_items.groupBy("order_item_order_id").sum("order_item_subtotal").orderBy(desc("sum")).show() 但这给出了一个错误： Py4JJavaError:调用o501.sort时出错。：：org.apache.spark.sql.Analysi

浏览 1提问于2015-12-21得票数 4

2回答

如何使用Dataset API (如SQL的“按1分组”或“按2排序”)使用序数？

apache-spark、dataframe、apache-spark-sql

我能够在Spark‘文字’查询中使用序数(在GROUP BY和ORDER BY之后的这些整数)： sqlContext.sql("SELECT ProfileName, COUNT(1) FROM df GROUP BY 1 ORDER BY 2 DESC") 但是对于DataFrames/DataSet，我必须始终使用列名： df.select($"ProfileName").groupBy($"ProfileName").count().orderBy(desc("count")) 我没有找到在DataFrames中使用序号的

浏览 3提问于2017-07-19得票数 2

回答已采纳

1回答

受混洗分区计数影响的spark查询结果

pyspark、apache-spark-sql

我有下面的代码来对工资进行分组 # this is a sample to learn about shuffle partitions config property def getDataFrame(): data = [('Eric', 'history', 4000), ('Adam', '\Economics', 3000), ('Angela', 'Science', 6000)] dataDF = spark.createDataFrame(data, 'name S

浏览 4提问于2020-11-16得票数 0

回答已采纳

1回答

Spark streaming:在组中保留最近的值

apache-spark、spark-structured-streaming、spark-streaming-kafka

我有一个像这样的小溪 +------+-------------------+------+ |group | time| label| +------+-------------------+------+ | a|2020-01-01 10:49:00|red | | a|2020-01-01 10:51:00|yellow| | a|2020-01-01 12:49:00|blue | | b|2020-01-01 12:44:00|red | | b|2020-01-01 12:46:00|blue |

浏览 20提问于2021-03-25得票数 0

1回答

TypeError dropDuplicates()接受1到2个位置参数，但给出了3个

apache-spark、pyspark、spark-structured-streaming

我已经在Spark 2中播放过流媒体数据。我想用dropDuplicates方法复制记录。我在Spark网站上发现我可以在watermark中使用dropDuplicates。这是我的带水印的代码，不带dropDuplicates方法： parsed = parsed_opc \ .withWatermark("sourceTimeStamp", "10 minutes") \ .groupBy( window(parsed_opc.sourceTimeStamp, "4 seconds"),

浏览 50提问于2019-07-21得票数 0

回答已采纳

1回答

如何将火花数据映射转换为JSON映射？

apache-spark、apache-spark-sql

我目前有一个由两列组成的csv： "name","numbers" "abc","123" "abc","234" "def","123" 我试图将数据格式化为JSON映射： {"abc":["123","234"],"def":["123"]} 我创建了一个数据框架，然后使用_list/spark对名称和收集数字进行分组，但我无法获得字符串中的引号，我也不知道如何将其格式化为JSON映射

浏览 5提问于2022-09-13得票数 1

1回答

在Spark中使用UDF时任务序列化错误

scala、apache-spark、apache-spark-sql、user-defined-functions

当我创建如上所示的UDF函数时，我得到了Task Serialization错误。只有当我使用spark-submit在集群部署模式下运行代码时，才会出现此错误。然而，它在spark-shell中工作得很好。 import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import scala.collection.mutable.WrappedArray def mfnURL(arr: Wrapp

浏览 21提问于2018-09-08得票数 2

回答已采纳

1回答

火花NLP中的异常分析

apache-spark、pyspark、apache-spark-sql、johnsnowlabs-spark-nlp

强textBelow是我的代码块： conll_data.select(F.explode(F.arrays_zip('token.result','label.result')).alias("cols")) \ .select(F.expr("cols['0']").alias("token"), F.expr("cols['1']").alias("ground_truth"))\

浏览 5提问于2022-06-09得票数 0

1回答

如何从可观察集合中过滤重复记录？

c#、wpf、linq-to-sql、group-by、observablecollection

目前，我正在使用带有单个字段的Group-By从可观察集合中过滤重复记录。问题1：我用于筛选记录的当前代码 if (param.ToString() == "Name") duplicates = AllCollection != null ? AllCollection .GroupBy(g => g.Name).Where(w => w.Count() > 1).OrderBy(o => o.Key).Select(s => s).ToList() :

浏览 0提问于2013-08-22得票数 0

2回答

错误:值orderBy不是org.apache.spark.sql.RelationalGroupedDataset的成员

scala、apache-spark

运行此代码时： df .select($"CALC_DATE", $"ENGINE_SERIES", $"program_group_name") .groupBy($"CALC_DATE", $"ENGINE_SERIES", $"program_group_name") .orderBy($"CALC_DATE".desc) .count() .withColumnRenamed("count", "Actual_

浏览 61提问于2020-07-09得票数 1

1回答

在spark中检查groupBy和orderBy的结果

pyspark、apache-spark-sql

我有数据帧，包括两列，例如"ID"和"Time"。我想快速检查一下根据ID和时间信息分组的结果。我能做这些 df.groupBy('ID').orderBy('Time') 但是我不能在这之后添加show，因为show()既不是orderBy也不是groupBy的属性。如何快速检查这种运算结果。

浏览 48提问于2021-05-08得票数 1

2回答

partitionBy和groupBy在火花中有什么区别？

python、apache-spark

我有一个pyspark，它可以收集成一个元组列表，如下所示： rdds = self.sc.parallelize([(("good", "spark"), 1), (("sood", "hpark"), 1), (("god", "spak"), 1), (("food", "spark"), 1), (("fggood", "ssspark"), 1), (("

浏览 2提问于2020-06-17得票数 2

回答已采纳

1回答

如何在pyspark中查看为窗口函数创建的分区大小？

apache-spark、pyspark

我使用窗口函数的spark (pyspark) ETL已停止工作。我想知道这是不是数据中的偏斜。该窗口的功能类似于 windowSpec = Window.partitionBy('user').orderBy('time').rowsBetween(1, 1) next_time = F.lead('time', 1).over(windowSpec) 如果数据中有一些拥有大量数据的离群值用户，该怎么办？当spark partitions by user做窗口时，我想我可能会得到一个太大的分区-我看到许多作业中只有两个失败了(作业可能是错误的术

浏览 11提问于2018-08-27得票数 1

回答已采纳

2回答

用Scala将DataSet转换为Json阵列火花

json、scala、apache-spark、apache-spark-sql、apache-spark-dataset

我是新的火花，无法找到解决以下问题的办法。我有一个JSON文件来解析，然后创建几个度量标准，并将数据写回JSON格式。下面是我正在使用的代码 import org.apache.spark.sql._ import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.functions._ object quick2 { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(Level.ERROR)

浏览 0提问于2017-07-24得票数 2

回答已采纳

2回答

pyspark -按多列分组/计数性能

sql、apache-spark、pyspark、apache-spark-sql

我有以下语句，它在一个大型数据帧(数十亿条记录)上执行需要几个小时。我读到groupby是昂贵的，需要避免.Our spark版本是spark-2.0.1。 df.groupby("_c1","_c2","_c3","_c4","_c5").count() window = Window.partitionBy(df['_c1']).orderBy(df['count'].desc()) df.select('*', rank().over(window).alia

浏览 21提问于2020-12-23得票数 0

回答已采纳

3回答

如何在spark数据流结构中使用非基于时间的窗口？

pyspark、apache-spark-sql、spark-streaming

我正在尝试使用window on structured与spark和kafka。我在非基于时间的数据上使用window，所以我得到了这个错误： 'Non-time-based windows are not supported on streaming DataFrames/Datasets;;\nWindow 下面是我的代码： window = Window.partitionBy("input_id").orderBy("similarity") outputDf = inputDf\ .crossJoin(ticketDf.with

浏览 0提问于2019-04-09得票数 5

1回答

如何在窗口上使用collect_list在Pyspark中创建嵌套列表？

python、list、apache-spark、pyspark、apache-spark-sql

我有一个使用collect_list和PartitionBy聚合的Spark DF，它拉取与一组列相关联的值列表。因此，对于分组的列，我现在有了一个新列，其中包含与group关联的元素列表。然而，我希望这个列表被进一步分解，这样它就包含了嵌套列表。这些列的顺序按日期排序也很重要。如下所示： data = [ ["ABC", 1, 3, "2020-04-01", "product_one"], ["ABC", 1, 3, "2020-04-01", "product_two"],

浏览 70提问于2021-04-06得票数 1

回答已采纳

2回答

将dataframe:几个列按顺序转换为单一列

python、apache-spark、pyspark、spark-dataframe

我正在使用Spark2.1.1和dataframe。以下是我的输入数据： +----+---------+---------+-------+ | key|parameter|reference| subkey| +----+---------+---------+-------+ |key1| 45| 10|subkey1| |key1| 45| 20|subkey2| |key2| 70| 40|subkey2| |key2| 70| 30|subkey1| +----+---------+--

浏览 3提问于2017-08-03得票数 2

回答已采纳

1回答

在没有水印的流DataFrames/数据集上有流聚合时，不支持附加输出模式；\n nJoin

python、apache-spark、spark-structured-streaming

我想加入两个流，但是我收到了下一个错误，我不知道如何修复它：在没有水印的流DataFrames/数据集上有流聚合时，不支持附加输出模式；\n nJoin df_stream = spark.readStream.schema(schema_clicks).option("ignoreChanges", True).option("header", True).format("csv").load("s3://mybucket/*.csv") display(df_stream.select("SendID"

浏览 0提问于2019-07-30得票数 6

回答已采纳

3回答

对星火数据帧/蜂巢结果集进行排序

scala、apache-spark、hive

我正在尝试从一个Hive表中检索列列表，并将结果存储在一个中。 var my_column_list = hiveContext.sql(s""" SHOW COLUMNS IN $my_hive_table""") 但我无法按字母顺序对数据进行排序，甚至无法对显示列查询的结果进行排序。我尝试使用排序和orderBy()。我如何按字母顺序对结果进行排序？更新：添加了我的代码示例 import org.apache.spark.{ SparkConf, SparkContext } import org.apache.spark.sql.Dat

浏览 8提问于2016-11-08得票数 4

回答已采纳

1回答

优化collect()的使用

apache-spark、apache-spark-sql

我有工作代码，但我的本地计算机可以在1分钟内完成一项任务，需要10分钟。因此，我认为我的代码需要优化，而且我认为我没有正确地使用Spark，特别是SQL limit()和collect()方法。我想/需要将我的问题转移到Spark (火星雨)，因为我们的旧工具和计算机无法明智地处理生成的大量文件(而且它们显然没有资源来处理我们生成的一些最大的文件)。我正在查看CSV文件，对于每个文件，即实验，我需要知道哪个传感器是第一个/最后一个触发的，以及这些事件何时发生。减少到火花相关代码我做 tgl = dataframe.filter("<this line is relevant

浏览 0提问于2018-09-19得票数 0

回答已采纳

1回答

“DataFrame”对象没有属性“orderby”

sql、azure、join、pyspark、union

我在我的应用程序上使用了azure数据。并且我使用ML来执行推算。在我得到结果之后，我想要加入和联合，使它成为一个完整的数据集，这样我就可以将它写入blob存储。 df3 = spark.sql(""" select * from df1 FULL OUTER JOIN df2 on df1.columnindex == df2.columnindex """) 连接完成后，我显示了结果，发现'columnindex‘中缺少很多索引，所以我执行了orderBy df3 = df3.orderBy('columnindex&

浏览 4提问于2020-09-22得票数 1

1回答

一次完成分区上的第一个和最后一个函数PySpark

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我有这样的pyspark代码， spark_df = spark_df.orderBy('id', 'a1', 'c1') out_df = spark_df.groupBy('id', 'a1', 'a2').agg( F.first('c1').alias('c1'), F.last('c2').alias('c2'), F.first('c3').alias('c3')) 我

浏览 10提问于2020-02-10得票数 2

回答已采纳

2回答

Laravel -在phpmyadmin上使用结果的查询中的Group By error

php、mysql、laravel、phpmyadmin

查询为： $last_topics = Topics::orderby('date', 'DESC')->groupBy('section')->get(); 和错误：因此，在错误中，我们可以看到查询是：select * fromtopicsgroup bysectionorder bydatedesc 但是正如您所看到的，同样的查询在phpMyAdmin中运行得很好，我得到了我的结果那到底是怎么回事？另外，我可以说，在Laravel内部的这个查询中如果没有groupBy，就不会报警错误，比如：$last_top

浏览 10提问于2017-07-25得票数 2

回答已采纳

1回答

reducebykey不是org.apache.spark.sql.Dataset的成员

scala、apache-spark

import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import org.apache.spark.sql.SQLContext import org.apache.spark.sql.functions._ val ticker_data_rdd = ticker_data_parsed. filter("date_stamp='2017-01-03 00:00:00.0' or date_stamp='2017-08-2

浏览 59提问于2020-11-01得票数 1

3回答

Laravel groupBy groupBy只需要显示最后的值

laravel、laravel-5、group-by、sql-order-by

我有一张表，它有这样的值： unidade_id，bloco_id，image_name和版本。为了缩小索引视图，我尝试只显示最后一个版本的image_name。但问题是..。当我groupBy和orderBy值时，结果总是第一个版本。这是我的控制器： $image_list = Imagem::orderBy('version', 'desc') ->groupBy(['unidade_id', 'bloco_id', 'image_name']) ->get()

浏览 2提问于2020-03-11得票数 0

回答已采纳

1回答

火花词法运算顺序

apache-spark、pyspark

我们都知道，在SQL中，通常在编写代码时我们有一个定义的词法操作顺序： SELECT ... FROM ... JOIN ... WHERE ... GROUP BY ... HAVING ... ORDER BY ... 这是如何体现在星火？我知道这完全是关于特定对象的属性，所以如果我可以以不同的方式问这个问题--对于来自SQL的人来说，在编写Spark应用程序时，有什么有用的方法来思考词法操作的顺序呢？来说明我的困惑。下面是我的测试中的两段代码，我将orderBy放在两个完全不同的位置(同样，来自SQL背景)，但是代码的结果是完全相同的： tripDatawithDT \ .filter

浏览 0提问于2019-06-18得票数 4

回答已采纳

1回答

在Laravel获得最新的独特价值

php、laravel、laravel-5、laravel-5.1

我想查询最新的+不同的名称。我有独特的工作，但他们不是最新的。我不知道在拉勒维尔该怎么做。我试过了 $localDevices = Device::orderBy('created_at', 'desc')->groupBy('mac')->get(); $localDeviceName = []; $i = 0; foreach ($localDevices as $localDevice) { foreach ($devices as $device

浏览 2提问于2016-02-08得票数 3

2回答

如何在Java Spark中orderBy列中的唯一名称？

java、apache-spark

这可能会更好地解释标题。基本上，在每个流派上给出最高评分的用户。一个用户可以为多个流派投票，这就是为什么前9名是同一个用户。表“分解”包含两行。一个有userId，另一个有他投票的类型。一个用户可以为多个流派投票。我使用的代码是： Dataset<Row> group = exploded.groupBy("userId", "genres").count().orderBy(org.apache.spark.sql.functions.col("count").desc()); 其结果如下所示： +------+--------

浏览 3提问于2018-05-01得票数 0

2回答

排列星河数据集列

scala、apache-spark-sql、spark-streaming、user-defined-functions

我正在使用Spark2.3.1的结构化流API。是否有可能在火花流数据的列中对值进行排序？我尝试使用下面的代码，然后在异常消息之后意识到流上下文不可能遍历整个窗口。 .withColumn("rank", row_number().over(Window.orderBy($"transactionTime"))) 抛出 org.apache.spark.sql.AnalysisException:流数据框架/数据集不支持非基于时间的窗口。有人能帮我计算等级/百分位吗？

浏览 0提问于2018-07-06得票数 4

回答已采纳

2回答

星星之火--在大型数据文件上进行groupby和聚合时内存中的java堆。

apache-spark、pyspark、apache-spark-sql、parquet、pyspark-dataframes

我是新手，对Java没有编程经验。我正在使用pyspark处理一个非常大的时间序列数据集，其中有近4000列数值(浮点)列和数十亿行。我想用这个数据集实现以下目标：时间序列数据的间隔为10毫秒。我希望按1s间隔对数据进行分组，并使用平均值作为聚合函数。这里是我用来读取分区拼花文件的代码. df = (spark.read.option("mergeSchema", "true") .parquet("/data/")) 这里是我编写的用于groupby和聚合的代码： col_list = [... list of nu

浏览 2提问于2019-10-03得票数 1

1回答

Laravel不同行为

laravel、eloquent、rbac

我在Laravel5.2中使用了这个，当使用从控制器发送不同结果到查看时，我得到了不同的行为：当我执行这样的查询时： $users = User::all(); 然后，在我看来，我可以检查这样的用户角色： @if($user->is('admin')) 这是预期的行为，但是当我从这样的查询发送结果时： $users = User::leftjoin('role_user', 'users.id', '=', 'role_user.user_id') ->orderBy(D

浏览 1提问于2016-05-31得票数 2

回答已采纳

1回答

在火花表中追加聚合状态从循环开始

pyspark

我有下面的电火花代码。在循环中的每一次迭代中，我过滤掉H列中带有特定字符串的所有行，然后计算G列上的一些聚合统计数据(结果为3个值)。我希望将所有的汇总计数保存在一个表中(行: CM、NCM、FP；列: POP、POP N、POP SN、POP QP)。 from pyspark.sql import SparkSession import pandas as pd import numpy as np import pyspark.sql.functions as F spark = SparkSession.builder.master("local").appName(

浏览 0提问于2018-10-28得票数 0

回答已采纳

1回答

另一种根据日期值获取最新记录的方法

python、dataframe、pyspark、hive、pyspark-dataframes

我有一个输入日期，但示例如下: df_inp customer_id |ph_num|date | 1 |123 |2020-10-01| 2 |456 |2020-10-01| 3 |789 |2020-10-01| 1 |654 |2020-10-02| 2 |543 |2020-10-03| 1 |908 |2020-10-04| 4 |123 |2020-10-02| 我需要得到每天流程的最新

浏览 13提问于2020-10-12得票数 1

1回答

使用Pyspark限制导入的Groupby聚合

python、sql、dataframe、variables、pyspark

我有数据当前，如下所示： +------+-----------+----------+----------+-----+ | sid|acc_term_id|first_name| last_name|major| +------+-----------+----------+----------+-----+ |106454| 2014B| Doris| Marshall| BIO| |106685| 2015A| Sara|Richardson| CHM| |106971| 2015B| Rose| Butler|

浏览 2提问于2021-06-02得票数 1

回答已采纳

1回答

火花数据中心:带排序的枢轴

scala、apache-spark、dataframe、pivot

我正在将以下json文件读入spark中的Dataframe中： {"id" : "a", "country" : "uk", "date" : "2016-01-01"} {"id" : "b", "country" : "uk", "date" : "2016-01-02"} {"id" : "c", "country" : "fr",

浏览 1提问于2017-04-11得票数 1

回答已采纳

1回答

Windows Slice Spark Python over data

apache-spark、pyspark、pyspark-dataframes

我有以下数据： id | capacity | timestamp ----------------------------------- 1 | 35 | 2020-12-01 13:28:.. 2 | 47 | 2020-12-01 13:28:.. 3 | 101 | 2020-12-01 13:28:.. 我需要用一个窗口切片来计算每个id的平均容量。每隔2分钟，我需要获取最近5分钟内每个id的平均容量。我的代码如下所示，但不起作用。我定义了窗口，但数据不正确。有人能帮我吗？ def main(): directory =

浏览 28提问于2020-12-01得票数 0

1回答

ShuffledRDD，MapPartitionsRDD和ParallelCollectionRDD有什么区别？

apache-spark、pyspark、rdd

我只是使用两种不同的方式来生成Spark。而Spark图的结果则有很大的不同。有人能教我不同之处吗?在我的工作中，第一个比操作相似的第二个更快。

浏览 3提问于2016-10-13得票数 7

回答已采纳

1回答

GroupBy在使用左联接时忽略orderBy

mysql、laravel

我有两张桌子。 rooms与id，title chats与id，content，room_id，created_at 我的目标是在rooms模式下获取orderBy和orderBy created_at of chats。这是一个简单的查询，但在Laravel却让人头疼。我不能使用雄辩的ORM方法，在with方法中进行排序。因此，我不得不使用join。我的查询如下： $items = $items->select("rooms.*")->join("chats", "chats.room_id", "=", "

浏览 3提问于2021-05-21得票数 0

2回答

使用C#中的LINQ对XML文档中的元素进行分组和排序

c#、xml、linq、xslt

假设我有以下XML文件，本质上是从各种来源合并的培训课程的随机列表： <?xml version="1.0" encoding="utf-8"?> <Courses> <Course> <Name>Big Data Advanced - Spark</Name> <Track>Big Data</Track> <Code>BD-102</Code> </Course> <Course> &

浏览 0提问于2016-02-18得票数 3

回答已采纳

1回答

如何用火花火花窗口函数或sql计算未来累计折扣和

sql、apache-spark、pyspark

我是否可以使用spark计算一个折扣的未来累积和？下面是一个使用窗口函数计算未打折和未来和的示例，我用我所说的折扣和和进行了硬编码： from pyspark.sql.window import Window def undiscountedCummulativeFutureReward(df): windowSpec = Window \ .partitionBy('user') \ .orderBy('time') \ .rangeBetween(0, Window.unboundedFollowi

浏览 2提问于2018-09-27得票数 1

回答已采纳

1回答

如何计算未回答的线程mysql/雄辩

php、mysql、laravel、eloquent

嗨，我有一对多的threads和questions桌。每条消息都有外键thread_id。我想检查线程中的最后一条消息是来自用户的，如果是，然后计数它，所以它将计数所有未回答的线程通过admin。 +----+-------------+---------+----------+------+ | id | thread_id | user_id | admin_id | text | | 1 | 1 | 1 | NULL | test | | 2 | 1 | 1 | NULL | test | | 3

浏览 0提问于2021-04-13得票数 1

1回答

Spark sql groupby和concat

apache-spark、apache-spark-sql

我有下面的表格 REF SEQ DATA --------------------- 1 5 a 1 1 b 1 9 c 2 12 d 2 3 e 2 8 f 我想要得到以下结果。 REF DATA --------------------- 1 bac 2 efd 我该怎么做spark sql呢？

浏览 35提问于2021-06-09得票数 0

回答已采纳

1回答

spark数据帧收集特定结果

scala、apache-spark

我有两个案例类，如下案例类EmployeeDetails(id:Long，empName:String，dept:String)案例类SalDetails(salary:Long，dept:String) 并从中创建了两个数据帧，并计算了每个部门的平均工资 val spark = SparkSession .builder .appName("Emp") .master("local[*]") .getOrCreate() import spark.implicits._ val empDetails=Seq( EmployeeDetai

浏览 18提问于2021-05-28得票数 1

1回答

如何获得集群的最小和最大值

scala、apache-spark、k-means

我创建了一个scala程序，将k--方法应用于dataframe的特定列。Dataframe名称为df_items，列名为price。 import org.apache.spark._ import org.apache.spark.sql.types._ import org.apache.spark.ml.clustering._ import org.apache.spark.ml.feature.VectorAssembler val df_items = spark.read.format("csv").option("header","

浏览 1提问于2019-01-31得票数 0

回答已采纳

2回答

Distinct和order list LINQ

c#、linq、entity-framework

使用实体框架，我有以下返回列表的代码： private List<string> MyList() { using (MyEntities ctx = new MyEntities()) { var myList= from a in ctx.Foo orderby a.Bar select a.Bar; return myList.ToList(); } } 这很好

浏览 3提问于2014-03-07得票数 3

回答已采纳

2回答

多个数组的交集

python、pandas、apache-spark、pyspark

我有以下测试数据，并且必须在pyspark的帮助下检查以下语句(数据实际上非常大: 700000个事务，每个事务与10+产品的事务)： import pandas as pd import datetime data = {'date': ['2014-01-01', '2014-01-02', '2014-01-03', '2014-01-04', '2014-01-05', '2014-01-06'], 'customerid': [1, 2, 2,

浏览 5提问于2020-04-11得票数 0

回答已采纳

3回答

火花与SparkSQL:如何模拟窗口功能？

scala、apache-spark、apache-spark-sql、window-functions

描述给出一个数据df id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04 我想要创建一个运行计数器或索引，按相同的id和按组中的日期分类，因此 id | date | counter -------------------------- 1 | 2015-09-01 | 1 1 | 2015-09-03 | 2 1 | 2015-09-04 |

浏览 4提问于2015-09-04得票数 10

回答已采纳

2回答

使用重新分区和合并将数据帧输出到CSV文件

dataframe、csv、hadoop、pyspark、export-to-csv

目前，我在一个单节点Hadoop上工作，我编写了一个作业，将只有一个分区的排序数据帧输出到一个csv文件。我发现，当使用不同的重新分区时，会产生几种结果。首先，我使用orderBy对数据进行排序，然后使用repartition输出CSV文件，但输出是分块排序的，而不是以整体的方式排序。然后，我尝试丢弃repartition函数，但输出只是记录的一部分。我意识到在不使用repartition的情况下，spark将输出200个CSV文件而不是1个，即使我正在处理一个分区的数据帧。因此，我接下来要做的是将repartition(1)、repartition(1, "column of

浏览 3提问于2021-09-28得票数 1

1回答

spark 2.0.0选择不同的不稳定结果

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我运行pyspark2在spark 2.0.0上考虑到加载到Dataframe中的稳定和常量数据集，我确实按特定列删除了重复数据： vw_ticket = read_csv(...) vw_ticket_in_booking = vw_ticket.dropDuplicates(['BOOKING_TICKET_ID']) vw_ticket_in_booking.createOrReplaceTempView('vw_ticket_in_booking') 然后 spark.sql('select count(distinct(booking_id)

浏览 2提问于2017-08-31得票数 0

回答已采纳