Spark Group By and with Rank函数运行非常慢

文章/答案/技术大牛

发布

1回答

、、、

但此作业会持续运行，并且需要数小时才能在ES中记录实例的389451记录。我想减少这次的时间。 .format("org.elasticsearch.spark.sql")var finalDF = df.groupBy("col1","col2","col

浏览 2提问于2018-01-05得票数 1

2回答

Spark查询运行非常慢

、、

我运行的是spark版本1.4。我正在对来自red shift的4m数据的spark进行性能基准测试。我通过pyspark shell触发了一个查询。avg(total) as total,

浏览 0提问于2015-07-29得票数 11

回答已采纳

2回答

Spark Dataframe -如何根据ID和日期只保留每个组的最新记录？

、、、

我有一个数据框架：1,2016-10-12 18:24:252,2016-10-12 21:24:252,2016-10-12 22:24:25如何只保留每个组的最新记录？(上面有3组(1,2,3))。1,2016-11-18 14:47:053,2016-10-12 17:24:25 还试图使其高效(例如，在具有1亿条记录的中等集群上在短短几分钟内完成)，因此排序/排序应该以最有效和正

浏览 3提问于2020-01-24得票数 4

1回答

PySpark速度

、、、

) to 1 norm = sum([rank for u, rank in ranks]) r = spark.sparkContext.range(n).map\ .config('spark.sql

浏览 2提问于2017-01-16得票数 3

1回答

Oracle慢秩函数

、、、、

我的应用程序使用必须保持泛型(没有过滤器)的视图，这些视图包括解析函数RANK和DENSE_RANK。例如，我有一个视图MYVIEWRANK() OVER (PARTITION BY FIELD1 ORDER BY FIELD2) RANK, FIELD3然后，我的应用程序在运行时应用必要的过滤器。SELECT * FROM MYVIEW WHERE FIELD3 IN ('a','b'

浏览 1提问于2016-06-16得票数 3

1回答

spark中Group_Concat函数的替换

我在spark中使用group_concat函数时遇到了一个问题。collect_list了，但似乎不起作用： s"""SELECT secrecy_party_id ,coalesce(group_concat(secrecy_reason_cd), 'DEFAULT') secrecy_item , ${intMaxBatchId} + dense_rank() over

浏览 0提问于2019-05-02得票数 0

3回答

所以我在对一个拥有100多万行数据的大型数据库表进行测试，试图想出某种“用户排名”，但与我使用这些数据的任何其他方式相比，它似乎非常缓慢，所以我想知道我是否在以错误的方式使用它。php$rank = 0; $query = $conn->prepare("SELECT id, points FROM users GROUP BY points$_SESSION['myuser'] . ' is rank ' . number_for

浏览 3提问于2016-06-29得票数 4

回答已采纳

2回答

Scala Spark使用窗口函数查找最大值

、、

-----+| 1| C| 1|+-----+-----+-----+ 我的指令告诉我需要使用窗口函数和"group by“来找到我的最大计数。

浏览 54提问于2020-10-15得票数 2

回答已采纳

1回答

MySQL:左加入一个带有@rownum的php函数？

、、、

我对以下功能有问题：{ $sql2 = "SELECT rankSum(g_npc.level)*128)) AS xp_total FROM g_org return 1; return $data[0]['

浏览 0提问于2012-11-18得票数 4

回答已采纳

2回答

Spark-sql CLI在运行查询时仅使用一个执行器

、

我将使用spark-sql cli替换hive cli shell，并使用以下命令运行spark-sql cli (我们在yarn Hadoop集群上使用的是已经复制到/conf的hive-site.xml)然后我执行类似这样的查询，命令执行成功，结果正确

浏览 5提问于2015-01-22得票数 2

1回答

当合并= 1时，加快星火书写速度？

、

我的代码非常简单，但运行非常慢。spark://foobar \ --conf spark.dynamicAllocation.enabled=true \ --conf spark.dynamicAllocation.minExecutors=1 \ --\

浏览 0提问于2018-04-10得票数 2

3回答

火花放电中未定义函数UDF？

、、

incrementAC(): return str(ac.value) df.withColumn("lang_and_rank", expr("concat(language,'blah'

浏览 2提问于2017-12-22得票数 2

回答已采纳

1回答

使用Group* by的MAX()函数速度非常慢*

、、

我的查询非常慢；它需要17秒才能执行。它达到了100%的CPU在谷歌爸爸的VPS。有什么想法可以做吗？`dt`) dtmax GROUP BY 1id='1', select type='SIMPLE', table

浏览 3提问于2013-02-17得票数 2

回答已采纳

1回答

循环函数运行非常慢

、、、、

有人能帮助使这个循环函数运行得更快吗？目前的计算时间太长了。1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0) 有人能帮我重写Test$Accels列代码使它运行得更快吗

浏览 2提问于2018-06-01得票数 0

回答已采纳

2回答

为什么Spark的show()函数非常慢？

、

我有过然而，如果我这样做了，那就永远不会结束它只需不到一秒就能打印出来。为什么会这样呢？

浏览 1提问于2017-07-26得票数 4

2回答

如何使用spark计算更频繁的值

+---+---++---+---++---+---+| B| 4|这是我当前的代码(Spark

浏览 1提问于2017-01-29得票数 0

1回答

火花放电:爆炸阵列慢

、、、

我的数据 (0, ["B","C","D","E"] , [1,2,3,4[1,2,3 ]), (4,["A","C","E","B","D"] , [1,2,3,4,5])] , ["id"

浏览 2提问于2021-09-13得票数 2

回答已采纳

1回答

基于spark数据框单元格值的查询

、、、

我希望通过使用python的Spark框架在表上运行许多查询，方法是并行运行它们，而不是按顺序运行。当我使用for循环运行查询时，它的执行速度非常慢，因为(我相信)它不能并行地中断作业。例如： for fieldName in fieldList: count({0}) as FREQ from

浏览 9提问于2019-08-31得票数 0

3回答

Zipf定律在Java中的文本生成-太慢

、、

但是下面的next()函数执行得非常慢，由于我想生成数百万篇文章，所以必须对其进行更改。( while循环是慢部分) public int next() { double frequency = 0; frequency = (1.0d / Math.pow(rank, this.sk

浏览 4提问于2014-11-24得票数 4

回答已采纳

4回答

如何在Spark/Scala中使用窗口函数来使用countDistinct？

、、

我需要使用窗口函数，该函数由2列进行解析，并在第3列和第4列上进行不同的计数。我可以算出任何问题，但使用不同的计数会抛出异常- rg.apache.spark.sql.AnalysisException: Distinct window functions are not supported

浏览 2提问于2020-03-11得票数 4

回答已采纳

点击加载更多