在Spark SQL中使用groupby的最佳实践是什么？_在c#代码中编写SQL查询的最佳实践是什么？_在SQL Server中使用模式的最佳实践 - 腾讯云开发者社区

apache-spark、apache-spark-sql

我有一个按多列分组的Spark SQL。我想知道列的顺序是否对查询性能有影响。在较早的时间放置具有更多不同值的列是否有帮助？我假设groupby基于某种散列/混洗算法。如果第一个groupby可以将数据分发到可以保存在一台机器上的较小子集，则后面的groupby可以在本地完成。这是真的吗？ groupby的最佳<em

浏览 8提问于2019-03-10得票数 0

1回答

pyspark数据管道使用中间结果

pyspark

在pyspark中，我会对dataframe进行连续操作，并希望从中间结果中获得输出。它总是需要同样的时间，但我想知道它是否缓存过任何东西？换一种方式问，使用中间结果的最佳实践是什么？在 dd.compute(df.amount.max(), df.amount.min())中，它会找出需要缓存和计算的内容。在pyspark中有没有类似的东西？在下面的例子

浏览 1提问于2019-08-12得票数 1

回答已采纳

1回答

Spark SQL中Group By子句的底层实现

apache-spark、apache-spark-sql

Spark SQL中Group By子句的底层实现是什么？我知道Spark支持下面两种类型的Group by操作，即GroupByKey和ReduceByKey。ReduceByKey是一种map side reduce，它提供了比GroupByKey更好的性能。在我们的应用程序代码中，我们在Spark Dataframe上使用Spark

浏览 0提问于2019-08-30得票数 1

1回答

Azure SQL数据仓库中防止重复数据的策略

azure、duplicates、etl、business-intelligence、sql-data-warehouse

目前，我正在建立一个Azure SQL数据仓库。我使用Databricks作为ETL进程的JSON-来自Azure Blob存储的文件。确保不将重复的维度或事实导入Azure SQL数据仓库的最佳实践是什么？这种情况可能发生在实际情况下，例如在加载过程中出现en异常的情况。对于维度，如果我不检查哪些数据已经存在的话，这也可能发生。我使用以下代码将数据导入数据仓库，发现没有“模式”

浏览 1提问于2018-12-12得票数 1

回答已采纳

1回答

电火花数据引用与值

pyspark

我学的是火种。例如，我正在尝试从sql构建DataFrame DF=spark.sql("with a as (select ....) select ...")我的sql有点复杂，所以要执行20分钟。我觉得DF是对我的SQL的引用，它意味着当我执行DF.head(10)需要20分钟，下一步DF.count()也需要20分钟等等。我唯一能想到的方法是使用"create“

浏览 3提问于2022-04-04得票数 0

1回答

使用Spark写入memsql的最佳实践

apache-spark、scalability、singlestore

我的用例如下:我们正在使用Spark从HDFS读取和转换数据。转换后的数据应保存在memsql中。有没有使用Spark写入memsql的最佳实践？也就是说，在使用数据帧进行大规模(并行)写入时，确保写入性能和可伸缩性的最佳方法是什么？首选的解决方案是:使用memsql/Sp

浏览 4提问于2016-01-15得票数 1

1回答

Spark RDD - Scala写和Python读

python、json、scala、apache-spark、rdd

我有一个简单的Spark Scala脚本，它读取一堆日志文件并返回一个RDD[Map[String, String]]spark.read.json("/path/to/export.json").take(5) org.apache.spark.sql.AnalysisException:(LogicalPlan.

浏览 0提问于2017-03-29得票数 0

1回答

Spark (JAVA) -具有多个聚合的dataframe groupBy？

java、apache-spark

我正在尝试用JAVA在Spark上写一个groupBy。在SQL中，这将如下所示FROM table但是什么是Spark/JAVA假设变量SQL是一个数据帧，以查看与table查询的关系。").max()).as("maxdate")).gro

浏览 15提问于2016-07-15得票数 8

回答已采纳

1回答

如果spark* structured streaming中的完整输出模式发生OOM，该怎么办？*

apache-spark

我是个新手，正在学习spark structured，import java.util.Date import org.apache.spark.sql.types.StructType object Strea

浏览 0提问于2018-07-27得票数 1

1回答

使用scala和spark-sql计算表统计信息

scala、apache-spark-sql

我在公司糟糕的数据环境中使用Spark 2.4.0和scala 2.11.12。在我的项目中，我创建了许多包含大量数据的表。现在，我想计算我创建的表的统计数据。在exmample // 1的情况下，我没有收到任何错误消息，但我在表统计信息中也看不到任何结果("show table stats mytablename")。似乎

浏览 59提问于2020-07-06得票数 0

1回答

在Spark-Streaming和Cassandra中使用期货(Scala)

scala、apache-spark、cassandra、spark-streaming

我对spark比较陌生，我想知道在Cassandra中使用spark-streaming时的最佳实践是什么。通常，在执行IO时，最好在Future中执行它(在Scala中)。然而，许多spark-cassandra-connector似乎是同步运行的。例如：saveToCassandra (com.datastax.spark

浏览 4提问于2016-07-03得票数 2

1回答

Apache Livy应该安装在集群中的什么位置

apache-spark、livy

我们希望使用apache Livy，这样我们就可以从restapi调用spark作业。那么，我们是否需要在名称节点或边缘节点上安装Livy服务器。最佳实践是什么？我们的spark fat jar将驻留在NFS路径中。

浏览 19提问于2020-02-08得票数 0

11回答

在Spark* dataframe列中获取最大值的最佳方法*

python、apache-spark、pyspark、apache-spark-sql

我正在尝试找出在Spark dataframe列中获得最大值的最佳方法。--++---+---+|2.0|5.0|+---+---+df.registerTempTable("df_

浏览 1311提问于2015-10-20得票数 103

回答已采纳

3回答

如何在不执行的情况下验证Spark* SQL表达式？*

apache-spark、apache-spark-sql

我想验证一下spark-sql查询在语法上是否正确，而不是在集群上实际运行该查询。实际的用例是，我正在尝试开发一个用户界面，它接受用户输入spark-sql查询，并且我应该能够验证所提供的查询在语法上是否正确。此外，如果在解析查询之后，我可以就spark最佳实践给出关于查询的任何建议。

浏览 2提问于2017-10-27得票数 9

2回答

用数据库从Azure数据湖读取avro数据--由Azure EventHubs捕获生成的EventHubs失败

azure、pyspark、azure-eventhub、azure-databricks、azure-eventhub-capture

我正在尝试从Azure数据湖Gen1中读取avro数据，该数据是从Azure EventHubs生成的，Azure事件集线器捕获是在Azure数据库中启用的：rawData = spark.read.format("avro").load(inputdata)rawData.count()org.apache.

浏览 3提问于2019-12-01得票数 1

回答已采纳

1回答

Pandas UDF功能中未识别的功能

python、pyspark、user-defined-functions

我正在使用Pandas上的火星之火。() main()from pyspark.sql.functions在此配置中，subtract_mean()似乎不访问函数multi_by_2()。我找到了两种方法，但不知道它是否符合最佳实践标准：方法1: (在计算中移动

浏览 1提问于2020-05-10得票数 3

3回答

访问Spark.SQL

scala、apache-spark、apache-spark-sql

我是Spark的新手。按照书中的以下示例，我发现下面的命令给出了错误。在Spark中编写代码时，运行Spark-SQL命令的最佳方式是什么？scala> // Use SQL to create another DataFrame containing the accountscala> val acSummary=

浏览 0提问于2017-03-01得票数 1

3回答

pyspark列不可迭代

apache-spark、pyspark

当我尝试groupBy并获取最大值时，有了这个数据帧I正在获取列是不可迭代的：+---+-----++---+-----+ 65 linesWithSparkDF.show(10)---> 67 linesWithSparkGDF = linesWithSparkDF.groupBy(col("id")).agg(max(col("cycle"))) 68

浏览 4提问于2016-04-29得票数 23

回答已采纳

1回答

如何与流窗口操作一起指定groupby中的多列？

scala、apache-spark、apache-spark-sql

我无法在groupBy函数中指定列列表以及窗口操作。)这一行中的多个标记:重载的方法值String*)org.apache.spark.sql.RelationalGroupedDataset：(col1: String，cols： (cols: org.apache.spark.sql.Column*)org.apache.spark.sql.RelationalGroupedDatas

浏览 4提问于2020-10-30得票数 0

回答已采纳

1回答

在PySpark上超过GC开销限制

apache-spark、pyspark、apache-spark-sql

目前，我正在使用PySpark处理巨大的日志，并且在集群中遇到了一些内存问题。获得/工作的问题/。原因：java.lang.OutOfMemoryError:超过GC开销限制 spark.driver.cores 3首先，我不会在我的火花工作中缓

浏览 1提问于2017-09-11得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云