Apache Spark使用SQL函数nTile对数据进行分区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我正在尝试多种方法来使用分区来优化大型数据集的执行。具体地说，我使用的是一个通常用于传统SQL数据库的函数，称为nTile。目标是使用buckettind和重新分区的组合将一定数量的行放入一个存储桶中。这使得Apache Spark在处理分区数据集或存储桶数据集时能够更高效地处理数据。下面是两个例子。第一个示

浏览 33提问于2020-11-14得票数 0

回答已采纳

1回答

如何在PySpark中使用窗口函数？

、、、、

我正在尝试为数据框使用一些窗口函数(ntile和percentRank)，但我不知道如何使用它们。具体地说，我正在尝试获取数据框中数值字段的分位数。我使用的是spark 1.4.0。

浏览 1提问于2015-08-06得票数 24

回答已采纳

2回答

Spark DataFrame分区

、、

目前，我有一个数据帧。我想把它们分成几个独立的数据帧，然后依次处理它们。spark datafame，比如：然后我想把它分成四个数据帧换句话说，如果我不划分原始数据

浏览 3提问于2020-09-08得票数 0

1回答

Spark Data Source是否支持对写入的输入V2进行重新分区？

我有一个自定义的Spark数据源，它是使用data source实现的，我正在尝试将其转换为V2 V1。/latest/api/java/org/apache/spark/sql/sources/CreatableRelationProvider.html 通过允许访问输入DataFrame，它允许在写入数据源之前对输入RDD进行重新分区

浏览 41提问于2021-05-08得票数 0

3回答

如何计算DataFrame中的移动中值？

、、、、

我本来希望可以使用一个窗口函数(通过使用rowsBetween(0,10)定义一个窗口)来计算移动中值，但是没有计算它的功能(类似于average或mean)。

浏览 10提问于2017-05-19得票数 3

1回答

无法使用scala从dataset中的行获取第一列的值

、、、、

我试图使用Foreach分区来迭代一个数据文件，以便将一个值插入到数据库中。我使用了前端分区，对行进行分组，并使用foreach迭代每一行。我是在火花筒里做的org.apache.spark.sql.DataSet$RDDQueryExecuti

浏览 0提问于2021-12-02得票数 0

1回答

星火Sql排序操作不能正常工作。

、

我试图使用排序函数对数据进行排序，但排序不正确，似乎是按块排序。可能是对各个分区进行排序，而不是对sort.However where子句进行梳理。我也使用过排序函数和普通sql查询，它们似乎都不起作用。System.setProperty("hadoop.home.dir", "C:\\winutils"); val tempDir

浏览 0提问于2019-06-16得票数 1

回答已采纳

1回答

由于配置单元元存储中的许多分区而导致的错误

、、、

我使用Apache spark-sql从数据库中查询数据。我知道Spark在默认情况下共享同一转移的hive。我已经根据列id对输入数据进行了分区，这些列有超过300k个不同的值。到目前为止，该表有超过300k的分区，而且还会定期增加。有没有因此而产生的问题？

浏览 0提问于2015-11-23得票数 0

2回答

不支持在合并之前进行重新分区。

、、

我想在执行计算时启动许多任务，但在写入表时合并到一组较小的分区中。下面给出了一个简单的演示示例，其中在执行过程中不支持重新分区。我的预期输出是，map操作在100个分区中发生，而最终collect只在10个分区中发生。 Spark似乎通过忽略重新分区来优化了执行。如果有人能解释一下如何实现我的预期行为，那将是很有帮助的。

浏览 12提问于2019-06-15得票数 0

回答已采纳

1回答

= newDs.groupBy("column1").max("column2Int"); // drops all other columns 当我执行"group by“时，这种方法会删除原始数据集因此，我必须在'ds‘和'newDS’之间进行连接，以获取所有原始列。另外，将字符串列转换为Integer看起来像是一种无效的解决方法。是否可以删除重复项，并从原始数据集本身获取具有更大字符串值的行？

浏览 0提问于2020-11-18得票数 0

2回答

如何使用DataFrame窗口表达式和withColumn而不改变分区？

、、

由于某些原因，我必须将RDD转换为DataFrame，然后再对DataFrame执行一些操作。我的接口是RDD，所以我必须将DataFrame转换为RDD，当我使用df.withcolumn时，分区更改为1，所以我必须使用repartition和sortBy RDD。

浏览 100提问于2017-06-06得票数 1

回答已采纳

1回答

按值排序火花pairRDD中的值来自(键，值)，其中值来自Spark

、

我画了一张这样的地图-这里b是这种类型的是否需要考虑对R

浏览 1提问于2015-05-26得票数 1

4回答

如何创建自定义流数据源？

、

我有一个自定义的火花流读取器，它从WebSocket读取数据。我要试一试星火结构的流媒体。如何在Spark结构化流中创建流数据源？

浏览 13提问于2017-12-02得票数 14

回答已采纳

2回答

星火知道DataFrame的分区键吗？

、、

我想知道星火是否知道分割键的地板文件，并使用这些信息，以避免洗牌。运行Spark2.0.1运行本地SparkSession。之后，在另一个脚本中，我读取了这个SomeFile.parquet拼板文件，并对其进行了一些操作。import org.apache.spark.sql.expressions.Window val d

浏览 0提问于2018-01-26得票数 21

回答已采纳

1回答

如何与CSV文件中的数据集一起使用决策树？

、、、、

我想像下面的代码一样使用Spark的org.apache.spark.mllib.tree.DecisionTree，但是编译失败。import org.apache.spark.ml.Pipelinei

浏览 4提问于2017-05-22得票数 0

1回答

浏览我需要将它们组合到一个文件中的小拼图文件

我有Spark SQL查询，通过几个小的拼图文件(大约2M)。我有Spark块大小为256M，所以我想将这些小文件组合成一个(或更多)大小为256M的文件。我正在考虑的是找到数据帧大小并将其除以256M，这样我就知道有多少文件将是他们的，但不幸的是Spark不支持查找数据帧大小，因为它是分布式的。我正在考虑将数据帧转换为数据集，以便列表可以检查它们的大小。

浏览 15提问于2019-06-19得票数 0

回答已采纳

1回答

拼图文件:达到最小容量的最佳文件数量是多少

、

我用spark写了一个数据帧到一个拼图文件中，这个文件在HDFS上有100个子目录(每个子目录包含一个文件)。此文件大小为100 has。当我将数据帧重新分区到10个分区并将其写入HDFS时，输出拼接文件的大小增加到大约200 of。为什么会发生这种情况？写入拼图文件时，最佳分区数是多少？但我的主要问题是:当写入到拼图文件时，分区的最佳数量是多少？

浏览 16提问于2019-06-17得票数 0

1回答

云数据业务中的星火连接策略

、

在云Datafusion中，我使用一个合并转换来连接两个表。其中一张是一张大桌子，约合87M，而另一张是一张较小的桌子，只有250张记录。我在接合器中使用200个分区。:org.apache.spark.SparkException:java.util.concurrent.ExecutionException:org.apache.spark.SparkException:org.apache.spark.SparkExcepti

浏览 4提问于2020-01-10得票数 1

1回答

Spark Dataframe -每天随机采样记录

我在蜂巢中有一些数据，其中我每天都有大约500k唯一的customerIds。数据跨度为2个月，并在date上分区。. ||2019-02-28| 500,000|我想实现一个函数，它接受例如，如果我将N设为250k，那么我希望250k每天为所有60天的数据随机采样唯一的customerIds，这样我就可以在输出表中保持每天观众人数的一致性。..... | |2019-02

浏览 1提问于2019-07-02得票数 3

1回答

Spark Partition数据集(按列值)

、、、

这是一个好的设计，还是Spark提供了一些开箱即用的东西，让我们的任务变得更容易？我们应该使用哪个Spark类/方法来对数据进行分区？我们看到的是RangePartitioner，但构造函数询问的是分区的数量。我们希望指定“使用column_K进行分区，并为每个不同的值k in range(K)创建一个分区”，因为我们已经创建了column_K = uniqueID %

浏览 19提问于2019-05-03得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云