在spark scala中，为数据帧中的每个组采样不同数量的随机行

在Spark Scala中，为数据帧中的每个组采样不同数量的随机行，可以使用sampleBy函数来实现。sampleBy函数可以根据给定的列和每个组的采样比例来对数据进行采样。

下面是一个完整的示例代码：

import org.apache.spark.sql.{SparkSession, functions}

// 创建SparkSession
val spark = SparkSession.builder()
  .appName("SampleByExample")
  .getOrCreate()

// 导入隐式转换
import spark.implicits._

// 创建示例数据帧
val data = Seq(
  ("group1", "row1"),
  ("group1", "row2"),
  ("group1", "row3"),
  ("group2", "row4"),
  ("group2", "row5"),
  ("group2", "row6"),
  ("group2", "row7")
).toDF("group", "row")

// 定义每个组的采样比例
val sampleRatio = Map(
  "group1" -> 0.5,
  "group2" -> 0.3
)

// 使用sampleBy函数进行采样
val sampledData = data.sampleBy("group", sampleRatio, seed = 42)

// 显示采样结果
sampledData.show()

上述代码中，首先创建了一个SparkSession对象。然后，导入隐式转换，以便可以使用DataFrame的操作。接下来，创建了一个示例数据帧，其中包含了两个组（group1和group2）的数据。然后，定义了每个组的采样比例，即group1采样50%，group2采样30%。最后，使用sampleBy函数对数据进行采样，并将结果保存在sampledData变量中。最后，使用show函数显示采样结果。

在这个例子中，我们没有提到任何腾讯云相关产品，因此无法提供相关链接。但是，腾讯云提供了一系列云计算产品，可以根据具体需求选择适合的产品进行使用。

在spark scala中，为数据帧中的每个组采样不同数量的随机行

、、、

目标是为每个组在数据帧中采样(不替换)不同数量的行。特定组要采样的行数在另一个数据帧中。示例: idDF是要从中采样的数据帧。组由ID列表示。数据帧

浏览 25提问于2018-03-02得票数 3

回答已采纳

1回答

重复行的随机抽样

、、

我有一个包含2列的数据帧:列1是ID，列2是与每个ID关联的值(总共59行)。2列的唯一方法是对行进行采样。我需要随机采样50 x 1行、50 x 2行、50 x 3行、50 x 4行等等，直到59行。理想情况下，每个样本集输出为一个数据帧。因此，我最终得到

浏览 1提问于2018-06-04得票数 0

1回答

使用R在文件夹中逐行随机抽样多个数据帧

、、

它们都具有相同的标题和相同数量(131)的列(或特征)，但每一个都具有不同的行(2000到10,000行)。由于计算限制:我希望对文件夹中的每个文件/数据帧进行子集设置，例如从每个数据帧中随机抽样300行，并将这种随机行抽样应用于

浏览 30提问于2020-01-28得票数 0

回答已采纳

1回答

对矩阵中的行进行采样会产生空数据

、

我有一个名为"fida“的矩阵，我从其中随机抽取了一定数量的行。在这些行上，我正在运行一组命令，在这些命令的末尾，我有一个条件，如果为真，我想从相同的矩阵中随机采样另一行，而不是前面采样的任何行。但在此之前，当我使用相同的命令从矩阵中采样<

浏览 29提问于2019-05-25得票数 0

回答已采纳

7回答

如何从Scala列表或数组中随机采样？

、、、、

我想从Scala列表或数组(不是RDD)中随机采样，样本大小可以比列表或数组的长度长得多，我如何有效地执行此？因为样本大小可能非常大，并且采样(在不同的列表/数组上)需要进行大量的次数。我知道对于Spark RDD我们可以使用takeSample()来做，有没有Scala list/array的等价物？非常感谢。

浏览 445提问于2015-10-04得票数 16

1回答

如何在R中选择不同样本量的样本？

、

我正在尝试从不同大小的数据帧中随机获取样本。示例第一个样本应该只有8个观测值第二个样本可以有10个观测值第三个可以有12个观测值这给了我一个固定的10个观察值，当我采样时在理想的情况下，我有100个观察点，这些观察点应该放在3个组中，而不是替换，每个组可以有任意数量的观察点。

浏览 9提问于2019-07-27得票数 0

回答已采纳

1回答

Spark Dataframe Group By Operation并从每个组中选取N个值

、、、

我有一个如下结构的spark数据帧：和一个变量：val n = 100 我想对数据框中的然后，我想为每个组中的n请求(没有排序)获取RequestURL和RequestBody列(为此创建一个新的data-frame/rdd/map )。如果

浏览 3提问于2019-07-05得票数 0

6回答

使用特定于组的样本大小从数据帧中获取示例。

、、

我希望使用来自每个组的不等样本大小从数据帧中采样行。函数，您可以很容易地将大小相等的组从这个数据文件中分割出来：#> <fct> <dbl> #> 1 A -0.6

浏览 0提问于2021-03-04得票数 7

回答已采纳

1回答

R-Studio过滤数据

、、

我有这个数据表作为模型：1 BED Y Y 2 TABLE N我必须提取总人口的50%的样本，并且样本必须包含至少一次变量(product_type ==，手机，汽车，桌子，鼠标，offer = Y，N等)的值的出现。

浏览 0提问于2021-06-01得票数 0

1回答

如何高效地将ListBuffer[ListBuffer[String]]转换为多个数据帧并使用Spark* Scala编写它们*

、、、、

我正在尝试使用Scala和Spark.I解析一组XML文件。我从这些文件中获取了'n‘个数据帧的数据。(即，数据帧的数量不变，只有文件的数量不同) 我正在解析一组XML文件，并将数据存储在ListBuffer[ListBuffer[String]]中</em

浏览 0提问于2019-10-31得票数 1

1回答

根据因素对数据帧行进行洗牌

、

我有一个数据框架，例如： A 0 55 C 1 12 E 2 68 G 2 187 G 2 68 我用dp

浏览 0提问于2019-01-18得票数 5

回答已采纳

1回答

从熊猫数据帧中提取子集以确保没有重叠？

、、、、

假设我有2个Pandas数据帧，df维度为297232 x 122维度，df_raw维度为840380x122维度。df已经是df_raw的一个子集。两个数据帧的索引都是DateTime。我想从df中取值的70%，从df_raw中取值的30% (如果需要，可以随机采样)，同时确保采样的数据<e

浏览 20提问于2019-11-22得票数 2

回答已采纳

3回答

按组选择随机连续行作为组长度的比例

、、

假设我有一个具有不同群长的不同组的时间序列。我如何按组随机选择连续行，并将其作为每个组长度的函数(例如，每组的10 %)该子集的</

浏览 0提问于2021-07-21得票数 1

回答已采纳

1回答

Scala中的Spark分组贴图UDF

、、

我正在尝试编写一些代码，使我能够在数据帧的一组行上计算一些操作。在PySpark中，这可以通过定义类型为GROUPED_MAP的Pandas UDF来实现。然而，在Scala中，我只找到了一种创建自定义聚合器(UDAF)或传统UDF的方法。我的临时解决方案是生成一个关键字列表，该列表将对我的组进行编码，这将允

浏览 2提问于2020-04-08得票数 2

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.s

浏览 11提问于2021-11-19得票数 0

1回答

桶和分区之间的关系是什么？

、

在洗牌操作之前，RDD的分区与RDD的内容映射到的桶之间是否有关系？第二，是将所有具有相同密钥的键值对拖到同一个桶中，还是将密钥值对的分布随机分配到桶中？

浏览 2提问于2015-08-12得票数 4

回答已采纳

2回答

迭代混合类型scala列表

、、、、

,10,0,1], [colB,int,10,0,9])res170: scala.collection.mutable.ListBuffer0.0655781, 0.8273762, 0.49718297, 0.5322746, 0.8416396), List(1, 9, 3, 4, 2, 3, 8, 7, 4, 6)) 现在，我有一个具有不同类型列表的混合类型的是如何迭代和

浏览 4提问于2017-05-18得票数 0

2回答

scala aggregate first函数产生意外结果

、、

我在scala spark中使用了一个简单的groupby查询，其目标是获取排序数据帧中组中的第一个值。这是我的spark数据帧|ID |some_flag"Timestamp".

浏览 3提问于2019-02-07得票数 1

1回答

如何解决pyspark Databricks中的GC开销

、、、、

我正尝试在spark dataframe中加载一个100 gb的json文件，并在其上创建一个临时视图。然后我用query查询这个视图中的数据。以下是我的集群详细信息：Databricks runtime Version : 6.1(Apache Spark 2.4.4) Worker Typespark.conf.set("spark.executor.memory&quo

浏览 0提问于2020-03-31得票数 1

1回答

基于列值从数据帧中迭代随机删除整行的R代码，每次保存为新的数据帧

、、、

因此，我有一个从不同群体中采样的个体的数据帧(df)，每个个体都有一个群体名称和分配给该群体的相应数字，如下所示：ALM16-014022 AMKRanch 2ALM16-076 BearPawLake 3在此文件中，共有12个命名种

浏览 0提问于2020-06-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在spark scala中，为数据帧中的每个组采样不同数量的随机行

相关·内容

在spark scala中，为数据帧中的每个组采样不同数量的随机行

重复行的随机抽样

使用R在文件夹中逐行随机抽样多个数据帧

对矩阵中的行进行采样会产生空数据

如何从Scala列表或数组中随机采样？

如何在R中选择不同样本量的样本？

Spark Dataframe Group By Operation并从每个组中选取N个值

使用特定于组的样本大小从数据帧中获取示例。

R-Studio过滤数据

如何高效地将ListBuffer[ListBuffer[String]]转换为多个数据帧并使用Spark* Scala编写它们*

根据因素对数据帧行进行洗牌

从熊猫数据帧中提取子集以确保没有重叠？

按组选择随机连续行作为组长度的比例

Scala中的Spark分组贴图UDF

优化PySpark与pandas DataFrames之间的转换

桶和分区之间的关系是什么？

迭代混合类型scala列表

scala aggregate first函数产生意外结果

如何解决pyspark Databricks中的GC开销

基于列值从数据帧中迭代随机删除整行的R代码，每次保存为新的数据帧

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐