如何使用scala计算从整数列表到Spark DataFrame列的ApproxQuanitiles

在使用Scala计算整数列表到Spark DataFrame列的ApproxQuantiles时，可以按照以下步骤进行：

导入Spark相关的库和类：

import org.apache.spark.sql.{SparkSession, DataFrame}
import org.apache.spark.sql.functions.approxQuantile

创建SparkSession对象：

val spark = SparkSession.builder()
  .appName("ApproxQuantilesExample")
  .getOrCreate()

创建一个整数列表：

val integerList = List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

将整数列表转换为Spark DataFrame：

import spark.implicits._
val integerDF = integerList.toDF("integers")

使用approxQuantile函数计算ApproxQuantiles，并将结果存储在一个数组中：

val quantiles = integerDF.stat.approxQuantile("integers", Array(0.25, 0.5, 0.75), 0.01)

参数说明：

第一个参数为要计算ApproxQuantiles的列名；
第二个参数为要计算的分位数，以数组形式提供；
第三个参数为相对误差。

打印计算得到的ApproxQuantiles结果：

println("ApproxQuantiles: " + quantiles.mkString(", "))

完成以上步骤，你就可以使用Scala计算整数列表到Spark DataFrame列的ApproxQuantiles了。这个函数在统计分析中特别有用，可以用来估算数据的分布情况。

附加说明：

Scala是一种面向对象的编程语言，与Java高度兼容，被广泛应用于大数据处理和分析领域。
Spark是一种快速通用的大数据处理引擎，提供了强大的数据处理能力和易于使用的API，广泛应用于大数据分析和机器学习任务。
ApproxQuantiles函数用于计算近似分位数，可以用于大规模数据集的快速分析和摘要。
腾讯云的相关产品和服务可以在腾讯云官方网站上查看，具体链接如下：腾讯云产品与服务

如何使用scala计算从整数列表到Spark DataFrame列的ApproxQuanitiles

、、、

我有一个spark DataFrame，它的列包含几个长度不同的整数数组。我将需要创建一个新列来查找每个分位数。这是输入DataFrame： +---------+------------------------++---------+-1, 1, 2, 2, 2, 3,3]|+---------+--

浏览 52提问于2021-10-15得票数 1

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因

浏览 21提问于2015-07-15得票数 22

回答已采纳

2回答

scala中几个列的平均计算

、

我正在寻找一种方法来计算一些统计数据，例如，使用Scala计算星火中几个选定列的平均值。考虑到data对象是我的DataFrame，很容易计算出一列的平均值。data.agg(avg("var1") as "mean var1").show 此外，我们还可以很容易地计算按其他列的值编制<e

浏览 3提问于2017-08-14得票数 2

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。我试图通过使用DF和when向dateDiff添加一个新列，后者使用dateDiff来获取日期之间的差异。这就是发生的事吗？如果是，如何将列值转换为字符串？下面是我从DF中使用的列的</

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

如何计算数据中每一行到常数参考数组的欧几里德距离

、、

我有一个dataframe，它是从有512列(所有浮点值)的拼花文件创建的。import org.apache.spark.ml.feature.VectorAssemble

浏览 1提问于2018-04-17得票数 2

回答已采纳

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如：bartenderemployee...我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[peoplewithjob = people.f

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

使用列比例列表进行Spark选择

、

我正在尝试找到一种使用List[ column，我正在分解一个列，而不是用我的分解列传回所有我感兴趣的列]来进行spark select的好方法。var columns = getColumns(x) // Returns a List[Column]试图找到一种好的方法，我知道，如果它是一个字符串，我可以这样做 val resu

浏览 0提问于2016-10-07得票数 9

回答已采纳

1回答

"Exchange散列分区“在spark中是如何工作的

、、、、

我有一个数据集，我想写，排序到拼板文件，以获得利益后，请求这些文件在星火，包括谓词下推。 clo

浏览 0提问于2019-01-16得票数 0

回答已采纳

1回答

使用Scala:通过对每个可能的对执行函数来计算表

、、、

我对Scala/Spark完全陌生，我正试图从头创建一个Spark应用程序来计算n整数集之间的确切n(您不需要知道回答这个问题的是什么)。我有一个Dataframe，其中每一行都是一组整数，例如：以及一个函数jacsim(s1, s2)，它返回两个集合之间的Jaccard相似性。我想要定义一

浏览 1提问于2020-11-04得票数 1

回答已采纳

4回答

如何在Spark中强制DataFrame求值

、

AFAIK调用像count这样的操作并不能确保所有的Columns都是实际计算的，show可能只计算所有Rows的一个子集(参见下面的示例) 我的解决方案是使用df.write.saveAsTable将DataFrame写到HDFS，但是这会“扰乱”我的系统，我不想再保存更多的表。那么触发DataFrame求值的最佳方式是什么呢编辑：请注意，在spark开发人

浏览 62提问于2017-03-10得票数 20

回答已采纳

1回答

在星火数据中遍历列并计算最小最大值。

、、、、

我想在我的星火程序中遍历dataframe列，并计算min和max值。我对Spark和scala很陌生，一旦我在dataframe中获取它，我就无法遍历这些列。我尝试过运行以下代码，但它需要将列号传递给它，问题是如何从dataframe中获取它并动态传递它，并将结果存储在一个集合中。val parquetRDD = spark.read.parquet("

浏览 3提问于2017-07-18得票数 0

回答已采纳

1回答

如何在Spark中将时间戳列转换为毫秒长列

、

在Spark中，将Timestamp列转换为毫秒时间戳Long列的最短和最有效的方法是什么？下面是一个从时间戳到毫秒的转换示例ts: org.apache.spark.sql.DataFrameseconds_ts", | "BIGI

浏览 1提问于2019-06-18得票数 2

3回答

并行化/避免spark中的foreach循环

、、、

我写了一个类，它得到一个DataFrame，在它上面做一些计算，并可以导出结果。数据帧由密钥列表生成。that is saved to HDFS我认为在Scala列表中的foreach是不平行的，那么我如何避免在这里使用foreach呢？DataFrames的计算可以并行进行，因为计算结果不是下一个DataFrame的输入-我如何<

浏览 1提问于2016-06-28得票数 12

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对我如何将$和ColumnNames.JobSeekerID结合在一起来完成这一任务？

浏览 2提问于2018-01-11得票数 2

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用spark在hive表中插入

浏览 3提问于2017-12-27得票数 0

回答已采纳

3回答

字符串列包含通过spark* scala进行精确匹配的单词*

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了l

浏览 1提问于2021-02-12得票数 0

1回答

如何计算dataframe列的平均值并找到前10%

、

我对Scala和Spark非常陌生，我正在用棒球统计做一些自制的练习。我正在使用case类，创建一个RDD并为数据分配一个模式，然后将其转换为一个DataFrame，这样我就可以使用SparkSQL来通过满足特定条件的统计数据来选择玩家组。一旦我有了我感兴趣的球员的子集，我想找到一个列的平均值；例如打击平均数或打点。从那以后，我想根据所有球员的平均表现，把他们分成百分位组；前10%

浏览 0提问于2015-07-22得票数 14

回答已采纳

1回答

如何估计星火DataFrame中每列的大小(以字节为单位)？

、

我有一个非常大的星火DataFrame和许多列，我想作出一个明智的判断是否保持在我的管道中，部分取决于它们有多大。所谓“有多大”，我指的是缓存这个DataFrame时内存中字节的大小，我希望这是对处理这些数据的计算成本的一个不错的估计。有些列是简单类型(例如，双列、整数列)，而另一些列是复杂类型(例如数组和可变长度映射)。我尝试过的</e

浏览 0提问于2019-02-25得票数 2

回答已采纳

1回答

使用Scala比较Spark中的列对象值

、、

我正在用Scala编写方法，这些方法接受列参数并返回一个列。在它们中，我希望使用类似于下面的逻辑来比较列的值(从整数到日期)，但遇到了一条错误消息。 lit()仅用于示例目的。实际上，我将列从一个DataFrame.select()传递到一个方法中进行计算。我需要使用这些列进行比较。if (test1 > test2) { 在Spa

浏览 18提问于2021-02-02得票数 0

回答已采纳

1回答

[ spark* -cassandra-connector]如何在spark 2.3.1中将scala隐式支持的代码转换为java*

、、、

我正在尝试将spark-cassandra使用的项目从scala_2.11重构为java_1.8。我使用的是spark-sql_2.11-2..3.1和spark-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8中。我有一些隐含和DataFrame被使用。现在如何将它们转换成等价的java代

浏览 7提问于2019-04-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用scala计算从整数列表到Spark DataFrame列的ApproxQuanitiles

相关·内容

如何使用scala计算从整数列表到Spark DataFrame列的ApproxQuanitiles

如何在spark的数据中“负选择”列

scala中几个列的平均计算

向dataframe星火/scala添加新列时遇到的问题

如何计算数据中每一行到常数参考数组的欧几里德距离

数据过滤给NullPointerException

使用列比例列表进行Spark选择

"Exchange散列分区“在spark中是如何工作的

使用Scala:通过对每个可能的对执行函数来计算表

如何在Spark中强制DataFrame求值

在星火数据中遍历列并计算最小最大值。

如何在Spark中将时间戳列转换为毫秒长列

并行化/避免spark中的foreach循环

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

字符串列包含通过spark* scala进行精确匹配的单词*

如何计算dataframe列的平均值并找到前10%

如何估计星火DataFrame中每列的大小(以字节为单位)？

使用Scala比较Spark中的列对象值

[ spark* -cassandra-connector]如何在spark 2.3.1中将scala隐式支持的代码转换为java*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐