spark sql percentile函数和spark dataframe分量器有什么不同？

、

我试过spark quantilediscretizer，但它太慢了。完成离散化过程需要几个小时。但是当我使用spark-sql的percentile函数时，它比quantilediscretizer快得多。那么，这两种方法之间有什么不同?在spark-sql中实现了哪些优化？

浏览 174提问于2019-06-24得票数 1

1回答

这表明数据没有百分位数

、、、

下面是Pandas代码，它返回输出spark_df_cols = spark_df['dic'].tolist() df_1 = pd.DataFrame({'dic': i_names, 'Percentile': i_quant}) 产出如下spark_df_cols = spa

浏览 3提问于2022-06-14得票数 0

3回答

如何在spark中计算DataFrame中列的百分位数？

、、、

我正在尝试计算DataFrame中列的百分位数？我在Spark聚合函数中找不到任何percentile_approx函数。例如，在Hive中，我们有percentile_approx，我们可以按以下方式使用它但出于性能原因，我想使用<e

浏览 0提问于2016-06-07得票数 11

1回答

星火Scala -在组中对DataFrame列进行Winsorize

、、、

有一个Scala函数工作得很好：// res19: Array[Double] = Array(3.13, 318.54)/

浏览 2提问于2020-12-17得票数 0

回答已采纳

4回答

我试图获得单列数据的0.8个百分位数。limit80 = 0.8val perfentileIndex = dfSize*limit80 val percentile80= dfSorted .take(perfentileIndex).last() 但我认为对于大型数据文件来说，这将失败，因为它们可能分布在不同的节点上。有更好的方法来计算百分位数吗？或者，我如何能够在同一台机器中拥有所有数据行(即使这是非常反

浏览 0提问于2018-06-19得票数 6

回答已采纳

3回答

如何为数据类型为double的列计算spark* sqlContext中位数*

、、

因为"value“的数据类型是double，所以它给了我一个错误： at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:226) at org.apache.spark.sql.catalyst.anal

浏览 10提问于2015-12-30得票数 7

3回答

星火AnalysisException全局表或视图未找到

、、

我得到以下错误： val spark = SparkSession .("products") val q1 = spark.sql</

浏览 1提问于2018-03-14得票数 3

回答已采纳

6回答

如何找到星火中分组数据的精确中值

、、

它不同于类似的查询：。这个问题涉及分组数据的查找数据，而另一个问题是在RDD级别上查找中位数。这是我的样本数据| id|num|| A|0.0|--+---++--------++--------+| 1 |我尝试了以下选项，但没有运气： 1)蜂巢函数百分

浏览 5提问于2017-01-02得票数 3

回答已采纳

1回答

星火sql百分位数在浮点列上

、、、

根据，百分位数命令应该给出每个数字列的确切百分位数。至少当我的输入是由浮点数组成时--这不是真的。from pyspark.

浏览 0提问于2019-07-21得票数 2

7回答

如何在Apache Spark中计算百分位数

我有一个整数的rdd (即RDD[Int])，我想要做的是计算以下10个百分位数：[0th, 10th, 20th, ..., 90th, 100th]。做到这一点最有效的方法是什么？

浏览 185提问于2015-03-02得票数 25

2回答

使用HadoopSplk1.6数据帧计算平均值，但未能启动数据库“metastore_db”

、、、、

软件包com.databricks:spark csv_2.11:1.2.0.使用SQLContext 1.导入org.apache.spark.sql.SQLContext 2. val sqlctx(“从port_bank_table选择percentile_approx(balance,0.5)为中位数”).show()或sqlctx.sql(“选择百分位数(balance，0.5)作为中位数从$$anonfun$2.apply(FunctionRegistry.scala:65)

浏览 15提问于2018-01-10得票数 0

4回答

电火花approxQuantile函数

、、

from pyspark.sql import DataFrameStatFunctions as statFuncmedian

浏览 20提问于2017-07-24得票数 12

回答已采纳

1回答

火花最有效方法中的百分位数(RDD vs SqlContext)

、、

我在spark中有一个大型分组数据集，我需要返回0.01到0.99之间的百分位数。我一直在使用在线资源来确定做这件事的不同方法，来自RDD上的操作：对于SQLContext功能：我的问题是，有没有人对什么是最有效的方法有什么看法？另外，在SQLContext中还提供了percentile_approx和percentile函数。没有太多关于“百分位数”的在线文档，这只是一个非近似的“per

浏览 0提问于2018-03-09得票数 1

1回答

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

、、、、

我有一个非常大的CSV文件，它已经作为一个PySpark数据文件导入：df。dataframe包含许多列，包括列ireturn。我想要计算该列的0.99和0.01百分位数，然后将另一列添加到dataframe df中，作为new_col_99和new_col_01，它们分别包含0.99和0.01百分位数。from pyspark.sql import SparkSession spark = SparkSession

浏览 0提问于2019-01-15得票数 3

1回答

如何按组使用approxQuantile？

、、

Spark具有SQL函数percentile_approx()，其对应的Scala是df.stat.approxQuantile()。但是，可以在SQL语法中同时进行分组和百分位数。所以我想知道，也许我可以从SQL percentile_approx函数中定义一个UDF并在我的分组数据集中使用它？

浏览 2提问于2018-11-29得票数 8

回答已采纳

1回答

如何在databricks中将数据帧结果保存到表中？

、、

我正在尝试将已转换为dataframe的单词列表保存到databricks中的表中，以便稍后在集群重新启动时可以查看或引用它。但我看不到数据库中的表 myWords_External=[['this', 'is', 'my', 'world'],['this', 'is', 'the', 'problem']] df1 = pd.DataFramedf1.write.mode("overwr

浏览 16提问于2019-09-07得票数 0

2回答

用groupBy计算PySpark数据的百分位数

、、、、

我正在尝试groupBy，然后计算PySpark数据的百分位数。我已经根据测试了下面的代码import pyspark.sql.functions as funcdf_out = df_in.groupBy>返回lambda *a: f(*a) Attri

浏览 0提问于2018-12-14得票数 2

回答已采纳

3回答

如何计算DataFrame中的移动中值？

、、、、

是否有一种方法可以计算星火中某个属性的移动中间？我本来希望可以使用一个窗口函数(通过使用rowsBetween(0,10)定义一个窗口)来计算移动中值，但是没有计算它的功能(类似于average或mean)。

浏览 10提问于2017-05-19得票数 3

1回答

SparkSession变量是由星火壳(scala)执行的，是val还是var？

、、、

我必须显式地设置以下配置(因为每个分布式节点都可能配置了不同的默认时区)，以确保我的时区对于该方法中任何Spark函数调用(代码块)的任何后续Spark时间戳操作始终是UTC。spark.conf.set("spark.sql.session.timeZone", "UTC") 该方法签名是否应该包含( Spark : org.apache.spark.sql.SparkSes

浏览 5提问于2020-02-24得票数 0

回答已采纳

1回答

Smark3.0读取json文件的速度比Spark2.4慢得多

、、、

我有大量的json文件，星火可以在36秒内读取，但Spark3.0几乎需要33分钟才能读取同样的文件。从更仔细的分析来看，Spark3.0选择的DAG与Spark2.0不同。有人知道这是怎么回事吗？Spark3.0是否有任何配置问题。火花2.4Time taken:

浏览 2提问于2020-06-27得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

这表明数据没有百分位数

如何在spark中计算DataFrame中列的百分位数？

星火Scala -在组中对DataFrame列进行Winsorize

火花-如何计算星火的百分位数？

如何为数据类型为double的列计算spark* sqlContext中位数*

星火AnalysisException全局表或视图未找到

如何找到星火中分组数据的精确中值

星火sql百分位数在浮点列上

如何在Apache Spark中计算百分位数

使用HadoopSplk1.6数据帧计算平均值，但未能启动数据库“metastore_db”

电火花approxQuantile函数

火花最有效方法中的百分位数(RDD vs SqlContext)

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

如何按组使用approxQuantile？

如何在databricks中将数据帧结果保存到表中？

用groupBy计算PySpark数据的百分位数

如何计算DataFrame中的移动中值？

SparkSession变量是由星火壳(scala)执行的，是val还是var？

Smark3.0读取json文件的速度比Spark2.4慢得多

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐