腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4217)
视频
沙龙
1
回答
spark
sql
percentile
函数
和
spark
dataframe
分
量器
有
什么
不同
?
、
我试过
spark
quantilediscretizer,但它太慢了。完成离散化过程需要几个小时。但是当我使用
spark
-
sql
的
percentile
函数
时,它比quantilediscretizer快得多。那么,这两种方法之间
有
什么
不同
?在
spark
-
sql
中实现了哪些优化?
浏览 174
提问于2019-06-24
得票数 1
1
回答
这表明数据没有百
分
位数
、
、
、
下面是Pandas代码,它返回输出
spark
_df_cols =
spark
_df['dic'].tolist() df_1 = pd.
DataFrame
({'dic': i_names, '
Percentile
': i_quant}) 产出如下
spark
_df_cols =
spa
浏览 3
提问于2022-06-14
得票数 0
3
回答
如何在
spark
中计算
DataFrame
中列的百
分
位数?
、
、
、
我正在尝试计算
DataFrame
中列的百
分
位数?我在
Spark
聚合
函数
中找不到任何
percentile
_approx
函数
。例如,在Hive中,我们
有
percentile
_approx,我们可以按以下方式使用它但出于性能原因,我想使用<e
浏览 0
提问于2016-06-07
得票数 11
1
回答
星火Scala -在组中对
DataFrame
列进行Winsorize
、
、
、
有
一个Scala
函数
工作得很好:// res19: Array[Double] = Array(3.13, 318.54)/
浏览 2
提问于2020-12-17
得票数 0
回答已采纳
4
回答
火花-如何计算星火的百
分
位数?
、
我试图获得单列数据的0.8个百
分
位数。limit80 = 0.8val perfentileIndex = dfSize*limit80 val
percentile
80= dfSorted .take(perfentileIndex).last() 但我认为对于大型数据文件来说,这将失败,因为它们可能分布在
不同
的节点上。
有
更好的方法来计算百
分
位数吗?或者,我如何能够在同一台机器中拥有所有数据行(即使这是非常反
浏览 0
提问于2018-06-19
得票数 6
回答已采纳
3
回答
如何为数据类型为double的列计算
spark
sqlContext中位数
、
、
因为"value“的数据类型是double,所以它给了我一个错误: at org.apache.
spark
.
sql
.catalyst.trees.TreeNode.transformDown(TreeNode.scala:226) at org.apache.
spark
.
sql
.catalyst.anal
浏览 10
提问于2015-12-30
得票数 7
3
回答
星火AnalysisException全局表或视图未找到
、
、
我得到以下错误: val
spark
= SparkSession .("products") val q1 =
spark
.
sql</
浏览 1
提问于2018-03-14
得票数 3
回答已采纳
6
回答
如何找到星火中分组数据的精确中值
、
、
它
不同
于类似的查询:。这个问题涉及分组数据的查找数据,而另一个问题是在RDD级别上查找中位数。这是我的样本数据| id|num|| A|0.0|--+---++--------++--------+| 1 |我尝试了以下选项,但没有运气: 1)蜂巢
函数
百
分
浏览 5
提问于2017-01-02
得票数 3
回答已采纳
1
回答
星火
sql
百
分
位数在浮点列上
、
、
、
根据,百
分
位数命令应该给出每个数字列的确切百
分
位数。至少当我的输入是由浮点数组成时--这不是真的。from pyspark.
浏览 0
提问于2019-07-21
得票数 2
7
回答
如何在Apache
Spark
中计算百
分
位数
我
有
一个整数的rdd (即RDD[Int]),我想要做的是计算以下10个百
分
位数:[0th, 10th, 20th, ..., 90th, 100th]。做到这一点最有效的方法是
什么
?
浏览 185
提问于2015-03-02
得票数 25
2
回答
使用HadoopSplk1.6数据帧计算平均值,但未能启动数据库“metastore_db”
、
、
、
、
软件包com.databricks:
spark
csv_2.11:1.2.0.使用SQLContext 1.导入org.apache.
spark
.
sql
.SQLContext 2. val sqlctx(“从port_bank_table选择
percentile
_approx(balance,0.5)为中位数”).show()或sqlctx.
sql
(“选择百
分
位数(balance,0.5)作为中位数从$$anonfun$2.apply(FunctionRegistry.scala:65)
浏览 15
提问于2018-01-10
得票数 0
4
回答
电火花approxQuantile
函数
、
、
from pyspark.
sql
import DataFrameStatFunctions as statFuncmedian
浏览 20
提问于2017-07-24
得票数 12
回答已采纳
1
回答
火花最有效方法中的百
分
位数(RDD vs SqlContext)
、
、
我在
spark
中有一个大型分组数据集,我需要返回0.01到0.99之间的百
分
位数。我一直在使用在线资源来确定做这件事的
不同
方法,来自RDD上的操作: 对于SQLContext功能:我的问题是,有没有人对
什么
是最有效的方法
有
什么
看法?另外,在SQLContext中还提供了
percentile
_approx
和
percentile
函数
。没有太多关于“百
分
位数”的在线文档,这只是一个非近似的“
per
浏览 0
提问于2018-03-09
得票数 1
1
回答
如何将列添加到PySpark数据column中,该数据column中包含另一列的第9
分
位数
、
、
、
、
我
有
一个非常大的CSV文件,它已经作为一个PySpark数据文件导入:df。
dataframe
包含许多列,包括列ireturn。我想要计算该列的0.99
和
0.01百
分
位数,然后将另一列添加到
dataframe
df中,作为new_col_99
和
new_col_01,它们分别包含0.99
和
0.01百
分
位数。from pyspark.
sql
import SparkSession
spark
= SparkSession
浏览 0
提问于2019-01-15
得票数 3
1
回答
如何按组使用approxQuantile?
、
、
Spark
具有
SQL
函数
percentile
_approx(),其对应的Scala是df.stat.approxQuantile()。但是,可以在
SQL
语法中同时进行分组
和
百
分
位数。所以我想知道,也许我可以从
SQL
percentile
_approx
函数
中定义一个UDF并在我的分组数据集中使用它?
浏览 2
提问于2018-11-29
得票数 8
回答已采纳
1
回答
如何在databricks中将数据帧结果保存到表中?
、
、
我正在尝试将已转换为
dataframe
的单词列表保存到databricks中的表中,以便稍后在集群重新启动时可以查看或引用它。但我看不到数据库中的表 myWords_External=[['this', 'is', 'my', 'world'],['this', 'is', 'the', 'problem']] df1 = pd.
DataFrame
df1.write.mode("overwr
浏览 16
提问于2019-09-07
得票数 0
2
回答
用groupBy计算PySpark数据的百
分
位数
、
、
、
、
我正在尝试groupBy,然后计算PySpark数据的百
分
位数。我已经根据测试了下面的代码import pyspark.
sql
.functions as funcdf_out = df_in.groupBy>返回lambda *a: f(*a) Attri
浏览 0
提问于2018-12-14
得票数 2
回答已采纳
3
回答
如何计算
DataFrame
中的移动中值?
、
、
、
、
是否
有
一种方法可以计算星火中某个属性的移动中间?我本来希望可以使用一个窗口
函数
(通过使用rowsBetween(0,10)定义一个窗口)来计算移动中值,但是没有计算它的功能(类似于average或mean)。
浏览 10
提问于2017-05-19
得票数 3
1
回答
SparkSession变量是由星火壳(scala)执行的,是val还是var?
、
、
、
我必须显式地设置以下配置(因为每个分布式节点都可能配置了
不同
的默认时区),以确保我的时区对于该方法中任何
Spark
函数
调用(代码块)的任何后续
Spark
时间戳操作始终是UTC。
spark
.conf.set("
spark
.
sql
.session.timeZone", "UTC") 该方法签名是否应该包含(
Spark
: org.apache.
spark
.
sql
.SparkSes
浏览 5
提问于2020-02-24
得票数 0
回答已采纳
1
回答
Smark3.0读取json文件的速度比
Spark
2.4慢得多
、
、
、
我
有
大量的json文件,星火可以在36秒内读取,但
Spark
3.0几乎需要33
分
钟才能读取同样的文件。从更仔细的分析来看,
Spark
3.0选择的DAG与
Spark
2.0
不同
。有人知道这是怎么回事吗?
Spark
3.0是否
有
任何配置问题。火花2.4Time taken:
浏览 2
提问于2020-06-27
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
什么是Spark SQL,它的作用是什么?
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark之SparkSQL
大数据有道之spark选择去重
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券