腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >在Scala Spark中，如何根据列的百分位值过滤数据帧

问在Scala Spark中，如何根据列的百分位值过滤数据帧
EN

Stack Overflow用户

提问于 2020-11-02 18:18:41

回答 1查看 123关注 0票数 0

假设我有这个数据帧：

  val df = Seq(("Mike",1),("Kevin",2),("Bob",3),("Steve",4)).toDF("name","score")

我想过滤这个数据帧，以便它只返回"score“列大于等于第75个百分位数的行。我该怎么做呢？

非常感谢，祝你有愉快的一天！

scala

apache-spark

有奖征集｜云上CPU玩转AIGC挑战赛

参加活动赢取洛斐键盘、小米电纸书、智能音响等鹅厂周边！

回答 1

Stack Overflow用户

发布于 2020-11-02 20:44:58

你想让你的过滤器基于的是upper quartile。

它也被称为上四分位数或第75个经验四分位数，75%的数据位于这一点以下。

根据答案here，您可以使用spark的approximateQuantile来获得您想要的内容：

val q = df.stat.approxQuantile("score", Array(.75), 0)
q: Array[Double] = Array(3.0)

这个数组(q)给出了第三个和第四个四分位数之间的边界。

使用一个简单的spark过滤器就可以得到你想要的：

df.filter($"score" >= q.head).show
+-----+-----+
| name|score|
+-----+-----+
|  Bob|    3|
|Steve|    4|
+-----+-----+

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64651093

复制

python 列表有没有顺序_python的list顺序详解

python

Python内置的一种数据类型是列表：list。list是一种有序的集合，可以随时添加和删除其中的元素。

IT工作者

2022/08/04

1.3K0

LeetCode 1389. 按既定顺序创建目标数组

编程算法

来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/create-target-array-in-the-given-order 著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。

Michael阿明

2022/11/26

4220

LeetCode 1389. 按既定顺序创建目标数组

编程算法

目标数组 target 最初为空。按从左到右的顺序依次读取 nums[i] 和 index[i]，在 target 数组中的下标 index[i] 处插入值 nums[i] 。重复上一步，直到在 nums 和 index 中都没有要读取的元素。请你返回目标数组。

freesan44

2020/06/16

4620

LeetCode 1389. 按既定顺序创建目标数组

编程算法

1389. 按既定顺序创建目标数组: https://leetcode-cn.com/problems/create-target-array-in-the-given-order/

村雨遥

2020/04/07

6420

Python创建数字列表

list max min range sum

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 10 1 sum is : 55

py3study

2020/01/03

1.3K0

Python按顺序读取文件夹中文件

c++

涉及到文件操作，我们有时候会读取一个文件夹中的所有的文件。这些文件可能是文件名完全混乱的，也可能是完全格式化的（如1.png，2.png...）。下面介绍Python中的几种按顺序（假如有）读取文件夹中文件的方法。

狼啸风云

2020/08/27

9.9K0

junit方法按顺序执行

junit

选定版本，直接加注解

IT云清

2021/12/06

1.3K0

sql按顺序去重

博客

参考博客： https://blog.csdn.net/qtvb1987/article/details/42081585

周杰伦本人

2022/10/25

8450

数组按指定顺序排序

编程算法

数组排序可以直接使用 sort() 方法，可以对数组按规律排序。但如果指定一个没有规律的顺序进行排序呢？同样可以使用 sort() 方法： const data = [ { name: '张三', code: 'zs' }, { name: '王五', code: 'ww' }, { name: '赵七', code: 'zq' }, ]; data.sort((star, next) => { const sortList = ['zq', 'zs', 'ww'] return

德顺

2022/06/12

2.7K0

[LTE] CSG（Closed Subscriber Group）闭合用户组

终端

CSG是3GPP R8中引入的概念，定义为闭合用户组。有以下特点: 每个CSG由一个CSG ID标识同一用户可属于多个CSG，用户与CSG的关系就好比签约，启用了CSG小区只会允许签约用于接入 UE维护一张它所属CSG的CSG ID列表，在这个列表之外的其他CSG ID所对应的CSG小区对该UE而言是不可访问的。每个CSG小区广播一个CSG ID，这个CSG ID所标识的闭合用户群的成员可以访问该小区 CSG模式需要终端和核心网的支持，在R8之前的终端和核心网都无法使用CSG功能。

轻舞飞扬SR

2021/02/24

1K0

python 按顺序读文件夹下面的文件

python

方法一： import os path="/home/test/" #待读取的文件夹 path_list=os.listdir(path) path_list.sort() #对读取的路径进行排

狼啸风云

2020/08/10

2.5K0

python中按字母排序_在Python中按字母顺序排序文本文件的内容

file input int location txt

我想在文件内部按字母顺序排序。我当前执行此操作的代码不起作用，文件保持不变。这个程序本身就是一个基本的调查问卷，用来实验读写文件。在import time

用户7886150

2021/01/27

4.9K0

【代码】Python多线程执行并且按原本顺序返回[详细注释]

python 多线程

简单记录一下，免得下次找不到，还得重写。先看一下效果，然后直接上代码，并且每行都配注释。 # 导入线程池的包 from concurrent.futures import ThreadPoolExecutor, as_completed # 整个的任务函数，方便调用。也可以拆开写 def extract_append_audio_features(extract_type='age', max_workers=16): # feature_csv任务队列，可以理解为数组 data

小锋学长生活大爆炸

2023/03/01

1.9K0

列表：创建列表

编程算法

列表是Tcl语言中最重要的一种数据结构。什么是列表？列表是元素的有序集合，各个元素可以包含任何字符串，例如空格，反斜杠，换行符等。列表表现为特定结构的字符串，这意味着可以把它们赋值给一个变量，可以把它们做为参数传给命令，可以把它们嵌套到其他列表中。

Lauren的FPGA

2019/10/30

2.4K0

实现线程按顺序输出ABC

线程

线程按顺序输出ABC 实现描述：建立三个线程A、B、C,分别按照顺序输出十次ABC 首先建立一个方法，按照条件进行输出 class PrintABC{ private int index=0; public synchronized void print(int n) { // TODO Auto-generated method stub try { while(index!=n) { wait(); } if(index==0) { System.out.

呆呆

2021/10/06

7810

python中创建列表的方法_python中readlines

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/184390.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/27

3.8K0

使用Python按另一个列表对子列表进行分组

python grouping list 函数语法

在 Python 中，我们可以使用各种方法按另一个列表对子列表进行分组，例如使用字典和使用 itertools.groupby（）函数，使用嵌套列表推导。在分析大型数据集和数据分类时，按另一个列表对子列表进行分组非常有用。它还用于文本分析和自然语言处理。在本文中，我们将探讨在 Python 中按另一个列表对子列表进行分组的不同方法，并了解它们的实现。

很酷的站长

2023/08/11

4530

Python集合用处

腾讯云测试服务

一些集合的最基本操作，如集合取交集、取并集、取差集、判断一个集合是不是另一个集合子集或者父集等。

马修

2021/01/21

5650

使用 Python 创建使用 for 循环的元组列表

python 遍历管理函数数据

Python 的关键数据结构是列表和元组。元组元素一旦设置，就无法更改。这称为不可变性。但是列表元素可以在初始化后修改。在处理需要组合在一起的数据时，for 循环用于创建元组列表。列表比元组更具适应性，因为它们能够被修改。本教程演示如何使用 for 循环创建元组列表，从而简化重复性任务。

很酷的站长

2023/08/11

3830

【说站】python列表的创建和存放

python

列表中可存放各种类型的要素，包括int、float等基本类型，也包括dict、str等标准类型。

很酷的站长

2022/11/23

1.1K0

相似问题

python熊猫按值创建列表组

按地形顺序创建资源组

用迭代工具按三个列表组成Python组

按特定顺序/顺序合并python列表

按数字顺序创建列表

活动推荐

即时通信IM，低门槛快速接入

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问在Scala Spark中，如何根据列的百分位值过滤数据帧
EN

有奖征集｜云上CPU玩转AIGC挑战赛

回答 1

Stack Overflow用户

python熊猫按值创建列表组

按地形顺序创建资源组

用迭代工具按三个列表组成Python组

按特定顺序/顺序合并python列表

按数字顺序创建列表

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Scala Spark中，如何根据列的百分位值过滤数据帧EN

有奖征集｜云上CPU玩转AIGC挑战赛

回答 1

Stack Overflow用户

python熊猫按值创建列表组

按地形顺序创建资源组

用迭代工具按三个列表组成Python组

按特定顺序/顺序合并python列表

按数字顺序创建列表

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Scala Spark中，如何根据列的百分位值过滤数据帧
EN