开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >pyspark中的高效累积枢轴

问pyspark中的高效累积枢轴
EN

Stack Overflow用户

提问于 2021-06-25 23:52:32

回答 1查看 55关注 0票数 0

有没有一种更有效/更惯用的方式来重写这个查询：

spark.table('registry_data')
    .withColumn('age_days', datediff(lit(today), col('date')))
    .withColumn('timeframe', 
               when(col('age_days')<7, "1w")
              .when(col('age_days')<30, '1m')
              .when(col('age_days')<92, '3m')
              .when(col('age_days')<183, '6m')
              .when(col('age_days')<365, '1y')
              .otherwise('1y+')
    )
   .groupby('make', 'model')
      .pivot('timeframe')
         .agg(countDistinct('id').alias('count'))
         .fillna(0)
  .withColumn('1y+', col('1y+')+col('1y')+col('6m')+col('3m')+col('1m')+col('1w'))
  .withColumn('1y', col('1y')+col('6m')+col('3m')+col('1m')+col('1w'))
  .withColumn('6m', col('6m')+col('3m')+col('1m')+col('1w'))
  .withColumn('3m', col('3m')+col('1m')+col('1w'))
  .withColumn('1m', col('1m')+col('1w'))

查询的要点是，对于每个品牌/型号组合，返回从今天开始的一组时间段内看到的条目数量。期间计数是累积的，即最近7天内注册的条目将计入1周、1个月、3个月等。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-06-26 03:19:19

如果要对每列使用累积求和而不是求和，则可以替换.groupby以后的代码并使用窗口函数

from pyspark.sql.window import Window
import pyspark.sql.functions as F

spark.table('registry_data')
    .withColumn('age_days', datediff(lit(today), col('date')))
    .withColumn('timeframe', 
               when(col('age_days')<7, "1w")
              .when(col('age_days')<30, '1m')
              .when(col('age_days')<92, '3m')
              .when(col('age_days')<183, '6m')
              .when(col('age_days')<365, '1y')
              .otherwise('1y+')
    )
   .groupBy('make', 'model', 'timeframe')
   .agg(F.countDistinct('id').alias('count'), 
        F.max('age_days').alias('max_days')) # for orderBy clause
   .withColumn('cumsum', 
                F.sum('count').over(Window.partitionBy('make', 'model')
                              .orderBy('max_days')
                              .rowsBetween(Window.unboundedPreceding, 0)))
   .groupBy('make', 'model').pivot('timeframe').agg(F.first('cumsum'))
   .fillna(0)

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68138089

复制

相关文章

eclipse自动补全_eclipse 自动补全

eclipse java ide https 网络安全

最近在玩android，用的是eclipse。对用习惯了myeclipse 的自动补全的程序员，突然发现没这玩意，

全栈程序员站长

2022/11/19

2.1K0

eclipse自动补全_eclipse 自动补全

java 自动补全_eclipse自动补全的设置[通俗易懂]

eclipse java https windows ide

如果你用过Visual Studio的自动补全功能后，再来用eclipse的自动补全功能，相信大家会有些许失望。

全栈程序员站长

2022/11/08

1.8K0

js 自动补全

js 代码 //---------------------------------------------------自动补全begin-------------------------------- var maxcount = 0;// 表示他最大的值 var thisCount =0;// 初始化他框的位置 var flagThis = 0; var flag = 0; //标示是否选择自动补全 //自动补全方法 function zdbq(obj){ var id = obj; document.g

用户1503405

2021/09/27

4.1K0

jQuery 自动补全

$(function() { // 自动补全 var maxcount = 0;// 表示他最大的值 var thisCount =0;// 初始化他框的位置 $("body").prepend(""); $("#sele").keyup(function(even) { var v = even.which; if (v == 38 || v == 40 || v == 13)// 当点击上下键或者确定键时阻止他传送数据 { return; } var txt =

用户7999227

2021/09/19

1.8K0

python自动补全设置_python代码补全

python insert shift 版本控制

前几期橘子给大家介绍了Python是什么以及如何安装Python软件。也分享了如何系统的以及高效率的去学习Python这门课程，还有一些避雷建议，今天橘子就分享给大伙一点宝藏干货！！！藏不住的东西，不如扬了它！请大家把它收入囊中~不要辜负我的一片苦心~

全栈程序员站长

2022/09/27

2.3K0

helm命令自动补全

永久： helm completion bash > .helmrc && echo "source .helmrc" >> .bashrc 临时： source <(helm completion bash)

院长技术

2021/02/19

2.4K0

kubectl 命令自动补全

腾讯云测试服务

原文地址: https://blog.csdn.net/wenwenxiong/article/details/53105287

保持热爱奔赴山海

2019/09/17

1.6K0

Jupyter Notebook自动补全

jupyter notebook 开源编程算法

大多数程序员都非常熟悉不同的自动补全工具。然而，我注意到许多数据科学家还没有使用它。如果你是他们中的一员，是时候开始使用这个提高效率的工具了。

磐创AI

2019/11/20

4K0

Jupyter Notebook自动补全

eclipse 代码自动补全

java https 网络安全

第 3 个红框中已有.，在其后加abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ

全栈程序员站长

2022/08/23

1K0

Python Tab自动补全

保存路径：/usr/lib/python2.6/site-packages/tab/py 编写python脚本 $ cat tab_enable.py #!/usr/bin/python # python startup file import sys import readline import rlcompleter import atexit import os # tab completion readline.parse_and_bind('tab: complete') #

py3study

2020/01/13

1.2K0

pycharm开启自动补全_python代码补全插件

https xcode 网络安全开源

在使用python时候我们可能更倾向于能够使用到自动补全代码的功能在一段时间的找寻和使用过程中，发现了几种能补全代码的插件和方法吧

全栈程序员站长

2022/09/27

3.9K0

pycharm开启自动补全_python代码补全插件

自动补全搜索实现

目前大多数搜索框都已实现自动补全功能，自己也私底下实现了一个简易版本，在此总结过程中的一些要点：　　1，侦听文本框的value值改变，注意在Ie8及其之前版本的onpropertychange和Ie9的oninput事件与　　W3C下的oninput事件的异同；　　2，ajax请求数据；　　3，自动补全框的定位；　　4，上下键导航以及鼠标导航在此附上源码： .auto-ul{ list-style: none; padding:

欲休

2018/03/15

1.5K0

kubectl 命令自动补全

bash bash 指令 linux kubernetes mac os

在k8s 1.3版本之前，设置kubectl命令自动补全是通过以下的方式： source ./contrib/completions/bash/kubectl

陈不成i

2021/07/01

1K0

eclipse代码自动补全[通俗易懂]

java https 网络安全

1、点击菜单栏，打开 Eclipse -> Window -> Perferences 2、找到Java 下的　Editor 下的　Content Assist，点击它 3、找到第二个“Auto activation triggers for Java：”选项，在其后的文本框中会看到一个“.”存在。这表示：只有输入“.”之后才会有代码提示和自动补全，把该文本框中的“.”换成“abcdefghijklmnopqrstuvwxyz.”即可。

全栈程序员站长

2022/09/04

9600

eclipse代码自动补全[通俗易懂]

ES实现自动补全

Elasticsearch Service

对性能要求⽐较苛刻。Elasticsearch 采⽤FST，FST 会被 ES 整个加载进内存，速度很快。

温安适

2021/02/22

2K0

Python 自动补全模块

linux mac path sys 系统

把上面代码保存为tab.py放置在当前系统全局环境变量下，可以使用print(sys.path)查看，如：/usr/lib64/python2.6/site-packages

py3study

2020/01/13

7860

vscode 自动补全html代码的插件_vimhtml5自动补全

javascript css html https java

然后，点击（如上图）的 “黄色的空心矩形框”，弹出settings.json文件(截图如下)。

全栈程序员站长

2022/09/21

2.4K0

vscode 自动补全html代码的插件_vimhtml5自动补全

Cobra 命令自动补全指北

github https git 开源网络安全

用过类 Unix 系统中 Unix shell(Shell/Bash/Zsh) 的同学都应该对 TAB 键印象深刻，因为它可以帮忙补全或提示后续的命令，用户不用记住完整的命令，只需输入前几个字符，按 TAB 键，就会提示后续的命令供用户选择，用户体验极佳。目前流行的一些使用 Go 语言开发的 CLI 工具，如 kubectl 和 helm，他们也都有 completion 也就是命令自动补全功能，通过将 source <(kubectl completion zsh) 加入 .zshrc 文件中，就可以在每次启动 shell 时自动加载自动补全脚本，之后就可以体验到与原生 shell 相同的自动补全功能了。这些 CLI 工具，都是基于 Cobra[1] 库开发，命令自动补全功能也是该库提供的一个功能，本篇文章就来讲讲如何使用 Cobra 实现命令自动补全的。

郭旭东

2020/12/30

2.7K0

Eclipse代码的自动补全

https eclipse java 网络安全 ide

打开eclipse依次点击Window –> Perferences –> Java –> Editor –> Content Assist

全栈程序员站长

2022/09/02

7690

AndroidStudio编写jni自动补全

AndroidStudio写JNI没有提示，就像写txt一样，百度了一大圈也没有解决问题，什么升级as，升级gradle都不管用，下面记录一下解决办法：

坑吭吭

2019/05/30

1.7K0

相似问题

VueJs Vuetify自动完成链接

119

VisualStudio自动补全功能参数，如Xcode？

127

如何用AngularJS实现自动补全TextBox？

20

如何用几个单词实现自动补全

10

如何用JSON实现jQuery自动补全？

10

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例