在PySpark 2.0中，如何计算不包括周末的日期范围内的累计和？

在PySpark 2.0中，可以使用以下步骤计算不包括周末的日期范围内的累计和：

导入必要的模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, date_format, expr, when
from pyspark.sql.window import Window

创建SparkSession：

spark = SparkSession.builder.appName("Weekday Accumulative Sum").getOrCreate()

创建一个包含日期的DataFrame：

data = [("2022-01-01", 10), ("2022-01-02", 20), ("2022-01-03", 30), ("2022-01-04", 40), ("2022-01-05", 50), ("2022-01-06", 60), ("2022-01-07", 70)]
df = spark.createDataFrame(data, ["date", "value"])

将日期列转换为日期类型：

df = df.withColumn("date", col("date").cast("date"))

添加一个名为"weekday"的列，表示每个日期的星期几：

df = df.withColumn("weekday", date_format(col("date"), "u").cast("integer"))

创建一个窗口规范，按日期升序排序：

windowSpec = Window.orderBy("date").rowsBetween(Window.unboundedPreceding, Window.currentRow)

使用when函数将周末的值设为0，其他日期保持原值：

df = df.withColumn("value", when((col("weekday") == 6) | (col("weekday") == 7), 0).otherwise(col("value")))

添加一个名为"accumulative_sum"的列，计算累计和：

df = df.withColumn("accumulative_sum", expr("sum(value) over (partition by weekday order by date)"))

打印结果：

df.show()

这样，你将得到一个包含累计和的DataFrame，其中不包括周末的日期范围。

请注意，以上代码示例中没有提及具体的腾讯云产品，因为PySpark是Apache Spark的Python API，与云计算品牌商无关。但是，你可以将上述代码应用于任何支持PySpark的云计算平台，如腾讯云的EMR（Elastic MapReduce）服务，该服务提供了Spark集群的托管环境。

参考链接：

PySpark文档：https://spark.apache.org/docs/latest/api/python/index.html

相关·内容

Power BI追踪春节业绩实操

上方的折线图蕴含了丰富的信息。首先因为春节在1月和2月之间每年位置不会相同，因此制定业绩规划的时候一般2个月综合考虑，图中的时间线为1-2月的完整日历。日历上使用虚线标注清楚了今年和同期的节日状况。...折线总共有三条，分别是理想的业绩进度（红色虚线）、同期的累计业绩（灰色实线）以及当前的累计业绩（蓝色实线）。当前业绩和目标业绩、同期业绩对比可以清楚的知道业绩进度的好坏。...最上方的横线为1-2月的总目标，告诉我们总体要努力到什么位置。接下来讲解如何在Power BI实操。 1.数据准备需要的数据有四个，分别是日期表，销售目标，实际业绩和销售权重系数。...在相同月份，去年2月和今年2月可能天数不同，无法完全复制；即使天数完全相同，去年当月有4个完整周末，今年可能有5个完整周末，也会对销售趋势造成不同的影响；另外像春节这样的节假日对销售趋势影响也非常大。...如何设置销售权重系数可以参考此文：《Power BI分解销售目标》，虚拟案例分解完的结果如下： 2.指标计算基础指标：销售目标 = SUM('销售目标'[业绩目标]) 销售权重系数 = SUM(

2.5K2 0

浮点数在计算机系统中是如何表示和存储的

在计算机系统中，浮点数是以一种称为浮点数表示法的形式来表示和存储的。浮点数表示法使用科学计数法的形式，将一个实数表示为一个值乘以一个基数的幂的形式。表示一个浮点数需要三个要素：符号位、尾数和指数。...浮点数的存储通常采用两种标准：单精度和双精度。单精度浮点数采用32位表示，包括一个符号位、8位指数和23位尾数。双精度浮点数则采用64位表示，包括一个符号位、11位指数和52位尾数。...指数采用偏移值表示法，偏移值是一个固定的数值（127或1023），用于使指数能够包含负数和正数的范围。...浮点数的表示方法可以通过以下公式计算出实际值：(-1)^符号位 × (1 + 尾数部分) × 2^(指数部分 - 偏移值)通过这种方式，浮点数可以表示非常大或非常小的实数，并且能够维持一定的精度。...然而，浮点数表示法也存在精度问题，因为有些实数无法精确地表示为有限位的浮点数，会产生舍入误差。因此，在进行浮点数计算时需要注意精度损失的问题。

3324 1

高效大数据开发之 bitmap 思想的应用

二、业务场景我们先来看几个最近一段时间内的累计类与留存类的具体业务问题，作为做大数据的你建议先不要急着往下阅读，认真思考一下你的实现方案： 1.统计最近 30 天用户的累计活跃天(每个用户在 30 天里有...2.统计最近 7 天的用户累计使用时长？ 3.统计最近 30 天有播放的累计用户数？ 4.统计最近 30 天活跃用户有多少在最近 30 天里有连续 3 天及以上活跃？...2 条日期，再拿这两个日期分布 datediff 当前日期是否为日期相差 1 且相差 2 来判断是否 3 天以上活跃，但是这个方法也还是避免不了拿 30 天分区统计，统计更多天连续活跃时的扩展性不好的情况...3.耗费集群资源大，场景 4 和场景 5 都用到了 join 操作，场景 4 还不止一个 join，join 操作涉及 shuffle 操作，shuffle 操作需要大量的网络 IO 操作，因此在集群中是比较耗性能的...，因此相比之前只保留天增量表来说，还是增加了实际存储空间，但是这个以存储换计算的方案是符合数仓设计原则的，因为计算是用成本昂贵的 cpu 和内存资源，存储是用成本低廉的磁盘资源，因此有涉及最近 N 天累计或者留存计算需求的朋友可以借鉴这样的思路

1.4K6 3

如何管理好IDC机房（五）----云计算和虚拟化在机房管理中的应用

如果不想花钱，开源的kvm也是一个选项，kvm和vmwware的性能不相上下，但是管理便利性还有待逐步提高。理想的机房虚拟化架构应该是什么样的？应该使用云技术！...不管是自建的IDC，还是出租给客户的IDC，如果能像使用水电一样的使用服务器，那对机房的管理就是一个巨大的提升。...基础架构应该是按照一个或者多个机柜为一个虚拟化单元，每个单元包括多台的虚拟化物理机和两台或者多台存储，物理机用来做虚拟化，所有的虚拟化镜像和数据都存储到存储上。 ...利用虚拟化的迁移技术来实现云计算，根据需要，虚拟机可以在物理机之间迁移。或者动态的增加虚拟机，增加虚拟机只需要编写简单的脚本，如果有实力，应开发一套管理系统，以方便的实现虚拟机的扩展和迁移。...对服务器使用者来说，这都是透明的，他们只是需要想以前一样的来使用服务器就行，但是对IDC管理者来说，虚拟化和云计算将大大减轻机房工作，更好的提高机房效率。

2.2K4 0

你需要的Excel常用函数都在这里！

每个范围内的单元格必须是数字或名称、数组或包含数字的引用。空白和文本值将被忽略。选定的范围可以包含标准Excel格式的日期。 criteria 必需。...一旦在该区域中找到了项，将计算 sum_range 中的相应值的和。 criteria1 定义将计算 criteria_range1中的哪些单元格的和的条件。其表示方式与SUMIF一样。...如： =EOMONTH(2011-1-1,1) 此函数表示在 A2 中日期之后一个月的最后一天的日期。结果：2011-2-28。...工作日不包括周末和专门指定的假日。在计算发票到期日、预期交货时间或工作天数时，可以使用函数 WORKDAY 来扣除周末或假日。 start_date 必需。开始日期。 days 必需。...months为正值将生成未来日期；为负值将生成过去日期例：计算日期判断是否是周末 =IF(WEEKDAY(A2,2)>5,"周末","否") 第n个工作日的日期 =WORKDAY(D2,E2,D5

4K3 2

SAP PP 重订货点详解-知识点1

在维护物料主数据时，不维护重订货点，而是由系统自动推算之后，再自动将重订货点分配给相应的物料主数据。将会在另一篇文章中讲解自动重订货点的实现步骤和计算逻辑。...空：忽略，即不包括外部需求，此时勾选下面“Additional...”的参数是无效的； 2 ：包括提前期内的外部需求，即当外部需求的交货日期在重订货点补货交期前的，将会被累计考虑； 1 ：包括所有的外部需求...如本例中成品的提前期，应该包括10000072的Leadtime，以及安全库存的数量也会受此影响。为了验证VB会不会考虑外部需求，现对成品创建一个SO，需求日期在Pldord交期之前。 ?...所以，就算将成品的PldOrd转成PrdOrd，其订单预留传递到需求元素中，但还是不会生成累计的补货请求。因为他未设置在外部需求考虑范围内。 ?...对于手工计算的值，还是需要人工去不断演算、更新。但从以往ERP使用情况来看，这一点很难做到。经过以上的测试和分析，相信可以给大家一个更清晰的理解和分析。至于如何使用这个功能，保留给大家去讨论吧。

5.7K7 1

违反廉洁承诺，甲骨文、达梦、绿盟等被南方电网处罚：市场禁入 11 个月、12 个月、11 个月

扣分条款编号首位数字为2的扣分条款，仅适用于电子商城供货商，但不包括供应《不适用电子商城供货商扣分条款的品类清单》范围内物资的电子商城供货商。...1.2、扣分在南方电网公司范围内按年度进行统计，记分周期为每年1月1日至12月31日，每年1月1日零点上一年度的累计扣分自动冻结。...1.7、出现以下情况，处理期限应累加计算：（1）供货商被处理期间，记分周期内累计有效扣分再次达到或超过12分的，处理期限为基于新扣分情况的处理期限和原处理期限之和，起算时间为原处理期限的起始日期。...（2）供货商同时存在扣分细则中的失信行为和行贿行为被处以不接受投标、市场禁入处理的，处理期限为两者分别计算后所得期限之和。...2.5.2、符合条件的，收到验收申请材料的日期即为受理日。 2.5.3、原则上，南方电网公司在受理后的20个工作日内完成验收。验收合格的，在中国南方电网供应链统一服务平台公布处理解除公告。

1.1K2 0

盘一盘 Python 特别篇 19 - 天数计数|年限

在金融产品估值时，细节最多的就是如何生成日期和年限了，最核心的细节如下：支付日通常不会落在周末和公共假期上，如落到，那么根据“顺延”或“修正顺延”到后一个工作日，或者“提前”或“修正提前”到前一个工作日...两个日期之间的计数有对相应的惯例，比如“Actual/365”计算的天数就是两个日期之间实际的天数，而30/360“”有着特殊的算法。日期计数惯例解决这个问题。...年份用具体四个数字标示的指的这个具体的日期是公众假期。工作日惯例就是通过一些不同规定把一个非工作日调整到一个工作日 (非周末且非公众假期) 上。 1....Act/Act 这两个惯例来自 2006 年 ISDA 文件里面的 4.16(b)，计算年限方法为“非闰年里天数/365 + 闰年里天数/366”。这里的天数计算包括起始日不包括结束日。...Bus/252 年限等于包括起始日不包括结束日之间的工作日天数除以 252。该惯例用于巴西市场。下图给出基本日期计数惯例的总结： ?

1.5K2 0

GPT4做数据分析时间序列预测之七相当棒2023.6.1

3、后面6个月的销售额的累计值，不包括本月销售额，重新修改代码 4、有一个excel，文件名为销售数据.xlsx,A列为年月、B列为销售额，如下，写一个python程序，计算每个年月的后面6个月的销售额的累计值...，保存在新excel中，包含年月、销售额、后面6个月的销售额的累计值，后面6个月的销售额的累计值，不包括本月销售额。...具体而言，我们使用窗口大小为7（包括当前行和后面6行），并使用 `min_periods=1` 参数确保即使窗口中只有一个值，也会进行计算。...最后，我们使用 `shift` 函数将结果向上移动一行，以便将当前行的销售额排除在计算之外。 4....、未来6个月、未来6个月实际销售额累计值，未来6个月实际销售额累计值，不包括本月销售额。

4251 0

干货 I 用数据分析进行“无死角”的复盘？

再单独将“星期”数据“拎”出来，得到下图：试运营期间一周订单分布情况从上图可以看出，一周的下单高峰集中在周三、周四这2天，周一和周二的订单量也和这两天相差无几，但是到了周五，特别是周末（周六和周日）...总的来说，周中的下单量很大，周末的订单量很小，这与白领区的人群消费行为是一致的，无异常情况发生。得知以上几点信息后，在开展下一阶段的运营工作时，就可以在接下来的运营工作中准备如下事宜： 1....，可以得到“最小消费金额”、“最大消费金额”、“平均消费金额”和“累计消费金额”这4个指标；而从“下单日期”这个指标，通过相关函数进行运算，可以得到“最初下单日期”、“最后下单日期”、“最初下单日期到今天的间隔天数...值得注意的是，上述公式是在新的sheet里构建的，引用的是原始表单里的数据。且后面的间隔天数需要等最初/最后下单日期确定后才能计算出。...，单次高消费或单次低消费都不能准确地反映出客户在本产品上的购买力水平，取历史平均水平才能看出他在本产品上的消费能力，但要结合最低和最高消费金额来看，看是否二者间的差距过大，稳定性如何；最次是累计消费金额

7543 0

图解大数据 | 综合案例-使用spark分析新冠肺炎疫情数据

http://blog.showmeai.tech/python3-compiler （1）统计美国截止每日的累计确诊人数和累计死亡人数。...（4）统计截止5.19日，美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据，然后以state作为分组字段，对cases和deaths字段进行汇总统计。...病死率 = 死亡数/确诊数，对3)的结果DataFrame注册临时表，然后按公式计算。我们下面基于Spark DataFrame和Spark sql进行统计分析。...# 1.计算每日的累计确诊病例数和死亡数 df = shemaUsInfo.groupBy("date").agg(func.sum("cases"),func.sum("deaths")).sort(...) #写入hdfs # 注册为临时表供下一步使用 df1.createOrReplaceTempView("ustotal") # 2.计算每日较昨日的新增确诊病例数和死亡病例数

4.9K3 2

浅谈pandas，pyspark 的大数据ETL实践经验

--notest /your_directory 2.2 指定列名在spark 中如何把别的dataframe已有的schame加到现有的dataframe 上呢？...IntegerType()) df = df.withColumn('new_column',func_udf(df['fruit1'], df['fruit2'])) 2.4 时间格式处理与正则匹配 #1.日期和时间的转码...数据质量核查与基本的数据统计对于多来源场景下的数据，需要敏锐的发现数据的各类特征，为后续机器学习等业务提供充分的理解，以上这些是离不开数据的统计和质量核查工作，也就是业界常说的让数据自己说话。...比如，有时候我们使用数据进行用户年龄的计算，有的给出的是出生日期，有的给出的年龄计算单位是周、天，我们为了模型计算方便需要统一进行数据的单位统一，以下给出一个统一根据出生日期计算年龄的函数样例。...和pandas 都提供了类似sql 中的groupby 以及distinct 等操作的api，使用起来也大同小异，下面是对一些样本数据按照姓名，性别进行聚合操作的代码实例 pyspark sdf.groupBy

5.4K3 0

SPA PP 重订货点详解-上篇

在维护物料主数据时，不维护重订货点，而是由系统自动推算之后，再自动将重订货点分配给相应的物料主数据。将会在另一篇文章中讲解自动重订货点的实现步骤和计算逻辑。...空：忽略，即不包括外部需求，此时勾选下面“Additional...”的参数是无效的； 2：包括提前期内的外部需求，即当外部需求的交货日期在重订货点补货交期前的，将会被累计考虑； 1：包括所有的外部需求...再创建一个新的SO，使其需求日期在补货交货期之后。重新Run Mrp后，可见新的SO并没有产生相关补货数量，而是显示缺料。 ?...所以，就算将成品的PldOrd转成PrdOrd，其订单预留传递到需求元素中，但还是不会生成累计的补货请求。因为他未设置在外部需求考虑范围内。 ?...对于手工计算的值，还是需要人工去不断演算、更新。但从以往ERP使用情况来看，这一点很难做到。经过以上的测试和分析，相信可以给大家一个更清晰的理解和分析。至于如何使用这个功能，保留给大家去讨论吧。

1.1K1 1

NLP和客户漏斗：使用PySpark对事件进行加权

了解客户漏斗可以帮助企业了解如何有效地营销和销售其产品或服务，并确定他们可以改善客户体验的领域。...使用PySpark计算TF-IDF 为了计算一组事件的TF-IDF，我们可以使用PySpark将事件按类型分组，并计算每个类型的出现次数。...以下是一个示例，展示了如何使用PySpark在客户漏斗中的事件上实现TF-IDF加权，使用一个特定时间窗口内的客户互动的示例数据集： 1.首先，你需要安装PySpark并设置一个SparkSession...：事件发生的时间和日期你可以使用spark.read.csv()方法将该数据集加载到DataFrame中： df = spark.read.csv("customer_interactions.csv...了解客户漏斗可以帮助企业理解如何有效市场和销售他们的产品或服务，并确定可以改善客户体验的领域。

1853 0

Power BI 业绩达成日、月组合跟踪

Power BI实现效果如下图：图表功能如下：两条折线分别表示月度累计目标值和实际值，并且在末尾有数据标签。柱形彩色的部分为实际值，灰色为目标值，数据标签为达成率。...不同柱形颜色区分是否周末，并且周末进行文字标注。 X轴为每天的日期，且当天业绩未达成时类别标签显示为红色。...该图表的基础元素可以分解如下：文字，包含日期、星期、业绩达成率、月度累计的目标和实际，全部使用SVG的文本标签text生成。详细所有SVG的标签语法可搜索引擎查找。...矩形，包含实际值的矩形和目标值的矩形，目标值放于底层，实际值置于上层，使用SVG的矩形标签rect生成。多段线，即折线，包含月累计实际值和目标值，使用SVG的polyline标签生成。...同时，将目标的柱形和实际的柱形图层顺序进行变换。本文pbix模板在下方知识星球下载。

1K1 0

销售需求丨周分析

这个函数，是根据DATE日期列，生成一个年度第几周的函数。它的第二参数只有两个选项：1和2。输入1表示周日是第一天。（国外的星期一）输入2表示周一是第一天。...&& '日期表'[Date] <= MAX ( '日期表'[Date] ) ) ) 结果如图： [1240] 怎么样，达到我们需要的每周累计的效果了吧？...然后呢，利用CALCULATE+FILTER的经典模式，聚合年周相同的销售数据，同时利用MAX进行判定，让数据的计算维持在事实表范围内，以免出现很多没有销售数据，但是出现累计的情况。...从而达到进行年周累计的效果。那么上周累计呢？...这里面第二个SELE函数没啥好说的，周是按照顺序排的，减一下就是上周的。前面的SELE年度是为了给当前的计算圈定好当前的上下文，以免出现计算问题。

7394 0

深入MySQL窗口函数：原理和应用

在第二个例子中，AVG_NEARBY_PRICE计算了当前PRICE值前后10个单位范围内的平均价格（注意，实际范围可能包括更多的行，因为RANGE会包含所有在这个范围内的行，即使它们的物理位置不是紧挨着的...当使用窗口函数 PERCENT_RANK() 和 CUME_DIST() 时，这些函数通常用于计算结果集中行的相对排名和累积分布。下面是一个示例，展示了如何在一个查询中同时使用这两个函数。...ORDER BY sales_date 确保了数据按照销售日期排序，这对于计算累计的统计数据是必要的。 6....在每个日期内，销售额是独立分组的。...三、常见的应用场景窗口函数在多个场景中非常有用，以下是几个典型示例：计算累计总和：使用SUM()函数和OVER()子句，可以轻松计算每一行的累计总和，这在分析销售数据、财务报表等方面非常有用。

1K2 1

用户画像小结

这里软件的安装，我在之前文章也有总结 1.1 mysql和workbench在windows的安装和使用 https://cloud.tencent.com/developer/article/2229927...1.2 pyspark在windows的安装和使用 https://cloud.tencent.com/developer/article/2229927 2 技能环境安装好后，我们就可以储备技能了...对于spark的基础概念详细介绍，可以看看我的这篇文章：pyspark（一）--核心概念和工作原理对于pyspark的使用，可以在项目实践过程中慢慢积累学习。...20230717 1 1234 5 3600 表示用户1在2023年6月16号，对id:1234这个物品，交互了4次（登录/点赞评等交互），累计一天在线时长 3600秒。..."的兴趣度是"0.5"~短期（天）兴趣画像就出来啦~ 以上内容阐述了如何通过最直观简洁的方式来构建用户画像，让大家对用户画像的概念有更深入的理解。

59911 1

经典机器学习 | 如何做到预流失与流失挽回？

文章介绍了如何通过经典的机器学习(Machine Learning, ML)方法来寻找那些流失可能性比较高的用户、寻找那些回流意愿比较大的用户。...，日期数据数值化，很方便后续的计算处理。 ...特征处理 2.1 缺失值填充在预流失场景中，我们针对登录数据、充值数据做了填0处理，针对日期时间数据做填最大值处理。...模型选择预测流失Score和回流Score有许许多多的模型可以选择，本文以LR为例，早点介绍如何在生产过程中实践经典机器学习算法。...同模型预测情况下，对比A组和B组的留存率；同随机预测模型情况下，对比C组和D组的留存率小结将全流程串起来，给出如下demo from pyspark.sql import SparkSession

2.2K2 0

使用CDSW和运营数据库构建ML应用3:生产ML模型

在最后一部分中，我们将讨论一个演示应用程序，该应用程序使用PySpark.ML根据Cloudera的运营数据库（由Apache HBase驱动）和Apache HDFS中存储的训练数据来建立分类模型。...然后，对该模型进行评分并通过简单的Web应用程序提供服务。有关更多上下文，此演示基于此博客文章如何将ML模型部署到生产中讨论的概念。在阅读本部分之前，请确保已阅读第1部分和第2部分。...为此，我在HBase中创建了一个批次评分表。批处理得分表是一个表，其中存储了所有可能的传感器输入组合以及使用该模型对每个组合的预测。完成该预计算以便以ms延迟提供结果。...如何运行此演示应用程序现在，如果您想在CDSW中运行并模拟该演示应用程序，请按以下步骤操作：确保已配置PySpark和HBase –作为参考，请参阅第1部分在CDSW上创建一个新项目，然后在“初始设置... 结论与总结此应用程序演示了如何利用PySpark来使用HBase作为基础存储系统来构建简单的ML分类模型。无论如何，该演示应用程序都有一些收获。

2.8K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云