开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用于计算偏度和峰度的plpgsql Postgresql函数

plpgsql是PostgreSQL数据库中的一种编程语言，用于编写存储过程、触发器和函数等数据库对象。它是一种过程化语言，具有类似于其他编程语言的语法和结构。

计算偏度和峰度是统计学中常用的描述数据分布形态的指标。偏度衡量数据分布的不对称性，峰度衡量数据分布的尖锐程度。

在PostgreSQL中，可以使用plpgsql函数来计算偏度和峰度。以下是一个示例函数：

CREATE OR REPLACE FUNCTION calculate_skewness_kurtosis(data numeric[])
RETURNS TABLE(skewness numeric, kurtosis numeric) AS $$
DECLARE
    n int;
    mean numeric;
    variance numeric;
    skewness_result numeric;
    kurtosis_result numeric;
BEGIN
    SELECT COUNT(*), AVG(val), VARIANCE(val)
    INTO n, mean, variance
    FROM unnest(data) AS val;

    SELECT SUM(POWER(val - mean, 3))
    INTO skewness_result
    FROM unnest(data) AS val;

    SELECT SUM(POWER(val - mean, 4))
    INTO kurtosis_result
    FROM unnest(data) AS val;

    skewness_result := skewness_result / (n * POWER(variance, 1.5));
    kurtosis_result := kurtosis_result / (n * POWER(variance, 2)) - 3;

    RETURN QUERY SELECT skewness_result, kurtosis_result;
END;
$$ LANGUAGE plpgsql;

这个函数接受一个numeric数组作为输入参数，计算该数组的偏度和峰度，并返回结果。函数内部使用了unnest函数将数组展开为表格形式，然后进行相应的计算。

使用该函数的示例：

SELECT skewness, kurtosis
FROM calculate_skewness_kurtosis(ARRAY[1, 2, 3, 4, 5]);

该查询将返回输入数组的偏度和峰度。

这个函数可以在各种需要计算数据分布形态指标的场景中使用，例如金融数据分析、市场研究等。

腾讯云提供的与PostgreSQL相关的产品是TDSQL（TencentDB for PostgreSQL），它是一种高度兼容的云数据库服务，提供了稳定可靠的数据库存储和计算能力。您可以通过以下链接了解更多关于TDSQL的信息：TDSQL产品介绍。

相关搜索:检验正态变量的峰度和偏度如何正确发现熊猫的偏度和峰度？如何从前四阶矩均值、标准差、偏度和峰度中提取johnsonsu.rvs()分布的a，b？用于插入和验证的postgresql函数用于从连接表返回计算字符串的PostgreSQL函数用于锁定表、更新值和返回行的Postgresql函数用于获取帐户登录和帐户切换行为的Postgresql窗口函数如何定义计算准确率、精确度、召回率和f1的函数如何创建一个函数来根据PostgreSQL中的页面大小和页码计算正确的偏移量？Pyspark -用于分组的UDAF函数由两个日期列组成，UDAF用于计算实际值和预测值之间的RMSE

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Postgresql中return setof函数的使用方法与实例

前言 Postgresql中包含两类setof函数： SQL函数：https://www.postgresql.org/docs/current/xfunc-sql.html PLPGSQL函数：https://www.postgresql.org/docs/current/plpgsql-control-structures.html#PLPGSQL-STATEMENTS-RETURNING 本文只关注PLPGSQL中的return setof的使用方法。总结假设类型foo存在 DROP TABLE

05

HAWQ技术解析（十） —— 过程语言

05

Postgresql源码（93）Postgresql函数内事务控制实现原理（附带Oracle对比）

Postgresql与Oracle都是扁平化处理函数内外的事务控制语句的：即函数内的commit也会直接把函数外面的语句提交掉，函数外面的commit也会把之前函数内部的语句提交掉。

02

调用PostgreSQL存储过程，找不到函数名的问题

PostgreSQL的表，函数名称都是严格区分大小写的，所以在使用的时候没有注意大小写问题容易导致找不到函数名的错误，但最近两天我们发现，如果函数参数使用了自定义的数据类型，也会发生这个问题。问题描述：下面的示例测试代码： PWMIS.DataProvider.Data.AdoHelper db = MyDB.GetDBHelperByConnectionName("PostgreSQL"); IDataParameter para = db.GetParameter();

05

Postgresql源码（49）plpgsql函数编译执行流程分析总结

以一个带简单赋值、出入参、变量有默认值的普通函数为例，分析执行过程。触发器等其他函数的执行过程大同小异，核心流程基本不变，就是多了几个默认工具变量。相比《Postgresql源码（46）plpgsql中的变量类型及对应关系》这篇总结更清晰简单。

02

Postgresql源码（53）plpgsql语法解析关键流程、函数分析

plpgsql_yylex等价于server端的base_yylex，都是在lex的基础上做了封装用于获取一个token。

04

损失函数是学习的指挥棒—记一次实践经历

因为一些后处理操作的要求，希望投影得到的分布尽可能对称且均匀，能否找到更好的投影方向？

02

OushuDB-PL 过程语言-声明

所有在块里使用的变量都必须在块的声明段里先进行声明，唯一的例外是FOR循环里的循环计数变量，该变量被自动声明为整型。变量声明的语法如下: variable_name [ CONSTANT ] variable_type [ NOT NULL ] [ { DEFAULT | := } expression ];

02

机器学习概率基础：除了偏度、峰度还有矩量母函数

本篇介绍随机变量和概率分布的基本概念，以及有关概率分布的一些简单统计量，它们构成了概率和统计的基础知识。

02

R语言入门之偏度（skewness）与峰度（kurtosis）

偏度（skewness），是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。在定义上，偏度是样本的三阶标准化矩：

03

统计学中基础概念说明

1、什么是描述性统计？ 2、统计量 1）常用统计量 2）变量的类型 3）本文章使用的相关python库 3、频率与频数 1）频率与频数的概念 2）代码演示：计算鸢尾花数据集中每个类别的频数和频率 4、集中趋势 1）均值、中位数、众数概念 2）均值、中位数、众数三者的区别 3）不同分布下，均值、中位数、众数三者之间的关系 4）代码：计算鸢尾花数据集中花萼长度的均值、中位数、众数 5、集中趋势：分位数 1）分位数的概念 2）怎么求分位数？ 3）分位数是数组中的元素的情况 4）分位数不是数组中的元素的情况：使用分摊法求分位数 5）numpy中计算分位数的函数：quantile() 6）pandas中计算分位数的函数：describe() 6、离散程度 1）极差、方差、标准差的概念 2）极差、方差、标准差的作用 3）代码：计算鸢尾花数据集中花萼长度的极差、方差、标准差 7、分布形状：偏度和峰度 1）偏度 2）峰度

03

PostgreSQL 如果放在 X86 或 ARM 上“摩擦” 到底哪个性能好？（翻译）

未来的数据库发展一定是往云上发展的，倒不是云有什么好，主要还是成本的因素，成本因素比较复杂，这里不探讨，如果你单单认为只是一些机房等基础那就大大的错误了，有机会在探讨为什么以后DBA 大多都不会触及一些基础的数据库架构，要在云上去进行新一代的DBA 生涯了。

04

峰度与偏度(python)

偏度和峰度是描述数据分布时两个常用的概念，用来描述数据分布与正态分布的偏离程度。本次推送将简要介绍其相关意义，及通过python中pandas包实现相关计算。

05

利用python回顾统计学中的基础概念（全）

描述性统计，就是从总体数据中提取变量的主要信息(总和、均值等)，从而从总体层面上，对数据进行统计性描述。

01

偏度和峰度的计算

偏度能够反应分布的对称情况，右偏（也叫正偏），在图像上表现为数据右边脱了一个长长的尾巴，这时大多数值分布在左侧，有一小部分值分布在右侧。

02

MADlib——基于SQL的数据挖掘解决方案（8）——数据探索之描述性统计

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/79071818

02

集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关

计算有限个数的数据的中位数的方法是：把所有的同类数据按照大小的顺序排列。如果数据的个数是奇数，则中间那个数据就是这群数据的中位数；如果数据的个数是偶数，则中间那2个数据的算术平均值就是这群数据的中位数。

03

Postgresql源码（112）plpgsql执行sql时变量何时替换为值

pg_plan_queries→pg_plan_query→planner→standard_planner→subquery_planner→preprocess_expression

04

机器学习数学笔记|偏度与峰度及其 python 实现

这里我们 X 一个事件 p(i)表示事件出现的概率,x(i)表示事件所给予事件的权值.

04

偏度(skewness)和峰度(kurtosis）

偏度（skewness），是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。

02

OEEL图表——进行直方图绘制histogram函数的使用

直方图是一种用于可视化数据分布的图表。它可以帮助我们理解数据的集中程度、偏移程度和分散程度。以下是直方图的一些主要作用：

00

机器学习数学基础：数理统计与描述性统计

所谓机器学习和深度学习，背后的逻辑都是数学，所以数学基础在这个领域非常关键，而统计学又是重中之重，机器学习从某种意义上来说就是一种统计学习。

02

机器学习数学基础：数理统计与描述性统计

所谓机器学习和深度学习，背后的逻辑都是数学，所以数学基础在这个领域非常关键，而统计学又是重中之重，机器学习从某种意义上来说就是一种统计学习。

02

不得不学的统计学基础知识（一）

统计学是数据分析必须掌握的基础知识，它是通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识，其应用范围几乎覆盖了社会科学和自然科学的各个领域，而在数据量极大的互联网领域也不例外，因此扎实的统计学基础是一个优秀的数据分析师必备的技能。统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识，对于具体的知识点，楼主就不一一介绍了，感兴趣的同学请参考书籍《深入浅出统计学》、《统计学：从数据到结论》，今天的分享主要会选取统计学中几个容易混淆的、比较重要的知识点进行分享。

03

Postgresql源码（41）plpgsql函数编译执行流程分析

这篇写的细节比较多有点乱，大体流程和总结可以看第三、四篇《Postgresql源码（49）plpgsql函数编译执行流程分析总结》和《Postgresql源码（53）plpgsql语法解析关键流程、函数分析》

02

Postgresql源码（46）plpgsql中的变量类型及对应关系

1、PLpgSQL_datum.dtype共有5中类型，其中2中类型属于通用类型，覆盖pg_type中所有类型：由plpgsql_build_variable函数根据pg_type中查到的类型决定（对应关系见下表中的PLPGSQL_DTYPE_VAR、PLPGSQL_DTYPE_REC）

01

基于高阶矩的行业轮动

大量研究表明，A股行业有明显的轮动现象，并且与A股相反，行业指数通常呈现动量特征，即前期涨幅高的行业，会延续上涨的趋势，比前期涨幅低的行业有明显超额收益，这一现象之前的文章中也探究过，具体可以参考《研报复制（六）：行业轮动的黄金律》。

04

判断数据是否服从某一分布（二）——简单易用fitdistrplus包

对于不同的分布，有特定的偏度(skewness)和峰度(kurtosis)，正态分布、均匀分布、逻辑斯谛分布、指数分布的偏度和峰度都是特定的值，在偏度-峰度图中是特定的点，而伽马分布和对数正态分布在偏度-峰度图中是一条直线，贝塔分布在偏度-峰度图中是一片区域。因此可以通过未知分布的偏度峰度值（在图中是一个观察点），与各种分布的偏度峰度点（线、区域）进行对比，判断未知分布数据大致可能的一个或几个分布。

03

数据信息汇总的7种基本技术总结

数据汇总是一个将原始数据简化为其主要成分或特征的过程，使其更容易理解、可视化和分析。本文介绍总结数据的七种重要方法，有助于理解数据实质的内容。

02

峰度(Kurtosis)和偏度(Skewness)

BASE ON Kaggle Getting Started Prediction Competition House Prices: Advanced Regression Techniques Thx: marsggbo

01

Python统计学一数据的概括性度量详解

统计学是应用数学的一个分支，主要通过利用概率论建立数学模型，收集所观察系统的数据，进行量化的分析、总结，并进而进行推断和预测，为相关决策提供依据和参考。统计学主要又分为描述统计学和推断统计学。给定一组数据，统计学可以摘要并且描述这份数据，这个用法称作为描述统计学。另外，观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型，以之来推论研究中的步骤及母体，这种用法被称做推论统计学。

02

FRM 数量分析笔记之概率论

FRM第一部分的考试第二章叫做数量分析，其实说白了就是概率论和数理统计。想想自己在本科学的概率论，虽然分数还比较高，但是真的是没有理解透彻，学了一遍也算是加深了系统性理解了吧。

05

正态性检验

在前面的文章中讲过，很多模型的假设条件都是数据是服从正态分布的。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法：描述统计方法和统计检验方法。

02

【数据分析 R语言实战】学习笔记第五章数据的描述性分析（上）

分布是描述一个样本数据最核心、最重要的方式。R内嵌了很多常用的统计分布，提供了四类函数:概率密度函数(density),累积分布函数(probability)、分位数(quantile)和伪随机数(random)。在R中分别用d,p,q,r表示这4个项目，后面接分布的英文名称或缩写。

02

python︱numpy、array——高级matrix（替换、重复、格式转换、切片）

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/52290505

04

python︱numpy、array——高级matrix（替换、重复、格式转换、切片）

先学了R，最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python，对应写一句R。

03

分析openGauss包内集合类型的实现方法

Oracle中集合类型覆盖了Postgresql数组的功能，在Oracle用户中时非常常用的。

02

数据分析中常见问题「建议收藏」

（1）P-P图。以样本的累积频率作为横坐标，以安装正太分布计算的相应累计概率作为纵坐标，把样本值表现为直角坐标系中的散点，如果服从正太分布，则样本点围绕第一象限的对角线分布。

01

【学习】正态分布检验是怎么回事

什么是正态分布？正态分布是在统计分析最广泛应用的一类分布，自然界、社会、科研、生活、生产中的很多现象都被发现近似地服从正态分布，它无处不在，让你在纷繁芜杂的数据背后看到隐隐的秩序。主要指变量的频数或频率呈中间最多，两端逐渐对称地减少，表现为钟形的一种概率分布，具体的数学公式就不再提了。为什么要进行正态分布检验？假设检验可分为正态分布检验、正态总体均值分布检验、非参数检验三类。正态分布检验，即判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验，具有最重要的意义，也是应用最为广泛的检验方法

03

Postgresql源码（103）PLpg/SQL中的表达式ExprContext

PostgreSQL的PLpg/SQL中任何语句的运行，都需要记录运行时的状态信息。在SQL层的执行器中运行时状态使用EState记录，在PL中状态信息使用PLpgSQL_execstate结构记录。

02

用python重温统计学基础：描述性统计分析

描述性统计分析（Description Statistics）是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。描述性统计分析分为集中趋势分析和离中趋势分析。

03

用Python玩转统计数据：取样、计算相关性、拆分训练模型和测试

本文使用Python建立对数据的理解。我们会分析变量的分布，捋清特征之间的关系。最后，你会学习给样本分层，并将数据集拆分成测试集与训练集。

02

第一周：数据的描述性统计

平静心湖起涟漪，开始新的挑战。我会根据每周工作繁忙程度来完成作业，时间充裕的时候尽量高质量完成，忙的时候采用懒人模式。作业的日期、质量等无法固定，可能会迟到，但不会缺席。

01

OushuDB-PL 过程语言-基本语句

\1. 赋值: PL/pgSQL中赋值语句的形式为:identIFier := expression，等号两端的变量和表达式的类型或者一致，或者可以通过PostgreSQL的转换规则进行转换，否则将会导致运行时错误，见如下示例: \2. SELECT INTO: 通过该语句可以为记录变量或行类型变量进行赋值，其表现形式为:SELECT INTO target select_expressions FROM ...，该赋值方式一次只能赋值一个变量。表达式中的target可以表示为是一个记录变量、行变量，或者是一组用逗号分隔的简单变量和记录/行字段的列表。select_expressions以及剩余部分和普通SQL一样。如果将一行或者一个变量列表用做目标，那么选出的数值必需精确匹配目标的结构，否则就会产生运行时错误。如果目标是一个记录变量，那么它自动将自己构造成命令结果列的行类型。如果命令返回零行，目标被赋予空值。如果命令返回多行，那么将只有第一行被赋予目标，其它行将被忽略。在执行 SELECT INTO语句之后，可以通过检查内置变量FOUND来判断本次赋值是否成功，如: name RECORD; user_id := 20;

02

R-正太分布，检验

什么是正太分布检验？判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验。方法一概率密度曲线比较法看样本与正太分布概率密度曲线的拟合程度，R代码如下： #画样本概率密度图 s <- rnorm(100) #产生样本 d <- density(s) plot(d, col="green", ylim=c(0, 0.5)) #添加正太分布概率密度图 s2 <- seq(from=-4, to=4, length.out=100) lines(s2, norm_expression(s2),

07

R语言绘制正太分布图，并进行正太分布检验

约68.3%数值分布在距离平均值有1个标准差之内的范围，约95.4%数值分布在距离平均值有2个标准差之内的范围，以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”。

04

描述统计学相关概念笔记整理

定义：一组数据向其中心值靠拢的倾向和程度测度：寻找数据的水平代表值或中心值常用的测度指标：①均值②中位数③众数

04

excel数据分析工具库系列二|统计描述

今天跟大家分享excel数据分析工具库系列二——统计描述！下面我用randbetween函数生成两列随机数作为演示案例数据：然后打开数据分析——描述统计：设置好输出区域（如有标题要勾选标题位

06

R语言股票市场指数：ARMA-GARCH模型和对数收益率数据探索性分析

本文将分析工业指数（DJIA）。工业指数（DIJA）是一个股市指数，表明30家大型上市公司的价值。工业指数（DIJA）的价值基于每个组成公司的每股股票价格之和。

02

数据的描述性统计与python实现

mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭