我现在使用scipy
进行一些norm.pdf
和norm.cdf
计算。我想知道为什么cdf
比pdf
快
我知道对于norm.cdf
有一些渐进的方法,而在scipy
中,似乎使用了norm.pdf
的集成。这就是为什么我无法想象cdf
比pdf
更快的原因。如果是这样的话,cdf
应该比pdf
慢得多(也许并行计算会有很大帮助?);如果采用渐近方法,我仍然认为cdf
可能比pdf
慢一些。
下面是一些简单的示例:
import scipy.stats as st
from datetime import datetime
import numpy as np
num_iter = 100000
x_lower = 0.25
x_upper = 0.75
time_start = datetime.now()
for x in np.arange(x_lower, x_upper, (x_upper - x_lower) / (num_iter - 1)):
y = st.norm.pdf(x)
time_end = datetime.now()
print(time_end - time_start)
time_start = datetime.now()
for x in np.arange(x_lower, x_upper, (x_upper - x_lower) / (num_iter - 1)):
y = st.norm.cdf(x)
time_end = datetime.now()
print(time_end - time_start)
以下是运行结果:
0:00:05.736985
0:00:04.896390
发布于 2020-05-25 10:01:49
快速查看源代码显示,scipy.stats.norm.pdf
只是使用NumPy返回pdf的x
值:
def _norm_pdf(x):
return np.exp(-x**2/2.0) / _norm_pdf_C
在哪里_norm_pdf_C = np.sqrt(2*np.pi)
。
对于正态分布,由于我们讨论正态分布,所以使用了特殊的函数(对于它们与正态分布,请看这里之间的关系)。
SciPy实现了特殊的函数直接在C中。特别是,累积分布函数是由ndtr.c
计算的。所以,即使NumPy非常快,在这种情况下C仍然更快,我想。
编辑
对不起,我刚刚意识到我的回答并没有完全回答你的问题。
首先,NumPy还在C中实现了数学运算。因此,要理解为什么时代性不同,我们应该了解C中发生了什么。
因此,我再次检查了cdf的C实现,我看到计算特殊函数的多项式的常数和系数不是计算出来的,而是存储在数组和变量中的!例如,1/sqrt(2)
包含在NPY_SQRT1_2
中。这可能是为什么cdf比pdf更快的原因!
因此,我试图计算已初始化常量的pdf:
import scipy.stats as st
from datetime import datetime
import numpy as np
num_iter = 100000
x_lower = 0.25
x_upper = 0.75
const = np.sqrt(2*np.pi)
time_start = datetime.now()
for x in np.arange(x_lower, x_upper, (x_upper - x_lower) / (num_iter - 1)):
# y = st.norm.pdf(x)
y = np.exp((x**2 / 2)) / const
time_end = datetime.now()
print(time_end - time_start)
time_start = datetime.now()
for x in np.arange(x_lower, x_upper, (x_upper - x_lower) / (num_iter - 1)):
y = st.norm.cdf(x)
time_end = datetime.now()
这段代码给了我:
0:00:00.202531
0:00:07.703083
注意,norm.pdf
也预先初始化了pdf的分母,但是在for循环中,您每次都调用该方法,减慢速度。
P.S.:如果您试图摆脱原始代码中的循环,并且拥有简单的x = np.arange(x_lower, x_upper, (x_upper - x_lower) / (num_iter - 1))
,那么cdf再次变得更快。其原因可以是用多项式逼近来计算精度。但是我没有找到关于C是如何处理指数来得到比较的信息。
https://stackoverflow.com/questions/61995309
复制相似问题