我从两个叠加的正态分布中创建了一些数据,然后应用sklearn.neighbors.KernelDensity和scipy.stats.gaussian_kde来估计密度函数。但是,使用相同的带宽(1.0)和相同的内核,两种方法产生不同的结果。有人能解释一下为什么吗?谢谢你帮忙。下面可以找到重现问题的代码:import numpy as np
from scipy.stats impor
我感兴趣的是使用点的样本来构造KDE,然后使用该KDE重新采样点。scipy.stats.gaussian_kde提供了一个非常简单的方法来实现这一点。这让我可以使用交叉验证来估计最优带宽,如果您试图近似的底层pdf不是单峰的,那么这个带宽会更复杂。例如,使用两个高斯变量的和,我可以使用KDEMultivariate构建一个KDE,如下所示:
from statsmodels.nonparametr