首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

技术干货 | 如何选择上班路线最省时间?AB测试数学原理说起

z检验(z-test)是在数据是正态分布和随机抽样假设下运行,目的是验证测试集(B组)是否与该对照集(A组)有显著不同,但是如何执行这个测试呢? 假设有来自A组和B组每一组5,000个样本。...零假设可以表示为: 这表示实验组和对照组是相同两个随机变量Xe和Xn分布在相同群体平均值周围,所以我们随机变量X应该分布在0左右。...很显然,如果在一个给定时间点从一个实验集和一个对照集中提取两个转化率,转化率差值越大将导致z分数越大。因此就有了更多证据表明两个集合分别来自不同的人群,而且这些人群带有不同均值。...但因为这个度量值会受到偶然性影响(奖励可能会被最优赌博机选择获得期望奖励更高),我们可以选择使用遗憾期望代替,定义为: 其中μ_t是在第t步赌博机获得平均奖励(不可观测)。...此外,两个方法收敛速度也很不一样。在A/B测试是指获得统计意义,在贝叶斯赌博机是指累积遗憾不再增加。

1.6K70
您找到你想要的搜索结果了吗?
是的
没有找到

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析|附代码数据

双变量分布以及更高维度分布都是可能。  此示例说明如何在变量之间存在复杂关系或单个变量来自不同分布时使用 copula 多元分布生成数据。...例如,金融风险蒙特卡罗模拟可能具有代表不同保险损失来源随机输入。这些输入可能被建模为对数正态随机变量。一个合理问题是这两个输入之间依赖性如何影响模拟结果。...事实上,真实数据可以知道相同随机条件会影响两个来源,而在模拟忽略这一点可能会导致错误结论。 独立对数正态随机变量模拟是微不足道。最简单方法是使用lognrnd函数。...但是简单多元分布列表并不长,它们仅适用于边缘都在同一族(甚至完全相同分布)情况。在许多情况下,这可能是一个真正限制。...size(sos,1); hist(stos(:,1),10); (这两个数据向量具有相同长度,这并不重要。) 我们可以为每个数据集分别拟合一个参数模型,并将这些估计用作我们边缘分布。

56900

什么是“好”统计估计器

先决条件 如果你对一些核心概念有一定了解,这些东西就会更容易理解,所以这里有一个快速关键词列表: 偏差;分布;估计;估计量;期望E(X);损失函数;均值;模型;观察;参数;概率;随机变量;样本;统计...如果有一个公平六面骰子,X可以取{1,2,3,4,5,6}每一个,其概率为1/6,所以: E (X) = (1) + (1/6) (2) (1/6) + (3) (1/6) + (4) (1...Estimator,我们用来获得估计公式,它是一个取决于你获得数据随机变量。 Estimate :θ_hat,一旦我们将数据送入估计器,最后就会出现一些数字,这就是估计。...更通俗说法就是就是“如果有两个具有相同偏差估计器,我们选择方差较小一个” 还有许多不同方法可以选择“最佳”估算器。因为“好”属性包括无偏性、相对效率、一致性、渐近无偏性和渐近效率等等。...MSE 是模型损失函数最流行(也是普通)选择,而且它往往是我们学习第一个损失,所以我们就得到了: MSE = Bias² + Variance 总结 我们已经完成了数学计算,希望这篇文章可以另外一个角度说明机器学习偏差

65040

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析|附代码数据

双变量分布以及更高维度分布都是可能。  此示例说明如何在变量之间存在复杂关系或单个变量来自不同分布时使用 copula 多元分布生成数据。...例如,金融风险蒙特卡罗模拟可能具有代表不同保险损失来源随机输入。这些输入可能被建模为对数正态随机变量。一个合理问题是这两个输入之间依赖性如何影响模拟结果。...事实上,真实数据可以知道相同随机条件会影响两个来源,而在模拟忽略这一点可能会导致错误结论。 独立对数正态随机变量模拟是微不足道。最简单方法是使用lognrnd函数。...但是简单多元分布列表并不长,它们仅适用于边缘都在同一族(甚至完全相同分布)情况。在许多情况下,这可能是一个真正限制。...size(sos,1); hist(stos(:,1),10); (这两个数据向量具有相同长度,这并不重要。) 我们可以为每个数据集分别拟合一个参数模型,并将这些估计用作我们边缘分布。

93140

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析

此示例说明如何在变量之间存在复杂关系或单个变量来自不同分布时使用 copula 多元分布生成数据。 算法 默认情况下,fit 使用最大似然将 copula 拟合到 u。...总是可以使输入独立,虽然这是一个简单选择,并不总是明智,可能会导致错误结论。 例如,金融风险蒙特卡罗模拟可能具有代表不同保险损失来源随机输入。这些输入可能被建模为对数正态随机变量。...一个合理问题是这两个输入之间依赖性如何影响模拟结果。事实上,真实数据可以知道相同随机条件会影响两个来源,而在模拟忽略这一点可能会导致错误结论。 独立对数正态随机变量模拟是微不足道。...但是简单多元分布列表并不长,它们仅适用于边缘都在同一族(甚至完全相同分布)情况。在许多情况下,这可能是一个真正限制。...size(sos,1); hist(stos(:,1),10); (这两个数据向量具有相同长度,这并不重要。) 我们可以为每个数据集分别拟合一个参数模型,并将这些估计用作我们边缘分布。

2.5K11

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析|附代码数据

双变量分布以及更高维度分布都是可能。  此示例说明如何在变量之间存在复杂关系或单个变量来自不同分布时使用 copula 多元分布生成数据。...总是可以使输入独立,虽然这是一个简单选择,并不总是明智,可能会导致错误结论。 例如,金融风险蒙特卡罗模拟可能具有代表不同保险损失来源随机输入。这些输入可能被建模为对数正态随机变量。...一个合理问题是这两个输入之间依赖性如何影响模拟结果。事实上,真实数据可以知道相同随机条件会影响两个来源,而在模拟忽略这一点可能会导致错误结论。 独立对数正态随机变量模拟是微不足道。...但是简单多元分布列表并不长,它们仅适用于边缘都在同一族(甚至完全相同分布)情况。在许多情况下,这可能是一个真正限制。...size(sos,1); hist(stos(:,1),10); (这两个数据向量具有相同长度,这并不重要。) 我们可以为每个数据集分别拟合一个参数模型,并将这些估计用作我们边缘分布。

63600

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析|附代码数据

双变量分布以及更高维度分布都是可能。  此示例说明如何在变量之间存在复杂关系或单个变量来自不同分布时使用 copula 多元分布生成数据。...例如,金融风险蒙特卡罗模拟可能具有代表不同保险损失来源随机输入。这些输入可能被建模为对数正态随机变量。一个合理问题是这两个输入之间依赖性如何影响模拟结果。...事实上,真实数据可以知道相同随机条件会影响两个来源,而在模拟忽略这一点可能会导致错误结论。 独立对数正态随机变量模拟是微不足道。最简单方法是使用lognrnd函数。...但是简单多元分布列表并不长,它们仅适用于边缘都在同一族(甚至完全相同分布)情况。在许多情况下,这可能是一个真正限制。...size(sos,1); hist(stos(:,1),10); (这两个数据向量具有相同长度,这并不重要。) 我们可以为每个数据集分别拟合一个参数模型,并将这些估计用作我们边缘分布。

48430

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析|附代码数据

双变量分布以及更高维度分布都是可能。  此示例说明如何在变量之间存在复杂关系或单个变量来自不同分布时使用 copula 多元分布生成数据。...总是可以使输入独立,虽然这是一个简单选择,并不总是明智,可能会导致错误结论。 例如,金融风险蒙特卡罗模拟可能具有代表不同保险损失来源随机输入。这些输入可能被建模为对数正态随机变量。...一个合理问题是这两个输入之间依赖性如何影响模拟结果。事实上,真实数据可以知道相同随机条件会影响两个来源,而在模拟忽略这一点可能会导致错误结论。 独立对数正态随机变量模拟是微不足道。...但是简单多元分布列表并不长,它们仅适用于边缘都在同一族(甚至完全相同分布)情况。在许多情况下,这可能是一个真正限制。...size(sos,1); hist(stos(:,1),10); (这两个数据向量具有相同长度,这并不重要。) 我们可以为每个数据集分别拟合一个参数模型,并将这些估计用作我们边缘分布。

73320

学界 | Hinton提出经典防过拟合方法Dropout,只是SDR特例

深度学习(Hinton et al,2006)引入了一些创新技术来减少、控制这些过拟合和过度参数化问题,包括用线性整流单元(ReLU)来减少连续梯度损失,用 Dropout 技术避免陷入局部最小,以及通过有效模型平均技术来增强泛化能力...具体而言,Dropout 实现了一个概率为 p(有偏 0-1 抽签法)伯努利随机变量,在每一轮更新时网络架构随机删除隐藏单元及其连接,从而产生一个稀疏网络架构——其中剩余权重被更新并保留到下一个...SDR 用一个均值为µ_w_ij、标准差为 σ_w_ij 随机变量将网络权值参数化。这些随机变量在每一次前馈激活通过采样得到,从而建立指数级数量共享权潜在网络。...图 4:表示采用 SDR DenseNet-100 第 21 层第 1 块权重频率直方图,其中每个切片都是来自训练一个 epoch snapshot,而最上面的切片是来自第一个 epoch...因此,每个权重梯度本身也是基于隐藏单元预测性能随机变量,它让系统能够:(1)在相同例程/刺激下接受多值响应假设,(2)保留一个预测历史,与 Dropout 不同,Dropout 是局部隐藏单元权重

34620

概率扩散模型讲义 (Probabilistic Diffusion Models)

关于正向扩散过程最后一点是我们不需要训练一个机器学习模型来做这些。我们简单地机械地遵循等式(3)来变换来自数据分布pdata样本x0,直到我们获得(近似地)来自更简单pprior变换样本xT。...人们可能会问我们从中获得了什么。在下一小节,当我们颠倒这个过程时,这一点将有望变得清楚:样本 开始,我们将逐渐改变它,直到我们获得一个(大约)来自pcomplexx0。...简写Ex∼q表示期望是使用来自qx计算。KL散度始终为正,但在交换p和q时不对称是其较不理想数学性质之一。图5给出了一个使用两个高斯分布示例,其中KL散度是红色曲线下面积。...我们很快就会讨论如何使用它来生成(大约) pcomplex 采样新样本,首先我们将总结迄今为止所发现内容。...2.3.5 扩散过程和模型训练损失总结 在下一节,我们将考虑如何有效地优化关于θ损失,首先让我们总结一下我们目前情况和我们是如何到达这里: - 预先确定和固定扩散模型 开始,我们逐渐将数据点

30810

Theano 中文文档 0.9 - 7.2.2 更多示例

此外,Theano对分配变量位置和方式有更多控制,这是在GPU上获得良好性能重要因素之一。 可能会发生这种情况,你使用共享变量表达了某个公式,你不想使用它。...在实践,考虑givens一个好方法是允许你用一个不同表达式替换你公式任何部分,这个表达式计算结果是一个相同形状和dtype张量。...现在让我们使用这些对象。随机数发生器内部状态是自动更新,所以我们每次都得到不同随机数。...每当RandomStreams对象绘制随机变量时,就会将元组添加到state_updates列表。第一个元素是一个共享变量,它表示与此特定变量??...每当RandomStreams对象绘制随机变量时,就会将元组添加到state_updates列表。第一个元素是一个共享变量,它表示与此特定变量??

90320

UCB Data100:数据科学原理和技巧:第十六章到第十八章

18.1 常见随机变量 有几种经常出现并且具有有用特性随机变量情况。以下是我们将在本课程中进一步探讨情况。括号数字是随机变量参数,这些参数是常数。参数定义了随机变量形状(即分布)和其。...所有的情景都有相同期望方差不同。...在抽样时,我们做出(很大)假设,即我们总体均匀随机地进行有放回抽样;我们样本每个观察都是我们总体分布独立同分布地随机抽取随机变量。...重要是,中心极限定理假设我们样本每个观察都是总体分布抽取 i.i.d。此外,中心极限定理仅在 n “大”时才准确,什么样“大”样本量取决于特定分布。...估计量自助法抽样分布并不完全匹配该估计量抽样分布,通常是接近。同样,自助法分布方差通常接近于估计量真实方差。下面的示例显示了使用样本大小 n=50 已知总体进行不同自助法结果。

22310

迷你规模Metropolis-Hastings

这些方法涉及对典型SGD更新微小变化,这些更新概率分布产生样本,该概率分布近似于贝叶斯模型后验p(θ|x)。...这些方法将SGD转换成MCMC方法,因此需要Metropolis-Hastings(MH)测试来获得准确结果,这便是这篇博文主题。...• p(θ ′)越高,我们接受它可能性越大。 为了更直观地了解测试工作原理,我们Jupyter笔记本创建了下图,显示了样本进展情况,以近似于目标后验。...处理这个问题简单方法是应用相同测试,但是改用一个b元素小规模数集 : 图片.png 不幸是,这不会正确目标分布抽样; 参见Bardenet等人第6.1节。(2017年)了解细节。...后面的内容与Jupyter笔记本前一个例子类似,只是生成了一百万个数据点。左边是我们结果,另外两个来自Korattikara等人。(2014)和Bardenet等人 (2014年)。

92270

30分钟理解决策树基本原理

决策树模型先验形式可以表述成如下: ? 其中q[x]是特征空间映射到节点编号空间函数。决策树模型关键是将特征空间划分成不相交子区域,落在相同子区域样本具有相同预测。...为了确定一棵决策树完备结构,要明确如下两个方面:一是如何划分子区域,二是子区域预测取多少。 2,目标函数 目标函数即我们用什么标准来评价一个模型好坏。...目标函数决定了我们假设空间中选择模型偏好。 ? 决策树目标函数可以用来评价一棵决策树好坏。这个目标函数应当包括两个方面的内容。...由于决策树同一叶子节点上所有样本都取相同预测,如果这些样本真实 label 只有一种取值,那么这个叶子节点上样本是非常“纯净”,我们可以直接指定预测为这个叶子节点上 label 取值,...反之,如果叶子节点上不同样本 label 取值很杂乱,所谓众口难调,那么无论我们如何指定叶子节点上预测,总会有较大预测误差。 那么,如何来衡量不纯度呢?

1.4K11

AlphaGo Zero用它来调参?【高斯过程】到底有何过人之处?

机器学习大多数现代技术都倾向于通过参数化函数,然后对这些参数(例如线性回归中权重)进行建模来避免这种情况。 然而,GP是直接对函数建模非参模型。...这些绝对看起来像多个函数,相对于我们目的,它们看起来噪声太大所以不可用。让我们进一步考虑可以从这些样本得到什么,以及如何改变分布从而获得更好样本…… 多元高斯有两个参数,即均值和协方差矩阵。...就我们模型而言,对用于相邻点随机变量在它们联合分布(即高斯协方差)下采样时应该具有相似的这些协方差被定义为高斯协方差矩阵。...现在就可以用这两个参数条件概率分布采样了。我们将它们与真实函数(虚线)画在一起对比。因为我们用是高斯过程,它包含有不确定性信息,这种不确定性信息以随机变量方差形式表示出来。...事实上,任何用到核函数,我们都可以通过改变核得到一个完全不一样函数(例如,周期函数)。 核选择需要人工进行,参数可以通过最小化损失函数来自动优化。这就是高斯过程回归内容。

76530

数据分析师必看5大概率分布

在概率论和统计学随机变量是一个随机东西,比如“看到下一个人身高”。给定一个随机变量X,我们想要一种描述它方法。更重要是,我们想要描述该变量获取特定x可能性。...连续随机变量 如果你说X =“头上随机拔毛长度(以毫米为单位)”X可以采用哪些可能?我们可能都认为负值在这里没有任何意义。...注意两个概率如何加起来为1,因此B不可能会是其他。 统一概率分布有两种均匀随机变量:离散变量和连续变量。...在骰子可以找到离散均匀随机变量典型情况,其中典型骰子具有一组{1,2,3,4,5,6}。连续均匀分布,只取两个a和b作为参数,并为它们之间间隔每个分配相同密度。...数据科学指数概率分布这是指数分布随机变量密度函数: 假设您有一个来自变量样本,并希望查看它是否可以使用指数分布变量建模。 最佳λ参数可以很容易地估计为采样平均值倒数。

78220

学界 | Hinton提出经典防过拟合方法Dropout,只是SDR特例

方案在避免神经网络过拟合上非常有效,而本文则提出,Dropout 按概率删除神经元原则只是二项随机变量特例。...深度学习(Hinton et al,2006)引入了一些创新技术来减少、控制这些过拟合和过度参数化问题,包括用线性整流单元(ReLU)来减少连续梯度损失,用 Dropout 技术避免陷入局部最小,以及通过有效模型平均技术来增强泛化能力...具体而言,Dropout 实现了一个概率为 p(有偏 0-1 抽签法)伯努利随机变量,在每一轮更新时网络架构随机删除隐藏单元及其连接,从而产生一个稀疏网络架构——其中剩余权重被更新并保留到下一个...SDR 用一个均值为µ_w_ij、标准差为 σ_w_ij 随机变量将网络权值参数化。这些随机变量在每一次前馈激活通过采样得到,从而建立指数级数量共享权潜在网络。...因此,每个权重梯度本身也是基于隐藏单元预测性能随机变量,它让系统能够:(1)在相同例程/刺激下接受多值响应假设,(2)保留一个预测历史,与 Dropout 不同,Dropout 是局部隐藏单元权重

57640

关于深度学习你必须知道几个信息理论概念

信息论是一个重要领域,它对深度学习和人工智能作出了重大贡献,很多人对它却并不了解。信息论可以看作是微积分、概率论和统计学这些深度学习基本组成部分复杂融合。...抛掷一枚无偏硬币实验比抛掷有偏硬币具有更多熵 另一种观察熵方法是我们观察随机实验结果时获得平均信息。将实验结果获得信息定义为该结果发生概率函数。结果越罕见,观察获得信息就越多。...交叉熵 交叉熵用于比较两个概率分布。它告诉我们两个分布有多相似。 数学定义 在相同结果集上定义两个概率分布p和q之间交叉熵由下式给出: ? 应用 ?...相关性仅表现线性依赖性而忽略非线性依赖性,交互信息不会。零交互独立性保证随机变量是独立零相关不是。 在贝叶斯网络,交互信息用于学习随机变量之间关系结构,并定义这些关系强度。...注意:随机变量和AI,机器学习,深度学习,数据科学等专业术语已被广泛使用,但在不同领域中会有不同物理含义。

39150

是的,股价不遵循随机游走!

在模型异方差版本,随机波动是具有随机性σ_0^2高斯分布取样, ? 这基本上是具有随机波动性几何布朗运动,但是,我们想强调是,这与Heston模型不同。这是一种简化。...该观测是方差比检验核心。 方差比属性和统计 因为在不同采样区间内对σ_0^2估计应收敛到相同真值,因此我们可以定义两个检验统计数据,它们在模型下期望为零。这些统计数据成为方差比率。...这样做是为了避免任何小盘股数据相关问题,应该注意是,无论你是否遵循此步骤,得出结论都是相同。 估计对数价格过程μ和σ_0^2。 使用μ和σ_0^2,X_sim模拟一个对数价格过程。...标普500当前成分获得结果 下一组结果是目前标准普尔500指数500只股票484只过去十年价格。一些股票被删除,因为雅虎金融上没有可获得数据,以及其他被删除是由于与数据相关问题。...对于这两个观测提出了以下两个未经检验假设: 1、股票市场指数自相关通常为正,而个别股票自相关通常为负。这也许可以解释z^*-分数分布偏差。

2K21
领券