前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >随机过程(3)——无限状态的平稳测度,返回时间,访问频率:几个定理的证明

随机过程(3)——无限状态的平稳测度,返回时间,访问频率:几个定理的证明

作者头像
学弱猹
发布2021-08-10 11:31:32
1.7K0
发布2021-08-10 11:31:32
举报

上一节笔记:随机过程(2)——极限状态的平稳分布与周期(上),一些特殊的马尔科夫链

———————————————————————————————————

大家好!

这一节,我们会将上一节没有介绍的几个大定理介绍一大部分。其中会引入无限状态马尔科夫链(只是简单引入,至少这一篇的大部分还是有限状态马尔科夫链,除非额外说明),以及返回时间,访问频率等内容的讨论。

另外公众号为了测流,会适当的添加一些文中广告,希望大家谅解。

那么我们开始吧。

目录

  • 转移概率的收敛定理
  • 从有限到无限:平稳测度
  • 返回时间与访问频率的讨论

转移概率的收敛定理

我们在上一节介绍了平稳分布与对转移概率极限状态下的讨论。在那样的语境下我们引出了周期的概念。不过在这一节,我们主要关注反而不是周期性的情况,而是一些非周期的情况。在这些情况下,才能够得出之后会被广泛运用的,转移概率的收敛定理

Definition 1: Aperiodic 如果马尔科夫链的每个状态的周期都是1,那么称这一条马尔科夫链是非周期的。

比方说我们在证明上一节的Theorem 1的时候,使用到了一个叫懒惰链的概念,懒惰链就是一个典型的非周期链。

那么现在我们来看一下,有了非周期的额外条件后,能得到什么有趣的结论。

Theorem 1: Convergence 设马尔科夫链是非周期的,不可约的,并且假设存在平稳分布

\pi

,那么有

\lim_{n \to \infty} p^n (x, y) = \pi_y

当然我们要强调的是,在这里,马尔科夫链是有限状态的。这也是我们一直在讨论的主体,提一下只是怕读者忘了。

一条随机过程不可约,其实也就是状态相互之间都是互达的。非周期的话,其实可以推出所有状态都是常返的(想想为什么?)。如果对这些名词感到陌生,请参考上一节。

这个定理的证明是极具挑战性的,如果读者无法读明白但又不需要了解这部分细节,可以跳过。

首先我们要注意到的是,要说明这个极限成立,其实潜在的意思就是,说明

\| p^n (x, y) - \pi_y \| \to 0, n \to \infty

那么进一步推断,其实就是,针对两条马尔科夫链

\{X_n\}

\{Y_n\}

,假设它们都有相同的转移概率矩阵,只是差别在

X_0 =x

Y_0

为平稳分布

\pi_y

,那么实际上,我们在关心的问题,就是

|P(X_n = y) - P(Y_n = y)| \to 0 , n \to \infty

这是因为

p^n(x, y)

是研究经过

n

步状态转移之后,从

x

出发到达

y

的转移概率,而

P(Y_n = y)

就是在一开始就满足

Y_0 = y

的情况下,经过

n

步又返回到

y

的概率,那么很自然的这就是

\pi_y

那么对于这个式子,我们的一个设计思路是,考虑一个二者同分布的阶段,也就是说设

T = \min\{n: X_n = Y_n\}

这是因为两条马尔科夫链的转移概率是相同的,所以到达

T

这个时间之后,如果

X_n = Y_n

,那么之后其实这两个随机变量就同分布了。换句话说,在这之后,其实从随机变量的意义上来说,有点像求极限中,两个值的差距已经可以“要多小有多小”了。在这个证明中,我们也希望借用这个思想,所以我们希望研究的是

|P(X_n = y, n >T) + P(X_n = y, n \le T) -P(Y_n = y, n > T) - P(Y_n = y, n \le T)|

不难看出,这个式子和上面其实是相同的,只是我们把概率关于

n

拆成了两个部分来考虑。

有了这个式子,我们自然可以联想到把上面的式子拆成两个部分,一个是

|P(X_n = y, n \le T) - P(Y_n = y, n\le T)|

,另外一个部分是

|P(X_n = y, n > T) - P(Y_n = y, n > T)|

。第一个部分,注意到根据三角不等式,我们有

|P(X_n = y, n \le T) - P(Y_n = y, n\le T)| \le 2P(n \le T)

这一部分如果要说明是趋于0的,就需要研究

T

的性质。另外一部分如果要说明趋于0,其实也不太显然。但反过来说,如果这两个性质我们都说明白了,其实这个定理也就证明完成了。

Step 1: 证明

|P(X_n = y, n \le T) - P(Y_n = y, n\le T)| \to 0

,

n \to \infty

注意到我们可以设

V_{(x, x)} = \min\{n \ge 0, X_n = Y_n = x\}

这个相当于是说寻找第一次两个随机变量相遇的时间。很明显,如果这个是有限的,那么

T

就肯定是有限的,有限的值碰上无限的

n

,就能说明

P(n \le T) \to 0

但这个地方其实有一个麻烦,在于我们只知道这两条马尔科夫链单独的非周期性,但是它们俩“相遇”这个情况,仅靠这两条马尔科夫链单独的性质肯定是不足够来研究的。因此我们需要创造一些额外的工具

这种方法一般来说叫作组合(coupling),简单来说就是把它们俩看作一个多元的随机变量,并研究这个多元的随机变量所形成的随机过程的性质。那么在这里,事实上我们就是在研究

\{(X_n, Y_n)\}

的性质。同时为了构造的方便,我们假定它们俩是独立的。这个假设并不无厘头,因为从一开始我们的

\{X_n\}, \{Y_n\}

就是人工构造出来的,多加几个条件无妨。

人工造出了一条新的随机过程,那么自然我们要研究一下它的转移矩阵,以

\bar p

表示。不难得到的是

\bar p((x_1, y_1), (x_2, y_2)) = \frac{P(X_{n + 1} = x_2, Y_{n + 1} = y_2, X_n = x_1, Y_n = y_1)}{P(X_n = x_1, Y_n = y_1)}
=p(x_1,x_2)p(y_1, y_2)

这个推导成立要归功于我们之前假设的独立性。这个结论也说明了组合后的随机过程也是一条马尔科夫链。

有了这个之后,我们可以得到一个平稳分布的性质,这个我们同样留给读者。

Lemma 1: 在

\bar p

按照上述构造的情况下,组合的马尔科夫链的平稳分布

\bar \pi

满足

\bar \pi(x, y) = \pi(x) \pi(y)

按照平稳分布的定义来就可以证明。

接下来,我们来看一下这个马尔科夫链的不可约性与常反性。首先根据

p

是不可约的,就可以得到

\exists n_1, p^{n_1}(x_1, x_2) > 0
\exists n_2, p^{n_2}(y_1, y_2) > 0

根据非周期,又可以得到

\exists n_0, \forall n \ge n_0, p^n(x_2, x_2) > 0, p^n(y_2, y_2) > 0

这是我们在上一节的Proposition 1推导出的结论。

有了这几个式子,我们回头看如何说明

\bar p

的不可约性和常返性。因为我们之前推出它和

p(x_1, x_2)

p(y_1, y_2)

的一个关系,所以如果我们能够找到一个时间点

M

,满足

p^M(x_1, x_2)>0

p^M(y_1, y_2) > 0

,结合我们这里的两个点

(x_1, y_1)

(x_2, y_2)

的任意性,就能说明

\bar p

的一个不可约性(任意两点之间可以互达)。

这个

M

的取法是非常容易的,取

M = n_1 +n_2 + n_0

,那么很明显就会有

p^M(x_1, x_2) \ge p^{n_1}(x_1, x_2) p^{n_0 + n_2}(x_2, x_2) > 0

类似可以推出

p^M(y_1, y_2)> 0

,所以

\bar p

的不可约性也就说明好了。

接下来看一看

\bar p

的常返性。我们先说不可约性的原因是,证明常返性需要用它。

Lemma 2: 如果平稳分布存在,那么满足

\pi_y > 0

的状态都是常返的。

这个证明也比较有技巧性。

要说明状态常返,最好的工具就是

E_x(N(y))

,我们第一节的Proposition 3说过

E_x(N(y)) = \rho_{xy} \sum_{k = 1}^\infty \rho_{yy}^{k -1}

。但事实上可以进一步把它写成

E_x(N(y)) = \frac{\rho_{xy}}{1 - \rho_{yy}}

这只是一个等比数列求和。

如果

\rho_{yy} = 1

,也就是说

y

是常返的,我们就认为

E_x(N(y)) = \infty

这与我们目前的逻辑,认知都是自洽的。那么有了这个之后,我们希望观察

\sum_{x \in S}\pi_x E_x(N(y))

这里的

S

就是状态空间,之后我们可能会省略这个标识,尤其是在对无限状态马尔科夫链的讨论中

直观来说,如果可以推出这个式子为

\infty

,一定可以推出

\rho_{yy}= 1

,也就是我们的结论。因为如果

\rho_{yy} < 1

,在有限状态的情况下,相当于几个有限的数的和,那不可能是无穷大。无限状态呢?其实可以考虑代入,然后利用

\sum_{x \in S} \pi_x \rho_{xy} \le 1

就可以。

所以我们的目标,就是证明这个式子为

\infty

。怎么说明呢?很简单,

E_x(N(y))

的另外一个表达式套进去就可以了,这也不是第一次用这个技巧了。注意到

E_x(N(y)) = \sum_{n = 1}^\infty p^n(x, y)

(上一节的Lemma 1-1)所以我们有

\sum_{x \in S}\pi_x E_x(N(y)) = \sum_{x \in S}\pi_x \sum_{n = 1}^\infty p^n(x, y) = \sum_{n = 1}^\infty \sum_{x \in S}\pi_x p^n(x, y) = \sum_{n = 1}^\infty \pi_y = \infty

而这就是利用了我们上面的条件

\pi_y > 0

得到的。因此这个引理也就证明完了。

事实上,Lemma 2说完之后,

\bar p

的常返性就好说明了。因为

p

是不可约的,又是有限状态,所以一定每一个状态都是常返的。另一方面,如果

\pi(x_0) > 0

,又有

\exists x_0, \bar \pi(x_0, x_0) > 0

那么使用上面的结论,就可以得到

(x_0, x_0)

就是一个常返状态。也就是说

\bar p

也是常返的。这样的话,其实相当于

V_{(x, x)} = \min\{n \ge 0: X_n = Y_n = x\} < \infty, \forall x

那么自然地就可以得出

T \le V_{(x, x)} < \infty

。到此为止,我们算是比较好的完成了step 1。这个推导是最保险的,因为我们并不知道

(X_n , Y_n)

相等的时候是为多少。有的人可能会觉得只要存在一个常返状态

x_0

,再假设

X_0, Y_0

是从某个状态

(y, w)

出发,那么因为它到达

(x_0, x_0)

需要有限步(由

\bar p

的不可约性),所以也可以说明

V_{(x_0, x_0)} < \infty

。但这样的话存在一个问题就是没有办法说明

V_{(x_0, x_0)}

一定是最小的那一个,所以与全文的证明逻辑是不自洽的。如果你跟上了,你一定明白我在说什么。

接下来,我们来说明这个定理证明的step 2。

Step 2: 证明

|P(X_n = y, n > T) - P(Y_n = y, n> T)| \to 0

n \to \infty

事实上,这个式子我们可以直接给它“证明到底”。我们可以直接说明

P(X_n = y, n > T) - P(Y_n = y, n> T) = 0

这一步证明就是一个纯计算了。注意到

P(X_n = y, n >T) = \sum_{m = 0}^{n - 1} P(X_n = y, T = m) = \sum_{m = 0}^{n - 1} \sum_{x \in S}P(X_n = y |X_m = x)

最后一步使用的就是

T

的定义,独立性和马尔科夫性,读者可以想想为什么涉及到这么多性质。

有了这个之后其实就有趣了。原因在于在

n >T

的情况下,

X_n, Y_n

的性质完全相同,因为相当于立足于同一个状态开始,同时具备相同的转移概率矩阵。在这种情况下,我们可以直接得出

\sum_{m = 0}^{n - 1} \sum_{x \in S}P(X_n = y |X_m = x) = \sum_{m = 0}^{n - 1} \sum_{x \in S}P(Y_n = y |Y_m = x)

我们只是换了一个标记而已。

然后,把上面根据

X_n

推导的内容再“倒回去”,就可以得到

\sum_{m = 0}^{n - 1} \sum_{x \in S}P(Y_n = y |Y_m = x) = P(Y_n = y, n >T)

这就证明完毕了。不得不说,很有技巧。

我们也容易发现的是,独立性,马尔科夫性和

T

的性质有一个用不上,都没有办法把这个式子倒回去推,因为这个等价性并不是那么容易满足的。

可以看出,仅仅是这一个定理,就占用了本节近一半的篇幅。所以我们称呼它为一个“大定理”,应该没有人会反对吧?不过还需要提醒大家的是,它的证明过程充满了各种各样的思想和技巧,初学者阅读并不一定能够很快跟上。但如果阅读完并且理解了它背后的设计原理,相信你也会对这个定理的证明有所感想。

从有限到无限:平稳测度

在这一部分,其实我们有更加重要但又有些复杂的结论。并且我们从这里开始,我们可以开始讨论无限状态的马尔科夫链了(但还是依然要求它是可数的)。在这些条件放宽之后,我们会有一些更加通用的结论,当然它们的证明难度也同样不小。

首先为了从有限状态过渡到无限状态,我们先介绍平稳测度(stationary measure)的概念。

Definition 2: Stationary Measure 如果对于一个测度

\mu(x) \ge 0

而言,如果满足

\sum_x \mu(x)p(x, y) = \mu (y)

,那么称这个测度为一个平稳测度。

测度是实分析里的写法,但这里和实分析的内容关系不大,简单把它理解为映射就可以了。

这个式子的写法其实和平稳分布的定义,在状态有限的情况下是等价的,毕竟这其实就是一个矩阵乘法。但是要注意的是,如果是状态无限的情况下,就不存在“矩阵”这一说,所以我们把它的定义写成了这种形式。这种从有限推广到无限的思想多见于泛函分析。

当然,状态有限的话,我们一定可以做标准化,使得它们的和为1。但是如果状态无限,就不一定能够做标准化了。这个时候,如果能够做标准化,我们还会叫它平稳分布。如果不能,就是一种具备全新性质的马尔科夫链,我们会到之后介绍它。当然了,这里落实到了无限的情况,所以事实上,上面的Theorem 1还可以做一些拓展,变成下面这样。

Theorem 1-2: Convergence 设马尔科夫链是非周期的,不可约的,状态有限或无限,但要求存在平稳分布

\pi

,那么有

\lim_{n \to \infty} p^n (x, y) = \pi_y

证明不需要做任何改变,因为没有任何一个地方依赖到“有限状态”这一个性质。

那么对于平稳测度,我们自然会有一个和平稳分布类似的结论。

Theorem 2: 设马尔科夫链不可约且常返,那么存在平稳测度满足

\mu(x) > 0, \forall x

这个定理也是一个名副其实的大定理。有一个关键的地方在于,由于我们这里的状态不一定有限,之前的线性代数方法自然是失效了,所以我们要考虑新的解决方案。这个方案其实也不算是一个很容易理解的方案,我们一步一步来看。

这个测度其实是构造性的,考虑构造

\mu_x (y) = \sum_{n = 0}^\infty P_x(X_n = y, T_x > n), \forall y

这个构造是什么意思?考虑固定

n

,字面翻译,就是说,从某一个

x

出发,在第一次返回

x

的时间是

>n

的时候,在第

n

步到达

y

的概率。那么对

n

求和会得到什么?概率的和一般来说就是期望,所以其实就是在一个循环内访问

y

的次数。Theorem 1告诉我们,平稳分布的值和转移概率有密切的联系,而根据“频率趋近于概率”的说法,我们也有理由相信,这么一个构造会符合我们的认知。

如何证明这个测度是满足要求的呢?总体来说,要说明条件等式成立,还要说明它们有限,且为正。所以我们一步一步来看。

Step 1: 证明

\sum_z \mu_x(z)p(z, y) = \mu_x(y)

这里的

x, y, z

都是任意给定的。

注意到

\sum_z \mu_x(z)p(z, y) = \sum_z \sum_{n = 0}^\infty P_x(X_n = z, T_x >n) p(z, y)
=\sum_{n = 0}^\infty \sum_z P_x(X_n = z, T_x >n) p(z, y)
=\sum_{n = 0}^\infty \sum_{z \ne x} P_x(X_n = z, X_1 \ne x, \cdots, X_n \ne x) P_x(X_{n + 1} = y |X_n = z, X_1, \cdots, X_n \ne x)
=\sum_{n = 0}^\infty P_x(X_{n + 1} = y, T_x >n)

这一串用到了一个交换顺序,其它的都是纯计算和代入

T_x

的定义等。但是要注意的是,第三行其实用到了马尔科夫性的技巧,也就是说

X_{n - 1}

及之前的信息都是无关的,因此可以作为条件加上,这样的话就可以凑成一个完整的全概率公式。读者可以利用这个来看看如何从第三行推导到第四行的结果。

这个结果还算是一个比较容易理解的结果,固定

n

,它表示的就是

x

出发,前

n

步都没有到达

x

,但最后一步到达了

y

的概率。所以很明显,区分

x = y

x \ne y

很有必要, 因为会导致不同的含义。

如果

y = x

,那么一方面,我们有

\sum_{n = 0}^\infty P_x(X_{n + 1} = y, T_x >n) = \sum_{n = 0}^\infty P_x(T_x = n + 1) = P_x(T_x < \infty) = 1

因为这个求和相当于讨论了

T_x

,也就是回到

x

的时间从1到无穷的所有的可能情况的概率和。根据常返,

P_x(T_x = \infty) = 0

另一方面,我们又有

\mu_x(y) = \sum_{n = 0}^\infty P_x(X_n = y, T_x >n) = 1

这是因为,如果

n = 0

,那么在

y = x

的情况下,相当于从

x

出发,一开始就返回

x

的概率,那当然是1。但是

n \ge 1

的时候,不可能一方面,第

n

步返回了

x

,另一方面又出现“第一次返回

x

在第

n

步之后”的情况,这是自相矛盾的,所以概率为0。求和自然就是1,也就是说在这个时候,两个式子确实是相同的。

如果

y \ne x

,那么一方面,我们有

\sum_{n = 0}^\infty P_x(X_{n + 1} = y, T_x >n) = \sum_{n = 0}^\infty P_x(X_{n + 1} = y, T_x > n + 1)
=\sum_{n = 1}^\infty P_x(X_n = y, T_x >n)

也就是说,通过一个简单的下标转换,我们就把它变成了

\mu_x(y)

的一部分。而另一方面,又有

P_x(X_0 = y, T_x > 0) = 0

(想想为什么?),所以在这个情况下,两个式子也是相等的。

到此,其实我们的证明的step 1就算完成了

Step 2: 证明

\mu_x(y)

是有限的。

首先由于马尔科夫链是常返的,因此不难得到

\mu_x(x) = 1

,那么考察其它的

\mu_x(z), z \ne x

,我们可以利用step 1的结论,考虑

\sum_z \mu_x (z) p(z, x) = \mu_x (x), \forall z

如果

p(z, x) \ne 0

,对应的

\mu_x(z)

就一定是有限的,所以没什么好说的。但如果

p(z, x) = 0

,那么问题也不大,因为根据不可约性,

\exists n, p^n(z, x) > 0

,而另一方面,我们有

\sum_z \mu_x(z) p^n(z,x ) = \mu_x (x)

(一个好的理解思路是把它近似看作有限状态的矩阵形式

\pi P = \pi

,那么很明显,

\pi P^n = \pi, \forall n

)所以也可以得到

\mu_x(z)

是有限的。

Step 3: 证明

\mu_x(y)

都是正的。

这个就更简单了,利用不可约性,

\exists n_2, p^{n_2}(x, y) > 0

,所以我们有

\mu_x(y) = \sum_z \mu_x(z) p^{n_2}(z, y) \ge \mu_x(x) p^{n_2}(x, y) >0

这就可以得到结论成立了。

我们还想对

\mu_x(y)

这一个测度的性质做进一步的延伸,观察它与之前所介绍的平稳分布,究竟性质的差别有多少。这些都会让我们对这些性质有更好的理解。

Lemma 1: 证明

\sum_{y} \mu_x (y) = E_x(T_x)

左边的式子,可以理解为“从

x

出发,第一次回到

x

之前,访问所有状态

y

的概率和”,而右边的式子就是“从

x

出发,第一次回到

x

的时间的期望”。时间和次数看似没什么关系,但在这里是等价的。比方说从

x

出发,第5次回到了

x

,那么之前的4次,其实就是在访问各种其它的状态,也就是

y, z

等。

简单推导一下,我们会有

\mu_x (y) = \sum_{n = 0}^\infty P_x(X_n = y, T_x >n) = \sum_{n = 0}^\infty E_x (I(X_n = y, T_x > n))
= E_x (\sum_{n = 0}^\infty I(X_n = y, T_x >n)) = E_x (\sum_{n = 0}^{T_x - 1}I(X_n = y))

这也就是我们前面所想表达的意思。这里同样用到了一个交换顺序,运用的也是实分析中的富比尼定理。

有了这个之后,就能够推出

\sum_y \mu_x(y) = \sum_y E_x (\sum_{n = 0}^{T_x - 1} I(X_n = y)) = E_x \sum_{n = 0}^{T_x - 1} \sum_y I(X_n = y) = E_x(T_x)

这是因为

\sum_y I(X_n = y) = 1

,所以这个结论也就证明完了。

Lemma 1的一个重要的引申是,我们可以根据

E_x (T_x)

来判断平稳分布是否存在。因为可以看出,所谓的“标准化”,其实就是每一个元素都除以一个

\sum_y \mu_x(y)

。那么如果

E_x(T_x) = \infty

,那么它就不存在,否则就是存在。

一个有趣的事实是,

E_x(T_x) = \infty

并不代表状态是瞬时状态,这和有限状态的马尔科夫链的结论是南辕北辙的。但在具体介绍无限状态马尔科夫链的时候,大家就能明白为什么。

另外,我们的证明过程,推出了这么一个结论。

\mu_x (y) = E_x (\sum_{n = 0}^{T_x - 1}I(X_n = y))

所以事实上,

\mu_x(y)

我们称它为“一个循环内访问

y

的次数”,是有理论保障的。而在这里,这个时间区间其实就是

[0, T_x - 1]

运用这个结论,其实可以更好的解释Theorem 2中,step 1的证明思路

\sum_z \mu_x(z) p(z, y)

其实就是相当于从

x

出发,经过一步状态转移之后的结果,相当于时间“往后推了一步”。因此,可以把它理解为“

[1, T_x]

的时间区间内,访问

y

的次数”。那么事实上,两个都相当于在时间区间

[1, T_x -1]

下访问了

y

的次数,因为一个是在

T_x

这个时刻访问

x

,一个是在

0

时刻访问

x

,这两个情况是固定的,都会计入一次访问次数。而在

[1, T_x - 1]

的区间内的访问

y

的次数,是二者公共的部分,那自然肯定是相同的。

如果你第一遍阅读,推导,理解了step 1中间证明的细节,但却有隔靴搔痒之感,那么代入这个思路再来看这些证明,就会有拔云见雾的感觉。核心,其实就是一句话的事情。

返回时间与访问频率的讨论

事实上,关于马尔科夫链中,与访问时间,访问频率等的性质相关的内容,我们的讨论还没有结束。在这一部分,我们还会再介绍两个与此相关的定理,剩下的内容,就放到下一节说了。

第一个定理一般会叫作渐近频率定理(asymptotic frequency theorem)。

Theorem 3: Asymptotic Frequency 如果一条马尔科夫链是不可约且常返的,设

N_n(y)

表示到时间

n

的时候,访问

y

的次数,并假设从

x

出发,那么有

\frac{N_n(y)}{n} \overset{n \to \infty}\rightarrow \frac 1 {E_y (T_y)} \quad a.s.

这里的

a.s.

almost surely的意思,也是高等概率论的概念。简单来说,这个结论不成立的概率为0(但不代表不会发生)。对于应用层面来说,可以不用管它。

证明之前,先看看这个定理想告诉我们什么。左边的式子就是在

n

之前,访问的次数和经过的时间的比值。而右边则是第一次返回

y

的时间的倒数。这个就可以类比概率论中“频率趋近于概率”的意思。比方说100000次中,有1000次返回了

y

(对应左边),那么自然可以理解为,首次返回

y

大概会经过100次(对应右边),当然这需要

n

很大了。

既然我们希望关心

E_y (T_y)

,自然会有个构造的想法,就是构造出一条随机过程,但是让它一直停留在

y

,并记录它停留的时间。下图可以描述我们的想法。

也就是说我们的间隔时间会写成

t_1, t_2, \cdots

,那么根据马尔科夫性,经过的时间

t_i

相互独立的(否则的话,根据第1节的说法,我们没办法认为,从一个新的点出发,就是一条“全新”的马尔科夫链),同时除了

t_1

(因为

t_1

是从

x

出发的),其它的时间都是同分布的

有了这个条件,我们设

R(k) = t_1 + \cdots + t_k

那么容易看到,根据强大数定律(这也是高等概率论中的概念。对于初学者来说,可以简单理解为大数定律),我们有

\frac{R(k)}{k} \to E_y (T_y), k \to \infty

这是因为除了

t_1

,都是同分布的,而且它们都满足

E(t_i) = E_y(T_y)

(因为都是从

y

出发的随机过程,性质完全相同),一个

t_1

并不会造成极限状态的影响(否则就不常返了)。换言之,如果我们能说明另外一个式子的极限是

\frac{R(k)}{k}

的倒数,也就自然可以说明结论成立。

一个不难察觉的结论是

R(N_n(y)) \le n < R(N_n(y) + 1)

所以我们会有

\frac{N_n(y)}{R(N_n(y) + 1)} \le \frac{N_n(y)} n \le \frac{N_n(y)}{R(N_n(y))}

另一方面注意到

\frac{N_n(y)}{R(N_n(y) + 1)} = \frac{N_n(y)}{N_n(y) + 1} \frac{N_n(y) + 1}{R(N_n(y) + 1)}

所以不等式的每一项都令

n \to \infty

,再利用夹逼定理,就可以说明极限是

E_y (T_y)

了。

所以我们一开始说类比“频率趋近于概率”也不是胡扯,而是因为我们的证明真的需要依赖到强大数定律。当然这里的证明,这一条马尔科夫链只是一个工具,我们所要用的只是中间涉及到的

t_i

这些与时间相关的随机变量而已。

下面一个定理一般会称为平均返回时间定理(mean return time theorem)。

Theorem 4: Mean Return Time 设马尔科夫链不可约,且存在平稳分布

\pi

,那么我们有

\pi_y = \frac{1}{E_y (T_y)}

有了Theorem 3,这个说明起来就容易很多。首先我们假设存在一个初始状态为

\pi

的一条马尔科夫链,那么我们希望研究的就是

E_\pi \frac{N_n (y)}{n}

这下,真的是“频率趋近于概率”的思想了。

注意到

E_\pi \frac{N_n(y)}{n} = \frac{\sum_{k = 0}^n P_\pi(X_k = y)}{n} = \frac{\sum_{k = 0}^n \pi(y)}{n} \to \pi(y) (n \to\infty)

(第一步到第二步中间跳了一步,留给读者思考)所以剩下的部分就是看它与

E_y(T_y)

的关系了。

另一方面,注意到

\lim_{n \to \infty} E_\pi \frac{N_n (y)}{n} = E_\pi \lim_{n \to \infty} \frac{N_n(y)}{n} = \frac 1 {E_y (T_y)}

这是利用到了Theorem 3,所以这个部分也就说明好了。

这个地方用到了一个期望与极限交换顺序,用到的就是实分析中的控制收敛定理(dominate convergence theorem),具体可以查看这一篇文章。

https://zhuanlan.zhihu.com/p/36921064

当然对于不希望了解证明细节的人来说,不懂问题也不大。

这个定理事实上也告诉我们,只要平稳分布是存在的,那么就一定是唯一的。毕竟表达式都告诉你了。

好的,剩下的内容,我们到下一节再说。

小结

本节内容是对马尔科夫链相关大定理的详细证明与原理解释,包括转移概率的收敛性,平稳测度,返回时间,访问频率等相关名词。这一节介绍的四个定理的细节都非常繁杂,具备很大的难度,但它们却是支撑随机过程之后对各种例子,乃至于对各种更加具体的随机过程(泊松过程,更新过程等)的讨论的基石。因此如果希望更加好的明白它们,更深入的去学习这一门统计学中的理论课,那么仔细阅读和体会其细节和思想,是非常重要的。

下一节我们会继续介绍大定理,希望可以结束掉它们。介绍完之后,应该就可以开始介绍它的应用,以及引出之后的离出分布相关的内容。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 学弱猹的精品小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目录
  • 转移概率的收敛定理
  • 从有限到无限:平稳测度
  • 返回时间与访问频率的讨论
  • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档