随机过程（3）——无限状态的平稳测度，返回时间，访问频率：几个定理的证明

学弱猹

发布于 2021-08-10 11:31:32

1.7K0

发布于 2021-08-10 11:31:32

文章被收录于专栏：学弱猹的精品小屋学弱猹的精品小屋

上一节笔记：随机过程（2）——极限状态的平稳分布与周期（上），一些特殊的马尔科夫链

———————————————————————————————————

大家好！

这一节，我们会将上一节没有介绍的几个大定理介绍一大部分。其中会引入无限状态马尔科夫链（只是简单引入，至少这一篇的大部分还是有限状态马尔科夫链，除非额外说明），以及返回时间，访问频率等内容的讨论。

另外公众号为了测流，会适当的添加一些文中广告，希望大家谅解。

那么我们开始吧。

转移概率的收敛定理

我们在上一节介绍了平稳分布与对转移概率极限状态下的讨论。在那样的语境下我们引出了周期的概念。不过在这一节，我们主要关注反而不是周期性的情况，而是一些非周期的情况。在这些情况下，才能够得出之后会被广泛运用的，转移概率的收敛定理。

Definition 1: Aperiodic 如果马尔科夫链的每个状态的周期都是1，那么称这一条马尔科夫链是非周期的。

比方说我们在证明上一节的Theorem 1的时候，使用到了一个叫懒惰链的概念，懒惰链就是一个典型的非周期链。

那么现在我们来看一下，有了非周期的额外条件后，能得到什么有趣的结论。

Theorem 1: Convergence 设马尔科夫链是非周期的，不可约的，并且假设存在平稳分布

\pi

，那么有

\lim_{n \to \infty} p^n (x, y) = \pi_y

。

当然我们要强调的是，在这里，马尔科夫链是有限状态的。这也是我们一直在讨论的主体，提一下只是怕读者忘了。

一条随机过程不可约，其实也就是状态相互之间都是互达的。非周期的话，其实可以推出所有状态都是常返的（想想为什么？）。如果对这些名词感到陌生，请参考上一节。

这个定理的证明是极具挑战性的，如果读者无法读明白但又不需要了解这部分细节，可以跳过。

首先我们要注意到的是，要说明这个极限成立，其实潜在的意思就是，说明

\| p^n (x, y) - \pi_y \| \to 0, n \to \infty

那么进一步推断，其实就是，针对两条马尔科夫链

\{X_n\}

和

\{Y_n\}

，假设它们都有相同的转移概率矩阵，只是差别在

X_0 =x

，

Y_0

为平稳分布

\pi_y

，那么实际上，我们在关心的问题，就是

|P(X_n = y) - P(Y_n = y)| \to 0 , n \to \infty

这是因为

p^n(x, y)

是研究经过

步状态转移之后，从

出发到达

的转移概率，而

P(Y_n = y)

就是在一开始就满足

Y_0 = y

的情况下，经过

步又返回到

的概率，那么很自然的这就是

\pi_y

。

那么对于这个式子，我们的一个设计思路是，考虑一个二者同分布的阶段，也就是说设

T = \min\{n: X_n = Y_n\}

这是因为两条马尔科夫链的转移概率是相同的，所以到达

这个时间之后，如果

X_n = Y_n

，那么之后其实这两个随机变量就同分布了。换句话说，在这之后，其实从随机变量的意义上来说，有点像求极限中，两个值的差距已经可以“要多小有多小”了。在这个证明中，我们也希望借用这个思想，所以我们希望研究的是

|P(X_n = y, n >T) + P(X_n = y, n \le T) -P(Y_n = y, n > T) - P(Y_n = y, n \le T)|

不难看出，这个式子和上面其实是相同的，只是我们把概率关于

拆成了两个部分来考虑。

有了这个式子，我们自然可以联想到把上面的式子拆成两个部分，一个是

|P(X_n = y, n \le T) - P(Y_n = y, n\le T)|

，另外一个部分是

|P(X_n = y, n > T) - P(Y_n = y, n > T)|

。第一个部分，注意到根据三角不等式，我们有

|P(X_n = y, n \le T) - P(Y_n = y, n\le T)| \le 2P(n \le T)

这一部分如果要说明是趋于0的，就需要研究

的性质。另外一部分如果要说明趋于0，其实也不太显然。但反过来说，如果这两个性质我们都说明白了，其实这个定理也就证明完成了。

Step 1: 证明

|P(X_n = y, n \le T) - P(Y_n = y, n\le T)| \to 0

n \to \infty

。

注意到我们可以设

V_{(x, x)} = \min\{n \ge 0, X_n = Y_n = x\}

这个相当于是说寻找第一次两个随机变量相遇的时间。很明显，如果这个是有限的，那么

就肯定是有限的，有限的值碰上无限的

，就能说明

P(n \le T) \to 0

。

但这个地方其实有一个麻烦，在于我们只知道这两条马尔科夫链单独的非周期性，但是它们俩“相遇”这个情况，仅靠这两条马尔科夫链单独的性质肯定是不足够来研究的。因此我们需要创造一些额外的工具。

这种方法一般来说叫作组合（coupling），简单来说就是把它们俩看作一个多元的随机变量，并研究这个多元的随机变量所形成的随机过程的性质。那么在这里，事实上我们就是在研究

\{(X_n, Y_n)\}

的性质。同时为了构造的方便，我们假定它们俩是独立的。这个假设并不无厘头，因为从一开始我们的

\{X_n\}, \{Y_n\}

就是人工构造出来的，多加几个条件无妨。

人工造出了一条新的随机过程，那么自然我们要研究一下它的转移矩阵，以

\bar p

表示。不难得到的是

\bar p((x_1, y_1), (x_2, y_2)) = \frac{P(X_{n + 1} = x_2, Y_{n + 1} = y_2, X_n = x_1, Y_n = y_1)}{P(X_n = x_1, Y_n = y_1)}

=p(x_1,x_2)p(y_1, y_2)

这个推导成立要归功于我们之前假设的独立性。这个结论也说明了组合后的随机过程也是一条马尔科夫链。

有了这个之后，我们可以得到一个平稳分布的性质，这个我们同样留给读者。

Lemma 1: 在

\bar p

按照上述构造的情况下，组合的马尔科夫链的平稳分布

\bar \pi

满足

\bar \pi(x, y) = \pi(x) \pi(y)

。

按照平稳分布的定义来就可以证明。

接下来，我们来看一下这个马尔科夫链的不可约性与常反性。首先根据

是不可约的，就可以得到

\exists n_1, p^{n_1}(x_1, x_2) > 0

\exists n_2, p^{n_2}(y_1, y_2) > 0

根据非周期，又可以得到

\exists n_0, \forall n \ge n_0, p^n(x_2, x_2) > 0, p^n(y_2, y_2) > 0

这是我们在上一节的Proposition 1推导出的结论。

有了这几个式子，我们回头看如何说明

\bar p

的不可约性和常返性。因为我们之前推出它和

p(x_1, x_2)

，

p(y_1, y_2)

的一个关系，所以如果我们能够找到一个时间点

，满足

p^M(x_1, x_2)>0

，

p^M(y_1, y_2) > 0

，结合我们这里的两个点

(x_1, y_1)

，

(x_2, y_2)

的任意性，就能说明

\bar p

的一个不可约性（任意两点之间可以互达）。

这个

的取法是非常容易的，取

M = n_1 +n_2 + n_0

，那么很明显就会有

p^M(x_1, x_2) \ge p^{n_1}(x_1, x_2) p^{n_0 + n_2}(x_2, x_2) > 0

类似可以推出

p^M(y_1, y_2)> 0

，所以

\bar p

的不可约性也就说明好了。

接下来看一看

\bar p

的常返性。我们先说不可约性的原因是，证明常返性需要用它。

Lemma 2: 如果平稳分布存在，那么满足

\pi_y > 0

的状态都是常返的。

这个证明也比较有技巧性。

要说明状态常返，最好的工具就是

E_x(N(y))

，我们第一节的Proposition 3说过

E_x(N(y)) = \rho_{xy} \sum_{k = 1}^\infty \rho_{yy}^{k -1}

。但事实上可以进一步把它写成

E_x(N(y)) = \frac{\rho_{xy}}{1 - \rho_{yy}}

这只是一个等比数列求和。

如果

\rho_{yy} = 1

，也就是说

是常返的，我们就认为

E_x(N(y)) = \infty

。这与我们目前的逻辑，认知都是自洽的。那么有了这个之后，我们希望观察

\sum_{x \in S}\pi_x E_x(N(y))

这里的

就是状态空间，之后我们可能会省略这个标识，尤其是在对无限状态马尔科夫链的讨论中。

直观来说，如果可以推出这个式子为

\infty

，一定可以推出

\rho_{yy}= 1

，也就是我们的结论。因为如果

\rho_{yy} < 1

，在有限状态的情况下，相当于几个有限的数的和，那不可能是无穷大。无限状态呢？其实可以考虑代入，然后利用

\sum_{x \in S} \pi_x \rho_{xy} \le 1

就可以。

所以我们的目标，就是证明这个式子为

\infty

。怎么说明呢？很简单，把

E_x(N(y))

的另外一个表达式套进去就可以了，这也不是第一次用这个技巧了。注意到

E_x(N(y)) = \sum_{n = 1}^\infty p^n(x, y)

（上一节的Lemma 1-1）所以我们有

\sum_{x \in S}\pi_x E_x(N(y)) = \sum_{x \in S}\pi_x \sum_{n = 1}^\infty p^n(x, y) = \sum_{n = 1}^\infty \sum_{x \in S}\pi_x p^n(x, y) = \sum_{n = 1}^\infty \pi_y = \infty

而这就是利用了我们上面的条件

\pi_y > 0

得到的。因此这个引理也就证明完了。

事实上，Lemma 2说完之后，

\bar p

的常返性就好说明了。因为

是不可约的，又是有限状态，所以一定每一个状态都是常返的。另一方面，如果

\pi(x_0) > 0

，又有

\exists x_0, \bar \pi(x_0, x_0) > 0

那么使用上面的结论，就可以得到

(x_0, x_0)

就是一个常返状态。也就是说

\bar p

也是常返的。这样的话，其实相当于

V_{(x, x)} = \min\{n \ge 0: X_n = Y_n = x\} < \infty, \forall x

那么自然地就可以得出

T \le V_{(x, x)} < \infty

。到此为止，我们算是比较好的完成了step 1。这个推导是最保险的，因为我们并不知道

(X_n , Y_n)

相等的时候是为多少。有的人可能会觉得只要存在一个常返状态

x_0

，再假设

X_0, Y_0

是从某个状态

(y, w)

出发，那么因为它到达

(x_0, x_0)

需要有限步（由

\bar p

的不可约性），所以也可以说明

V_{(x_0, x_0)} < \infty

。但这样的话存在一个问题就是没有办法说明

V_{(x_0, x_0)}

一定是最小的那一个，所以与全文的证明逻辑是不自洽的。如果你跟上了，你一定明白我在说什么。

接下来，我们来说明这个定理证明的step 2。

Step 2：证明

|P(X_n = y, n > T) - P(Y_n = y, n> T)| \to 0

，

n \to \infty

事实上，这个式子我们可以直接给它“证明到底”。我们可以直接说明

P(X_n = y, n > T) - P(Y_n = y, n> T) = 0

这一步证明就是一个纯计算了。注意到

P(X_n = y, n >T) = \sum_{m = 0}^{n - 1} P(X_n = y, T = m) = \sum_{m = 0}^{n - 1} \sum_{x \in S}P(X_n = y |X_m = x)

最后一步使用的就是

的定义，独立性和马尔科夫性，读者可以想想为什么涉及到这么多性质。

有了这个之后其实就有趣了。原因在于在

n >T

的情况下，

X_n, Y_n

的性质完全相同，因为相当于立足于同一个状态开始，同时具备相同的转移概率矩阵。在这种情况下，我们可以直接得出

\sum_{m = 0}^{n - 1} \sum_{x \in S}P(X_n = y |X_m = x) = \sum_{m = 0}^{n - 1} \sum_{x \in S}P(Y_n = y |Y_m = x)

我们只是换了一个标记而已。

然后，把上面根据

X_n

推导的内容再“倒回去”，就可以得到

\sum_{m = 0}^{n - 1} \sum_{x \in S}P(Y_n = y |Y_m = x) = P(Y_n = y, n >T)

这就证明完毕了。不得不说，很有技巧。

我们也容易发现的是，独立性，马尔科夫性和

的性质有一个用不上，都没有办法把这个式子倒回去推，因为这个等价性并不是那么容易满足的。

可以看出，仅仅是这一个定理，就占用了本节近一半的篇幅。所以我们称呼它为一个“大定理”，应该没有人会反对吧？不过还需要提醒大家的是，它的证明过程充满了各种各样的思想和技巧，初学者阅读并不一定能够很快跟上。但如果阅读完并且理解了它背后的设计原理，相信你也会对这个定理的证明有所感想。

从有限到无限：平稳测度

在这一部分，其实我们有更加重要但又有些复杂的结论。并且我们从这里开始，我们可以开始讨论无限状态的马尔科夫链了（但还是依然要求它是可数的）。在这些条件放宽之后，我们会有一些更加通用的结论，当然它们的证明难度也同样不小。

首先为了从有限状态过渡到无限状态，我们先介绍平稳测度（stationary measure）的概念。

Definition 2: Stationary Measure 如果对于一个测度

\mu(x) \ge 0

而言，如果满足

\sum_x \mu(x)p(x, y) = \mu (y)

，那么称这个测度为一个平稳测度。

测度是实分析里的写法，但这里和实分析的内容关系不大，简单把它理解为映射就可以了。

这个式子的写法其实和平稳分布的定义，在状态有限的情况下是等价的，毕竟这其实就是一个矩阵乘法。但是要注意的是，如果是状态无限的情况下，就不存在“矩阵”这一说，所以我们把它的定义写成了这种形式。这种从有限推广到无限的思想多见于泛函分析。

当然，状态有限的话，我们一定可以做标准化，使得它们的和为1。但是如果状态无限，就不一定能够做标准化了。这个时候，如果能够做标准化，我们还会叫它平稳分布。如果不能，就是一种具备全新性质的马尔科夫链，我们会到之后介绍它。当然了，这里落实到了无限的情况，所以事实上，上面的Theorem 1还可以做一些拓展，变成下面这样。

Theorem 1-2: Convergence 设马尔科夫链是非周期的，不可约的，状态有限或无限，但要求存在平稳分布

\pi

，那么有

\lim_{n \to \infty} p^n (x, y) = \pi_y

。

证明不需要做任何改变，因为没有任何一个地方依赖到“有限状态”这一个性质。

那么对于平稳测度，我们自然会有一个和平稳分布类似的结论。

Theorem 2: 设马尔科夫链不可约且常返，那么存在平稳测度满足

\mu(x) > 0, \forall x

。

这个定理也是一个名副其实的大定理。有一个关键的地方在于，由于我们这里的状态不一定有限，之前的线性代数方法自然是失效了，所以我们要考虑新的解决方案。这个方案其实也不算是一个很容易理解的方案，我们一步一步来看。

这个测度其实是构造性的，考虑构造

\mu_x (y) = \sum_{n = 0}^\infty P_x(X_n = y, T_x > n), \forall y

这个构造是什么意思？考虑固定

，字面翻译，就是说，从某一个

出发，在第一次返回

的时间是

的时候，在第

步到达

的概率。那么对

求和会得到什么？概率的和一般来说就是期望，所以其实就是在一个循环内访问

的次数。Theorem 1告诉我们，平稳分布的值和转移概率有密切的联系，而根据“频率趋近于概率”的说法，我们也有理由相信，这么一个构造会符合我们的认知。

如何证明这个测度是满足要求的呢？总体来说，要说明条件等式成立，还要说明它们有限，且为正。所以我们一步一步来看。

Step 1: 证明

\sum_z \mu_x(z)p(z, y) = \mu_x(y)

这里的

x, y, z

都是任意给定的。

注意到

\sum_z \mu_x(z)p(z, y) = \sum_z \sum_{n = 0}^\infty P_x(X_n = z, T_x >n) p(z, y)

=\sum_{n = 0}^\infty \sum_z P_x(X_n = z, T_x >n) p(z, y)

=\sum_{n = 0}^\infty \sum_{z \ne x} P_x(X_n = z, X_1 \ne x, \cdots, X_n \ne x) P_x(X_{n + 1} = y |X_n = z, X_1, \cdots, X_n \ne x)

=\sum_{n = 0}^\infty P_x(X_{n + 1} = y, T_x >n)

这一串用到了一个交换顺序，其它的都是纯计算和代入

T_x

的定义等。但是要注意的是，第三行其实用到了马尔科夫性的技巧，也就是说

X_{n - 1}

及之前的信息都是无关的，因此可以作为条件加上，这样的话就可以凑成一个完整的全概率公式。读者可以利用这个来看看如何从第三行推导到第四行的结果。

这个结果还算是一个比较容易理解的结果，固定

，它表示的就是从

出发，前

步都没有到达

，但最后一步到达了

的概率。所以很明显，区分

x = y

和

x \ne y

很有必要，因为会导致不同的含义。

如果

y = x

，那么一方面，我们有

\sum_{n = 0}^\infty P_x(X_{n + 1} = y, T_x >n) = \sum_{n = 0}^\infty P_x(T_x = n + 1) = P_x(T_x < \infty) = 1

因为这个求和相当于讨论了

T_x

，也就是回到

的时间从1到无穷的所有的可能情况的概率和。根据常返，

P_x(T_x = \infty) = 0

。

另一方面，我们又有

\mu_x(y) = \sum_{n = 0}^\infty P_x(X_n = y, T_x >n) = 1

这是因为，如果

n = 0

，那么在

y = x

的情况下，相当于从

出发，一开始就返回

的概率，那当然是1。但是

n \ge 1

的时候，不可能一方面，第

步返回了

，另一方面又出现“第一次返回

在第

步之后”的情况，这是自相矛盾的，所以概率为0。求和自然就是1，也就是说在这个时候，两个式子确实是相同的。

如果

y \ne x

，那么一方面，我们有

\sum_{n = 0}^\infty P_x(X_{n + 1} = y, T_x >n) = \sum_{n = 0}^\infty P_x(X_{n + 1} = y, T_x > n + 1)

=\sum_{n = 1}^\infty P_x(X_n = y, T_x >n)

也就是说，通过一个简单的下标转换，我们就把它变成了

\mu_x(y)

的一部分。而另一方面，又有

P_x(X_0 = y, T_x > 0) = 0

（想想为什么？），所以在这个情况下，两个式子也是相等的。

到此，其实我们的证明的step 1就算完成了

Step 2: 证明

\mu_x(y)

是有限的。

首先由于马尔科夫链是常返的，因此不难得到

\mu_x(x) = 1

，那么考察其它的

\mu_x(z), z \ne x

，我们可以利用step 1的结论，考虑

\sum_z \mu_x (z) p(z, x) = \mu_x (x), \forall z

如果

p(z, x) \ne 0

，对应的

\mu_x(z)

就一定是有限的，所以没什么好说的。但如果

p(z, x) = 0

，那么问题也不大，因为根据不可约性，

\exists n, p^n(z, x) > 0

，而另一方面，我们有

\sum_z \mu_x(z) p^n(z,x ) = \mu_x (x)

（一个好的理解思路是把它近似看作有限状态的矩阵形式

\pi P = \pi

，那么很明显，

\pi P^n = \pi, \forall n

）所以也可以得到

\mu_x(z)

是有限的。

Step 3: 证明

\mu_x(y)

都是正的。

这个就更简单了，利用不可约性，

\exists n_2, p^{n_2}(x, y) > 0

，所以我们有

\mu_x(y) = \sum_z \mu_x(z) p^{n_2}(z, y) \ge \mu_x(x) p^{n_2}(x, y) >0

这就可以得到结论成立了。

我们还想对

\mu_x(y)

这一个测度的性质做进一步的延伸，观察它与之前所介绍的平稳分布，究竟性质的差别有多少。这些都会让我们对这些性质有更好的理解。

Lemma 1: 证明

\sum_{y} \mu_x (y) = E_x(T_x)

左边的式子，可以理解为“从

出发，第一次回到

之前，访问所有状态

的概率和”，而右边的式子就是“从

出发，第一次回到

的时间的期望”。时间和次数看似没什么关系，但在这里是等价的。比方说从

出发，第5次回到了

，那么之前的4次，其实就是在访问各种其它的状态，也就是

y, z

等。

简单推导一下，我们会有

\mu_x (y) = \sum_{n = 0}^\infty P_x(X_n = y, T_x >n) = \sum_{n = 0}^\infty E_x (I(X_n = y, T_x > n))

= E_x (\sum_{n = 0}^\infty I(X_n = y, T_x >n)) = E_x (\sum_{n = 0}^{T_x - 1}I(X_n = y))

这也就是我们前面所想表达的意思。这里同样用到了一个交换顺序，运用的也是实分析中的富比尼定理。

有了这个之后，就能够推出

\sum_y \mu_x(y) = \sum_y E_x (\sum_{n = 0}^{T_x - 1} I(X_n = y)) = E_x \sum_{n = 0}^{T_x - 1} \sum_y I(X_n = y) = E_x(T_x)

这是因为

\sum_y I(X_n = y) = 1

，所以这个结论也就证明完了。

Lemma 1的一个重要的引申是，我们可以根据

E_x (T_x)

来判断平稳分布是否存在。因为可以看出，所谓的“标准化”，其实就是每一个元素都除以一个

\sum_y \mu_x(y)

。那么如果

E_x(T_x) = \infty

，那么它就不存在，否则就是存在。

一个有趣的事实是，

E_x(T_x) = \infty

并不代表状态是瞬时状态，这和有限状态的马尔科夫链的结论是南辕北辙的。但在具体介绍无限状态马尔科夫链的时候，大家就能明白为什么。

另外，我们的证明过程，推出了这么一个结论。

\mu_x (y) = E_x (\sum_{n = 0}^{T_x - 1}I(X_n = y))

所以事实上，

\mu_x(y)

我们称它为“一个循环内访问

的次数”，是有理论保障的。而在这里，这个时间区间其实就是

[0, T_x - 1]

。

运用这个结论，其实可以更好的解释Theorem 2中，step 1的证明思路。

\sum_z \mu_x(z) p(z, y)

其实就是相当于从

出发，经过一步状态转移之后的结果，相当于时间“往后推了一步”。因此，可以把它理解为“在

[1, T_x]

的时间区间内，访问

的次数”。那么事实上，两个都相当于在时间区间

[1, T_x -1]

下访问了

的次数，因为一个是在

T_x

这个时刻访问

，一个是在

时刻访问

，这两个情况是固定的，都会计入一次访问次数。而在

[1, T_x - 1]

的区间内的访问

的次数，是二者公共的部分，那自然肯定是相同的。

如果你第一遍阅读，推导，理解了step 1中间证明的细节，但却有隔靴搔痒之感，那么代入这个思路再来看这些证明，就会有拔云见雾的感觉。核心，其实就是一句话的事情。

返回时间与访问频率的讨论

事实上，关于马尔科夫链中，与访问时间，访问频率等的性质相关的内容，我们的讨论还没有结束。在这一部分，我们还会再介绍两个与此相关的定理，剩下的内容，就放到下一节说了。

第一个定理一般会叫作渐近频率定理（asymptotic frequency theorem）。

Theorem 3: Asymptotic Frequency 如果一条马尔科夫链是不可约且常返的，设

N_n(y)

表示到时间

的时候，访问

的次数，并假设从

出发，那么有

\frac{N_n(y)}{n} \overset{n \to \infty}\rightarrow \frac 1 {E_y (T_y)} \quad a.s.

这里的

a.s.

是almost surely的意思，也是高等概率论的概念。简单来说，这个结论不成立的概率为0（但不代表不会发生）。对于应用层面来说，可以不用管它。

证明之前，先看看这个定理想告诉我们什么。左边的式子就是在

之前，访问的次数和经过的时间的比值。而右边则是第一次返回

的时间的倒数。这个就可以类比概率论中“频率趋近于概率”的意思。比方说100000次中，有1000次返回了

（对应左边），那么自然可以理解为，首次返回

大概会经过100次（对应右边），当然这需要

很大了。

既然我们希望关心

E_y (T_y)

，自然会有个构造的想法，就是构造出一条随机过程，但是让它一直停留在

，并记录它停留的时间。下图可以描述我们的想法。

也就是说我们的间隔时间会写成

t_1, t_2, \cdots

，那么根据马尔科夫性，经过的时间

t_i

是相互独立的（否则的话，根据第1节的说法，我们没办法认为，从一个新的点出发，就是一条“全新”的马尔科夫链），同时除了

t_1

（因为

t_1

是从

出发的），其它的时间都是同分布的。

有了这个条件，我们设

R(k) = t_1 + \cdots + t_k

那么容易看到，根据强大数定律（这也是高等概率论中的概念。对于初学者来说，可以简单理解为大数定律），我们有

\frac{R(k)}{k} \to E_y (T_y), k \to \infty

这是因为除了

t_1

，都是同分布的，而且它们都满足

E(t_i) = E_y(T_y)

（因为都是从

出发的随机过程，性质完全相同），一个

t_1

并不会造成极限状态的影响（否则就不常返了）。换言之，如果我们能说明另外一个式子的极限是

\frac{R(k)}{k}

的倒数，也就自然可以说明结论成立。

一个不难察觉的结论是

R(N_n(y)) \le n < R(N_n(y) + 1)

所以我们会有

\frac{N_n(y)}{R(N_n(y) + 1)} \le \frac{N_n(y)} n \le \frac{N_n(y)}{R(N_n(y))}

另一方面注意到

\frac{N_n(y)}{R(N_n(y) + 1)} = \frac{N_n(y)}{N_n(y) + 1} \frac{N_n(y) + 1}{R(N_n(y) + 1)}

所以不等式的每一项都令

n \to \infty

，再利用夹逼定理，就可以说明极限是

E_y (T_y)

了。

所以我们一开始说类比“频率趋近于概率”也不是胡扯，而是因为我们的证明真的需要依赖到强大数定律。当然这里的证明，这一条马尔科夫链只是一个工具，我们所要用的只是中间涉及到的

t_i

这些与时间相关的随机变量而已。

下面一个定理一般会称为平均返回时间定理（mean return time theorem）。

Theorem 4: Mean Return Time 设马尔科夫链不可约，且存在平稳分布

\pi

，那么我们有

\pi_y = \frac{1}{E_y (T_y)}

。

有了Theorem 3，这个说明起来就容易很多。首先我们假设存在一个初始状态为

\pi

的一条马尔科夫链，那么我们希望研究的就是

E_\pi \frac{N_n (y)}{n}

这下，真的是“频率趋近于概率”的思想了。

注意到

E_\pi \frac{N_n(y)}{n} = \frac{\sum_{k = 0}^n P_\pi(X_k = y)}{n} = \frac{\sum_{k = 0}^n \pi(y)}{n} \to \pi(y) (n \to\infty)

（第一步到第二步中间跳了一步，留给读者思考）所以剩下的部分就是看它与

E_y(T_y)

的关系了。

另一方面，注意到

\lim_{n \to \infty} E_\pi \frac{N_n (y)}{n} = E_\pi \lim_{n \to \infty} \frac{N_n(y)}{n} = \frac 1 {E_y (T_y)}

这是利用到了Theorem 3，所以这个部分也就说明好了。

这个地方用到了一个期望与极限交换顺序，用到的就是实分析中的控制收敛定理（dominate convergence theorem），具体可以查看这一篇文章。

https://zhuanlan.zhihu.com/p/36921064

当然对于不希望了解证明细节的人来说，不懂问题也不大。

这个定理事实上也告诉我们，只要平稳分布是存在的，那么就一定是唯一的。毕竟表达式都告诉你了。

好的，剩下的内容，我们到下一节再说。

小结

本节内容是对马尔科夫链相关大定理的详细证明与原理解释，包括转移概率的收敛性，平稳测度，返回时间，访问频率等相关名词。这一节介绍的四个定理的细节都非常繁杂，具备很大的难度，但它们却是支撑随机过程之后对各种例子，乃至于对各种更加具体的随机过程（泊松过程，更新过程等）的讨论的基石。因此如果希望更加好的明白它们，更深入的去学习这一门统计学中的理论课，那么仔细阅读和体会其细节和思想，是非常重要的。

下一节我们会继续介绍大定理，希望可以结束掉它们。介绍完之后，应该就可以开始介绍它的应用，以及引出之后的离出分布相关的内容。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-12-15，如有侵权请联系 cloudcommunity@tencent.com 删除

网站

本文分享自学弱猹的精品小屋微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

网站