上一节笔记:随机过程(2)——极限状态的平稳分布与周期(上),一些特殊的马尔科夫链
———————————————————————————————————
大家好!
这一节,我们会将上一节没有介绍的几个大定理介绍一大部分。其中会引入无限状态马尔科夫链(只是简单引入,至少这一篇的大部分还是有限状态马尔科夫链,除非额外说明),以及返回时间,访问频率等内容的讨论。
另外公众号为了测流,会适当的添加一些文中广告,希望大家谅解。
那么我们开始吧。
我们在上一节介绍了平稳分布与对转移概率极限状态下的讨论。在那样的语境下我们引出了周期的概念。不过在这一节,我们主要关注反而不是周期性的情况,而是一些非周期的情况。在这些情况下,才能够得出之后会被广泛运用的,转移概率的收敛定理。
Definition 1: Aperiodic 如果马尔科夫链的每个状态的周期都是1,那么称这一条马尔科夫链是非周期的。
比方说我们在证明上一节的Theorem 1的时候,使用到了一个叫懒惰链的概念,懒惰链就是一个典型的非周期链。
那么现在我们来看一下,有了非周期的额外条件后,能得到什么有趣的结论。
Theorem 1: Convergence 设马尔科夫链是非周期的,不可约的,并且假设存在平稳分布
,那么有
。
当然我们要强调的是,在这里,马尔科夫链是有限状态的。这也是我们一直在讨论的主体,提一下只是怕读者忘了。
一条随机过程不可约,其实也就是状态相互之间都是互达的。非周期的话,其实可以推出所有状态都是常返的(想想为什么?)。如果对这些名词感到陌生,请参考上一节。
这个定理的证明是极具挑战性的,如果读者无法读明白但又不需要了解这部分细节,可以跳过。
首先我们要注意到的是,要说明这个极限成立,其实潜在的意思就是,说明
那么进一步推断,其实就是,针对两条马尔科夫链
和
,假设它们都有相同的转移概率矩阵,只是差别在
,
为平稳分布
,那么实际上,我们在关心的问题,就是
这是因为
是研究经过
步状态转移之后,从
出发到达
的转移概率,而
就是在一开始就满足
的情况下,经过
步又返回到
的概率,那么很自然的这就是
。
那么对于这个式子,我们的一个设计思路是,考虑一个二者同分布的阶段,也就是说设
这是因为两条马尔科夫链的转移概率是相同的,所以到达
这个时间之后,如果
,那么之后其实这两个随机变量就同分布了。换句话说,在这之后,其实从随机变量的意义上来说,有点像求极限中,两个值的差距已经可以“要多小有多小”了。在这个证明中,我们也希望借用这个思想,所以我们希望研究的是
不难看出,这个式子和上面其实是相同的,只是我们把概率关于
拆成了两个部分来考虑。
有了这个式子,我们自然可以联想到把上面的式子拆成两个部分,一个是
,另外一个部分是
。第一个部分,注意到根据三角不等式,我们有
这一部分如果要说明是趋于0的,就需要研究
的性质。另外一部分如果要说明趋于0,其实也不太显然。但反过来说,如果这两个性质我们都说明白了,其实这个定理也就证明完成了。
Step 1: 证明
,
。
注意到我们可以设
这个相当于是说寻找第一次两个随机变量相遇的时间。很明显,如果这个是有限的,那么
就肯定是有限的,有限的值碰上无限的
,就能说明
。
但这个地方其实有一个麻烦,在于我们只知道这两条马尔科夫链单独的非周期性,但是它们俩“相遇”这个情况,仅靠这两条马尔科夫链单独的性质肯定是不足够来研究的。因此我们需要创造一些额外的工具。
这种方法一般来说叫作组合(coupling),简单来说就是把它们俩看作一个多元的随机变量,并研究这个多元的随机变量所形成的随机过程的性质。那么在这里,事实上我们就是在研究
的性质。同时为了构造的方便,我们假定它们俩是独立的。这个假设并不无厘头,因为从一开始我们的
就是人工构造出来的,多加几个条件无妨。
人工造出了一条新的随机过程,那么自然我们要研究一下它的转移矩阵,以
表示。不难得到的是
这个推导成立要归功于我们之前假设的独立性。这个结论也说明了组合后的随机过程也是一条马尔科夫链。
有了这个之后,我们可以得到一个平稳分布的性质,这个我们同样留给读者。
Lemma 1: 在
按照上述构造的情况下,组合的马尔科夫链的平稳分布
满足
。
按照平稳分布的定义来就可以证明。
接下来,我们来看一下这个马尔科夫链的不可约性与常反性。首先根据
是不可约的,就可以得到
根据非周期,又可以得到
这是我们在上一节的Proposition 1推导出的结论。
有了这几个式子,我们回头看如何说明
的不可约性和常返性。因为我们之前推出它和
,
的一个关系,所以如果我们能够找到一个时间点
,满足
,
,结合我们这里的两个点
,
的任意性,就能说明
的一个不可约性(任意两点之间可以互达)。
这个
的取法是非常容易的,取
,那么很明显就会有
类似可以推出
,所以
的不可约性也就说明好了。
接下来看一看
的常返性。我们先说不可约性的原因是,证明常返性需要用它。
Lemma 2: 如果平稳分布存在,那么满足
的状态都是常返的。
这个证明也比较有技巧性。
要说明状态常返,最好的工具就是
,我们第一节的Proposition 3说过
。但事实上可以进一步把它写成
这只是一个等比数列求和。
如果
,也就是说
是常返的,我们就认为
。这与我们目前的逻辑,认知都是自洽的。那么有了这个之后,我们希望观察
这里的
就是状态空间,之后我们可能会省略这个标识,尤其是在对无限状态马尔科夫链的讨论中。
直观来说,如果可以推出这个式子为
,一定可以推出
,也就是我们的结论。因为如果
,在有限状态的情况下,相当于几个有限的数的和,那不可能是无穷大。无限状态呢?其实可以考虑代入,然后利用
就可以。
所以我们的目标,就是证明这个式子为
。怎么说明呢?很简单,把
的另外一个表达式套进去就可以了,这也不是第一次用这个技巧了。注意到
(上一节的Lemma 1-1)所以我们有
而这就是利用了我们上面的条件
得到的。因此这个引理也就证明完了。
事实上,Lemma 2说完之后,
的常返性就好说明了。因为
是不可约的,又是有限状态,所以一定每一个状态都是常返的。另一方面,如果
,又有
那么使用上面的结论,就可以得到
就是一个常返状态。也就是说
也是常返的。这样的话,其实相当于
那么自然地就可以得出
。到此为止,我们算是比较好的完成了step 1。这个推导是最保险的,因为我们并不知道
相等的时候是为多少。有的人可能会觉得只要存在一个常返状态
,再假设
是从某个状态
出发,那么因为它到达
需要有限步(由
的不可约性),所以也可以说明
。但这样的话存在一个问题就是没有办法说明
一定是最小的那一个,所以与全文的证明逻辑是不自洽的。如果你跟上了,你一定明白我在说什么。
接下来,我们来说明这个定理证明的step 2。
Step 2: 证明
,
事实上,这个式子我们可以直接给它“证明到底”。我们可以直接说明
这一步证明就是一个纯计算了。注意到
最后一步使用的就是
的定义,独立性和马尔科夫性,读者可以想想为什么涉及到这么多性质。
有了这个之后其实就有趣了。原因在于在
的情况下,
的性质完全相同,因为相当于立足于同一个状态开始,同时具备相同的转移概率矩阵。在这种情况下,我们可以直接得出
我们只是换了一个标记而已。
然后,把上面根据
推导的内容再“倒回去”,就可以得到
这就证明完毕了。不得不说,很有技巧。
我们也容易发现的是,独立性,马尔科夫性和
的性质有一个用不上,都没有办法把这个式子倒回去推,因为这个等价性并不是那么容易满足的。
可以看出,仅仅是这一个定理,就占用了本节近一半的篇幅。所以我们称呼它为一个“大定理”,应该没有人会反对吧?不过还需要提醒大家的是,它的证明过程充满了各种各样的思想和技巧,初学者阅读并不一定能够很快跟上。但如果阅读完并且理解了它背后的设计原理,相信你也会对这个定理的证明有所感想。
在这一部分,其实我们有更加重要但又有些复杂的结论。并且我们从这里开始,我们可以开始讨论无限状态的马尔科夫链了(但还是依然要求它是可数的)。在这些条件放宽之后,我们会有一些更加通用的结论,当然它们的证明难度也同样不小。
首先为了从有限状态过渡到无限状态,我们先介绍平稳测度(stationary measure)的概念。
Definition 2: Stationary Measure 如果对于一个测度
而言,如果满足
,那么称这个测度为一个平稳测度。
测度是实分析里的写法,但这里和实分析的内容关系不大,简单把它理解为映射就可以了。
这个式子的写法其实和平稳分布的定义,在状态有限的情况下是等价的,毕竟这其实就是一个矩阵乘法。但是要注意的是,如果是状态无限的情况下,就不存在“矩阵”这一说,所以我们把它的定义写成了这种形式。这种从有限推广到无限的思想多见于泛函分析。
当然,状态有限的话,我们一定可以做标准化,使得它们的和为1。但是如果状态无限,就不一定能够做标准化了。这个时候,如果能够做标准化,我们还会叫它平稳分布。如果不能,就是一种具备全新性质的马尔科夫链,我们会到之后介绍它。当然了,这里落实到了无限的情况,所以事实上,上面的Theorem 1还可以做一些拓展,变成下面这样。
Theorem 1-2: Convergence 设马尔科夫链是非周期的,不可约的,状态有限或无限,但要求存在平稳分布
,那么有
。
证明不需要做任何改变,因为没有任何一个地方依赖到“有限状态”这一个性质。
那么对于平稳测度,我们自然会有一个和平稳分布类似的结论。
Theorem 2: 设马尔科夫链不可约且常返,那么存在平稳测度满足
。
这个定理也是一个名副其实的大定理。有一个关键的地方在于,由于我们这里的状态不一定有限,之前的线性代数方法自然是失效了,所以我们要考虑新的解决方案。这个方案其实也不算是一个很容易理解的方案,我们一步一步来看。
这个测度其实是构造性的,考虑构造
这个构造是什么意思?考虑固定
,字面翻译,就是说,从某一个
出发,在第一次返回
的时间是
的时候,在第
步到达
的概率。那么对
求和会得到什么?概率的和一般来说就是期望,所以其实就是在一个循环内访问
的次数。Theorem 1告诉我们,平稳分布的值和转移概率有密切的联系,而根据“频率趋近于概率”的说法,我们也有理由相信,这么一个构造会符合我们的认知。
如何证明这个测度是满足要求的呢?总体来说,要说明条件等式成立,还要说明它们有限,且为正。所以我们一步一步来看。
Step 1: 证明
这里的
都是任意给定的。
注意到
这一串用到了一个交换顺序,其它的都是纯计算和代入
的定义等。但是要注意的是,第三行其实用到了马尔科夫性的技巧,也就是说
及之前的信息都是无关的,因此可以作为条件加上,这样的话就可以凑成一个完整的全概率公式。读者可以利用这个来看看如何从第三行推导到第四行的结果。
这个结果还算是一个比较容易理解的结果,固定
,它表示的就是从
出发,前
步都没有到达
,但最后一步到达了
的概率。所以很明显,区分
和
很有必要, 因为会导致不同的含义。
如果
,那么一方面,我们有
因为这个求和相当于讨论了
,也就是回到
的时间从1到无穷的所有的可能情况的概率和。根据常返,
。
另一方面,我们又有
这是因为,如果
,那么在
的情况下,相当于从
出发,一开始就返回
的概率,那当然是1。但是
的时候,不可能一方面,第
步返回了
,另一方面又出现“第一次返回
在第
步之后”的情况,这是自相矛盾的,所以概率为0。求和自然就是1,也就是说在这个时候,两个式子确实是相同的。
如果
,那么一方面,我们有
也就是说,通过一个简单的下标转换,我们就把它变成了
的一部分。而另一方面,又有
(想想为什么?),所以在这个情况下,两个式子也是相等的。
到此,其实我们的证明的step 1就算完成了
Step 2: 证明
是有限的。
首先由于马尔科夫链是常返的,因此不难得到
,那么考察其它的
,我们可以利用step 1的结论,考虑
如果
,对应的
就一定是有限的,所以没什么好说的。但如果
,那么问题也不大,因为根据不可约性,
,而另一方面,我们有
(一个好的理解思路是把它近似看作有限状态的矩阵形式
,那么很明显,
)所以也可以得到
是有限的。
Step 3: 证明
都是正的。
这个就更简单了,利用不可约性,
,所以我们有
这就可以得到结论成立了。
我们还想对
这一个测度的性质做进一步的延伸,观察它与之前所介绍的平稳分布,究竟性质的差别有多少。这些都会让我们对这些性质有更好的理解。
Lemma 1: 证明
左边的式子,可以理解为“从
出发,第一次回到
之前,访问所有状态
的概率和”,而右边的式子就是“从
出发,第一次回到
的时间的期望”。时间和次数看似没什么关系,但在这里是等价的。比方说从
出发,第5次回到了
,那么之前的4次,其实就是在访问各种其它的状态,也就是
等。
简单推导一下,我们会有
这也就是我们前面所想表达的意思。这里同样用到了一个交换顺序,运用的也是实分析中的富比尼定理。
有了这个之后,就能够推出
这是因为
,所以这个结论也就证明完了。
Lemma 1的一个重要的引申是,我们可以根据
来判断平稳分布是否存在。因为可以看出,所谓的“标准化”,其实就是每一个元素都除以一个
。那么如果
,那么它就不存在,否则就是存在。
一个有趣的事实是,
并不代表状态是瞬时状态,这和有限状态的马尔科夫链的结论是南辕北辙的。但在具体介绍无限状态马尔科夫链的时候,大家就能明白为什么。
另外,我们的证明过程,推出了这么一个结论。
所以事实上,
我们称它为“一个循环内访问
的次数”,是有理论保障的。而在这里,这个时间区间其实就是
。
运用这个结论,其实可以更好的解释Theorem 2中,step 1的证明思路。
其实就是相当于从
出发,经过一步状态转移之后的结果,相当于时间“往后推了一步”。因此,可以把它理解为“在
的时间区间内,访问
的次数”。那么事实上,两个都相当于在时间区间
下访问了
的次数,因为一个是在
这个时刻访问
,一个是在
时刻访问
,这两个情况是固定的,都会计入一次访问次数。而在
的区间内的访问
的次数,是二者公共的部分,那自然肯定是相同的。
如果你第一遍阅读,推导,理解了step 1中间证明的细节,但却有隔靴搔痒之感,那么代入这个思路再来看这些证明,就会有拔云见雾的感觉。核心,其实就是一句话的事情。
事实上,关于马尔科夫链中,与访问时间,访问频率等的性质相关的内容,我们的讨论还没有结束。在这一部分,我们还会再介绍两个与此相关的定理,剩下的内容,就放到下一节说了。
第一个定理一般会叫作渐近频率定理(asymptotic frequency theorem)。
Theorem 3: Asymptotic Frequency 如果一条马尔科夫链是不可约且常返的,设
表示到时间
的时候,访问
的次数,并假设从
出发,那么有
这里的
是almost surely的意思,也是高等概率论的概念。简单来说,这个结论不成立的概率为0(但不代表不会发生)。对于应用层面来说,可以不用管它。
证明之前,先看看这个定理想告诉我们什么。左边的式子就是在
之前,访问的次数和经过的时间的比值。而右边则是第一次返回
的时间的倒数。这个就可以类比概率论中“频率趋近于概率”的意思。比方说100000次中,有1000次返回了
(对应左边),那么自然可以理解为,首次返回
大概会经过100次(对应右边),当然这需要
很大了。
既然我们希望关心
,自然会有个构造的想法,就是构造出一条随机过程,但是让它一直停留在
,并记录它停留的时间。下图可以描述我们的想法。
也就是说我们的间隔时间会写成
,那么根据马尔科夫性,经过的时间
是相互独立的(否则的话,根据第1节的说法,我们没办法认为,从一个新的点出发,就是一条“全新”的马尔科夫链),同时除了
(因为
是从
出发的),其它的时间都是同分布的。
有了这个条件,我们设
那么容易看到,根据强大数定律(这也是高等概率论中的概念。对于初学者来说,可以简单理解为大数定律),我们有
这是因为除了
,都是同分布的,而且它们都满足
(因为都是从
出发的随机过程,性质完全相同),一个
并不会造成极限状态的影响(否则就不常返了)。换言之,如果我们能说明另外一个式子的极限是
的倒数,也就自然可以说明结论成立。
一个不难察觉的结论是
所以我们会有
另一方面注意到
所以不等式的每一项都令
,再利用夹逼定理,就可以说明极限是
了。
所以我们一开始说类比“频率趋近于概率”也不是胡扯,而是因为我们的证明真的需要依赖到强大数定律。当然这里的证明,这一条马尔科夫链只是一个工具,我们所要用的只是中间涉及到的
这些与时间相关的随机变量而已。
下面一个定理一般会称为平均返回时间定理(mean return time theorem)。
Theorem 4: Mean Return Time 设马尔科夫链不可约,且存在平稳分布
,那么我们有
。
有了Theorem 3,这个说明起来就容易很多。首先我们假设存在一个初始状态为
的一条马尔科夫链,那么我们希望研究的就是
这下,真的是“频率趋近于概率”的思想了。
注意到
(第一步到第二步中间跳了一步,留给读者思考)所以剩下的部分就是看它与
的关系了。
另一方面,注意到
这是利用到了Theorem 3,所以这个部分也就说明好了。
这个地方用到了一个期望与极限交换顺序,用到的就是实分析中的控制收敛定理(dominate convergence theorem),具体可以查看这一篇文章。
https://zhuanlan.zhihu.com/p/36921064
当然对于不希望了解证明细节的人来说,不懂问题也不大。
这个定理事实上也告诉我们,只要平稳分布是存在的,那么就一定是唯一的。毕竟表达式都告诉你了。
好的,剩下的内容,我们到下一节再说。
本节内容是对马尔科夫链相关大定理的详细证明与原理解释,包括转移概率的收敛性,平稳测度,返回时间,访问频率等相关名词。这一节介绍的四个定理的细节都非常繁杂,具备很大的难度,但它们却是支撑随机过程之后对各种例子,乃至于对各种更加具体的随机过程(泊松过程,更新过程等)的讨论的基石。因此如果希望更加好的明白它们,更深入的去学习这一门统计学中的理论课,那么仔细阅读和体会其细节和思想,是非常重要的。
下一节我们会继续介绍大定理,希望可以结束掉它们。介绍完之后,应该就可以开始介绍它的应用,以及引出之后的离出分布相关的内容。