上一节笔记:随机过程(3)——无限状态的平稳测度,返回时间,访问频率:几个定理的证明
—————————————————————————————————————
大家好!
经历了第三节之后,相信很多人对“随机过程随机过”这句话,有了更加深刻的体会……
在这一节,我们会结束大定理的这一部分,开始介绍它的应用,和离出分布相关的内容。
那么我们开始吧。
上一节我们讨论了一些极限状态下,访问次数和返回时间的一些等价定理。这一部分是最后一个延伸,我们不仅仅是关注随机变量
本身的性质变化,也会开始关注
的情况。也就是说,当它嵌套一个函数之后,结论会有什么变化,这就是这一部分所关注的内容。
Theorem 1: Long Run Cost 设马尔科夫链不可约,且存在平稳分布
,并且
,那么有
再提醒一遍,
是almost surely的意思,但在应用层面,可以不管这个。
我们首先看一下式子的含义。很明显,左边就是观察随机变量从
到
的取值情况,并且对
求均值。那么这里我们的讨论思路和上一节的Theorem 3比较类似。对于某一个固定的状态
,我们讨论它每一次出现的时间。下面这张图描述了我们的想法。
现在我们设
,
,也就是每两个
之间所经过的其他状态的和。那么很明显,根据马尔科夫性,
相互独立,并且同分布(不懂的可以看上一节Theorem 3的证明细节)。所以容易得到
这是因为
单独不会有什么大的影响,而
之后的随机变量都是同分布的,所以利用强大数定律就可以得到这个结论。
写到这里,对于讨论左边的式子,还差一点。对于某个状态
,两个
出现的时间跨过了临界时间
,也完全有可能。所以我们这里要稍微拆一下,把式子写为
如果不记得
的定义了,记得翻上一节的Theorem 3。用图来表示,就是下面这个意思。
最后的一部分,因为下一个点
不再是
之前的了,所以相当于会“遗留一段”。这一段就对应了上面求和中,被拆分出来的第二段。
最后一部分,在
的时候,可以忽略掉,毕竟求和的式子是有限值,否则就不是不可约了。所以接下来,我们只需要关心第一个分量就可以了。
注意到我们有
这么写的原因是
的极限,根据上一节的Theorem 3,我们有它趋近于
。那么剩下的部分,自然容易看出它是一个时间的均值。但是这个时间的均值是多少,就要好好算一下了。而根据我们上面的推导,事实上最终就是对
这个量的求解。
注意到
前几步的推导都不难看出原因。至于最后一个等号,其实就是因为,从
开始的阶段,每一个时间事实上都是从一个
到另外一个
中间经过的时间,所以统一为最后一个写法,相当于把“任意起点”改成了“以
为起点”。
为了比较好的观察到我们的结论,我们把
拆开。具体来说,就是
那么注意到上一节我们提到过一个结论
当时被用来更好的解释上一节Theorem 2中,step 1的证明思路。那么在这里,我们代入,就可以得到
然后把这个式子再代回之前的推导,可以得到
又因为
(这是因为
),所以事实上,我们已经足够说明结论成立了。
这个结论最重要的就是把上一节所提到的平均返回时间定理(Theorem 4)做了一个推广,让这个“平均”有了更多的用武之地。事实上,读者可以验证,如果设
,那么得到的定理就是平均返回时间定理。
好的,我们终于可以开始举例子了。
Problem 1 考虑第2节的Problem 2,也即醉汉走路问题。分析为什么岔路口多的地方,醉汉更容易出现。
第2节(随机过程(2)——极限状态的平稳分布与周期(上),一些特殊的马尔科夫链)的Problem 2中,我们分析了每一个点的平稳分布为
其中
表示
结点的度。那么根据平均返回时间定理,我们有
。所以很明显,
越大,
就越大,
就越小,换句话说醉汉从
出发,回到
的期望时间更短。如果相比较其他点,这个点的返回时间更短的话,也就不难理解为什么更容易在这个点发现醉汉了。
当然了,这里我们要假设图是一个连通图,或者在连通分量上讨论这个结论,否则会影响不可约性,也就不能使用平均返回时间定理。
Problem 2 考虑一个具备3个关键零件的机器,只要零件有2个在工作,机器就可以正常工作。如果有两个零件损坏,就会被立刻更换,保证机器继续工作。设零件1每天有
的概率损坏,零件2有
,零件3有
,并且假设一天内不会同时损坏两个及以上的零件,损坏事件相互独立,问在1800天的工作时长内,会更换多少零件1,零件2和零件3?
问题的描述看似比较抽象,但也就是一个状态转移的过程。我们假设有这么几个状态
表示没有零件损坏,
表示零件1损坏,
表示零件1,零件2都损坏,以此类推。那么根据这7个状态,可以写出它们的转移概率矩阵
从左到右,从上到下,按照上面所写的状态顺序。比方说左上角,就是“从
到
转移的概率为
”,这是因为一天不会同时损坏多个零件。
这个概率矩阵的平稳分布计算绝对不是一个善茬,利用matlab,这里直接给出结果
那么对于零件1,我们可以得到时间大致为
天,这里因为更换是立刻发生的,而状态
是两种需要更换零件1的情形(不会出现状态
)。另外结合之前的渐近频率定理(Theorem 3),我们可以知道,
就是零件1和零件2都损坏的极限频率比(
),因此乘上时间1800天,就可以得到大约的,零件1和零件2都损坏的时间,也就是会被更换的时间。
多说一句,直译说“更换了17天的零件1”听起来有些拗口。但是如果每一次更换都不需要时间(正如本题一样),那么就不好量化“更换次数”这个概念了。
类比可以计算,零件2的更换时间为
天,零件3为
天。很有趣的事情在于,虽然它们损坏的概率是
,但是最终更换的时间并不是严格的
的比例。
Problem 3 考虑一个库存管理问题。已知货物最多有3个,卖出
个货物的概率分别为
,每一天卖出一个货物,可以获得
的收益,而每一个未卖出的货物,每一天都会收
的折旧费。现在考虑
管理策略,也就是说,如果货物数量不超过
,那么就购买货物,使得货物数量变为
个。试找到最好的策略
,使得销售的期望收益最大。
这个题是比较复杂的,情况一共有6种(因为
),这里我们只讨论
的计算,读者可以自己计算其它的五种。
对于
,我们可以写出这样的转移矩阵
从左到右,从上到下分别对应状态
,比方说
,是因为
的时候,会通过策略使得货物变为
个,然后卖出
个概率为
。
还是一样,这样的题很明显,也是一个需要依赖平稳分布的题目。通过matlab计算平稳分布,可以得到
比方说
,根据渐近频率定理,相当于说,货物为1个的时间差不多占据了
。因此可以通过这个,先算出一个平均的折旧费
那么获利怎么算呢?看似很简单,根据卖出货物的概率,可以算出一个期望
但是有一个问题,就是并不是所有的情况都适合于这个式子,很多时候我们想卖的数量多于库存,那就卖不到我们想要的个数。比方说在这里,有一个例外是,当我们存量为2的时候,希望卖出3个,这就最多卖出2个,相当于损失了1个。因此计算的时候,这一部分的获利要去掉。所以最终的获益是
所以最终可以得到收益为
(读者可以自己检验没有其它例外,存量为1的时候,根据策略,会自动补成3)。注意这个收益只是一个期望值,但是每一个策略,它们的比较标准都是一致的,因此不影响我们的比较选择。
类似的,可以算出
的收益是
,
的收益是
。而当
的时候,其实结果会更差,但我们这里就不多说了。
好的,这一部分我们总算是讲完了。
离出分布(exit distribution)是一种特殊的马尔科夫链所具备的性质。有的马尔科夫链的某些状态将具备一种“黑洞”的性质,也就是说,进入这个状态之后,就再也无法逃脱,相当于“退出了主流的马尔科夫链的状态转移”。这种情况平稳分布对应的定理就会失效,因为马尔科夫链不再具备不可约性,这个时候相关的问题,就是离出分布这一部分的主要内容。
下面这个定理就是离出分布的主要定理。虽然定理本身可能比较抽象(如果你认真读完第三节,这个定理的难度就不算啥了),但是它所带来的这一类问题的解决方案,却是直观而易用的。
Theorem 2: 考虑一个状态空间为
的马尔科夫链。给定集合
,设
表示第一次状态进入集合
的时间,
为不交的
的子集,且
是一个有限集,设
,
,并且对
,有
。那么只要
,那么
。
请记住这个
的含义,后面会频繁使用它。
这里的
可以理解为
的意思。而我们要证明的
的性质,其实含义就是“从
出发,先会进入
的概率”。那么假如说
表示之前提到的“黑洞”,这个概率自然就是状态“从
退出”的概率。
至于集合的关系,下图画的更加明显一些。
首先我们来看看
的定义。很明显,对
,
,结果会不一样。如果
,注意到
都是黑洞,所以这个时候,
是固定的。但是如果
,这个时候,注意到
这个定义,它和我们的概率转移公式是不是长得一样?所以这个时候,可以对应上的是,它是从
出发,做了一步状态转移得到的结果。这个观察可以让我们推出这么一个结论
因为两种情况分别对应了
和
,这里的
就是状态掉入黑洞所经过的时间
。
这个观察可以让我们接着向后推广。我们有理由相信
因为我们走了一步之后,到达下一个状态,如果一开始
就在黑洞内,那么下一步依然会在黑洞。如果不在,那么下一步还是在
中。简而言之,在下一个状态下,
所处的状态和上一个状态一模一样,上一个状态的转移没有对分析造成任何影响。所以不管
取多少,转移多少次,我们只要走相同的分析,就能推出这个期望依然是
。
如果是这样,根据控制收敛定理(在第三节的最后有用到过,是实分析的内容),我们有
所以这么推导,结论就成立了。但是为了严谨,我们要把中间那个
的表达式,用数学归纳法推一遍。
Lemma 1: 证明
首先
很好说明,按照上面思路走就好,留给读者。现在假如说
成立,我们要证明
的情况同样成立。在这种情况下,分开来看,我们有
所以前半部分其实不用推,如果能够推出来后半部分是
,就可以得到
,那么数学归纳法就证好了。
我们先看后半部分,因为后半部分的
是一个固定的常数,好讨论一些。注意到
第一行是翻译了
的含义,第二行则是代入定义,讨论了从
到
步状态可能的转移情况。第三行则是利用了全概率公式。
到此,我们就完成了证明。但是其实还可以简单做一个延伸,我们可以推出下面这个结论。
Proposition 1: 证明在
的条件下,有
。
如果这个定理成立,说明在有限时间内,几乎(almost surely)可以肯定状态在有限时间内掉入黑洞。
要证明这个,其实只需要说明
。这个不是很困难,因为如果
,那没什么好说的。如果
,那么因为
,所以对于某一个
而言,一定会存在
,使得
(这是数学分析的基本结论,如果不能理解,说明数分的基本内容都没有掌握)。结合
是有一个有限集,可以得到
因为相当于把每一个
取了一个最大值和最小值。
有了这个之后,我们不难得到的是
,那么根据我们第1节(随机过程(1)——引入,有限状态马尔科夫链,状态转移,常返与瞬时状态)的Proposition 4,我们就有
。令
就可以得到结论。
这个定理刻画了离出分布,但是很明显具备一些局限性,就是它需要保证只能有两类黑洞状态
。我们后面举的例子,也符合这里定理的要求。而这个定理提供了一个解决这种问题的一个有力的工具。
Problem 4 考虑一个两年社区大学的随机过程,一共有四个状态
,
表示学生在上一年级和二年级。
表示毕业,
表示退学。其转移概率矩阵为
(从上到下,从左到右),问一,二年级学生有多少概率会毕业?
这就是一个典型的离出分布的问题,而这里的“毕业”和“退学”状态,就是之前定理所说的两个黑洞状态,分别设为
(也就是说它们俩都是单点集)。这是因为一旦走到了
,就再也没办法逃脱了,下一个状态只会是自己,不会转移到别的状态。
如果要问毕业的概率,其实在这里就是
(想想为什么?)。如果问一年级学生,那么就是
。所以我们设
。那么根据上面的定理,我们有
,并且
和矩阵元素对应一下,相信可以发现这个等式的对应关系,不难写出来,因为它就是我们通过“一步转移”思路得到的式子。比方说第一个式子
表示从
出发,下一步有0.25概率到
,0.6的概率到
。所以
的情况可以被归结为
,这也是我们定理证明的一个思路的运用。
解这个方程组,就可以得到
,也就是说,一年级学生毕业的概率为70%,二年级为87.5%。
Problem 5 考虑一个公平的赌博游戏。路人甲有15枚硬币,路人乙有10枚硬币。每一局,两个人都各有
的概率获胜,获胜者要从对方手里拿走一枚硬币。当一个人拥有了全部硬币,游戏结束,且他获得胜利。问路人甲获胜的概率。
这个问题建模也不难,假如说状态
是路人甲所拥有的硬币数,那么这个问题就等价于问
,状态
就是两个黑洞,因为一旦到达,游戏就结束了,自然不可能再说有“转移到其他状态”的可能。
设
,那么
,并且根据“一步转移”,我们有
(有
的概率到
,有
的概率到
)化简一下,可以得到
所以
关于离散点是一个等差数列,因此可以直接得到
,也就是这个题的答案。
离出分布的一个类似的问题就是离出时间(exit time)。离出时间的场景和离出分布一致,研究的问题稍有不同。它关注的是状态多久会进入黑洞。注意,这就体现出我们这一节Proposition 1的作用了。因为如果你不知道它是“一定会进入黑洞的”,你又怎么敢讨论它能“多快”进入黑洞呢?
下面是离出时间的定理。和离出分布一样,这个定理也告诉我们了应该如何解决这一类问题。
Theorem 3: 考虑一个状态空间为
的马尔科夫链,
,且
是有限集合,
。设
,且
,那么
。
这里的
就是从
出发,第一次到达
的时间。
这个定理的证明非常类似,如果
(也就是
),那么根据定义,
,结论成立。如果
,那么容易得到
因此我们有
。根据和之前一模一样的讨论,我们有
证明细节我们交给读者。把
按照
的大小关系拆分一下就可以了。
现在按照常理,应该令
,但是在这之前需要说明
是有限的,否则第一项就不好处理(很多人觉得看似可以直接得到第一项,在
的时候就是
。但是为了严谨性,我们还是要说明这一点。否则得到一个
,在应用层面上也毫无价值)。
注意到和Theorem 2一样的推导(第1节的Proposition 4),我们可以利用
,得到
因此可以每一段做一个放缩,得到
所以这一部分也说明白了。
最后就是利用控制收敛定理,我们有
加在一起就可以得到
。
通过这个定理可以看出,我们只有一类的黑洞状态。换句话说,我们只能够回答一种“通用,模糊”的到达时间的问题。具体跌,可以看下面的例子。
Problem 5 考虑Problem 3的情景,问一个一,二年级学生平均需要多长时间,才能够毕业或退学。
这里的“毕业或退学”,就体现了“模糊”的含义。而这个,其实也就是
,其中
。
设
,那么
,且根据定理,我们也可以得到下面的方程组
理解的思路和离出分布差不多,除了转移的时候要加一个1,因为转移一次,走了一步,需要消耗一个单位的时间。
解这个方程组,可以得到
,
。简单来说就是,一年级学生平均需要
年毕业,二年级学生平均需要
年毕业。
Problem 6 考虑掷硬币游戏。问平均需要等几轮,才能第一次看到最近的两轮中,第一轮是
,第二轮是
。这里
是head,
是tail的意思。
这一个问题不是直接代入公式就可以解决的,而是需要真正理解定理来做的。我们来分析一下这个问题。
首先,状态是不难定义的。我们可以写出四个状态
比方说
就表示最近的两轮都是
。那么这样的话,转移概率矩阵就可以写成
从左到右,从上到下对应了上面所写的状态顺序。
注意到
因为
相当于寻找在一开始状态为空的时候,能够得到
的最少次数的平均值(这种情况它和
是相同的,但是如果一开始的状态是
,情况就不一样了。换句话说,
,但是
不是)。那么投掷一次之后,花费了一步时间,并且有
的概率得到
,
的概率得到
。
接下来,注意到
(因为从
出发,下一步只能得到
,得不到
,所以和一开始状态为空出发,并没有什么区别),我们可以适当化简,得到。
现在我们计算
。那么同样的思路,我们有
这里
的原因类似,一开始状态为
,和一开始状态为
,在这个问题的语境下(只关心最近两次的硬币正反面)是没有区别的。
所以
,再带回,就可以得到
。
这一个题目乍一看和离出时间的语境是不相关的,我们并没有什么所谓的黑洞状态。但是这种“一步转移”的思路却贯穿始终,同时对问题的分析可以使得我们对问题的理解得到简化。同时也要注意,这个题同样不能够直接使用平稳分布来进行计算。因为我们只有
,并没有
的式子。
类似的思路,读者可以自己计算出
。如果可以独立推导出来,说明这一个思路已经掌握了。这也是一个很好的练习。
好的,关于离出时间,我们就说这么多。
本节我们对上一节最后的渐近频率定理,以及平均返回时间定理做了一个推广。结束这些定理之后,我们介绍了离出分布和离出时间的概念,并且举了一些实际应用的例子。从理论层面上来说,一步转移的核心在于马尔可夫链的“无记忆性”,而从应用层面上,对于一部转移的灵活使用也是解复杂题目的必需技能。
下一节我们会开始进一步介绍无限状态马尔可夫链。如果有足够的空间的话,我们就会开始介绍被广泛应用的泊松分布。