Complex-Valued Probability Measures and Their Applications in Information Theory
复值概率测度及其在信息论中的应用
https://arxiv.org/abs/2603.12297

摘要
本文介绍了用于复值概率测度的一个综合框架,并探讨了它们在信息论和统计分析中的新颖应用。我们将复概率测度定义为经典概率测度的相位调制扩展。在此基础之上,我们提出了三个基本信息论量:复熵,它通过相位相干性量化分布均匀性;复散度,一种分布间差异性的非对称度量;以及复度量,一种满足三角不等式的对称距离函数。我们针对连续和离散概率分布严格建立了这些概念,证明了关键性质,如有界性、总变差收敛下的连续性以及清晰的极值行为。与经典测度(香农熵和 Kullback-Leibler 散度)的详细比较分析突出了所提出框架的独特几何和解释优势,特别是其通过可调相位参数对分布形状的敏感性。我们阐明了复熵积分与量子力学的费曼路径积分表述之间深刻的形式类比,暗示了一个更深层次的概念桥梁。最后,我们通过非参数双样本假设检验中的一个详细应用展示了复度量的实用效用,概述了测试程序、优势、局限性,并提供了一个概念性模拟。这项工作通过复分析和干涉现象的视角为分析概率分布开辟了新途径,对信息论、统计推断和机器学习具有潜在影响。
关键词:复散度,复熵,复测度,复概率,信息论。
1 引言
概率论自 1933 年柯尔莫哥洛夫公理化以来 [6],其根本基础一直扎根于实数域和非负测度。该框架在建模不确定性、随机性和跨科学的推断方面已被证明极其成功。然而,众多自然现象和工程现象本质上由复数描述,其中相位、旋转和干涉是基本特征。量子力学依赖于复概率幅,信号处理利用复指数来表示波中的相位信息,而调和分析则依赖于复平面来分解函数。复数在描述自然世界中的这种普遍作用促使我们提出一个基础性问题:概率本身的数学结构能否有意义地扩展到复数域?
本文通过构建一个复值概率测度的连贯框架,对此给出了肯定的回答。我们将此类测度 Q 定义为由全局相位因子调制的经典(非负)概率测度 P:dQ = eiθdP,其中符号"i"代表虚数单位。虽然 Q 的总变差(其"模")与 P 相同,但相位的引入使我们能够将概率分布嵌入到复向量空间中。这不仅仅是一种形式上的练习,而是提供了一个强大的新视角。通过进一步通过像 eiβp(x) 这样的项,将局部相位角设定为与概率密度函数(PDF)或概率质量函数(PMF)本身成正比,我们可以定义新的量来度量不同概率结果之间的相干性和干涉。
信息论由香农于 1948 年创立 [11],为量化信息、通信和不确定性提供了一个数学框架。该框架的核心是熵和散度的概念,这些概念已在其原始的通信理论根源之外得到了显著发展。香农熵被引入作为一种不确定性或信息内容的度量。它量化了与随机变量相关的平均不确定性或"惊喜"。在连续情形下,微分熵扩展了这一概念,尽管具有不同的解释性质。随后,Kullback 和 Leibler 于 1951 年 [7] 引入了 Kullback-Leibler(KL)散度,为度量概率分布之间的差异提供了一种工具。几十年来,这些概念已被扩展、推广并应用于远超其初始范围的领域,成为现代科学和工程学科(尤其是机器学习,如生成对抗网络、强化学习和聚类)中不可或缺的工具。KL 散度最常用的推广是 Bregman 散度 [2] 和 f-散度 [3]。Rényi [8] 引入了以香农熵为特例的一族熵,其在密码学、生态学和多重分形分析中找到应用。Tsallis [12] 提出了传统熵的一种非可加推广,这在统计物理和复杂系统中具有影响力。
随着大数据和人工智能的发展,现有的信息论框架在理论和应用上似乎都显得有些不足。我们引入了新的熵和散度概念,希望在某些特定问题上取得比传统方法更好的结果。我们的想法是将空间从实数扩展到复数,并通过辐角的变化来定义信息的模。
直观上,它类似于量子物理学中的路径积分。
本工作的核心贡献有三方面。首先,我们定义并分析了复熵,这是一种分布均匀性的度量,被解释为在对相位加权概率求和时相长干涉的程度。其次,我们推导了复散度和复度量,它们为比较两个分布提供了几何直观的工具,其中后者满足真实距离度量的所有公理。第三,我们严格建立了这些量在连续和离散情形下的性质,与香农熵和 f-散度进行了富有启发性的比较,并揭示了与量子力学路径积分之间显著的形式类比。为展示实际相关性,我们呈现了复度量在非参数双样本假设检验中的详细应用。
本文结构如下。第 2 节提供了关于复测度的必要背景。第 3 节正式定义了复概率测度和随机变量。第 4 节介绍了复熵,深入探讨了其几何直观,详述了其在连续和离散情形下的性质,并与香农熵进行了比较分析。第 5 节定义了复散度和复度量,建立了它们的性质,将其与 KL 散度及其他散度进行比较,并阐述了与路径积分的深刻联系。第 6 节展示了在统计检验中的一个充实应用。第 7 节总结并概述了未来研究的有前景方向。
2 数学预备知识:复测度
我们首先回顾一些关于复测度的标准理论(参见 [5, 9]),这构成了我们框架的数学基石。

每个复测度 ν 都可以分解为其实部 νr 和虚部 νi,二者均为有限符号测度。这种分解使我们能够以自然的方式定义积分。

一个核心概念是总变差测度 |ν|,它刻画了复测度的“模”。

3 复概率测度与随机变量
3.1 定义与解释
我们现在引入本研究的核心对象:一个取值于复平面的概率测度,其灵感来源于物理学中波函数的定义(参见 [1, 10])。



3.2 复随机变量
在定义了复概率测度之后,我们现在可以考虑映射到这个新结构的随机变量。

4 复熵:一种均匀性度量
在奠定了正式基础之后,我们现在引入第一个主要应用。即一种概率分布均匀性的新颖度量,我们称之为复熵。
4.1 定义与几何直观(连续情形)

与香农熵和微分熵相比,我们对复熵的定义对概率密度函数(PDF)的要求最低。每一个连续分布都可以计算复熵,因为积分总是有限的。然而,当积分发散时,微分熵可能是无穷大。
例 4.1(几何解释:向量求和类比)。这一定义背后的直观是非常几何化的。将样本空间中的每个点 xx 视为在复平面中贡献一个向量。该向量的长度是"概率" p(x)。其方向(相位角)由 βp(x) 给出。关键在于,该角度与"概率"本身成正比。于是,复熵便是所有这些贡献的向量和的模。




4.2 离散复熵
这一概念自然地扩展到离散分布,这些分布在实践中经常遇到。


4.3 示例与极限行为
为了具体展示复熵的行为特性,我们考察两个基本的分布族:均匀分布和高斯分布。此外,我们分析了当这些分布趋近于退化(点质量)分布时复熵的极限行为,并着重强调了极限值对收敛模式的依赖性。
4.3.1 均匀分布

因此,任何均匀分布的复熵恰好为 1,与区间长度和参数 ββ 均无关。这验证了均匀分布达到了可能的最大复熵,与定理 4.1 一致。
4.3.2 高斯分布及通过缩放趋近退化

该积分没有简单的闭式形式,但其当 σ → 0 时(即分布变得越来越集中在零附近时)的渐近行为在解析上是可处理的,并且特别富有启发性。


4.4 与香农熵的比较分析


本质上,香农熵衡量的是不确定性的程度(即我们“不知道”多少),而复熵衡量的是已知概率分布的均匀程度,这一点体现在它们在特定相空间中进行相长干涉的能力上。它们是互补的度量,分别捕捉了分布结构的不同侧面。




定理 4.2 指出,混合分布的复熵以各分量缩放复熵的加权平均为上界,其中缩放因子为混合系数。从物理角度来看,混合两个分布通常会引入相位干涉,从而降低由复熵度量的整体相干性。仅当两个分量均为均匀分布且它们的相位完美对齐时,混合才能保持相干性。
推论 4.1。如果

在其各自支撑集上均为均匀分布,那么在定理 4.2 的条件下,

这些示例和性质加深了对复熵的理解,即它是一种不仅对概率散布敏感,还对分布的精细结构敏感的度量,且由参数 β 调制。极限分析强调了在复熵语境下考虑分布收敛时,所选拓扑的重要性。
4.6 数值计算
复熵可以重写为



上述模拟是计算复杂积分的标准方法。重要性采样可以进一步提高近似精度。
5 复散度与复度量:分布比较
除了分析单个分布之外,我们还开发了用于比较两个分布的工具,从而引出了复散度和复度量的概念。
5.1 定义




5.2 复度量的性质
复度量具有良好的数学性质,使其成为统计分析中的一个稳健工具。






6 应用
为了展示所提出框架的实际效用,我们呈现了一个在统计假设检验中的详细应用,具体而言是非参数双样本问题。
6.1 问题设置与方法论



7 结论与未来工作
本文开发了一个用于复值概率测度的综合框架,并从中推导出了新颖的信息论量:复熵、复散度和复度量。通过引入与分布本身成正比的相位结构,我们创造了通过相干叠加和干涉的视角来度量分布均匀性和相似性的工具。主要成就包括:
该框架为未来研究开辟了许多令人兴奋的途径:

的估计量。这包括推导收敛速度、渐近分布和高效计算算法。
总之,通过将概率扩展到复数域,我们不仅丰富了其数学结构,还提供了一组具有独特解释力和实用潜力的新工具。我们相信,该框架为信息论、统计分析及其他领域提供了一个全新的视角。