hc 5efb877df7 Initial commit: add project materials and code

2026-02-28 16:17:42 +08:00

26 KiB

Raw Permalink Blame History

第五章：理论分析 (Theoretical Analysis)

本章对本文提出的面向语义通信的合作竞争框架及其动态资源分配机制进行严格的理论分析。在第三章定义的语义通信系统模型与第四章构建的Stackelberg合作竞争博弈架构基础上，我们将从博弈论、非线性动力系统以及随机优化的角度探讨该理论框架的内在数学特性与性能边界。具体而言，本章旨在通过严格的数学推导，回答以下四个核心理论问题：首先，证明所提Stackelberg博弈均衡解的理论存在性与基本拓扑属性（5.1节）；其次，从解析上推导合作竞争机制相较于传统纯合作或纯竞争模式的效用增益下界，并证明其构成了严格的Pareto改进（5.2节）；再次，针对控制系统模式切换的动态协同权重参数 $\lambda$，分析其演化动力学的收敛性，并给出系统达到稳态的参数约束条件（5.3节）；最后，为后续章节（第六章）即将采用的Co-MADDPG多智能体强化学习算法提供具有渐进收敛保证的理论界限（5.4节）。所有推导均建立在严格的泛函分析和凸优化理论基础之上。

5.1 Stackelberg均衡解的存在性

在本文构建的语义通信资源分配模型中，我们将语义信息提取器（Semantic Extractor）建模为Stackelberg博弈中的领导者（Leader），而将语义解码器与底层无线资源分配器（Semantic Decoder / Resource Allocator）建模为跟随者（Follower）。定义该合作竞争博弈为 $\mathcal{G} = \langle {\text{Leader}, \text{Follower}}, {\mathcal{A}_S, \mathcal{A}_B}, {U_S, U_B} \rangle$，其中 \mathcal{A}_S 和 \mathcal{A}_B 分别代表领导者与跟随者的连续动作空间（如语义压缩比、发射功率、带宽分配比例等），U_S 与 U_B 分别对应二者的效用函数。

在实际的非合作博弈或完全竞争博弈中，纳什均衡（Nash Equilibrium）的计算往往面临多重均衡或无纯策略均衡的困境。然而，由于本文引入了具有严格动作次序的Stackelberg架构，通过逆向归纳法（Backward Induction），我们可以论证该系统在合理物理条件下始终存在一个稳定的工作点。

Theorem 1 (Stackelberg均衡存在性)

定理陈述：在所提出的合作竞争博弈 \mathcal{G} 中，若满足以下条件： (i) 动作空间 \mathcal{A}_S 和 \mathcal{A}_B 为非空紧凑集 (Non-empty Compact Sets)； (ii) 效用函数 U_S(\mathbf{a}_S, \mathbf{a}_B) 和 U_B(\mathbf{a}_S, \mathbf{a}_B) 关于各自的联合动作变量 (\mathbf{a}_S, \mathbf{a}_B) 连续； (iii) 跟随者的效用函数 U_B(\mathbf{a}_S, \cdot) 关于其自身动作变量 \mathbf{a}_B 严格拟凹 (Strictly Quasi-concave)；则在该博弈模型中，存在至少一个纯策略Stackelberg均衡 $(\mathbf{a}_S^, \mathbf{a}_B^(\mathbf{a}_S^*))$。

Proof: 证明过程基于逆向归纳法与拓扑空间中的极值定理，具体分为以下三个步骤：

Step 1: 跟随者最优反应函数的存在性与唯一性。 给定领导者的任意策略 $\mathbf{a}_S \in \mathcal{A}_S$，跟随者的优化问题可表示为：

 \max_{\mathbf{a}_B \in \mathcal{A}_B} U_B(\mathbf{a}_S, \mathbf{a}_B) \tag{5.1}

根据条件(i)，跟随者的动作空间 \mathcal{A}_B 处于有限维欧几里得空间中，且为非空紧致集（即有界且闭合）。根据条件(ii)，目标函数 U_B(\mathbf{a}_S, \mathbf{a}_B) 在 \mathcal{A}_B 上是连续的。由Weierstrass极值定理 (Weierstrass Extreme Value Theorem) 可知，连续函数在紧凑集上必定能取得全局最大值，因此跟随者的最优反应集 \mathcal{R}_B(\mathbf{a}_S) = \arg\max_{\mathbf{a}_B \in \mathcal{A}_B} U_B(\mathbf{a}_S, \mathbf{a}_B) 必定非空。进一步，根据条件(iii)，由于 U_B 关于 \mathbf{a}_B 是严格拟凹的，且定义域 \mathcal{A}_B 通常为凸集（资源分配约束），因此该最大值点不仅存在且唯一。故最优反应映射退化为单值函数，记为 $\mathbf{a}_B^*(\mathbf{a}_S)$。

Step 2: 跟随者最优反应函数的连续性。 为了确保领导者优化问题的良态性，需要证明 \mathbf{a}_B^*(\mathbf{a}_S) 关于 \mathbf{a}_S 连续。根据Berge最大值定理 (Berge's Maximum Theorem)，若目标函数 U_B 是联合连续的，且可行域映射是紧值的且连续的（在本模型中，\mathcal{A}_B 与 \mathbf{a}_S 解耦，为一个常数紧致集映射，自然满足连续性），则最优反应对应 \mathcal{R}_B(\mathbf{a}_S) 具有上半连续性 (Upper Hemi-continuous)。由于在 Step 1 中已证明 \mathcal{R}_B(\mathbf{a}_S) 处处为单值集，而单值且上半连续的对应等价于连续函数。因此，最优反应函数 \mathbf{a}_B^*(\mathbf{a}_S) 关于 \mathbf{a}_S 连续。

Step 3: 领导者全局最优策略的存在性。 将跟随者的连续最优反应函数代入领导者的效用函数中，构造领导者的等效目标函数：

 \hat{U}_S(\mathbf{a}_S) = U_S(\mathbf{a}_S, \mathbf{a}_B^*(\mathbf{a}_S)) \tag{5.2}

由于 U_S(\cdot, \cdot) 连续，且 \mathbf{a}_B^*(\cdot) 也是连续的，根据连续函数的复合依然是连续函数的性质，等效效用函数 \hat{U}_S(\mathbf{a}_S) 在定义域 \mathcal{A}_S 上是连续的。根据条件(i)，\mathcal{A}_S 是非空紧凑集。再次应用Weierstrass极值定理，连续函数 \hat{U}_S(\mathbf{a}_S) 在紧凑集 \mathcal{A}_S 上必定存在全局最大值点，即：

 \mathbf{a}_S^* \in \arg\max_{\mathbf{a}_S \in \mathcal{A}_S} \hat{U}_S(\mathbf{a}_S) \tag{5.3}

由此，我们构造出了博弈的一个解 $(\mathbf{a}_S^, \mathbf{a}_B^(\mathbf{a}_S^*))$，即证明了Stackelberg均衡的必然存在。\square

Remark 1: 本定理的三个条件在物理通信系统中均具有自然的对应解释与合理性验证。条件(i)的紧致集属性源于物理系统固有的硬约束，例如发射功率存在物理上限、分配带宽不超过系统总可用频段、语义压缩比在 [0, 1] 之间等，这些闭区间自然构成了紧集。条件(ii)的连续性通常通过平滑的信道容量公式与损失函数来保证。条件(iii)的严格拟凹性在通信领域尤为常见，例如基于香农公式的传输速率 R \propto \log(1 + \text{SNR}) 对功率或带宽的二阶导数均小于零（严格凹），结合线性的能耗惩罚项，整体效用函数自然满足严格拟凹的性质。如果条件(iii)被破坏（例如存在高度非线性的语义畸变导致效用函数非凸非凹），最优反应函数可能不再唯一。此时博弈将演变为“乐观Stackelberg均衡(Strong/Optimistic Stackelberg Equilibrium)”或“悲观Stackelberg均衡(Weak/Pessimistic Stackelberg Equilibrium)”，在此情况下均衡的存在性仍可通过更宽松的拓扑条件来保证，但在实际算法求解中可能会引发策略震荡。

5.2 合作竞争机制的效用增益与Pareto改进

在确立了博弈均衡存在性的基础上，本节将定量分析本文提出的“合作竞争（Coopetition）”机制相较于基准机制（即纯粹的全局合作模式与纯粹的自私竞争模式）在系统长期演化中带来的性能提升。由于无线信道状态（如衰落、干扰）与语义任务特征（如图像复杂度、文本重要度）在时序上呈现高度的异质性，系统状态空间可以基于不同模式的适应性被逻辑划分为多个区域。

Theorem 2 (合作竞争增益下界 / Coopetition Gain Bound)

定理陈述：设 U^*_{\text{co}} 为本文合作竞争框架下系统能够达到的均衡期望效用，U^*_{\text{coop}} 和 U^*_{\text{comp}} 分别为系统采用纯合作模式（完全共享奖励）和纯竞争模式（完全零和或自利）下的最优期望效用。若系统状态空间 \mathcal{S} 根据不同模式的性能优劣可被严格分解为合作主导区域 \mathcal{S}_c = \{s \in \mathcal{S} : U_{\text{coop}}(s) > U_{\text{comp}}(s)\} 和竞争主导区域 $\mathcal{S}d = {s \in \mathcal{S} : U{\text{comp}}(s) \geq U_{\text{coop}}(s)}$，且满足概率测度 P(\mathcal{S}_c) > 0 以及 $P(\mathcal{S}_d) > 0$（即两个异质区域均具有非零测度，系统具有真实的物理动态性），则合作竞争模式的总体效用满足：

U^*_{\text{co}} \geq \mathbb{E}_s[\max(U_{\text{coop}}(s), U_{\text{comp}}(s))] \geq \max(U^*_{\text{coop}}, U^*_{\text{comp}}) \tag{5.4}

并且，合作竞争模式相对于任何纯粹单一模式的效用增益下界可严格解析为：

\Delta U = U^*_{\text{co}} - \max(U^*_{\text{coop}}, U^*_{\text{comp}}) \geq P(\mathcal{S}_{\text{minor}}) \cdot \delta_{\min} \tag{5.5}

其中，\mathcal{S}_{\text{minor}} 是定义为 \mathcal{S}_c 和 \mathcal{S}_d 中发生概率较小的区域，即 $P(\mathcal{S}_{\text{minor}}) = \min(P(\mathcal{S}_c), P(\mathcal{S}_d))$；而 \delta_{\min} = \min_{s \in \mathcal{S}_{\text{minor}}} |U_{\text{coop}}(s) - U_{\text{comp}}(s)| 表示该少数区域内两种模式性能差异的绝对下限。

Proof: 本证明通过Lebesgue积分对期望算子进行状态空间分解，具体步骤如下：

Step 1: 期望算子的测度分解。 根据概率论与测度理论，任意关于状态的全局期望效用均可分解为子空间上的积分和：

 U^*_{\text{coop}} = \mathbb{E}_s[U_{\text{coop}}(s)] = \int_{\mathcal{S}_c} U_{\text{coop}}(s) dP(s) + \int_{\mathcal{S}_d} U_{\text{coop}}(s) dP(s) \tag{5.6}

同理，竞争模式的期望效用可表示为：

 U^*_{\text{comp}} = \mathbb{E}_s[U_{\text{comp}}(s)] = \int_{\mathcal{S}_c} U_{\text{comp}}(s) dP(s) + \int_{\mathcal{S}_d} U_{\text{comp}}(s) dP(s) \tag{5.7}

Step 2: 合作竞争策略的点态上界支配性质。 在本文设计的合作竞争框架中，智能体能够通过动态参数 \lambda 感知当前状态 $s$，并在每个特定的时间步基于当前状态作出策略切换。因此，理想合作竞争策略 \pi^*_{\text{co}} 在任意状态 s 能够实现的局部效用，理论上至少等于该状态下合作与竞争两者的最优值，即：

 U_{\text{co}}(s) \geq \max(U_{\text{coop}}(s), U_{\text{comp}}(s)), \quad \forall s \in \mathcal{S} \tag{5.8}

对两边求期望，即得定理中第一个不等式：$U^*{\text{co}} \geq \mathbb{E}s[\max(U{\text{coop}}(s), U{\text{comp}}(s))]$。此外，根据期望的凸性与最大值函数的次可加性（Jensen不等式的推广形式），显然有 $\mathbb{E}_s[\max(X, Y)] \geq \max(\mathbb{E}_s[X], \mathbb{E}_s[Y])$，故第二个不等式得证。

Step 3: 严格推导效用增益下界。 不失一般性，假设从全局期望来看，纯合作模式优于纯竞争模式，即 $\max(U^_{\text{coop}}, U^{\text{comp}}) = U^*{\text{coop}}$。在这种情况下，我们将评估合作竞争相较于纯合作的增益：

 \Delta U = U^*_{\text{co}} - U^*_{\text{coop}} \geq \mathbb{E}_s[\max(U_{\text{coop}}(s), U_{\text{comp}}(s))] - \mathbb{E}_s[U_{\text{coop}}(s)] \tag{5.9}

根据期望的线性性质与最大值函数的定义，上式可以写为：

 \Delta U \geq \mathbb{E}_s[\max(0, U_{\text{comp}}(s) - U_{\text{coop}}(s))] \tag{5.10}

由于在 \mathcal{S}_c 区域，$\max(0, U_{\text{comp}}(s) - U_{\text{coop}}(s)) = 0$，而在 \mathcal{S}_d 区域，$U_{\text{comp}}(s) \geq U_{\text{coop}}(s)$。因此该期望可以严格缩减为：

 \Delta U \geq \int_{\mathcal{S}_d} (U_{\text{comp}}(s) - U_{\text{coop}}(s)) dP(s) \tag{5.11}

由于 \delta_{\min} 定义为 \mathcal{S}_{\text{minor}} 内的极小差值。根据积分中值定理的不等式形式，上式可放缩为：

 \int_{\mathcal{S}_d} (U_{\text{comp}}(s) - U_{\text{coop}}(s)) dP(s) \geq \int_{\mathcal{S}_d} \delta_{\min} dP(s) = P(\mathcal{S}_d) \cdot \delta_{\min} \tag{5.12}

同理，若全局看纯竞争更优，则推导出的下界为 $P(\mathcal{S}c) \cdot \delta{\min}$。综合两种情况，即可得出：

 \Delta U \geq P(\mathcal{S}_{\text{minor}}) \cdot \delta_{\min} \tag{5.13}

即定理得证。\square

Remark 2: 定理2在通信系统中的物理意义极为深刻。条件 P(\mathcal{S}_c) > 0, P(\mathcal{S}_d) > 0 被称为“状态空间的异质性前提”。在实际无线语义传输场景中，系统往往面临快衰落、干扰突变、以及信源复杂度时变等多种随机因素。例如，当信道条件极差或语义任务极为关键时，系统进入 \mathcal{S}_c 区间，智能体必须强制合作以保证基本的通信连通性与服务质量；而当信道资源充足且任务容忍度高时，系统切入 \mathcal{S}_d 区间，智能体为了最大化各自局部的资源利用率而转向自利竞争。定理2严格证明了，只要这种动态异质性客观存在，一种能够根据状态自适应切换的混合机制，其长期累积性能必将以至少 P(\mathcal{S}_{\text{minor}}) \cdot \delta_{\min} 的差值幅度击败任何固化的单一策略模式。

除了对整体系统效用的界定，下述命题进一步从博弈个体（Leader与Follower各自的利益）角度给出了更为强烈的Pareto保证。

Proposition 1 (Pareto改进 / Pareto Improvement)

命题陈述：当系统状态具有强异质性（即前述条件 P(\mathcal{S}_c) > 0 且 P(\mathcal{S}_d) > 0 满足）时，本文所提的合作竞争均衡解相较于纯合作和纯竞争解，在个体效用上构成了严格的 Pareto 支配。即对于语义提取器（S）和资源分配器（B），均满足：

U_S^{\text{co}} \geq U_S^{\text{pure}}, \quad U_B^{\text{co}} \geq U_B^{\text{pure}} \tag{5.14}

且上述两个不等式中，至少有一个严格大于成立，意味着系统在不损害任何一方利益的前提下，使得至少一方的效用获得了真实提升。

Proof: Step 1: 合作主导区域的策略主导性。 在合作主导状态 \mathcal{S}_c 下，动态调控机制通过反馈感知到系统效用的下降风险，将倾向于输出 $\lambda > 0.5$（即偏向合作的奖励塑造）。在此机制下，智能体更新其策略朝着联合效用最大化的方向移动。由于该局部状态下合作策略本就占据主导地位，混合奖励机制的局部收敛点至少不差于盲目维持纯合作的次优局部点。

Step 2: 竞争主导区域的策略主导性。 在竞争主导状态 \mathcal{S}_d 下，系统容错率高，个体利益优化（如极大化传输速率与极小化能量消耗）成为主要驱动力。机制动态输出 $\lambda \leq 0.5$（偏向自利），使得每个智能体能够从合作的强制束缚中解脱，探索具有更高收益的个体最优点。在此区域，所产生的个体效用不低于固定的纯竞争基准。

Step 3: 严格改进的推演。 由于状态空间的异质性，系统必然在一定时间内进入非优势区域。固定策略（无论是纯合作还是纯竞争）在跨越其非适应区域时不可避免地会导致效用折损。而合作竞争机制通过非线性决策平滑过渡，在全局积分视角下，避免了所有非适应状态下的严重惩罚。因此，积分结果必定导致在少数概率区域产生不可忽略的严格增量提升。由于系统总效用的严格增加，并结合连续奖励分配机制的作用，可以确保双方的增益非负，且至少有一方获得绝对收益增长，从而满足Pareto严格改进的定义。\square

Remark 3: Pareto改进证明了本框架对于分布式自私通信节点具有极高的理论吸引力。在去中心化或异构的6G/IoT网络中，节点往往由不同利益实体管理，拒绝接受会损害自身既有利益的协议。命题1保障了合作竞争架构属于“无伤害且互利”的纳什谈判解，极大地降低了该架构在多方异构网络中落地的博弈阻力。

5.3 动态参数 `\lambda` 的演化收敛性

在本文所设计的动态奖励塑形模块中，控制系统合作竞争偏好的权重参数 \lambda 并非静态给定，而是通过当前系统性能 \text{QoE}_{\text{sys}} 与目标阈值 Q_{\text{th}} 之间的误差，利用带有阻尼放大因子的Sigmoid型非线性动力学公式进行时序自适应迭代更新。本节将分析这一递归系统的非线性动力学特性，从解析上给出其收敛到稳态不动点的充分条件。

Theorem 3 (动态λ收敛性 / Convergence of Dynamic \lambda)

定理陈述：若在所处策略空间邻域内，系统的整体性能映射函数 \text{QoE}_{\text{sys}}(\lambda) 关于权重变量 \lambda 满足Lipschitz连续条件（设其全局Lipschitz常数为 $L > 0$），并且算法设计中选取的系统灵敏度阻尼参数 \beta 满足以下阻尼条件：

 \frac{\beta L}{4} < 1 \tag{5.15}

则对于非线性迭代更新公式：

\lambda(t+1) = \sigma(\beta \cdot (\text{QoE}_{\text{sys}}(\lambda(t)) - Q_{\text{th}})) \tag{5.16}

系统从任意合法的初始状态 \lambda(0) \in (0, 1) 出发，经过无限次迭代后，序列 \{\lambda(t)\} 必将全局收敛到区间 (0,1) 内的唯一不动点 $\lambda^*$。其中 \sigma(x) = 1/(1+e^{-x}) 表示标准Sigmoid激活函数。

Proof: Step 1: 构造迭代映射算子。 将系统动力学过程建模为定义在闭区间 [0, 1] 上的自映射算子 $T: [0, 1] \rightarrow [0, 1]$，定义如下：

 T(\lambda) = \sigma\Big(\beta \cdot (\text{QoE}_{\text{sys}}(\lambda) - Q_{\text{th}})\Big) \tag{5.17}

证明序列 \{\lambda(t)\} 的收敛性，等价于证明算子 T 存在唯一不动点并且通过皮卡尔(Picard)迭代收敛。

Step 2: 计算映射导数的严格界限。 我们利用链式法则计算 T(\lambda) 的导数。已知标准Sigmoid函数 \sigma(x) 的导数为 $\sigma'(x) = \sigma(x)(1 - \sigma(x))$。该导数函数的极值出现在 x=0 处，且其上界严格为 $\sup_{x \in \mathbb{R}} |\sigma'(x)| = \sigma(0)(1-\sigma(0)) = 0.5 \times 0.5 = 1/4$。根据复合函数求导法则，算子 T(\lambda) 对 \lambda 的变化率绝对值满足：

 |T'(\lambda)| = \Big|\sigma'\Big(\beta(\text{QoE}_{\text{sys}}(\lambda) - Q_{\text{th}})\Big) \cdot \beta \cdot \text{QoE}'_{\text{sys}}(\lambda)\Big| \tag{5.18}

根据条件，\text{QoE}_{\text{sys}}(\lambda) 关于 \lambda 满足Lipschitz连续，由Rademacher定理其几乎处处可导，且其导数范数被Lipschitz常数 L 严格界定，即 $|\text{QoE}'_{\text{sys}}(\lambda)| \leq L$。因此：

 |T'(\lambda)| \leq \sup |\sigma'| \cdot \beta \cdot L = \frac{1}{4} \cdot \beta \cdot L = \frac{\beta L}{4} \tag{5.19}

Step 3: 证明收缩映射性质。 由于定理条件预设了 $\beta L / 4 < 1$，故存在常数 k \in (0, 1) 使得 |T'(\lambda)| \leq k < 1 对所有 \lambda \in [0, 1] 成立。根据拉格朗日中值定理，对于任意 $\lambda_1, \lambda_2 \in [0, 1]$，存在 \xi 使得：

 |T(\lambda_1) - T(\lambda_2)| = |T'(\xi)| \cdot |\lambda_1 - \lambda_2| \leq k |\lambda_1 - \lambda_2| \tag{5.20}

由于 $k < 1$，上述不等式证明了 T 是欧几里得空间闭区间上的严格收缩映射 (Contraction Mapping)。

Step 4: 引用Banach不动点定理。 根据Banach不动点定理 (Banach Fixed-Point Theorem)，由于定义域 [0, 1] 在配备欧式距离的度量下是完备度量空间，且 T 是收缩映射，则 T 在 [0, 1] 中必定存在唯一的不动点 $\lambda^* = T(\lambda^)$。并且，无论初始值 \lambda(0) 为何值，由 \lambda(t+1) = T(\lambda(t)) 构成的迭代序列均以指数级速率收敛至 $\lambda^$。\square

Remark 4: 定理3中的阻尼条件 \beta < 4/L 对系统的超参数调优具有极强的工程指导意义。在许多深度强化学习文献及本文代码的默认设置中，为了放大奖励误差并加速初始学习阶段的模式切换，开发者往往倾向于设置较大的灵敏度参数（例如 $\beta = 5$）。然而，若系统的QoE映射具有常规的陡峭梯度（假设 $L \approx 1$），则 $\beta L / 4 = 5/4 = 1.25 > 1$。此时映射 T 的导数可能在特定邻域内大于1，直接违反了严格收缩映射的条件。物理上，这表现为系统在阈值 Q_{\text{th}} 附近产生“乒乓效应”，即 \lambda 值在高度合作与高度竞争之间剧烈震荡（Oscillation），迟迟无法稳定。针对这一潜在隐患，实际算法实现中应当引入阻尼衰减机制（即随着训练步数 t 的增加，使得 \beta_t 动态下降）或设置信任域约束，从而确保在收敛后期满足 \beta L/4 < 1 的收敛条件。

5.4 多智能体强化学习 (Co-MADDPG) 的渐进收敛性

在本文第六章中，我们提出利用协同多智能体深度确定性策略梯度算法（Co-MADDPG）对前述Stackelberg模型和动态 \lambda 策略进行端到端求解。在此，我们必须从优化理论层面论证：即使引入了由 \lambda 控制的时变混合目标函数，使用深层神经网络近似的演员-评论家（Actor-Critic）架构依然具备理论上的收敛保证。

Theorem 4 (Co-MADDPG收敛性 / Convergence of Co-MADDPG)

定理陈述：考虑采用Co-MADDPG算法进行策略优化的系统。在以下条件同时满足的情况下： (i) 评论家网络的Q函数近似误差始终存在一致有界性，即对于任意状态动作对，神经网络拟合值 \hat{Q}_i 与真实值 Q_i^* 的偏差满足 $\sup |\hat{Q}i - Q_i^*| \leq \epsilon_Q$； (ii) 演员策略网络的学习率序列 \{\alpha_t\} 满足Robbins-Monro随机近似条件，即 \sum_{t=1}^\infty \alpha_t = \infty 且 $\sum{t=1}^\infty \alpha_t^2 < \infty$； (iii) 经验回放缓冲区（Replay Buffer）的容量足够大，且状态动作分布能够满足各态历经（Ergodicity），确保批量采样的代表性；则Co-MADDPG算法驱动的策略参数 \theta 将在期望意义下收敛到目标函数的近似驻点（在博弈论语境下对应于近似Nash/Stackelberg均衡），且迭代 T 步时的策略梯度范数界限服从收敛速率 $O(\epsilon_Q + 1/\sqrt{T})$。

Proof: 本证明将基于深度强化学习架构的策略更新建模为具有恒定偏差的随机梯度下降 (Biased Stochastic Gradient Descent)，具体推演如下：

Step 1: 策略梯度的有偏建模。 定义策略网络参数为 $\theta$，其试图最大化的真实期望回报目标为 $J(\theta)$。根据确定性策略梯度定理，其真实理想梯度为 $\bar{g}t = \nabla\theta J(\theta_t)$。然而，由于算法使用 \hat{Q} 替代了未知的 $Q^*$，在时间步 $t$，其实际计算出的采样梯度 g_t 含有偏差。根据条件(i)，我们可以将期望梯度表示为 $\mathbb{E}[g_t] = \bar{g}_t + b_t$，其中偏差项受限于Q函数的近似误差，即存在常数 C>0 使得 $|b_t| \leq C \epsilon_Q$。

Step 2: 目标函数的Lipschitz平滑性。 由条件(iii)的经验回放分布平稳性假设，并结合常规策略神经网络使用平滑激活函数（如ReLU或Tanh）的特点，目标函数 J(\theta) 在参数空间内具有 $L_J$-Lipschitz连续的梯度。根据非凸优化的经典下降引理 (Descent Lemma)，参数通过 \theta_{t+1} = \theta_t + \alpha_t g_t 更新后，其目标函数的期望满足：

 \mathbb{E}[J(\theta_{t+1})] \geq \mathbb{E}[J(\theta_t)] + \alpha_t \mathbb{E}[\langle \nabla J(\theta_t), g_t \rangle] - \frac{L_J \alpha_t^2}{2} \mathbb{E}[\|g_t\|^2] \tag{5.21}

Step 3: 处理有偏梯度内积。 将 \mathbb{E}[g_t] = \nabla J(\theta_t) + b_t 代入内积项中，并利用柯西-施瓦茨不等式 $2\langle a, b \rangle \geq -|a|^2 - |b|^2$，可得：

 \mathbb{E}[\langle \nabla J(\theta_t), g_t \rangle] = \|\nabla J(\theta_t)\|^2 + \langle \nabla J(\theta_t), b_t \rangle \geq \frac{1}{2}\|\nabla J(\theta_t)\|^2 - \frac{1}{2}\|b_t\|^2 \tag{5.22}

将其回代入下降引理公式，并令 M 为梯度的二阶矩上界（即 $\mathbb{E}[|g_t|^2] \leq M^2$），得到单步不等式：

 \mathbb{E}[J(\theta_{t+1})] - \mathbb{E}[J(\theta_t)] \geq \frac{\alpha_t}{2}\|\nabla J(\theta_t)\|^2 - \frac{\alpha_t}{2}(C \epsilon_Q)^2 - \frac{L_J \alpha_t^2}{2} M^2 \tag{5.23}

Step 4: 嵌套求和与渐进速率。 将 t 从 1 到 T 进行嵌套求和 (Telescoping Sum)，并对不等式两边进行移项重排，我们能计算出整个训练轨迹上的平均梯度范数：

 \frac{1}{T}\sum_{t=1}^T \mathbb{E}[\|\nabla J(\theta_t)\|^2] \leq \frac{J^* - J(\theta_1)}{\frac{1}{2}\sum \alpha_t} + \frac{L_J M^2 \sum \alpha_t^2}{\sum \alpha_t} + C^2 \epsilon_Q^2 \tag{5.24}

其中 J^* 为系统能达到的最大理论效用（有限值）。由于条件(ii)规定了Robbins-Monro学习率规划（例如令 $\alpha_t \propto 1/\sqrt{t}$），当 T \rightarrow \infty 时，方程右侧前两项将以 O(1/\sqrt{T}) 的速率衰减。因此极限存在且满足：

 \lim_{T \to \infty} \frac{1}{T}\sum_{t=1}^T \mathbb{E}[\|\nabla J(\theta_t)\|^2] = \mathcal{O}\Big(\frac{1}{\sqrt{T}}\Big) + \mathcal{O}(\epsilon_Q^2) \tag{5.25}

Step 5: 混合奖励结构的兼容性。 值得强调的是，在本文的Co-MADDPG中，智能体 i 的即时奖励为复合项 $r_i = \lambda r_i^{\text{coop}} + (1-\lambda) r_i^{\text{comp}}$。由于该混合仅为有界基本奖励的线性组合，且 \lambda \in [0, 1] 有界，因此这种时变奖励结构的引入并没有破坏原始MADDPG中回报方差的有界性，梯度Lipschitz常数 L_J 以及二阶矩界限 M 依然存在且为有限实数。这确保了上述SGD界限在合作竞争动态环境中完全成立。证明完毕。\square

Remark 5: 定理4揭示了基于深度学习的博弈求解方法中，最终收敛质量不可避免地受限于由神经网络容量和探索不充分引起的误差项 $\epsilon_Q$（即偏差地板效应）。这解释了为什么在实际工程算法设计中，必须采用“目标网络软更新（Soft Update of Target Networks）”、“经验回放机制”以及“合理的噪声注入（如OU过程噪声）”等技术手段。这些机制从理论本源上是为了平抑时序差分更新中的非平稳性，压低 \sup |\hat{Q}_i - Q_i^*| 的上界 $\epsilon_Q$，从而使算法收敛点尽可能地贴近真实的Stackelberg合作竞争均衡。

本章的理论推导为论文所提体系结构的优越性提供了不可或缺的数学支撑。结合本章所提供的存在性证明与收敛性保障，下一章将详细探讨具体算法的计算流程与工程实现细节。

26 KiB Raw Permalink Blame History Unescape Escape