第七章：仿真结果 (Simulation Results)

本章通过数值仿真评估所提 Co-MADDPG 算法在语义与传统用户共存网络中的性能。我们将验证动态合作平衡因子 \lambda 对系统生活质量（QoE）提升的有效性，并与多种基线方案进行对比。

A. 仿真参数设置 (Simulation Setup)

仿真环境基于 3GPP UMi 信道模型，并结合 Rayleigh 衰落以模拟城市微小区环境。基站位于区域中心，用户随机分布在 50-500 m 范围内。语义通信部分采用预训练的 DeepSC 模型。具体参数设置如表 VII-I 所示。

参数	值
子载波数 `N`	64
系统带宽 `B`	10 MHz
子载波间隔 `\Delta f`	156.25 kHz
最大发射功率 `P_{\max}`	1 W (30 dBm)
噪声功率谱密度 `N_0`	-174 dBm/Hz
载波频率 `f_c`	3.5 GHz
用户距离范围	50-500 m
语义用户数 `K_s`	3 (默认)
传统用户数 `K_b`	3 (默认)
传统用户最低速率 `R_k^{\text{req}}`	500 kbps
信道模型	3GPP UMi + Rayleigh
语义编码器	预训练 DeepSC
训练回合数	5000
每回合步数	200
`\beta`	5
`Q_{\text{th}}`	0.6

B. 基线方案 (Baseline Schemes)

为了全面评估算法性能，我们引入以下七种对比方案：

Pure Cooperative (B1)：设定 $\lambda = 1$，智能体完全追求系统整体奖励，忽略个体竞争增益。
Pure Competitive (B2)：设定 $\lambda = 0$，智能体仅追求自身个体奖励最大化，仅受系统强制约束限制。
Single-Agent DQN (B3)：复现 Noh et al. [2] 的方法，采用集中式单智能体 DQN 进行资源离散化分配。
Independent DDPG (B4)：各智能体独立运行 DDPG 算法，不进行任何信息共享或中心化评论员训练（Non-CTDE）。
Fixed \lambda = 0.5 (B5)：合作平衡因子固定为 0.5，不根据网络拥塞程度或 QoE 反馈进行自适应切换。
Equal Allocation (B6)：子载波与发射功率在所有活跃用户间进行均匀分配，作为性能下界。
Semantic-Only (B7)：假设所有用户均采用语义通信模式，评估纯语义环境下的资源分配特性。

C. 收敛性能分析 (Convergence Performance)

[图2: 不同算法下的训练收敛曲线对比]

图 2 展示了系统平均 QoE 随训练回合（Episode）的变化趋势。仿真结果表明，Co-MADDPG 在训练初期展现出一定的波动，这是由于 \lambda 动态调整机制在探索合作与竞争的平衡点。根据预期，Co-MADDPG 在大约 2000 至 3000 回合内实现平稳收敛，其最终达到的系统平均 QoE 稳定在 0.85 至 0.90 范围内。

相比之下，Pure Cooperative (B1) 虽收敛较快，但由于缺乏个体激发的竞争动力，最终 QoE 维持在 0.75 至 0.80 之间。Pure Competitive (B2) 因智能体间的资源博弈过于剧烈，导致系统在某些状态下难以满足传统用户的强制约束，其 QoE 波动较大且均值较低（0.60 至 0.70）。IDDPG (B4) 表现出明显的不稳定性，收敛速度极慢且容易陷入局部最优，验证了在多智能体环境下引入 CTDE 框架的必要性。

D. 不同 SNR 下的性能 (Performance vs. SNR)

[图3: 系统平均 QoE 随平均 SNR 的变化曲线]

[图4: Jain 公平性指数随平均 SNR 的变化曲线]

图 3 描绘了系统 QoE 随平均信噪比（SNR）提升的增长过程。预期结果显示，Co-MADDPG 在整个 SNR 区间（0-30 dB）内均优于其他基线方案。在低 SNR 区域（<10 dB），系统的主要瓶颈在于功率受限，此时 \lambda 趋向于较小值，激发智能体的竞争意识以优先保障信道条件优良的用户，从而实现个体突破。而在高 SNR 区域（>20 dB），随着资源压力缓解，Co-MADDPG 自动调节 \lambda 进入合作模式，优化全局资源分布。

图 4 的公平性分析表明，Co-MADDPG 通过动态调整，避免了某些用户长期占据优质子载波。仿真结果预期显示，其 Jain 公平性指数在 SNR 提升时保持稳健，显著优于倾向于“胜者通吃”的 Pure Competitive 方案。这验证了 Theorem 2 中关于合作增益下界的理论推导，即合作机制能有效弥补竞争带来的尾部用户性能损失。

E. 不同用户负载下的性能 (Performance vs. User Load)

[图5: 系统平均 QoE 随总用户数 K 的变化趋势]

[图6: 传统用户速率满足率随 K 的变化趋势]

图 5 展示了网络拥塞对性能的影响。随着总用户数 K 从 4 增加到 12，所有方案的平均 QoE 均出现不同程度的下降。Co-MADDPG 的下降曲线最为平缓，表明其具备更强的网络扩展性。在用户负载极高的场景下（$K=12$），Equal Allocation (B6) 方案最先崩溃，无法满足传统用户的最低速率要求。

图 6 进一步验证了传统用户约束的履行情况。Co-MADDPG 在动态 \lambda 调节下，能够优先保障传统用户 R_k^{\text{req}} 的硬性约束，其速率满足率预期比 B2 高出 20% 以上。这说明所提算法在处理语义通信的弹性需求与传统通信的刚性需求之间找到了有效的平衡点。

F. 动态 `\lambda` 切换行为分析 (Dynamic `\lambda` Analysis)

[图7: 合作平衡因子 \lambda(t) 在单个 Episode 内的时间演化轨迹]

[图8: \lambda 取值与系统 QoE 相关性的散点分布图]

为了深入理解算法的决策逻辑，图 7 追踪了 \lambda 的实时演化。在训练初期或信道剧烈波动的时隙，\lambda 呈现大幅度跳变，反映了算法在探索博弈空间。随着训练成熟，\lambda 倾向于收敛在 0.5 至 0.7 这一“温和合作”区间。

图 8 通过大量采样展示了 \lambda 与系统 QoE 的关系。预期散点图呈现出明显的 Sigmoid 形状：当 \lambda 过小时，系统陷入恶性竞争；当 \lambda 过大时，系统缺乏灵活性；而最优的 QoE 点集中在 \lambda 的动态切换区域。这定性地解释了为什么固定 \lambda 的 B5 方案无法达到最优性能，因为静态配置无法适应无线环境的时变性。

G. 语义/传统用户比例分析 (Semantic-Traditional Ratio)

[图9: 系统 QoE 在不同语义/传统用户比例下的表现]

在总用户数固定的情况下，图 9 考察了用户组成结构对资源分配效率的影响。当语义用户比例较高时，系统整体 QoE 提升明显，这是因为语义通信在低信噪比下具有更强的容错性。仿真结果预期表明，Co-MADDPG 在各种比例（从全传统到全语义）下均保持领先。特别是在混合比例（如 0.5 左右）下，由于两种业务对频谱资源的需求特性差异巨大，Co-MADDPG 的自适应博弈机制展现出比常规算法更高的调度效率。

H. 消融实验 (Ablation Study)

[图10: 核心组件对系统 QoE 贡献的消融实验柱状图]

图 10 展示了去除算法核心模块后的性能衰减情况：

去除 Stackelberg 层级更新：系统退化为普通 MADDPG，收敛过程变得不再单调，QoE 损失约 10%。
去除动态 $\lambda$：性能退化至 B5 方案，证明了自适应博弈切换是提升 QoE 的核心驱动力。
去除合作奖励分量：退化为带约束的竞争博弈，虽然满足了基本通信需求，但牺牲了语义传输的深度优化。
去除 CTDE：导致多智能体环境下的非平稳问题，QoE 出现断崖式下跌。

[图11: 动态调节灵敏度参数 \beta 对系统性能的影响]

[图12: QoE 切换阈值 Q_{\text{th}} 对算法稳定性的影响]

图 11 表明，当 \beta 取值适中（如 5 左右）时，\lambda 的切换最为平滑。过小的 \beta 导致切换过于敏感，引起系统震荡；过大的 \beta 则使系统响应迟钝。

图 12 探讨了阈值 Q_{\text{th}} 的设置。实验预期显示，Q_{\text{th}} 设定在预期 QoE 均值附近（0.6 左右）时效果最佳。设置过高会导致系统长期处于竞争状态，忽视全局利益；设置过低则会过早进入合作模式，抑制智能体的个体优化潜力。综上所述，仿真结果充分验证了 Co-MADDPG 算法在处理异构业务资源分配问题上的优越性与鲁棒性。

8.1 KiB Raw Permalink Blame History Unescape Escape