Co-MADDPG: 面向语义与传统混合通信的合作竞争多智能体资源分配框架

目标期刊: IEEE Transactions on Communications (TCOM) 格式: 中文初稿 → 后续翻译英文 + LaTeX排版篇幅: 12-14页 (双栏IEEE格式)

摘要

本文针对正交频分多址（OFDMA）系统中语义通信与传统比特通信共存场景下的资源分配问题，提出了一种基于合作竞争（Coopetition）博弈论的多智能体深度强化学习框架。现有研究通常将两类通信实体的交互建模为纯合作或纯竞争，难以适应动态时变的无线信道环境。为此，本文首次将合作竞争博弈引入语义-传统混合通信场景，建立了以语义智能体为领导者、传统智能体为跟随者的 Stackelberg 博弈模型，并设计了基于系统体验质量（QoE）反馈的动态切换因子 $\lambda(t)$，实现合作与竞争模式之间的自适应平衡。在此基础上，本文提出了 Co-MADDPG 算法，该算法在集中式训练-分布式执行（CTDE）架构中引入 Stackelberg 层级更新机制和动态混合奖励函数。理论分析证明了四个关键结果：(1) Stackelberg 均衡的存在性；(2) 合作竞争机制相对于纯策略的效用增益下界；(3) 动态切换因子 \lambda(t) 的收敛性；(4) Co-MADDPG 的近似 Nash 均衡收敛速率为 $O(\epsilon_Q + 1/\sqrt{T})$。仿真结果表明，与七种基线方案相比，Co-MADDPG 在系统 QoE、用户公平性和网络扩展性等指标上均取得了显著优势。消融实验进一步验证了各核心组件的有效性。

关键词: 语义通信, 资源分配, 合作竞争博弈, 多智能体深度强化学习, Stackelberg博弈, OFDMA

I. 引言 (Introduction)

→ 见 01_introduction.md

→ 见 02_related_work.md

III. 系统模型 (System Model)

→ 见 03_system_model.md

IV. 问题建模 (Problem Formulation)

→ 见 04_problem_formulation.md

V. 理论分析 (Theoretical Analysis)

→ 见 05_theoretical_analysis.md

VI. 算法设计 (Proposed Algorithm)

→ 见 06_algorithm.md

VII. 仿真结果 (Simulation Results)

→ 见 07_simulation_results.md

VIII. 结论 (Conclusion)

→ 见 08_conclusion.md

参考文献 (References)

→ 见 09_references.md

符号约定: 见 notation.md

2.4 KiB Raw Permalink Blame History Unescape Escape