# Co-MADDPG: 面向语义与传统混合通信的合作竞争多智能体资源分配框架 > **目标期刊**: IEEE Transactions on Communications (TCOM) > **格式**: 中文初稿 → 后续翻译英文 + LaTeX排版 > **篇幅**: 12-14页 (双栏IEEE格式) --- **摘要** 本文针对正交频分多址(OFDMA)系统中语义通信与传统比特通信共存场景下的资源分配问题,提出了一种基于合作竞争(Coopetition)博弈论的多智能体深度强化学习框架。现有研究通常将两类通信实体的交互建模为纯合作或纯竞争,难以适应动态时变的无线信道环境。为此,本文首次将合作竞争博弈引入语义-传统混合通信场景,建立了以语义智能体为领导者、传统智能体为跟随者的 Stackelberg 博弈模型,并设计了基于系统体验质量(QoE)反馈的动态切换因子 $\lambda(t)$,实现合作与竞争模式之间的自适应平衡。在此基础上,本文提出了 Co-MADDPG 算法,该算法在集中式训练-分布式执行(CTDE)架构中引入 Stackelberg 层级更新机制和动态混合奖励函数。理论分析证明了四个关键结果:(1) Stackelberg 均衡的存在性;(2) 合作竞争机制相对于纯策略的效用增益下界;(3) 动态切换因子 $\lambda(t)$ 的收敛性;(4) Co-MADDPG 的近似 Nash 均衡收敛速率为 $O(\epsilon_Q + 1/\sqrt{T})$。仿真结果表明,与七种基线方案相比,Co-MADDPG 在系统 QoE、用户公平性和网络扩展性等指标上均取得了显著优势。消融实验进一步验证了各核心组件的有效性。 **关键词**: 语义通信, 资源分配, 合作竞争博弈, 多智能体深度强化学习, Stackelberg博弈, OFDMA --- ## I. 引言 (Introduction) → 见 `01_introduction.md` ## II. 相关工作 (Related Work) → 见 `02_related_work.md` ## III. 系统模型 (System Model) → 见 `03_system_model.md` ## IV. 问题建模 (Problem Formulation) → 见 `04_problem_formulation.md` ## V. 理论分析 (Theoretical Analysis) → 见 `05_theoretical_analysis.md` ## VI. 算法设计 (Proposed Algorithm) → 见 `06_algorithm.md` ## VII. 仿真结果 (Simulation Results) → 见 `07_simulation_results.md` ## VIII. 结论 (Conclusion) → 见 `08_conclusion.md` ## 参考文献 (References) → 见 `09_references.md` --- > **符号约定**: 见 `notation.md`