# Co-MADDPG: 面向语义与传统混合通信的合作竞争多智能体资源分配框架

> **目标期刊**: IEEE Transactions on Communications (TCOM)
> **格式**: 中文初稿 → 后续翻译英文 + LaTeX排版
> **篇幅**: 12-14页 (双栏IEEE格式)

---

**摘要**

本文针对正交频分多址（OFDMA）系统中语义通信与传统比特通信共存场景下的资源分配问题，提出了一种基于合作竞争（Coopetition）博弈论的多智能体深度强化学习框架。现有研究通常将两类通信实体的交互建模为纯合作或纯竞争，难以适应动态时变的无线信道环境。为此，本文首次将合作竞争博弈引入语义-传统混合通信场景，建立了以语义智能体为领导者、传统智能体为跟随者的 Stackelberg 博弈模型，并设计了基于系统体验质量（QoE）反馈的动态切换因子 $\lambda(t)$，实现合作与竞争模式之间的自适应平衡。在此基础上，本文提出了 Co-MADDPG 算法，该算法在集中式训练-分布式执行（CTDE）架构中引入 Stackelberg 层级更新机制和动态混合奖励函数。理论分析证明了四个关键结果：(1) Stackelberg 均衡的存在性；(2) 合作竞争机制相对于纯策略的效用增益下界；(3) 动态切换因子 $\lambda(t)$ 的收敛性；(4) Co-MADDPG 的近似 Nash 均衡收敛速率为 $O(\epsilon_Q + 1/\sqrt{T})$。仿真结果表明，与七种基线方案相比，Co-MADDPG 在系统 QoE、用户公平性和网络扩展性等指标上均取得了显著优势。消融实验进一步验证了各核心组件的有效性。

**关键词**: 语义通信, 资源分配, 合作竞争博弈, 多智能体深度强化学习, Stackelberg博弈, OFDMA

---

## I. 引言 (Introduction)

→ 见 `01_introduction.md`

## II. 相关工作 (Related Work)

→ 见 `02_related_work.md`

## III. 系统模型 (System Model)

→ 见 `03_system_model.md`

## IV. 问题建模 (Problem Formulation)

→ 见 `04_problem_formulation.md`

## V. 理论分析 (Theoretical Analysis)

→ 见 `05_theoretical_analysis.md`

## VI. 算法设计 (Proposed Algorithm)

→ 见 `06_algorithm.md`

## VII. 仿真结果 (Simulation Results)

→ 见 `07_simulation_results.md`

## VIII. 结论 (Conclusion)

→ 见 `08_conclusion.md`

## 参考文献 (References)

→ 见 `09_references.md`

---

> **符号约定**: 见 `notation.md`