# 第一章：引言 (Introduction)

## 1.1 研究背景
随着第六代移动通信 (6G) 愿景的提出，无线通信网络正从单纯的“连接万物”向“连接智能”演进 [1]。传统通信系统主要基于香农 (Shannon) 经典信息论 [8]，通过提高传输功率、扩展频谱带宽或采用高阶调制等手段来追求数据传输速率的极限。然而，在频谱资源日益稀缺且通信需求呈爆炸式增长的背景下，传统比特级传输正面临严峻的能效与谱效瓶颈。

语义通信 (Semantic Communication, SemCom) 作为一种颠覆性的通信范式，通过提取并传输信息的深层含义而非原始比特，实现了远超传统通信的数据压缩率 [1], [4]。这种以任务为导向、以语义为核心的传输模式，能够显著降低带宽消耗，被公认为支撑未来超大规模智能应用的关键技术。尽管如此，在可预见的未来，语义通信无法完全取代基于比特传输的传统通信。在同一个正交频分多址 (OFDMA) 系统中，支持多媒体检索、智能监控等任务的语义用户 (Semantic Users) 必将与执行文件下载、网页浏览等任务的传统用户 (Bit-stream Users) 长期共存。这种共存环境下的资源共享问题，是实现语义通信落地应用的核心挑战。

## 1.2 现有工作的不足
针对语义通信的资源管理，学术界已开展了一系列探索。例如，研究者提出了基于深度强化学习的模式选择方案 [2]，以及针对混合数模语义系统的带宽分配算法 [3]。然而，现有工作在处理语义通信与传统通信的共存关系时，仍存在以下显著局限性：

1. **单一博弈模式的局限**：现有研究通常将两类用户的交互简化为纯合作 (Cooperative) 或纯竞争 (Competitive) 模式 [4]。纯合作模式假设所有智能体完全无私地最大化系统总效用，往往忽略了不同业务实体的利益诉求；而纯竞争模式虽反映了资源的稀缺性，却常导致局部最优甚至系统崩溃，造成严重的全局低效。
2. **缺乏灵活性切换机制**：在动态时变的无线环境下，系统对实时性、可靠性和体验质量 (Quality of Experience, QoE) 的要求随时间波动。现有的静态资源分配方案无法根据系统整体 QoE 的变化，在合作与竞争之间进行平滑且灵活的策略切换。
3. **层级关系建模缺失**：由于语义通信通常具有更高的智能程度和任务复杂性，两类通信实体在决策顺序和影响力上表现出明显的非对称性。现有工作大多采用对称博弈，难以刻画这种天然的层级依存关系。

## 1.3 研究动机
为了克服上述局限，本研究引入了合作竞争 (Coopetition) 理论 [6]。合作竞争并非简单的两者择一，而是一种在竞争中寻求合作、在合作中保持竞争的混合博弈框架。在 OFDMA 系统中，$K_s$ 个语义智能体 (Agent_S) 与 $K_b$ 个传统智能体 (Agent_B) 共享 $N$ 个子载波。这种场景天然具备合作竞争的特征：一方面，双方为了最大化各自的 QoE 而在频谱资源上展开竞争；另一方面，为了维持系统的整体稳定性并避免极端的干扰，双方又必须在资源调度上达成某种程度的协作。

引入合作竞争框架的动机在于：通过动态调整合作与竞争的权重 $\lambda(t)$，系统可以根据当前的运行状态自适应地平衡个体利益与集体效用。当系统整体体验质量 $QoE_{sys}$ 较低时，增强合作分量以保障基本通信服务；当 $QoE_{sys}$ 处于较高水平时，释放竞争活力以激发各智能体的性能潜力。这种机制不仅能提升系统的稳健性，还能通过更精细的博弈建模提高资源的利用效率。

## 1.4 主要贡献
本文针对语义与传统通信共存场景下的资源分配问题，提出了基于合作竞争多智能体强化学习的优化方案。具体贡献概括如下：

* **(C1) 首次将合作竞争博弈引入语义与传统通信共存场景**：针对 OFDMA 系统的子载波与功率分配问题，建立了显式的合作竞争博弈模型。该模型突破了传统单一博弈模式的限制，为语义通信与传统通信的异构资源共享提供了全新的理论视角。
* **(C2) 提出层级 Stackelberg 博弈建模**：考虑两类通信实体的智能程度差异，将语义智能体设定为领导者 (Leader)，传统智能体设定为跟随者 (Follower)。通过刻画这种非对称的策略交互，更准确地描述了复杂无线环境中的资源博弈过程。
* **(C3) 设计基于系统 QoE 的动态自适应切换机制**：提出了一种随时间变化的合作竞争切换因子 $\lambda(t)$。该因子根据实时反馈的 $QoE_{sys}$ 自动调整奖励函数中的合作权重，实现了系统性能与个体需求的动态平衡。
* **(C4) 提出 Co-MADDPG 算法框架**：基于集中式训练、分布式执行 (CTDE) 架构，设计了合作竞争多智能体深度确定性策略梯度 (Co-MADDPG) 算法 [5]。该算法通过引入 $\lambda(t)$ 修饰的混合奖励机制，有效解决了混合博弈环境下的非平稳性问题。
* **(C5) 严密的理论证明与仿真验证**：从数学上证明了所提博弈模型中 Stackelberg 均衡 (SE) 的存在性，推导了合作竞争带来的性能增益下界，并对 $\lambda(t)$ 的收敛性以及算法的稳定性进行了理论分析。仿真结果验证了所提方案在提升频谱效率和用户公平性方面的优越性。

## 1.5 论文组织结构
本文的其余部分组织如下。第二节回顾了语义通信资源分配、合作竞争博弈理论和多智能体强化学习的相关工作。第三节描述了 OFDMA 系统模型，包括网络架构、信道模型、语义与传统通信模型以及统一的 QoE 指标。第四节建立联合优化问题并引入 Stackelberg 合作竞争博弈建模与动态 $\lambda(t)$ 切换机制。第五节提供严格的理论分析，包括均衡存在性、合作竞争增益下界、$\lambda(t)$ 收敛性和算法收敛性。第六节详细阐述所提出的 Co-MADDPG 算法设计与伪代码。第七节展示仿真结果与性能评估。最后，第八节总结全文并探讨未来的研究方向。