# 第二章：相关工作 (Related Work)

本章旨在系统回顾语义通信资源分配、合作竞争博弈论以及多智能体深度强化学习 (MARL) 的最新研究进展，并以此识别现有工作中的研究空白。

## A. 语义通信中的资源分配 (Resource Allocation in Semantic Communications)

语义通信作为一种超越香农范式的通信架构，正逐渐从理论模型向实际部署演进。自 Xie 和 Qin 提出 DeepSC [1] 框架以来，语义通信的系统设计已取得了显著突破。DeepSC 及其后续变体通过联合信源信道编码 (JSCC)，将传统物理层传输转变为基于文本或图像语义的任务。然而，由于语义特征的大小与信源内容紧密耦合，其资源需求呈现出高度的动态性。

针对语义通信环境下的资源调度，Noh 等人 [2] 提出了一种基于深度 Q 网络 (DQN) 的单智能体资源分配方法，探讨了在多模态场景下的模式选择与带宽分配问题。此工作展示了深度强化学习在处理复杂语义指标（如语义相似度）方面的潜力，但其假设单一接入点控制所有资源，未考虑多用户间的交互。Xie 等人 [3] 进一步扩展了应用范围，提出了 HDA-DeepSC 框架，实现了数字与模拟混合的语义通信系统，旨在提高不同信道条件下的传输鲁棒性。尽管技术不断迭代，Zhang 等人 [4] 在其综述中指出，目前的主流方法可分为基于传统优化、基于学习以及混合驱动三类。

现有研究的一个共同局限在于，大多数工作假设语义通信设备独占系统资源，或者与传统通信用户进行简单的正交分配 (Orthogonal Allocation)。这种静态划分忽略了语义业务与传统比特业务在共存环境下的深度交互，未能解决如何在有限频谱内实现两种异构业务的高效统筹。

## B. 合作竞争博弈理论 (Cooperative-Competitive Game Theory)

在多用户无线网络中，用户间的交互通常具有合作与竞争的双重属性，这种动态关系可通过合作竞争 (Coopetition) 理论进行建模。Brandenburger 和 Nalebuff [6] 奠定了 Coopetition 的理论基础，指出主体可以通过合作扩大总价值，同时通过竞争分配利润。这种思想在无线通信中有着广泛的应用背景。

Stackelberg 博弈是处理层级化竞争的经典工具，已被大量应用于基站与用户间的功率控制及频谱租用。然而，普通的非合作博弈往往会导致纳什均衡点偏离系统最优。Parzy 和 Bogucka [7] 的研究是与本文最相关的先验工作，他们将 Coopetition 引入 OFDMA 认知无线电网络，通过混合效能函数平衡了各用户的独立目标与系统整体性能。虽然该项工作验证了合作竞争博弈在传统比特流传输中的有效性，但其尚未触及语义通信这一维度。

传统的博弈论方法，如纳什议价 (Nash Bargaining) 或联盟博弈，在处理高度非平稳的大规模网络时面临计算复杂度爆炸的挑战。此外，现有博弈模型大多基于固定的合作权重，无法根据实时的业务需求（如语义任务的紧急程度）自适应地调整用户间的相互关系。

## C. 多智能体深度强化学习 (Multi-Agent Deep Reinforcement Learning)

随着智能边缘设备数量的激增，多智能体深度强化学习 (MARL) 成为解决分布式资源分配的核心技术。Lowe 等人 [5] 提出的 MADDPG 算法通过集中式训练与分布式执行 (CTDE) 架构，有效地缓解了多智能体环境中的非平稳性问题。

在传统的 Independent DQN 或 DDPG 方法中，由于每个智能体将其他参与者视为环境的一部分，导致训练过程极难收敛。相比之下，CTDE 框架允许智能体在训练阶段共享全局状态信息，从而学习更复杂的协调策略。在混合合作竞争任务中，近期出现了一些代表性进展。例如，SoLPO [9] 在自动驾驶领域引入了社交奖励 (Social Reward) 机制，通过引导智能体关注其对他者的影响来促进安全协作。Yang 等人 [10] 则探索了 Stackelberg-MADDPG，将层级博弈结构嵌入到神经网络的更新过程中。

尽管 MARL 在无人机通信、车联网资源调度中得到了应用，但针对语义通信特有指标（如语义熵、重建保真度）的优化方案仍处于起步阶段。尤其是如何在奖励函数设计中显式地体现合作竞争的动态平衡，依然是当前学术界的一个重要挑战。

## D. 差距分析与本文定位 (Research Gap and Our Positioning)

通过对上述文献的梳理，可以发现语义通信与合作竞争博弈的结合仍是一个尚未被充分开发的领域。下表总结了本文工作与现有代表性研究的对比：

| 工作 | 语义通信 | 传统通信 | 合作 | 竞争 | 动态切换 | MARL | 理论保证 |
|:---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| Noh et al. [2] | ✓ | ✓ | — | — | — | Single DQN | — |
| Xie et al. [3] | ✓ | — | — | — | — | — | — |
| Parzy & Bogucka [7] | — | ✓ | ✓ | ✓ | 固定 | — | 部分 |
| MADDPG [5] | — | — | ✓ | ✓ | — | ✓ | — |
| SoLPO [9] | — | — | ✓ | ✓ | 社交奖励 | ✓ | — |
| **本文 (Ours)** | **✓** | **✓** | **✓** | **✓** | **自适应λ(t)** | **✓** | **✓** |

本文的定位在于填补以下四个关键领域的研究空白：
1. **异构业务共存**：首次在统一的资源分配框架下，显式地处理语义通信用户与传统通信用户的资源竞争与相互补偿。
2. **显式合作竞争动态**：不同于传统的固定效用函数，本文引入了受博弈论启发的社交倾向性指标，表征用户间的策略交互。
3. **自适应切换机制**：通过学习一个随时间演进的权重系数 $\lambda(t)$，智能地在纯竞争行为与协作行为之间平衡，以应对多变的信道状态。
4. **理论与实践结合**：在利用 MARL 实现高效分布式执行的同时，通过数学证明给出了系统稳定性的理论边界。

综上所述，本文的研究工作不仅是对现有语义通信资源分配方法的补充，更是将博弈论与分布式人工智能深度融合的一次重要尝试。这种全新的视角将为未来 6G 网络中的异构业务支持提供重要的理论指导。