第四章：问题建模 (Problem Formulation)

在第三章建立的系统模型基础上，本章将详细阐述语义-比特异构网络中的资源分配与参数联合优化问题。为了应对异构智能体之间复杂的相互作用和动态的网络环境，本章首先建立系统级的全局联合优化问题，分析其数学特性与传统求解方法的局限性；随后，将该优化问题转化为一个非对称的Stackelberg合作竞争博弈（Coopetition Game）模型，并从理论上明确领导者与跟随者的角色分配及收益结构；最后，提出一种受系统状态驱动的动态合作竞争切换机制，以实现系统在不同状态下对个体性能突破与全局性能稳定之间的动态权衡。

A. 联合优化问题 (Joint Optimization Problem)

在语义通信与传统比特通信共存的无线网络中，系统的核心目标是最大化所有用户的综合体验质量（Quality of Experience, QoE）。我们考虑由子载波分配矩阵 \mathbf{A} = [\alpha_{k,n}]_{K \times N} 和功率分配矩阵 \mathbf{P} = [p_{k,n}]_{K \times N} 构成的联合优化框架。系统的全局优化问题可以数学化地表达为如下形式：


\max_{\mathbf{A}, \mathbf{P}} \quad \text{QoE}_{\text{sys}} = \frac{1}{K} \sum_{k=1}^{K} \text{QoE}_k \tag{1}

公式(1)的物理意义解释：该目标函数表示系统的全局平均体验质量（$\text{QoE}_{\text{sys}}$），其被定义为网络中所有 K 个用户（包含语义用户与比特用户）各自QoE指标的算术平均值。最大化该函数意味着网络资源调度器致力于提升整个系统的综合通信效能与用户感知度。

为了保证通信的物理可行性与公平性，上述目标函数的最大化必须满足以下约束条件：


\begin{aligned}
\text{s.t.} \quad & (C1): \alpha_{k,n} \in \{0, 1\}, \forall k \in \mathcal{K}, \forall n \in \mathcal{N} \\
& (C2): \sum_{k=1}^{K} \alpha_{k,n} \leq 1, \forall n \in \mathcal{N} \\
& (C3): p_{k,n} \geq 0, \forall k \in \mathcal{K}, \forall n \in \mathcal{N} \\
& (C4): \sum_{k=1}^{K} \sum_{n=1}^{N} p_{k,n} \leq P_{\max} \\
& (C5): R_k^{(b)} \geq R_k^{\text{req}}, \forall k \in \mathcal{K}_b
\end{aligned} \tag{2}

公式(2)的物理意义解释：

(C1) 定义了子载波分配变量的二元属性。\alpha_{k,n} = 1 表示第 n 个子载波被分配给第 k 个用户，否则为 $0$。
(C2) 为正交频分复用（OFDM）系统的无用户间干扰约束。它强制规定任何一个子载波 n 在同一时隙内最多只能分配给一个用户，从而在物理层面上避免了同频干扰。
(C3) 规定了发射功率的非负性限制，即基站或终端分配给任何子载波的功率 p_{k,n} 不能为负数，这是物理发射机硬件的基本限制。
(C4) 构成了系统的总功率预算约束。分配给所有用户和所有子载波的功率之和不能超过发射机的最大允许发射功率 $P_{\max}$，反映了通信系统的能量受限特性。
(C5) 为传统比特用户的服务质量（QoS）兜底约束。它要求对于所有比特用户集合 \mathcal{K}_b 中的用户 $k$，其分配资源后达到的传输速率 R_k^{(b)} 必须大于或等于其基本业务所需的最低速率阈值 $R_k^{\text{req}}$，以保证传统通信链路的连通性与可用性。

Remark 1 (问题复杂性与传统方法的局限性)：根据公式(1)与(2)构建的联合优化问题属于典型的混合整数非线性规划问题（Mixed-Integer Non-Linear Programming, MINLP）。一方面，由于二元子载波分配变量 \mathbf{A} 的引入，使得该问题的可行域是非凸的离散集；另一方面，QoE的计算涉及到香农公式中的对数项、语义提取性能指标以及功率 \mathbf{P} 之间的强非线性耦合。从计算复杂性理论来看，该问题可以通过归约证明为NP-hard（非确定性多项式时间困难）问题。

在面对此类NP-hard问题时，传统优化方法往往暴露出显著的局限性：

连续松弛与对偶优化（如拉格朗日乘子法）：通常需要将二元变量 \alpha_{k,n} 松弛为连续变量 [0,1] 以满足凸优化的前提。但在系统高度非凸、多模态的情况下，松弛带来的对偶间隙（Duality Gap）极大，导致恢复得到的离散解往往是次优的，甚至是不可行的。
启发式算法与图论匹配（如匈牙利算法、Gale-Shapley算法）：这些方法需要基于确定的信道状态信息（CSI）和静态的网络拓扑进行多项式时间求解。然而，在引入语义通信后，QoE不仅取决于信噪比，还与语义压缩率、背景知识库匹配度等高维隐藏状态强相关，传统匈牙利算法无法处理这种跨越“语义-物理”层面的多维参数耦合优化。

有鉴于此，必须寻求一种更为智能、去中心化且能适应异构参数空间的新型求解范式。

B. Stackelberg合作竞争博弈建模 (Stackelberg Coopetition Game)

为了突破中心化全局优化在维度爆炸和非凸特性上的瓶颈，本节将上述联合优化问题解耦，并重新建模为一个包含语义智能体（Semantic Agent, 记作S）和传统比特智能体（Bit-based Agent, 记作B）的两人非对称Stackelberg合作竞争博弈模型。

具体而言，定义该博弈模型为 $\mathcal{G}$：


\mathcal{G} = \langle \mathcal{N}, \{\mathcal{A}_i\}_{i \in \mathcal{N}}, \{U_i\}_{i \in \mathcal{N}} \rangle \tag{3}

公式(3)的物理意义解释：这是一个标准的博弈论元组形式。其中，\mathcal{N} = \{S, B\} 表示博弈的参与者（Players）集合，即语义智能体与比特智能体；\{\mathcal{A}_i\}_{i \in \mathcal{N}} 表示各参与者可选的连续动作空间（Action Space）；\{U_i\}_{i \in \mathcal{N}} 表示定义在动作空间上的个体效用函数（Utility Function），反映了各智能体对其决策结果的偏好程度。

在Stackelberg框架下，参与者的决策具有时间先后顺序和信息不对称性。本文设定语义智能体 (Agent S) 作为博弈的领导者 (Leader)，而传统智能体 (Agent B) 作为跟随者 (Follower)。

Leader (Agent_S) 的连续动作空间 \mathcal{A}_S 包含三个维度的决策：
1. $n_{\text{sub}}^{(S)} \in [0, 1]$：请求的子载波比例，随后在系统中被映射为占用 [0, N] 的具体子载波数量。
2. $p_{\text{frac}}^{(S)} \in [0, 1]$：请求的功率分配比例，表示语义通信业务意图占据系统总发射功率的百分比。
3. $\rho \in [\rho_{\min}, \rho_{\max}]$：语义压缩比。这是语义通信独有的参数，决定了源端知识图谱或特征提取的网络层对数据的压缩程度，反映了对信道带宽的依赖度与语义恢复失真之间的权衡。
Follower (Agent_B) 的连续动作空间 \mathcal{A}_B 同样包含三个维度的决策：
1. $n_{\text{sub}}^{(B)} \in [0, 1]$：请求的子载波比例。
2. $p_{\text{frac}}^{(B)} \in [0, 1]$：请求的功率分配比例。
3. $m \in [m_{\min}, m_{\max}]$：调制阶数选择（如从BPSK到256-QAM的映射常数）。它决定了传统通信链路的频谱效率和对误码率的鲁棒性。

为了体现“合作竞争”（Coopetition）的本质，智能体的效用函数不仅关注自身的QoE，还需部分兼顾对方的QoE以及全局系统的表现。我们引入时间依赖的切换权重 $\lambda(t)$，构建如下混合效用函数：


U_S(\mathbf{a}_S, \mathbf{a}_B) = \lambda(t) \cdot U_S^{\text{coop}}(\mathbf{a}_S, \mathbf{a}_B) + (1 - \lambda(t)) \cdot U_S^{\text{comp}}(\mathbf{a}_S) \tag{4}


U_B(\mathbf{a}_S, \mathbf{a}_B) = \lambda(t) \cdot U_B^{\text{coop}}(\mathbf{a}_S, \mathbf{a}_B) + (1 - \lambda(t)) \cdot U_B^{\text{comp}}(\mathbf{a}_B) \tag{5}

公式(4)与(5)的物理意义解释：这两个等式分别定义了语义智能体和比特智能体在 t 时刻的总期望效用。总效用由“合作效用 (U_i^{\text{coop}})”和“竞争效用 (U_i^{\text{comp}})”两部分线性加权组成。动态权重因子 \lambda(t) \in [0,1] 则衡量了当前系统状态下，智能体更倾向于表现出合作利他行为，还是竞争利己行为。

进一步地，合作与竞争子效用的内部结构定义为：


U_i^{\text{coop}} = 0.5 \cdot \text{QoE}_i + 0.3 \cdot \text{QoE}_j + 0.2 \cdot \text{QoE}_{\text{sys}} \tag{6}


U_i^{\text{comp}} = 0.8 \cdot \text{QoE}_i + 0.2 \cdot \text{QoE}_{\text{sys}} \tag{7}

公式(6)与(7)的物理意义解释：

在公式(6)中（$i \neq j, {i,j} \in {S,B}$），合作效用强调互利共赢。智能体 i 在获取效用时，赋予自身QoE 50\% 的权重，同时将对方智能体 j 的QoE以 30\% 的权重纳入考量，并保留 20\% 贡献给全局系统。这促使智能体在探索时主动让步物理资源以成全对方。
在公式(7)中，竞争效用具有极强的排他性。智能体将 80\% 的利益诉求集中于自身的QoE最大化，仅保留 20\% 的全局约束（避免系统崩溃），彻底忽略对手的利益。在此模式下，双方将为争夺有限的子载波与功率展开零和或负和博弈。

基于上述定义，博弈最终追求的是Stackelberg均衡。

Definition 1 (Stackelberg Equilibrium): 对于博弈 $\mathcal{G}$，动作策略对 (\mathbf{a}_S^*, \mathbf{a}_B^*) 构成Stackelberg均衡的充要条件为：


\mathbf{a}_B^*(\mathbf{a}_S) = \arg\max_{\mathbf{a}_B \in \mathcal{A}_B} U_B(\mathbf{a}_S, \mathbf{a}_B) \tag{8}


\mathbf{a}_S^* = \arg\max_{\mathbf{a}_S \in \mathcal{A}_S} U_S(\mathbf{a}_S, \mathbf{a}_B^*(\mathbf{a}_S)) \tag{9}

公式(8)与(9)的物理意义解释：

公式(8)描述了跟随者(Agent B)的最优反应曲线。它表示在给定领导者(Agent S)任何一个确定的动作 \mathbf{a}_S 的前提下，跟随者总会选择一个最大化自身效用的策略 $\mathbf{a}_B^*(\mathbf{a}_S)$。
公式(9)揭示了领导者的前瞻性优势。Agent S 在做决策时，已经完全预见到了 Agent B 将会基于公式(8)做出的最优回应 $\mathbf{a}_B^*(\mathbf{a}_S)$。因此，领导者的最优解 \mathbf{a}_S^* 是在考虑了跟随者反应之后的全局自我最优决策。这保证了在信息不对称下博弈的可解性与解的稳定性。

Remark 2 (领导者身份分配的合理性)：在本文构建的模型中，将语义智能体赋予Leader角色，而传统智能体赋予Follower角色具有深刻的工程逻辑：

更高的智能与维度感知：语义智能体不仅需要感知信道状态（CSI），还需要评估语义知识库的收发匹配度以及内容的语义重要性，其感知空间和决策维度远大于仅关心误码率的传统比特智能体。
更强的任务适应性：语义通信天然具备强大的资源压缩与冗余容忍能力（通过改变压缩比 $\rho$）。当网络拥塞时，语义节点有能力通过“语义特征提炼”主动牺牲微小精度以释放大量频谱带宽；而比特通信一旦低于最低香农速率 R_k^{\text{req}} 就会发生链路中断。由抗干扰能力强的一方作为Leader主导资源分配，能够极大降低整个系统的服务中断概率。
决策影响的非对称性：Leader拥有先行权。语义智能体优先分配其所需的最小有效资源结构，剩余资源再由传统通信根据其刚性约束进行最优化利用，这符合“先保证核心语义可达，再最大化比特吞吐”的异构网络演进趋势。

C. 动态合作竞争切换机制 (Dynamic Cooperation-Competition Switching)

在传统的博弈论算法中，合作或竞争关系往往是静态的、先验给定的。然而，无线信道的时变性和业务请求的突发性要求系统必须具备自适应的柔性策略。为了实现公式(4)和(5)中权重参数 \lambda(t) 的自驱调节，本文提出一种基于状态反馈的动态合作竞争切换机制，其数学表达式为：


\lambda(t) = \sigma(\beta \cdot (\text{QoE}_{\text{sys}}(t) - Q_{\text{th}})) = \frac{1}{1 + e^{-\beta \cdot (\text{QoE}_{\text{sys}}(t) - Q_{\text{th}})}} \tag{10}

公式(10)的物理意义解释：该公式利用非线性平滑函数 Sigmoid (\sigma(x))，将系统实时的全局体验质量 \text{QoE}_{\text{sys}}(t) 与预设的系统满意度阈值 Q_{\text{th}} 之间的误差，映射为一个严格处于 (0, 1) 连续区间的权重系数 $\lambda(t)$。它构建了一个闭环反馈控制机制，使得智能体的博弈倾向成为环境状态的内生变量。

直觉解释与演化行为分析：

资源匮乏/性能恶化期（当 \text{QoE}_{\text{sys}}(t) < Q_{\text{th}} 时）：此时指数项指数为正，导致 $\lambda(t) < 0.5$。系统当前处于性能不佳的状态（例如发生深衰落或用户极度拥挤）。此时机制引导两个智能体偏向竞争模式（公式(7)主导）。直觉上，在系统处于低效能的“泥潭”时，一味的合作（互相谦让资源）会导致双输（无一人满足通信条件）。激发竞争能够鼓励智能体采取更为激进的资源抢占和参数探索策略（例如语义智能体极限压缩以抢夺高信噪比子载波），这类似于演化算法中的变异机制，通过个体的极致性能突破来寻找跳出局部最优陷阱的新路径。
资源充裕/性能繁荣期（当 \text{QoE}_{\text{sys}}(t) > Q_{\text{th}} 时）：此时指数项指数为负，使得 $\lambda(t) > 0.5$。系统整体运行良好，达到了满意阈值。机制此时引导网络向合作模式倾斜（公式(6)主导）。直觉上，由于基本性能已经得到满足，智能体之间为了争夺边缘增益而产生的激烈竞争会引发无谓的干扰与资源浪费（如功率竞赛）。通过增大合作比重，智能体倾向于采用保守且互利的策略组合，在满足自身通信的同时出让多余功率，从而维持系统在最优稳态附近的长期稳定，减少参数抖动。
系统临界点（当 \text{QoE}_{\text{sys}}(t) = Q_{\text{th}} 时）：此时 $\lambda(t) = 0.5$，表示合作与竞争力量达到完美平衡。系统处于从竞争突破向合作稳态过渡的相变点。

Remark 3 (参数灵敏度与机制对比分析)：在公式(10)中，参数 \beta 被称为切换灵敏度因子，控制着系统对于性能偏差的反应剧烈程度。若 \beta 极大，Sigmoid函数将退化为阶跃函数，导致系统在合作与竞争之间发生硬切换（Hard Switching），容易引起强化学习训练过程的震荡不收敛；若 \beta 极小，则 \lambda(t) 始终徘徊在 0.5 附近，丧失了动态切换的意义。因此，\beta 的选取直接关系到算法的探索（Exploration）与利用（Exploitation）效率。

相比于现有的僵化博弈模式，本机制具备显著的优越性：若令 $\lambda = 1$（纯合作博弈），虽然系统长期稳定性好，但智能体在面对复杂非凸环境时容易因缺乏个体驱动力而陷入劣质的局部纳什均衡；若令 $\lambda = 0$（纯竞争博弈），智能体会因彻底的自私自利导致功率拉满产生严重的互相干扰，最终引发“公地悲剧”（Tragedy of the Commons），令系统总QoE崩溃。本文提出的动态机制 $\lambda(t) \in (0,1)$，成功地利用了竞争带来的“突破创新动力”和合作带来的“全局守护韧性”，在问题空间中构筑了一条动态收敛的最佳轨迹。围绕该模型的强化学习求解方法与算法验证，将在后续章节中深入展开。

16 KiB Raw Permalink Blame History Unescape Escape

第四章：问题建模 (Problem Formulation)

A. 联合优化问题 (Joint Optimization Problem)

B. Stackelberg合作竞争博弈建模 (Stackelberg Coopetition Game)

C. 动态合作竞争切换机制 (Dynamic Cooperation-Competition Switching)

16 KiB

Raw Permalink Blame History