MoE（Mixture of Experts）架构详解

2026-03-20 AI AI 0 评论字数统计: 2.7k(字) 阅读时长: 10(分)

核心思想与动机

核心思想

MoE 的核心思想可以用一句话概括：不是所有输入都需要经过模型的全部参数——让不同的”专家”处理不同类型的输入，每次只激活其中一小部分。

这本质上是一种 条件计算（Conditional Computation） 的范式：模型的总参数量可以非常大，但对于任意一个输入 token，只有一小部分参数参与计算。这打破了传统 Dense Model 中”参数量 ≈ 计算量”的线性绑定关系。

动机

MoE 的出现源于深度学习的一个根本性矛盾：

矛盾	说明
更大的模型 → 更好的性能	Scaling Law 告诉我们，增加参数量几乎总能提升模型能力
更大的模型 → 更高的计算成本	Dense Model 的 FLOPs 与参数量成正比，训练和推理成本急剧上升

MoE 提供了一条”鱼和熊掌兼得”的路径：

在保持计算量（FLOPs）基本不变的前提下，大幅扩展模型的参数量和容量。

举个直觉性的类比：一家大医院有 100 位专科医生（参数量大），但每个患者只需要看 2-3 位相关科室的医生（激活参数少），而不是让所有 100 位医生都会诊。

架构组成

一个典型的 MoE 层由两个核心组件构成：专家网络（Experts） 和 门控网络（Gating Network / Router）。

专家网络（Expert Networks）

每个”专家”本质上就是一个独立的 前馈网络（FFN），结构通常与标准 Transformer 中的 FFN 完全相同（两层线性变换 + 激活函数）。
一个 MoE 层包含个专家：，典型的值从 8 到数千不等。
所有专家共享相同的架构，但参数完全独立——它们各自学习不同的”专业技能”。

1	Expert_i(x) = W_2^{(i)} · σ(W_1^{(i)} · x) # 每个专家是一个标准 FFN

门控网络 / 路由器（Gating Network / Router）

门控网络是 MoE 的”调度中心”，决定每个输入 token 应该被发送给哪些专家。

最经典的设计（Shazeer et al., 2017）：

其中：

是输入 token 的隐状态向量（维度）
是可学习的路由权重矩阵
产生个 logits，表示该 token 对每个专家的”亲和度”
TopK 只保留得分最高的个专家（其余置为）
Softmax 将 TopK 的结果归一化为概率权重

MoE 层的完整计算

一个 MoE 层的输出为：

即：被选中专家的输出，按门控权重加权求和。

在 Transformer 中的集成方式

MoE 通常 替换 Transformer 中的 FFN 层，而非注意力层。一个典型的部署模式：

标准 Transformer Block:     MoE Transformer Block:
┌──────────────────┐       ┌──────────────────┐
│  Self-Attention   │       │  Self-Attention   │
├──────────────────┤       ├──────────────────┤
│     FFN          │  →    │   MoE Layer       │
│  (单一专家)       │       │  (N个专家+Router) │
└──────────────────┘       └──────────────────┘

常见做法是 每隔若干层 将一个标准 FFN 替换为 MoE 层（如每 2 层或每 4 层替换一次），而非全部替换。

工作流程：路由机制与稀疏激活

详细路由流程

以 Top-2 路由为例，处理一个 batch 的完整流程：

Step 1: Token Embedding
  输入序列 → [t1, t2, t3, ..., tn]  每个 ti ∈ R^d

Step 2: 路由计算
  对每个 token ti:
    logits_i = ti · W_g           # → R^N (N个专家的分数)
    top2_indices = TopK(logits_i, k=2)  # 选出分数最高的2个专家
    weights_i = Softmax(logits_i[top2_indices])  # 归一化权重

Step 3: Token 分发 (Dispatch)
  将每个 token 发送给它选中的2个专家
  (在分布式场景中，这涉及跨设备的 All-to-All 通信)

Step 4: 专家计算
  每个专家 E_j 并行处理分配给自己的所有 token

Step 5: 结果合并 (Combine)
  y_i = w_i1 · E_{j1}(t_i) + w_i2 · E_{j2}(t_i)
  (加权合并两个专家的输出)

Step 6: 继续下一层

稀疏激活的本质

稀疏性 是 MoE 的核心优势来源：

假设模型有个专家，Top-2 路由
每个 token 只激活的专家参数
模型总参数量 = 64 × 单个专家参数量 + 共享参数（Attention 等）
实际计算量 ≈ 2 × 单个专家参数量 + 共享参数

这就是为什么 MoE 能做到 “参数量巨大，但计算量可控“。

路由机制的演进

方法	提出者	核心思想
Top-K Routing	Shazeer et al., 2017	经典方案，每个 token 选 K 个专家
Switch Routing (Top-1)	Fedus et al., 2021	极端稀疏，每个 token 只选 1 个专家
Expert Choice	Zhou et al., 2022	反转视角——让专家选 token，而非 token 选专家
Soft MoE	Puigcerver et al., 2023	取消离散路由，用 soft 加权组合所有专家
Hash Routing	Roller et al., 2021	用固定哈希函数路由，无需可学习参数

优势与挑战

核心优势

✅ 计算效率的根本性提升

这是 MoE 最大的卖点。以具体数字说明：

模型	总参数量	激活参数量	比值
Mixtral 8×7B	~47B	~13B	3.6×
Switch-XXL	1.6T	~同 T5-XXL	~10×
GPT-4 (传闻)	~1.8T	~280B per forward	~6×

关键结论：MoE 让你用 13B 的计算成本，获得接近 47B Dense 模型的性能。

✅ 训练速度快

在相同的计算预算（FLOPs）下，MoE 模型通常比 Dense 模型 收敛更快，因为更大的参数空间提供了更强的拟合能力。

✅ 天然的并行性

不同专家可以部署在不同的 GPU/节点上，实现 专家并行（Expert Parallelism），这与数据并行、张量并行、流水线并行正交，提供了额外的并行维度。

核心挑战

⚠️ 挑战一：负载均衡（Load Balancing）

问题本质：路由网络倾向于将大部分 token 集中发送给少数几个”热门”专家，导致：

热门专家过载，成为计算瓶颈
冷门专家得不到充分训练，参数浪费
极端情况下退化为只用 1-2 个专家的 Dense 模型

解决方案：引入 辅助负载均衡损失（Auxiliary Load Balancing Loss）：

其中：

：专家实际接收到的 token 比例
：路由器分配给专家的平均概率
：平衡系数（通常量级）
这个损失鼓励和趋于均匀分布

此外还有 容量因子（Capacity Factor） 机制：为每个专家设置一个 token 缓冲区上限，超出的 token 会被丢弃（overflow）或通过残差连接跳过 MoE 层。

⚠️ 挑战二：通信开销

在分布式训练/推理中，MoE 的 token 分发（dispatch）和结果合并（combine）需要 All-to-All 通信：

1
2
3

GPU 0 (Expert 0,1)    GPU 1 (Expert 2,3)    GPU 2 (Expert 4,5)
    ↕ All-to-All ↕         ↕ All-to-All ↕
  每个 GPU 上的 token 需要发送给位于其他 GPU 上的专家

通信量 = O(batch_size × seq_len × hidden_dim × top_k / num_gpus)

在专家数量很大时，All-to-All 通信容易成为瓶颈，尤其在跨节点（跨机器）场景下。

缓解策略：

使用 NVLink/NVSwitch 等高带宽互联
Expert Parallelism + Tensor Parallelism 混合策略
减少 Top-K 值（如 Switch Transformer 用 Top-1）
采用 Expert Buffering 和通信-计算重叠

⚠️ 挑战三：训练不稳定性

MoE 模型的训练比 Dense 模型更容易出现不稳定现象：

路由器的离散决策（TopK 操作）不可微，需要近似梯度
专家利用率的动态变化可能导致梯度波动
解决方案： Router z-loss（Zoph et al., 2022）、更精细的初始化策略、使用 BFloat16 等

⚠️ 挑战四：推理效率的复杂性

虽然理论 FLOPs 低，但 MoE 推理有独特的效率挑战：

显存需求大：所有专家参数都需加载到显存（或通过 offloading 管理）
Batch 效率低：不同 token 路由到不同专家，导致每个专家处理的 batch 很小，GPU 利用率低
缓存不友好：动态路由导致内存访问模式不规则

典型应用与里程碑

发展时间线

1991  Jacobs et al.   → 最早提出 Mixture of Experts 概念（浅层网络）
2017  Shazeer et al.  → "Outrageously Large Neural Networks"
                         首次将 MoE 扩展到深度学习（LSTM + MoE, 137B 参数）
2021  Fedus et al.    → Switch Transformer
                         简化为 Top-1 路由，扩展到 1.6T 参数
2022  Zoph et al.     → ST-MoE
                         系统性研究 MoE 训练稳定性
2023  Mistral AI      → Mixtral 8×7B
                         首个高质量开源 MoE LLM，性能比肩 LLaMA-2 70B
2023  OpenAI          → GPT-4 (传闻使用 MoE)
2024  DeepSeek        → DeepSeek-V2 / V3
                         提出 DeepSeekMoE 架构，细粒度专家 + 共享专家
2025  Qwen            → Qwen2.5-MoE / Qwen3 系列

关键模型详解

🔹 Switch Transformer（Fedus et al., 2021, Google）

核心创新：将 Top-K 极简化为 Top-1（每个 token 只路由到 1 个专家）。

极大简化了路由逻辑和通信开销
使用容量因子（Capacity Factor）解决负载不均
在相同计算预算下，训练速度比 T5 快 4-7 倍
模型规模扩展到 1.6 万亿参数

关键洞察： Top-1 虽然看似”信息损失大”，但在足够大的专家数量下表现依然优异，且工程实现更简洁。

🔹 GPT-4（OpenAI, 2023，架构未公开确认）

根据多方信息（George Hotz 等泄露），GPT-4 很可能采用 MoE 架构：

约 8 个专家，每次激活 2 个
总参数量约 1.8T，激活参数约 280B
这解释了为什么 GPT-4 在参数效率上远超预期

⚠️ 需要注意：OpenAI 从未官方确认 GPT-4 的架构细节，以上信息来自非官方渠道。

🔹 Mixtral 8×7B（Mistral AI, 2023）

意义：第一个真正高质量的 开源 MoE 大语言模型。

8 个专家，每次激活 2 个
总参数 ~47B，激活参数 ~13B
性能 匹配甚至超越 LLaMA-2 70B，但推理成本接近 13B 模型
开源后极大推动了社区对 MoE 的研究

🔹 DeepSeek-V2/V3（DeepSeek, 2024-2025）

核心创新： DeepSeekMoE 架构

细粒度专家（Fine-Grained Experts）：将标准专家拆分为更小的单元（如 160 个小专家），每次激活 6 个，提升路由灵活性
共享专家（Shared Experts）：始终激活 2 个”通才”专家，处理所有 token 都需要的通用知识
结合 MLA（Multi-head Latent Attention） 进一步压缩 KV Cache

DeepSeek-V3 总参数 671B，激活参数 37B，以极低的训练成本达到了 GPT-4 级别的性能，是 MoE 架构工程化的标杆。

总结：MoE 的核心 Insight

维度	Dense Model	MoE Model
参数量与计算量	线性绑定	解耦
每个 token 的计算路径	固定（全部参数）	动态（条件选择）
扩展方式	增加宽度/深度 → 成本线性增长	增加专家数 → 成本亚线性增长
核心瓶颈	计算量	通信 + 显存

一句话总结 MoE 的本质：

MoE 是深度学习中”分治法”的体现——通过将模型容量分散到多个专家中，用路由机制实现按需激活，从而在参数规模和计算效率之间取得最优平衡。

它是当前大模型时代最重要的架构创新之一，是实现”用有限算力训练超大模型”的关键技术路径。随着 DeepSeek-V3、Mixtral 等模型的成功，MoE 已经从研究概念走向了工程主流。

本文链接： https://www.silenceboy.com/2026/03/20/MoE（Mixture-of-Experts）架构详解/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

mortyAI Engineer

待我长发及腰，bug可否改好？