2026年4月发布的五款(LLM)架构

4LLM

整体来看,各大模型在向更大的参数规模迈进的同时,正在通过极其激进的混合专家(MoE)稀疏化注意力机制创新以及超长上下文支持来降低推理成本并提升效率。

以下是对图中五款模型架构的详细解读:

1. Gemma 4 (31B)

作为一款310亿参数的稠密(Dense)模型,Gemma 4 在结构上进行了精细的注意力机制优化。

  • 基础规格:词表大小 262k,支持 256k tokens 的上下文长度,共 60 层(Layers)。

  • 核心创新:采用了 5:1 的局部(Local)与全局(Global)注意力比例。局部注意力包含32个注意力头,全局注意力包含32个注意力头及4个键值头(Key & Value heads)。

  • 其他细节:嵌入维度(Embedding dim)为 5,376,前馈网络(FFN)中间层维度为 21,504,并使用了 QK-Norm 和 RoPE(旋转位置编码)。

2. Qwen3.6 (35B-A3B)

这是一款总参数量350亿,但推理时激活参数仅为30亿(3B)的高效 MoE 模型。

  • 基础规格:词表大小 248k,支持 262k 上下文长度(可扩展至 1M tokens),共 40 层。

  • 核心创新混合注意力架构。它将“门控 DeltaNet”(线性注意力)与“门控注意力”(全注意力)按照 3:1 的比例混合使用(例如前三层为线性注意力+MoE,第四层为全注意力+MoE),以此在长文本处理效率和全局理解能力之间取得平衡。

  • MoE 结构:拥有高达 256 个专家(Experts)。

3. GLM-5.1 (744B)

智谱的这款千亿级模型展示了早期层与深层架构的区别化设计。

  • 基础规格:总参数量 7440亿,推理时激活参数仅 400亿(40B)。词表大小 155k,支持 202k 上下文,共 78 层。

  • 核心创新:前3个模块采用稠密前馈网络(Dense FFN),隐藏层大小为 12,288;之后的层才使用 MoE 架构。

  • MoE 结构:采用 8 个普通专家 + 1 个共享专家的模式(Shared Expert)。

4. Kimi K2.6 (1T)

月之暗面(Moonshot)推出的万亿参数模型,将稀疏性推向了极致。

  • 基础规格:总参数量达 1万亿(1T),但每次推理仅激活 320亿(32B)参数。词表大小 160k,支持 256k 上下文,共 61 层。

  • 核心创新:与 GLM 类似,它的第1层使用了稠密 FFN(隐藏层大小 18,432),后续层使用 MoE。

  • MoE 结构:同样采用 8 个普通专家 + 1 个共享专家。

5. DeepSeek V4-Pro (1.6T)

图中占据最大篇幅的旗舰模型,总参数量高达 1.6 万亿,架构最为复杂前卫。

  • 基础规格:每次推理激活 490亿(49B)参数。词表大小 129k,支持高达 1M tokens 的超长上下文,共 61 层,128个注意力头。

  • 核心创新

    • mhC(流形约束超连接 / manifold-constrained hyper-connections):替代了普通的残差连接($x + F(x)$),采用具有4条并行残差流的多流混合结构。

    • 基于哈希的 MoE(Hash-based MoE):前3层没有使用传统的 Learned Top-k 路由,而是使用了哈希路由技术。

  • MoE 结构:采用 6 个普通专家 + 1 个共享专家。


架构演进趋势总结
  1. 极致的 MoE 稀疏化:万亿级模型(如 Kimi K2.6、DeepSeek V4-Pro)已成为常态,但它们的“激活参数率”极低(通常在 3% 左右)。1.6T 模型只需激活 49B,这意味着只需较小的算力即可运行万亿级知识库。

  2. 异构层设计(Heterogeneous Layers):不再是所有层都千篇一律。GLM、Kimi 和 DeepSeek 都在模型的最前几层放弃了标准 MoE,改为使用 Dense FFN 或 Hash-based MoE,以捕获更基础的浅层特征。

  3. 注意力机制的“混搭”:Qwen 3.6 的“线性+全注意力” 3:1 混合,以及 Gemma 的“局部+全局” 5:1 混合,说明学术界和工业界正在想尽办法突破标准 Transformer 中 $O(N^2)$ 的计算瓶颈。

  4. “共享专家(Shared Expert)”成为标配:GLM、Kimi、DeepSeek 均采用了 N个普通专家 + 1个共享专家 的 MoE 路由策略,这有助于保留通用知识,防止专家坍塌。

posted on 2026-04-27 09:45  PetterLiu  阅读(41)  评论(0)    收藏  举报