2026年4月发布的五款(LLM)架构
整体来看,各大模型在向更大的参数规模迈进的同时,正在通过极其激进的混合专家(MoE)稀疏化、注意力机制创新以及超长上下文支持来降低推理成本并提升效率。
以下是对图中五款模型架构的详细解读:
1. Gemma 4 (31B)
作为一款310亿参数的稠密(Dense)模型,Gemma 4 在结构上进行了精细的注意力机制优化。
基础规格:词表大小 262k,支持 256k tokens 的上下文长度,共 60 层(Layers)。
核心创新:采用了 5:1 的局部(Local)与全局(Global)注意力比例。局部注意力包含32个注意力头,全局注意力包含32个注意力头及4个键值头(Key & Value heads)。
其他细节:嵌入维度(Embedding dim)为 5,376,前馈网络(FFN)中间层维度为 21,504,并使用了 QK-Norm 和 RoPE(旋转位置编码)。
2. Qwen3.6 (35B-A3B)
这是一款总参数量350亿,但推理时激活参数仅为30亿(3B)的高效 MoE 模型。
基础规格:词表大小 248k,支持 262k 上下文长度(可扩展至 1M tokens),共 40 层。
核心创新:混合注意力架构。它将“门控 DeltaNet”(线性注意力)与“门控注意力”(全注意力)按照 3:1 的比例混合使用(例如前三层为线性注意力+MoE,第四层为全注意力+MoE),以此在长文本处理效率和全局理解能力之间取得平衡。
MoE 结构:拥有高达 256 个专家(Experts)。
3. GLM-5.1 (744B)
智谱的这款千亿级模型展示了早期层与深层架构的区别化设计。
基础规格:总参数量 7440亿,推理时激活参数仅 400亿(40B)。词表大小 155k,支持 202k 上下文,共 78 层。
核心创新:前3个模块采用稠密前馈网络(Dense FFN),隐藏层大小为 12,288;之后的层才使用 MoE 架构。
MoE 结构:采用 8 个普通专家 + 1 个共享专家的模式(Shared Expert)。
4. Kimi K2.6 (1T)
月之暗面(Moonshot)推出的万亿参数模型,将稀疏性推向了极致。
基础规格:总参数量达 1万亿(1T),但每次推理仅激活 320亿(32B)参数。词表大小 160k,支持 256k 上下文,共 61 层。
核心创新:与 GLM 类似,它的第1层使用了稠密 FFN(隐藏层大小 18,432),后续层使用 MoE。
MoE 结构:同样采用 8 个普通专家 + 1 个共享专家。
5. DeepSeek V4-Pro (1.6T)
图中占据最大篇幅的旗舰模型,总参数量高达 1.6 万亿,架构最为复杂前卫。
基础规格:每次推理激活 490亿(49B)参数。词表大小 129k,支持高达 1M tokens 的超长上下文,共 61 层,128个注意力头。
核心创新:
mhC(流形约束超连接 / manifold-constrained hyper-connections):替代了普通的残差连接($x + F(x)$),采用具有4条并行残差流的多流混合结构。
基于哈希的 MoE(Hash-based MoE):前3层没有使用传统的 Learned Top-k 路由,而是使用了哈希路由技术。
MoE 结构:采用 6 个普通专家 + 1 个共享专家。
架构演进趋势总结
极致的 MoE 稀疏化:万亿级模型(如 Kimi K2.6、DeepSeek V4-Pro)已成为常态,但它们的“激活参数率”极低(通常在 3% 左右)。1.6T 模型只需激活 49B,这意味着只需较小的算力即可运行万亿级知识库。
异构层设计(Heterogeneous Layers):不再是所有层都千篇一律。GLM、Kimi 和 DeepSeek 都在模型的最前几层放弃了标准 MoE,改为使用 Dense FFN 或 Hash-based MoE,以捕获更基础的浅层特征。
注意力机制的“混搭”:Qwen 3.6 的“线性+全注意力” 3:1 混合,以及 Gemma 的“局部+全局” 5:1 混合,说明学术界和工业界正在想尽办法突破标准 Transformer 中 $O(N^2)$ 的计算瓶颈。
“共享专家(Shared Expert)”成为标配:GLM、Kimi、DeepSeek 均采用了
N个普通专家 + 1个共享专家的 MoE 路由策略,这有助于保留通用知识,防止专家坍塌。

浙公网安备 33010602011771号