2026年4月发布的五款（LLM）架构 - PetterLiu

公告

2026年4月发布的五款（LLM）架构

整体来看，各大模型在向更大的参数规模迈进的同时，正在通过极其激进的混合专家（MoE）稀疏化、注意力机制创新以及超长上下文支持来降低推理成本并提升效率。

以下是对图中五款模型架构的详细解读：

作为一款310亿参数的稠密（Dense）模型，Gemma 4 在结构上进行了精细的注意力机制优化。

基础规格：词表大小 262k，支持 256k tokens 的上下文长度，共 60 层（Layers）。
核心创新：采用了 5:1 的局部（Local）与全局（Global）注意力比例。局部注意力包含32个注意力头，全局注意力包含32个注意力头及4个键值头（Key & Value heads）。
其他细节：嵌入维度（Embedding dim）为 5,376，前馈网络（FFN）中间层维度为 21,504，并使用了 QK-Norm 和 RoPE（旋转位置编码）。

这是一款总参数量350亿，但推理时激活参数仅为30亿（3B）的高效 MoE 模型。

基础规格：词表大小 248k，支持 262k 上下文长度（可扩展至 1M tokens），共 40 层。
核心创新：混合注意力架构。它将“门控 DeltaNet”（线性注意力）与“门控注意力”（全注意力）按照 3:1 的比例混合使用（例如前三层为线性注意力+MoE，第四层为全注意力+MoE），以此在长文本处理效率和全局理解能力之间取得平衡。
MoE 结构：拥有高达 256 个专家（Experts）。

智谱的这款千亿级模型展示了早期层与深层架构的区别化设计。

月之暗面（Moonshot）推出的万亿参数模型，将稀疏性推向了极致。

图中占据最大篇幅的旗舰模型，总参数量高达 1.6 万亿，架构最为复杂前卫。

基础规格：每次推理激活 490亿（49B）参数。词表大小 129k，支持高达 1M tokens 的超长上下文，共 61 层，128个注意力头。
核心创新：
- mhC（流形约束超连接 / manifold-constrained hyper-connections）：替代了普通的残差连接（$x + F(x)$），采用具有4条并行残差流的多流混合结构。
- 基于哈希的 MoE（Hash-based MoE）：前3层没有使用传统的 Learned Top-k 路由，而是使用了哈希路由技术。
MoE 结构：采用 6 个普通专家 + 1 个共享专家。

极致的 MoE 稀疏化：万亿级模型（如 Kimi K2.6、DeepSeek V4-Pro）已成为常态，但它们的“激活参数率”极低（通常在 3% 左右）。1.6T 模型只需激活 49B，这意味着只需较小的算力即可运行万亿级知识库。
异构层设计（Heterogeneous Layers）：不再是所有层都千篇一律。GLM、Kimi 和 DeepSeek 都在模型的最前几层放弃了标准 MoE，改为使用 Dense FFN 或 Hash-based MoE，以捕获更基础的浅层特征。
注意力机制的“混搭”：Qwen 3.6 的“线性+全注意力” 3:1 混合，以及 Gemma 的“局部+全局” 5:1 混合，说明学术界和工业界正在想尽办法突破标准 Transformer 中 $O(N^2)$ 的计算瓶颈。
“共享专家（Shared Expert）”成为标配：GLM、Kimi、DeepSeek 均采用了 N个普通专家 + 1个共享专家 的 MoE 路由策略，这有助于保留通用知识，防止专家坍塌。

posted on 2026-04-27 09:45 PetterLiu 阅读(41) 评论(0) 收藏举报

刷新页面返回顶部