Loading

摘要: 在上一篇中,我们已经完整展开了 Transformer Block 的内部结构,包括多头注意力、残差连接、LayerNorm 以及 FFN。 至此,就可以正式进入 Transformer 的整体结构了。 在原论文中,Transformer 本身仍是 Encoder–Decoder 架构,其中编码器的 阅读全文
posted @ 2026-04-06 09:19 哥布林学者 阅读(411) 评论(0) 推荐(0)