随笔档案「2026年4月4日」：深度学习进阶（三）Transformer Block ... - 哥布林学者

2026年4月4日

摘要：在上一篇我们已经完成了多头自注意力机制的内容，并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元，它不仅创造并应用了多头自注意力机制，还结合了残差学习、归一化等多门技术。先简单概括一下 Transf 阅读全文

posted @ 2026-04-04 17:03 哥布林学者阅读(224) 评论(0) 推荐(1)

Loading

Goblinscholar

公告