Loading

摘要: 在上一篇我们已经完成了多头自注意力机制的内容,并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元,它不仅创造并应用了多头自注意力机制,还结合了残差学习、归一化等多门技术。 先简单概括一下 Transf 阅读全文
posted @ 2026-04-04 17:03 哥布林学者 阅读(224) 评论(0) 推荐(1)