随笔档案「2026年4月2日」：深度学习进阶（二）多头自注意力机制（Multi-Head Attention） ... - 哥布林学者

2026年4月2日

摘要：在第一篇中，我们已经得到了自注意力的核心公式： \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) 阅读全文

posted @ 2026-04-02 13:33 哥布林学者阅读(752) 评论(0) 推荐(1)

Loading

Goblinscholar

公告