Loading

摘要: 在第一篇中,我们已经得到了自注意力的核心公式: \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) 阅读全文
posted @ 2026-04-02 13:33 哥布林学者 阅读(752) 评论(0) 推荐(1)