Loading

摘要: 在上一篇中,我们已经明确了 DeiT 对 ViT 的改进思路: 通过蒸馏,引入 Teacher 的归纳偏置,缓解数据依赖问题。 但这条路线有一个明显局限: 它并没有改变 Transformer 本身的结构。 换句话说,DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置 阅读全文
posted @ 2026-04-15 21:41 哥布林学者 阅读(178) 评论(0) 推荐(0)