随笔档案「2026年4月10日」：深度学习进阶（六）归纳偏置与蒸馏 ... - 哥布林学者

2026年4月10日

摘要：在上一篇，我们已经完成了 Vision Transformer的完整逻辑：把图像切成 patch 当作 token，送入 Transformer Encoder 做全局建模。但我们也提到了， ViT 存在一个绕不开的痛点：没有足够大的数据规模，ViT 往往很难训练得好。而用范式角度来说，这是因阅读全文

posted @ 2026-04-10 17:01 哥布林学者阅读(176) 评论(0) 推荐(0)

Loading

Goblinscholar

公告