Loading

摘要: 课程 周数 类别 内容 课程一:神经网络和深度学习 第一周:深度学习简介 理论 (1)深度学习简介 实践 无 第二周:神经网络基础 理论 (1)回归基础 (2)分类与逻辑回归 (3)梯度下降法 (4)损失函数与传播 (5)向量化 (6)向量化的反向传播 实践 E & C 第三周:浅层神经网络 理论 阅读全文
posted @ 2026-02-06 18:22 哥布林学者 阅读(798) 评论(0) 推荐(0)
摘要: 之前的内容里,我们提出了让 CNN 更灵活的想法: 能不能让“采样位置”本身,变成可以学习的? 在上一篇里,我们已经用可变形池化实现了这一目标。但同时我们也提到了,这并非终点: 既然池化可以偏移采样,那更基础的卷积本身为什么不能? 这便是 Deformable Convolutional Netwo 阅读全文
posted @ 2026-04-29 22:01 哥布林学者 阅读(48) 评论(0) 推荐(0)
摘要: 在上一篇中,我们已经得出了一个非常关键的结论: 无论是 RoI Align 还是 PS RoI Pooling,本质上都在“改进采样方式”,但它们的采样规则仍然是“人为设计的”,也就是固定的。 因此我们提出了新的想法: 能不能让“采样位置”本身,变成可以学习的? 这种想法的实现结果之一就是 Defo 阅读全文
posted @ 2026-04-27 18:17 哥布林学者 阅读(77) 评论(1) 推荐(0)
摘要: 在上一篇中,我们已经解决了一个关键问题: RoI Pooling 的误差主要来源于“坐标量化”,而 RoI Align 通过去除取整 + 双线性插值,有效缓解了这一问题。 但说到底,这只是一个对齐问题上的改进,我们在上篇的末尾也提到了新的方向: 能不能让采样过程,具备一定的结构感知能力? 实际上,早 阅读全文
posted @ 2026-04-24 15:19 哥布林学者 阅读(85) 评论(0) 推荐(1)
摘要: 在上一篇中,我们已经明确指出: RoI Pooling 的核心问题并不在于 Pooling 本身,而在于“取整导致的量化误差”。 那么,一个非常直接的思路就是: 既然误差来自“取整”,那就不要取整。 这正是 RoI Align 的出发点。 1. RoI Align 的提出和思想 RoI Align 阅读全文
posted @ 2026-04-21 14:45 哥布林学者 阅读(88) 评论(0) 推荐(0)
摘要: 在上一篇里,我们已经完整介绍了 Swin Transformer 的模型逻辑,知道了:Swin Transformer 的核心,并不是简单地“模仿 CNN”,而是在保留归纳偏置的同时,让建模方式更加灵活。 换句话说,它做的事情是: 在“约束”与“自由”之间找到一个平衡点。 而在上一篇的末尾,我们也提 阅读全文
posted @ 2026-04-19 13:47 哥布林学者 阅读(119) 评论(0) 推荐(0)
摘要: 在上一篇中,我们已经明确了 DeiT 对 ViT 的改进思路: 通过蒸馏,引入 Teacher 的归纳偏置,缓解数据依赖问题。 但这条路线有一个明显局限: 它并没有改变 Transformer 本身的结构。 换句话说,DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置 阅读全文
posted @ 2026-04-15 21:41 哥布林学者 阅读(178) 评论(0) 推荐(0)
摘要: 在前面的分析中,我们已经明确了 ViT 的核心问题: 由于归纳偏置较弱,ViT 对数据规模高度依赖。 就这个问题,我们又展开了一种改进思路: 通过蒸馏人为引入一个“软约束”,缩小搜索空间,从而减少数据依赖。 于是,我们就得到了 ViT 的其中一种改进:Data-efficient Image Tra 阅读全文
posted @ 2026-04-13 16:53 哥布林学者 阅读(148) 评论(1) 推荐(0)
摘要: 在上一篇,我们已经完成了 Vision Transformer的完整逻辑:把图像切成 patch 当作 token,送入 Transformer Encoder 做全局建模。 但我们也提到了, ViT 存在一个绕不开的痛点: 没有足够大的数据规模,ViT 往往很难训练得好。 而用范式角度来说,这是因 阅读全文
posted @ 2026-04-10 17:01 哥布林学者 阅读(176) 评论(0) 推荐(0)
摘要: 在上一篇,我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。 从结果上看,Transformer 在 NLP 领域带来了范式级的突破:通过自注意力机制实现了对序列的全局建模能力。 然而,实际上,原始 Transformer 依然只是一个面向序列数据的模型。 自然而然地,这种全新的 阅读全文
posted @ 2026-04-08 21:43 哥布林学者 阅读(187) 评论(0) 推荐(0)
摘要: 在上一篇中,我们已经完整展开了 Transformer Block 的内部结构,包括多头注意力、残差连接、LayerNorm 以及 FFN。 至此,就可以正式进入 Transformer 的整体结构了。 在原论文中,Transformer 本身仍是 Encoder–Decoder 架构,其中编码器的 阅读全文
posted @ 2026-04-06 09:19 哥布林学者 阅读(411) 评论(0) 推荐(0)