哥布林学者 - 博客园

[置顶] 吴恩达深度学习课程：深度学习入门笔记全集目录

摘要：课程周数类别内容课程一：神经网络和深度学习第一周：深度学习简介理论（1）深度学习简介实践无第二周：神经网络基础理论（1）回归基础（2）分类与逻辑回归（3）梯度下降法（4）损失函数与传播（5）向量化（6）向量化的反向传播实践 E & C 第三周：浅层神经网络理论阅读全文

posted @ 2026-02-06 18:22 哥布林学者阅读(798) 评论(0) 推荐(0)

2026年4月29日

深度学习进阶（十三）可变形卷积 DCN

摘要：之前的内容里，我们提出了让 CNN 更灵活的想法：能不能让“采样位置”本身，变成可以学习的？在上一篇里，我们已经用可变形池化实现了这一目标。但同时我们也提到了，这并非终点：既然池化可以偏移采样，那更基础的卷积本身为什么不能？这便是 Deformable Convolutional Netwo 阅读全文

posted @ 2026-04-29 22:01 哥布林学者阅读(48) 评论(0) 推荐(0)

2026年4月27日

深度学习进阶（十二）可变形池化 deformable RS RoI Pooling

摘要：在上一篇中，我们已经得出了一个非常关键的结论：无论是 RoI Align 还是 PS RoI Pooling，本质上都在“改进采样方式”，但它们的采样规则仍然是“人为设计的”，也就是固定的。因此我们提出了新的想法：能不能让“采样位置”本身，变成可以学习的？这种想法的实现结果之一就是 Defo 阅读全文

posted @ 2026-04-27 18:17 哥布林学者阅读(77) 评论(1) 推荐(0)

2026年4月24日

深度学习进阶（十一）Position-Sensitive RoI Pooling

摘要：在上一篇中，我们已经解决了一个关键问题： RoI Pooling 的误差主要来源于“坐标量化”，而 RoI Align 通过去除取整 + 双线性插值，有效缓解了这一问题。但说到底，这只是一个对齐问题上的改进，我们在上篇的末尾也提到了新的方向：能不能让采样过程，具备一定的结构感知能力？实际上，早阅读全文

posted @ 2026-04-24 15:19 哥布林学者阅读(85) 评论(0) 推荐(1)

2026年4月21日

深度学习进阶（十） RoI Align

摘要：在上一篇中，我们已经明确指出： RoI Pooling 的核心问题并不在于 Pooling 本身，而在于“取整导致的量化误差”。那么，一个非常直接的思路就是：既然误差来自“取整”，那就不要取整。这正是 RoI Align 的出发点。 1. RoI Align 的提出和思想 RoI Align 阅读全文

posted @ 2026-04-21 14:45 哥布林学者阅读(88) 评论(0) 推荐(0)

2026年4月19日

深度学习进阶（九）池化技术的初步改进：RoI Pooling

摘要：在上一篇里，我们已经完整介绍了 Swin Transformer 的模型逻辑，知道了：Swin Transformer 的核心，并不是简单地“模仿 CNN”，而是在保留归纳偏置的同时，让建模方式更加灵活。换句话说，它做的事情是：在“约束”与“自由”之间找到一个平衡点。而在上一篇的末尾，我们也提阅读全文

posted @ 2026-04-19 13:47 哥布林学者阅读(119) 评论(0) 推荐(0)

2026年4月15日

深度学习进阶（八）Swin Transformer

摘要：在上一篇中，我们已经明确了 DeiT 对 ViT 的改进思路：通过蒸馏，引入 Teacher 的归纳偏置，缓解数据依赖问题。但这条路线有一个明显局限：它并没有改变 Transformer 本身的结构。换句话说，DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置阅读全文

posted @ 2026-04-15 21:41 哥布林学者阅读(178) 评论(0) 推荐(0)

2026年4月13日

深度学习进阶（七）Data-efficient Image Transformer

摘要：在前面的分析中，我们已经明确了 ViT 的核心问题：由于归纳偏置较弱，ViT 对数据规模高度依赖。就这个问题，我们又展开了一种改进思路：通过蒸馏人为引入一个“软约束”，缩小搜索空间，从而减少数据依赖。于是，我们就得到了 ViT 的其中一种改进：Data-efficient Image Tra 阅读全文

posted @ 2026-04-13 16:53 哥布林学者阅读(148) 评论(1) 推荐(0)

2026年4月10日

深度学习进阶（六）归纳偏置与蒸馏

摘要：在上一篇，我们已经完成了 Vision Transformer的完整逻辑：把图像切成 patch 当作 token，送入 Transformer Encoder 做全局建模。但我们也提到了， ViT 存在一个绕不开的痛点：没有足够大的数据规模，ViT 往往很难训练得好。而用范式角度来说，这是因阅读全文

posted @ 2026-04-10 17:01 哥布林学者阅读(176) 评论(0) 推荐(0)

2026年4月8日

深度学习进阶（五）Vision Transformer

摘要：在上一篇，我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。从结果上看，Transformer 在 NLP 领域带来了范式级的突破：通过自注意力机制实现了对序列的全局建模能力。然而，实际上，原始 Transformer 依然只是一个面向序列数据的模型。自然而然地，这种全新的阅读全文

posted @ 2026-04-08 21:43 哥布林学者阅读(187) 评论(0) 推荐(0)

2026年4月6日

深度学习进阶（四）Transformer 整体结构

摘要：在上一篇中，我们已经完整展开了 Transformer Block 的内部结构，包括多头注意力、残差连接、LayerNorm 以及 FFN。至此，就可以正式进入 Transformer 的整体结构了。在原论文中，Transformer 本身仍是 Encoder–Decoder 架构，其中编码器的阅读全文

posted @ 2026-04-06 09:19 哥布林学者阅读(411) 评论(0) 推荐(0)

Loading

Goblinscholar

公告