【AI 进阶笔记】两阶经典检测器:Faster RCNN
1. 前言:目标检测的进化史
在计算机视觉的世界里,目标检测一直是个“烧脑”的问题。让计算机识别物体 “是什么”(分类)相对简单,但让它 “在哪里”(定位)就难了。
我们先简单回顾目标检测的进化史,看看 Faster R-CNN 到底解决了什么问题。
1.1 目标检测的老前辈们
在 Faster R-CNN 出现之前,我们有三个老前辈:
- R-CNN(2014):
- 先用 Selective Search 选出 2000+ 候选框。
- 送进 CNN 提取特征,然后用 SVM 分类。
- 缺点: 速度太慢(每张图 47 秒)。
- Fast R-CNN(2015):
- 直接在 CNN 特征图上做候选框分类+边界框回归。
- 但依然依赖 Selective Search,速度仍然有限。
- Faster R-CNN(2016):
- 用 Region Proposal Network(RPN) 直接生成候选框,彻底抛弃 Selective Search。
- 速度提升到每张图 0.2 秒!
1.2 Faster R-CNN 解决了什么问题?
关键词:RPN + 共享特征图 + 端到端训练
Faster R-CNN 主要解决了两个痛点:
- 太慢:Fast R-CNN 依赖 Selective Search 生成候选框,速度受限。
- 无法端到端训练:R-CNN 需要单独训练多个模型(CNN、SVM、回归器)。
Faster R-CNN 的创新点:
- 用 RPN(Region Proposal Network) 取代 Selective Search。
- 共享 CNN 特征,提高计算效率。
- 端到端训练,提高检测精度。
一句话总结:Faster R-CNN = CNN + RPN + ROI Pooling + 分类+ 回归
2. Faster R-CNN 的核心架构解析
Faster R-CNN 的整体结构如下
发布评论