Vannesa's Studio

Object proposals

Word count: 1.2kReading time: 4 min
2020/06/17 Share

论文精读学习记录

Refinedbox: Refining for fewer and high-quality object proposals
https://www.sciencedirect.com/science/article/pii/S0925231220305816?dgcid=coauthor

Part 1 Object Proposal(OP)

  • 目标检测(Object detection): 要求模型不仅能够判断一副图像中包含哪类目标,还要框出目标的具体位置(bounding box)
  • 传统方法利用滑动窗口(Sliding Window),用不同的尺度(scale)比例(aspect ratio)的窗口在图像上滑动,穷举出所有可能位置上的子图像块。
  • 滑动窗口的缺点:数据量大(通常一幅图像需要分割成约10^6个子图像块)
  • Object Proposal方法(OP方法):在图像上找到一些潜在的目标,而不是穷举,然后将潜在的目标输入目标识别模型进行分类。
  • Object Proposal Detection 对象候选框检测

Image text

Part 2 学习笔记

论文解决了什么问题?

We are motivated by the fact that many traditional proposal methods generate dense proposals to cover as many objects as possible but that i) they usually fail to rank these
proposals properly and ii) the number of proposals is very large.

the number of true objects (e.g. usually less than 10) in an image is still much smaller than the number of proposals generated by these deep-based methods (e.g. usually a few hundred).

传统的候选区域方法的缺陷

  • 无法将候选排序
  • 候选的数量非常的庞大
  • 产生的候选精度不高

主要创新点

To significantly reduce
the number of proposals, we design a computationally lightweight neural network to refine the initial
object proposals. The refinement consists of two parallel processes, re-ranking and box regression.

…so the proposal refinement can be very fast.

GOAL:==保证高查全率==的基础上==显著的缩减候选的个数==

如何实现:设计了一个计算轻量级的神经网络来提炼最初的目标候选集,提炼过程很迅速。

提炼过程由如下两部分组成

  • re-ranking 重排列
  • box regression 边框回归 :重新调整候选框的形状和位置,以便更加紧密的覆盖真实物体

The re-ranking step tries to re-rank the proposals according to the tightness of
their coverage with complete objects. The box regression step attempts to fine tune the shapes and locations of boxes in order to
make them cover real objects more tightly.

Image text

在什么数据集上实验?

Using the proposal boxes produced by various traditional methods as input, we evaluate the proposed method on the PASCAL VOC2007 [23] and MS COCO [24] datasets.

  • PASCAL VOC2007 数据集:训练集(5011幅)测试集(4952幅),共计9963幅图,共包含20个种类。

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    aeroplane
    bicycle
    bird
    boat
    bottle
    bus
    car
    cat
    chair
    cow
    diningtable
    dog
    horse
    motorbike
    person
    pottedplant
    sheep
    sofa
    train
    tvmonitor
  • MS COCO 数据集:总共包含91个类别,与PASCAL VOC对比如下
    Image text

具体实现

Image text

  • Convolutional layer 卷积层:卷积核大小 3x3 通道数512->128
  • Pooling layer 池化层 : 特征图大小7x7
  • FC 全连接层: 512个神经元
  • 卷积层、全连接层后加上ReLU层(ReLU激活函数)
  • ranking 分支: 全连接层 :输出为两个神经元,表明是否是目标
  • box reg :全连接层 :坐标偏移相关

Image text

对比

Recall 召回率 :是被正确识别出来的目标个数与测试集中所有目标的个数的比值

IoU : 可以理解为系统预测出来的框与原来图片中标记的框的重合程度。
Image text
Image text

结论

  • Conclusion: RefinedBox可以显著的减少上一步骤算法产生的候选个数
  • Limitaion: 当初始候选个数过多时会降低RefinedBox的效率;识别图片具有太多小的物体时会影响RefinedBox的性能。
  • Future work: In the future, we plan to apply our refinement method to other high-level applications, e.g. mining knowledge from huge amounts of unlabeled data. 在未标注的数据集上最小化候选个数等

Part 3 How to Read a Paper

第一遍

快速阅读 5-10mins

  • 仔细阅读标题,摘要和介绍
  • 阅读每章节和每子章节标题,但忽略其他所有内容
  • 阅读结论
  • 浏览参考文献,在脑海中勾选你已经阅读的参考文献

在第一遍结束时,你应该能回答以下五个C:

  • Category(类别):这是什么类型的论文?一种方法论文?对现有系统的分析?一个研究原型的描述?
  • Context(内容):与哪些其他论文有关?哪些理论基础被用来分析问题?
  • Correctness(正确性):这些假设看起来有效吗?
  • Contributions(贡献):论文的主要贡献是什么?
  • Clarity(清晰度):这篇论文写得好吗?

第二遍

  • 仔细查看论文中的图片,图表和其他插图
  • 请记住标记相关的未读参考文献以供进一步阅读(这是了解更多关于本文背景的一种好方法)

第三遍

  • 尝试去虚拟复现这篇论文: 即与作者做出相同的假设,然后重新创建该作品
  • 注意细节
CATALOG
  1. 1. Part 1 Object Proposal(OP)
  2. 2. Part 2 学习笔记
    1. 2.1. 论文解决了什么问题?
    2. 2.2. 主要创新点
    3. 2.3. 在什么数据集上实验?
    4. 2.4. 具体实现
    5. 2.5. 对比
    6. 2.6. 结论
  3. 3. Part 3 How to Read a Paper
    1. 3.1. 第一遍
    2. 3.2. 第二遍
    3. 3.3. 第三遍