1.1 背景及研究意义

            
            近几年来,图片处理领域发展迅猛,这得得益于一种叫做深度学习的算法。传统的物体检测算法比较低效,而基于深度学习的神经网络模型如 Faster R-CNN, YOLO, SSD 使得物体检测更加精确,快速,并可实现实时检测。而且,这也推动着当下的无人驾驶技术的发展,物体检测,如行人或车辆的识别,可以说是无人驾驶的眼睛,占有极为重要的地位。特别是遇到雨雾天气,或是远景情况等很难识别出行人或车辆等物体时。而当下的物体检测算法各有优点以及不足,因此本文主要探讨这写模型设计背后的数学原理,并对它们之前的区别加以分析,让人们能更好的理解物体检测算法背后的原理,然后可以根据生活问题的实际需求,实现自己的物体检测模型。

1.2 研究方法

1.2.1 传统的物体检测方法
             在传统的方法中,物体检测可以分为三个流程步骤:
        1). 第一步先是在原先的图片中进行区域搜索, 即对物体进行定位。而对于一张图片大小的空间,目标可以以任意大小的形态藏于其中任一位置。如 DPM, 使用的就是滑动窗口的策略,一次又一次的在原图片中改变滑动窗口的尺寸并在其上面进行区域滑动。很明显,这种穷举的方法的实现是可以定位到物体的某一位置,但更多的是定位出了大部分不是目标物体的位置,太过冗余了,这点上可以说是大大加剧了计算量,很是耗时; 
        2). 第二步就是特征提取,由于物体的形态,颜色,纹理等多种多样,所以并不容易纯手工设计出一个能满足多个方面,健壮的特征, 这一步主要有SIFT, HOG 等算法;
        3). 第三步是对提取的特征进行分类识别,这一步主要用 SVM 等算法。
1.2.2 基于深度学习的物体识别方法
            
            由上述可知,传统的检测算法存在两个比较大的问题就是:
1). 滑动窗口进行区域选择的计算成本太高而且效率低; 
2). 人工设计出的特征比较单一,鲁棒性差,不太能满足物体的多特性特点;
            根据以上问题,我们可以使用基于卷积的物体检测模型,解决第一个问题就是,初始化时,我们可以使用候选区域的算法或是训练出一个用于检测物体位置的网络模型; 解决问题二便是,给以监督学习的方法,让神经网络的权重参数自动去调节学习物体的特征空间。
        下文接着主要研究两大类的深度学习物体检测算法: 
1). 基于候选窗口+深度学习分类的 R-CNN 系列; 
2). 基于深度学习回归方法的 YOLO 系列以及 SSD;

                                        第二章 RCNN系列算法设计与实现