15.1_.jpg

 
非常深度的卷积神经网络应用于图像识别


    卷积神经网络在图像识别中的应用非常多,因为卷积神经网络善于应对图像的空间变化。


    对于一张像素为224*224的三通道RGB图片,我们可以首先对其进行一定程度地预处理。预处理的方式一般比较简单,即对每个通道进行归一化(每个通道上的每个像素值减去所有像素的平均值)。


    这里与第一篇应用所不同的是,为了持续提高图像识别的准确度和减少内存的消耗,一种非常深度的卷积神经网络被提出来了。之所以说减少内存,是因为这里没有使用局部响应归一化层,并且与以前所使用的卷积神经网络所不同的是,以前的卷积神经网络在较浅层往往会使用较大的感知区域,例如11*11或9*9,平移大小一般设为2,这样所提取的局部区域特征信息有可能会有损失,而这里使用的是3*3较小的局部感知区域,并且平移大小设置为1,这样就可以充分挖掘更多更精细的局部特征信息。


    其实使用两个3*3的感知区域叠加起来看起来跟一个5*5的感知区域的效果一样,那为什么还要使用两个3*3的感知区域堆叠起来而不使用一个5*5的感知区域呢呢?原因很简单有以下。



    第一,仅仅使用一层5*5的感知区域卷积层,这样只有一层非线性的ReLU函数,而使用两层3*3堆叠起来则包含两层非线性的ReLU函数,这样使得非线性的决策性更充分,换句话说可以对特征进行了很多可能的探索;


    第二,使用两个3*3的感知区域卷积层堆叠起来要比使用一个5*5的感知区域卷积层所含参数少,因为如果假设两个3*3的感知区域堆叠层的通道数为C,那么它所包含的参数个数为2*(3^2*C^2)=18C^2;而对于一个5*5的感知区域卷积层,它所包含的参数个数为1*(5^2*C^2)=25C^2。


    因此,使用这样一种较小的感知区和较深的卷积层,可以看成对原来较大感知区域进行再次分解,并且在其中还添加了更多的非线性决策能力,因此可以使得特征提取更为健壮。
        
15.2_.JPG


    在上表中,可以注意到还有一个明显不同的特殊卷积层,那就是1*1的感知区的卷积层(如表中conv1字样所示),这种感知区大小为1*1,即卷积前后维度仍然保持不变,可以看做对单个神经元进行一个非线性操作,大家可能觉得这不就是一种全连接的前馈式神经网络吗?其实不是的,注意卷积神经网络有一个重要的特点,那就是权重共享,也就是说这里每一个神经元都会乘以同一个权重标量,即所有神经元进行统一的线性映射,然后再通过一个非线性ReLU函数。这样做的好处是什么呢?最明显的一点是它既具有特征变换的性质,又在一定程度上避免了全连接神经网络过拟合的可能。以后我会在讲解Network in Network概念的时候中去详细说明这个微结构。


    这样一种使用较小的感知区域以及非常深的网络结构,在图像识别取得了比以往结构都要好的准确率,并且,实验证明,网络结构越深,准确度越高。在具体的训练过程上,即训练一个多分类器,方案基本和上一篇一样,因此这里就不再详细展开了。(后面我会就训练深度神经网络写一篇)




今日名句:

人们宁愿自我欺骗,也不愿意相信自己是被欺骗的。因为他活在自己的“思维之墙”当中。
 
 
 
 
 来源:张泽旺 深度学习每日摘要
智造家