3.1_.jpg

前言:从本期开始,我将连续讲解卷积神经网络在图像识别、语音识别等领域的应用。在正文中,卷积神经网络使用缩写CNN来代替。



    CNN最早被应用于图像识别领域,鉴于它具有可以适应空间变化的优势。在2012年的ILSVRC(ImageNet Large Scale Visual Recognition Competition)比赛中,一个由Hinton小组提出来的包含6000万个参数和65万个神经元的五层Deep CNN(以下统称为DCNN)成功地取得了该比赛即图像识别的第一名。
 
ImageNet数据库包含150万张图片,它们被分类成22000个不同类别的物体。ILSVRC使用了其中的120万张图片作为训练集,5万张图片作为验证集,15万张图片作为测试集,图片的类别一共选取了1000种。每张图片被预处理成维度为256*256大小,并且使用RGB三个通道的像素值作为训练的输入数据。



    此DCNN结构包括五个卷积层和三个全连接层,在最后一层全连接层的基础上,紧接着一个Softmax层,它的作用是映射到1000个类别的概率分布。
 
DCNN使用256*256*3的图片像素矩阵作为输入层,第一个卷积层包含了96个卷积核,并且每个核的大小为11*11*3;第二个卷积层包含了256个卷积核,并且每个核的大小为5*5*96;第三个卷积层包含了384个卷积核,并且每个核的大小为3*3*256;第四个卷积层包含了384个卷积核,并且每个核的大小为3*3*384;第五个卷积层包含了256个卷积核,并且每个核的大小为3*3*284。其中第一层和第二层之间、第二层和第三层之间均含有一个最大池化层,这里池化的方式是采取了有交叠的池化,即池化大小为3*3,平移量大小为2*2,实验表明采取这种有交叠的池化方式可以有效减少过拟合。最后有三个全连接层,它们的神经元个数分别是4092、4092、1000。因此,总体的网络结构如下所示:


      输入层:256*256*3


              ↓ (卷积大小11*11*3)
            96核卷积层
               ↓
              最大池化层(3*3,2*2)
            ↓ (卷积大小5*5*96)
           256核卷积层
                ↓
           最大池化层(3*3,2*2)
            ↓ (卷积大小3*3*256)
            384核卷积层
           ↓ (卷积大小3*3*384)
            384核卷积层
           ↓ (卷积大小3*3*384)
         256核卷积层
            ↓ (卷积大小3*3*384)    
         全连接层(4092个神经元)
           ↓
            全连接层 (4092个神经元)
               ↓
             全连接层 (1000个神经元)
           ↓
         1000个类别的概率分布

    

    以上就是此DCNN的详细结构,除此之外,还有一些重要的特征需要说明一下。第一,该结构中使用的激活函数均为ReLU函数,此函数在一定程度上具有可以避免梯度消失问题的优势,尽管现在已经有更好的激活函数可以代替ReLU了(后面我会专门讲一期深度学习中的激活函数);此训练是在多GPU上进行的;另外,网络中还加入了局部响应归一化这一技巧(后面我会专门讲这个)。


    为了防止过拟合,在此DCNN结构的前两个全连接层中引入了比例为0.5的dropout,即在训练时让一半的神经元不起作用(数学上即激活值设为0),在测试的时候使用所有的神经元并且将它们的激活值乘以0.5,实验表明,采取此Dropout有效地避免了过拟合,但是收敛所需要的迭代次数比不引入Dropout的迭代次数多一倍。


    此DCNN训练所使用的算法是具有动量的批量随机梯度下降算法,每一个批的大小为128个样本,动量因子为0.9,权重削弱比例为0.0005。所有权重的初始化为均值为0,标准差为0.01的高斯分布。并且卷积层中,第二层、第三层、第五层的偏置初始化为1,其余的偏置初始化为0。


最后分享摘自《成熟比成功更重要》一书中关于工作重要性的一段话:

• 如果你对幸福的看法是无止境的悠闲,如果你期望退休后躺在摇椅上,那么你是活在一个愚人的天堂。因为懒惰是人类最大的敌人,它只会制造悲哀、早衰和死亡。适量的工作而不是过度紧张的工作,不会对人造成伤害,但过分的安逸却会。 
 
 
 
 
来源: 张泽旺 深度学习每日摘要
智造家