前言：从本期开始，我将连续讲解卷积神经网络在图像识别、语音识别等领域的应用。在正文中，卷积神经网络使用缩写CNN来代替。

    CNN最早被应用于图像识别领域，鉴于它具有可以适应空间变化的优势。在2012年的ILSVRC（ImageNet Large Scale Visual Recognition Competition）比赛中，一个由Hinton小组提出来的包含6000万个参数和65万个神经元的五层Deep CNN（以下统称为DCNN）成功地取得了该比赛即图像识别的第一名。

ImageNet数据库包含150万张图片，它们被分类成22000个不同类别的物体。ILSVRC使用了其中的120万张图片作为训练集，5万张图片作为验证集，15万张图片作为测试集，图片的类别一共选取了1000种。每张图片被预处理成维度为256*256大小，并且使用RGB三个通道的像素值作为训练的输入数据。

    此DCNN结构包括五个卷积层和三个全连接层，在最后一层全连接层的基础上，紧接着一个Softmax层，它的作用是映射到1000个类别的概率分布。

DCNN使用256*256*3的图片像素矩阵作为输入层，第一个卷积层包含了96个卷积核，并且每个核的大小为11*11*3；第二个卷积层包含了256个卷积核，并且每个核的大小为5*5*96；第三个卷积层包含了384个卷积核，并且每个核的大小为3*3*256；第四个卷积层包含了384个卷积核，并且每个核的大小为3*3*384；第五个卷积层包含了256个卷积核，并且每个核的大小为3*3*284。其中第一层和第二层之间、第二层和第三层之间均含有一个最大池化层，这里池化的方式是采取了有交叠的池化，即池化大小为3*3，平移量大小为2*2，实验表明采取这种有交叠的池化方式可以有效减少过拟合。最后有三个全连接层，它们的神经元个数分别是4092、4092、1000。因此，总体的网络结构如下所示：

      输入层：256*256*3

       ↓ （卷积大小11*11*3）
       96核卷积层
↓
最大池化层（3*3，2*2）
            ↓ （卷积大小5*5*96）
         256核卷积层
↓
最大池化层（3*3，2*2）
            ↓ （卷积大小3*3*256）
  384核卷积层
           ↓ （卷积大小3*3*384）
384核卷积层
           ↓ （卷积大小3*3*384）
         256核卷积层
        ↓ （卷积大小3*3*384）
         全连接层（4092个神经元）
           ↓
全连接层（4092个神经元）
↓
全连接层（1000个神经元）
           ↓
1000个类别的概率分布



    以上就是此DCNN的详细结构，除此之外，还有一些重要的特征需要说明一下。第一，该结构中使用的激活函数均为ReLU函数，此函数在一定程度上具有可以避免梯度消失问题的优势，尽管现在已经有更好的激活函数可以代替ReLU了（后面我会专门讲一期深度学习中的激活函数）；此训练是在多GPU上进行的；另外，网络中还加入了局部响应归一化这一技巧（后面我会专门讲这个）。

    为了防止过拟合，在此DCNN结构的前两个全连接层中引入了比例为0.5的dropout，即在训练时让一半的神经元不起作用（数学上即激活值设为0），在测试的时候使用所有的神经元并且将它们的激活值乘以0.5，实验表明，采取此Dropout有效地避免了过拟合，但是收敛所需要的迭代次数比不引入Dropout的迭代次数多一倍。

    此DCNN训练所使用的算法是具有动量的批量随机梯度下降算法，每一个批的大小为128个样本，动量因子为0.9，权重削弱比例为0.0005。所有权重的初始化为均值为0，标准差为0.01的高斯分布。并且卷积层中，第二层、第三层、第五层的偏置初始化为1，其余的偏置初始化为0。

最后分享摘自《成熟比成功更重要》一书中关于工作重要性的一段话：

• 如果你对幸福的看法是无止境的悠闲，如果你期望退休后躺在摇椅上，那么你是活在一个愚人的天堂。因为懒惰是人类最大的敌人，它只会制造悲哀、早衰和死亡。适量的工作而不是过度紧张的工作，不会对人造成伤害，但过分的安逸却会。

来源：张泽旺深度学习每日摘要
智造家

我所理解的深度学习（三）

作者相关

喷漆李

0 个评论

写评论

相关问题

相关标签