2006年,多伦多大学Geoffrey Hinton教授提出真正意义上的“深度”神经网络(deep neural network,DNN),使网络层数达到7层,从而掀起了第二次机器学习热潮——“深度学习”。
深度学习网络即含有多个隐层,因而能学习更复杂的特征。
避免欠拟合:
避免过拟合:
正则化方法:通过引入额外的新信息来解决机器学习中过拟合问题的一种方法,用惩罚保持模型简单性。
以L2正则项为例,我们在代价函数中加上权值的L2正则项
让参数尽可能小,从而避免过拟合,具有较强抗扰动能力。
Dropout方法:在深度学习的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。
减少了神经元之间复杂的共适应关系,因为减少了两个神经元每次在网络中同时出现的概率,可以打破隐含节点的的固定关系,权值更新不再依赖于它们的共同作用,防止某些特征仅仅在其它特定特征下才有效果的情况,迫使网络去深度学习更加鲁棒性的特征。
而且,由于每次训练存在Dropout,每一次都可能训练一个不同的网络,预测值是多个网络的平均值,从而有效避免过拟合。
梯度下降法
梯度消失和梯度爆炸
反向传播过程中,梯度包含激活函数的导数:
导致梯度消失,或者梯度爆炸 .
避免梯度消失和梯度爆炸的方法
全连接的神经网络在应用于图像处理时,会导致一个严重的参数数量膨胀问题,所需计算量急速增加。这不仅使得整体算法效率低下,还会导致过拟合,因此全连接神经网络在处理图像处理、语音识别这类问题时无法获得较好的效果。
卷积在数学中的定义
设 和 是 上的两个可积函数,称积分函数
为 和 的卷积,记为 .
设 和 是两个欧散宁列, 称
为 和 的济散圈积,仍记为 .
神经网络中的卷积通常为离散卷积,也称为互相关
其中为卷积核(也成为滤波器filter),输出值为特征映射(feature map)。
在图像处理领域,卷积操作被广泛应用。不同卷积核可以提取不同的特征,例如边沿、线性、角等特征。在卷积神经网络中,通过卷积操作可以提取不同级别(简单或复杂)的图像特征。
卷积层的输出通常由深度(depth)、步幅(stride)和补零(zero-padding)三个量来控制。
卷积层具有稀疏交互、参数共享、等变表示三个显著特点。使得卷积层具有全局性的同时,极大减少了参数个数,提升学习效率。
池化层也称为降采样(down-sampling),也是一种特征提取的局部操作。池化层的输入一般来源于上一个卷积层的输出,经过池化层后可以非常有效地缩小参数矩阵的尺寸。从而减少后面的卷积层或者全连接层中的参数数量。最常用的池化操作有最大池化(max pooling)和平均池化(mean pooling),在小尺度上对数据做聚合统计。
卷积神经网络架构一般为卷积层叠加池化层,重复,最后全连接层。
举例:LeNet-5卷积神经网络,包括7层,卷积层+池化层+卷积层+池化层+3层全连接层