Hc's blog

Hc's blog: R与统计学习基础

机器学习与人工智能 浙江大学 中国大学MOOC(慕课)

深度学习欠拟合与过拟合问题卷积神经网络

深度学习

2006年,多伦多大学Geoffrey Hinton教授提出真正意义上的“深度”神经网络(deep neural network,DNN),使网络层数达到7层,从而掀起了第二次机器学习热潮——“深度学习”。

深度学习网络即含有多个隐层,因而能学习更复杂的特征。

欠拟合与过拟合

避免欠拟合:

避免过拟合:

正则化方法:通过引入额外的新信息来解决机器学习中过拟合问题的一种方法,用惩罚保持模型简单性。

以L2正则项为例,我们在代价函数中加上权值的L2正则项

让参数尽可能小,从而避免过拟合,具有较强抗扰动能力。

Dropout方法:在深度学习的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。

减少了神经元之间复杂的共适应关系,因为减少了两个神经元每次在网络中同时出现的概率,可以打破隐含节点的的固定关系,权值更新不再依赖于它们的共同作用,防止某些特征仅仅在其它特定特征下才有效果的情况,迫使网络去深度学习更加鲁棒性的特征。

而且,由于每次训练存在Dropout,每一次都可能训练一个不同的网络,预测值是多个网络的平均值,从而有效避免过拟合。

问题

梯度下降法

梯度消失和梯度爆炸

反向传播过程中,梯度包含激活函数的导数:

导致梯度消失,或者梯度爆炸 .

避免梯度消失和梯度爆炸的方法

卷积神经网络

全连接的神经网络在应用于图像处理时,会导致一个严重的参数数量膨胀问题,所需计算量急速增加。这不仅使得整体算法效率低下,还会导致过拟合,因此全连接神经网络在处理图像处理、语音识别这类问题时无法获得较好的效果。

卷积在数学中的定义

上的两个可积函数,称积分函数

的卷积,记为 .

是两个欧散宁列, 称

的济散圈积,仍记为 .

神经网络中的卷积通常为离散卷积,也称为互相关

其中为卷积核(也成为滤波器filter),输出值为特征映射(feature map)。

在图像处理领域,卷积操作被广泛应用。不同卷积核可以提取不同的特征,例如边沿、线性、角等特征。在卷积神经网络中,通过卷积操作可以提取不同级别(简单或复杂)的图像特征。

卷积层的输出通常由深度(depth)、步幅(stride)和补零(zero-padding)三个量来控制。

卷积层具有稀疏交互、参数共享、等变表示三个显著特点。使得卷积层具有全局性的同时,极大减少了参数个数,提升学习效率。

池化层也称为降采样(down-sampling),也是一种特征提取的局部操作。池化层的输入一般来源于上一个卷积层的输出,经过池化层后可以非常有效地缩小参数矩阵的尺寸。从而减少后面的卷积层或者全连接层中的参数数量。最常用的池化操作有最大池化(max pooling)和平均池化(mean pooling),在小尺度上对数据做聚合统计。

卷积神经网络架构一般为卷积层叠加池化层,重复,最后全连接层。

举例:LeNet-5卷积神经网络,包括7层,卷积层+池化层+卷积层+池化层+3层全连接层

LeNet-5 original paper