回归分析是使用方程来表达感兴趣的变量(称为因变量)与一系列相关变量(称为自变量)之间关系的分析过程。
“相关关系”的变量:不能用函数刻画,但具有一定的“趋势性”关系的变量。
回归分析研究对象:具有相关关系的变量。研究目的:寻找它们之间客观存在的依赖关系。
回归分析模型
假设因变量的取值可看成由两部分组成:由自变量决定的部分(记为)以及其它未加考虑的因素所产生的影响(称为随机误差,记作)。因此有下列模型:
若,则,其中,回归常数,回归系数,有时统称为回归系数。
假设,称为回归函数。刻画了在平均意义下因变量与自变量的相应关系。
回归分析的首要问题是估计回归函数,也就是估计回归系数。
最小二乘法:.
最小二乘估计:其中,.
推广: 多元线性回归模型
历史数据
回归方程:
回归方程应用:
线性模型易于描述、容易实现,统计推断的理论成果也相对成熟。
线性模型的假设:
实际中,自变量与因变量的关系不满足线性假设和加性假设。
采用多项式回归放宽自变量与因变量之间的线性假设:
实际应用中,对多项式阶数的选择不宜过大,一般不大于3或者4. 这是因为越大,多项式曲线就会越曲折,在的取值的边界处会呈现异样的形状。
实际中,自变量不会独立影响,即不满足加性假设,从而引入交互项,例如:
:交互项,它反应了和对的交互效应。 改写模型
其中
因为随变化,所以对的边际效应不再是常数,即,调整的值将改变对的影响。
前文多项回归可看成是一种特殊的基函数回归方法。
基函数回归的基本原理是对自变量的函数或变换进行回归建模,以如下模型来替代普通的线性模型
对于多项式回归,基函数为. 样条回归也是基函数回归。
分段多项式回归的基本思想:在自变量的不同取值区域各自拟合低阶的多项式函数。
例如,分段三次多项式回归在x的不同取值区域分别拟合如下模型:
四个回归系数在的不同取值区域不必都相同。回归系数发生变化的(的)临界点称为结点(knot)。
假设个结点,拟合个不同的三次多项式,并在结点处添加连续性约束和光滑性(一阶导数和二阶导数)约束。
基函数回归方法
一个带有个结点的三次样条回归模型可以表示为:
对上述模型中,以三次多项式的基( ,的平方,的立方 为基础,然后在每 个结点处添加一个截断幂基:
其中,是结点。
拟合带有个结点的三次样条,只需把作为自变量来建立回归模型, 是结点。
但是样条在边界处方差较大,自然样条可以缓解这个问题。自然样条是附加了边界约束的样条回归:回归函数在边界区域是线性的。这个附加的约束使得自然样条在边界处产生更稳定的估计。
光滑样条回归
给定训练数据,想拟合一条光滑回归曲线,需要找到某个函数,记为,使它与训练数据能很好地吻合,即,使误差平方和尽可能小
后果:若我们选择在每个样本点处做插值,就可得到一个取值为0的误差平方和。过拟合,欠光滑。实际上,真正需要的是能够让误差平方和尽可能小的同时也要让回归曲线尽量光滑。
其中一种方法是最小化以下的“损失+惩罚”函数
其中, 是一个非负的调节参数,实际应用中通过交叉验证法选择的大小。通过最小化上述目标函数得到的就是光滑样条。最小化上面这个“损失+惩罚”函数,得到函数的性值:在不同处,是带结点三次多项式函数;在每个结点处的一阶导数和二阶导数是连续的;在两个边界结点之外的区域是线性的。也就是是带结点的自然三次样条。
局部回归方法是一种非参数回归的方法。非参数回归模型(事先不设定回归模型的具体形式)的拟合方法可分为两类:
非参数回归模型的一般形式:,对函数只做一些连续性或光滑性的要求。
Nadaraya-Watson估计方法
N-W方法:对于任意给定的(是自变量的取值范围),通过一个合适的函数(称为核函数)利用自变量的观测值在处产生权值(越靠近,权值越大),基于权值对因变量的观测值进行加权平均,得到回归函数在处的估计。
其中,加权平均的范围和权值由一个称为带宽的参数所控制。
具体方法:设为给定的核函数,对称,单峰,且满足
记,其中为带宽。
N-W估计:
带宽的大小对回归函数的估计有重要影响:
在实际中用交叉验证方法选择合适的大小。
常用的核函数
N-W估计可看成是下面的加权最小二乘问题:
N-W估计其实是将回归函数在每一点的局部视为常数,然后通过加权最小二乘方法得到回归函数在该点处的估计。N-W估计也被称为局部常数估计。
局部多项式光滑方法
要得到更优的估计,可以在每一点的局部,用次多项式逼近回归函数,然后基于加权最小二乘方法得到回归函数在各点的估计。
设有阶连续导数,对于任意给定的,由Taylor公式,在的邻域内
其中,.
局部多项式估计利用加权最小二乘方法在的局部拟合上述多项式,
作为回归函数在处的估计值。
目标函数:
在R中使用loess
进行局部多项式回归拟合。
广义加性模型(generalized additive model,GAM)提供了一个推广标准线性回归模型的一般框架。在这个框架里,每一个自变量都被一个它的非线性函数所取代,同时仍保持自变量的可加性。
模型:.
将基于自变量的样本数据独立拟合,然后再把个拟合出来的函数进行加总。拟合方法有样条方法、多项式回归、局部回归等。(注意前文表示不同的样本点,这里表示不同的自变量)
优点:
广义加性模型的主要缺点也在“加性”,它忽略了自变量之间的交互效应。
注意:要想摆脱广义加性模型在模型形式上的设定缺陷,可使用随机森林等更一般的方法。广义加性模型可以视为介于线性模型和完全非参数模型之间的一类折中的方法。