回归分析

回归分析是使用方程来表达感兴趣的变量（称为因变量）与一系列相关变量（称为自变量）之间关系的分析过程。

“相关关系”的变量：不能用函数刻画，但具有一定的“趋势性”关系的变量。

回归分析研究对象：具有相关关系的变量。研究目的：寻找它们之间客观存在的依赖关系。

线性回归

回归分析模型

$y$ $x$ $f(x)$ $\varepsilon$ ）。因此有下列模型：

y=f(x)+\varepsilon.

$f(x)=a+bx$ $y=a+bx+\varepsilon$ $a$ $b$ ，有时统称为回归系数。

$E(\varepsilon)=0$ $E(y|x)=f(x)=a+bx$ 为回归函数。刻画了在平均意义下因变量与自变量的相应关系。

回归分析的首要问题是估计回归函数，也就是估计回归系数。

$\sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)^{2}$ .

$\left\{\begin{array}{l}\hat{a}=\bar{y}-\hat{b} \bar{x}, \\ \hat{b}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} .\end{array}\right.$ $\bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i}, \quad \bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}$ .

推广: 多元线性回归模型

y=\beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{p} x_{p}+\varepsilon.

历史数据

\left(x_{i 1}, \cdots, x_{i p}, y_{i}\right), i=1, \cdots, n.

回归方程:

\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\cdots+\hat{\beta}_{p} x_{p}.

回归方程应用：

定量刻画自变量与因变量的相依关系（正相依或负相依）；
给定自变量的取值，用回归方程预测相应的因变量的取值。

线性模型易于描述、容易实现，统计推断的理论成果也相对成熟。

线性模型的假设：

$x_j$ $y$ 的变化大小是恒定的；
$x_j$ $y$ 的影响与其它自变量的取值无关。

多项式回归

实际中，自变量与因变量的关系不满足线性假设和加性假设。

采用多项式回归放宽自变量与因变量之间的线性假设：

y=\beta_{0}+\beta_{1} x+\cdots+\beta_{t} x^{t}+\varepsilon.

$t$ $t$ $x$ 的取值的边界处会呈现异样的形状。

实际中，自变量不会独立影响，即不满足加性假设，从而引入交互项，例如：

y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\beta_{3} x_{1} x_{2}+\varepsilon

$x_{1} x_{2}$ $x_1$ $x_{2}$ $y$ 的交互效应。改写模型

\begin{aligned} y &=\beta_{0}+\left(\beta_{1}+\beta_{3} x_{2}\right) x_{1}+\beta_{2} x_{2}+\varepsilon \\ &=\beta_{0}+\tilde{\beta}_{1} x_{1}+\beta_{2} x_{2}+\varepsilon, \end{aligned}

其中

\tilde{\beta}_{1}=\beta_{1}+\beta_{3} x_{2}.

$\tilde{\beta}_1$ $x_{2}$ $x_{1}$ $y$ $x_{2}$ $x_{1}$ $y$ 的影响。

样条回归

前文多项回归可看成是一种特殊的基函数回归方法。

$x$ $b_1(x),...,b_t(x)$ 进行回归建模，以如下模型来替代普通的线性模型

y=\beta_{0}+\beta_{1} b_{1}(x)+\cdots+\beta_{t} b_{t}(x)+\varepsilon.

$b_{j}(x)=x^{j}$ . 样条回归也是基函数回归。

$x$ 的不同取值区域各自拟合低阶的多项式函数。

例如，分段三次多项式回归在x的不同取值区域分别拟合如下模型:

y=\beta_{0}+\beta_{1} x+\beta_{2} x^{2}+\beta_{3} x^{3}+\varepsilon,

$x$ $x$ 的）临界点称为结点（knot）。

$K$ $K+1$ 个不同的三次多项式，并在结点处添加连续性约束和光滑性（一阶导数和二阶导数）约束。

基函数回归方法

$K$ 个结点的三次样条回归模型可以表示为：

y=\beta_{0}+\beta_{1} b_{1}(x)+\cdots+\beta_{K+3} b_{K+3}(x)+\varepsilon.

$x$ $x$ $x$ $)$ 为基础，然后在每个结点处添加一个截断幂基:

h(x, \xi)=\left\{\begin{array}{ll} (x-\xi)^{3}, & x>\xi, \\ 0, & x \leq \xi, \end{array}\right.

$\xi$ 是结点。

$K$ $x, x^{2}, x^{3}, h\left(x, \xi_{1}\right), \cdots, h\left(x, \xi_{K}\right)$ $\xi_{1}, \cdots, \xi_{k}$ 是结点。

但是样条在边界处方差较大，自然样条可以缓解这个问题。自然样条是附加了边界约束的样条回归：回归函数在边界区域是线性的。这个附加的约束使得自然样条在边界处产生更稳定的估计。

设置多少结点？若结点个数过多，曲线非常曲折；反之，结点个数过少，回归曲线过于平坦。实际采用交叉验证法。
结点选在什么位置？实践证明令结点在数据上呈现均匀分布是一种行之有效的方式。

光滑样条回归

$g(x)$ ，使它与训练数据能很好地吻合，即，使误差平方和尽可能小

\sum_{i=1}^{n}\left(y_{i}-g\left(x_{i}\right)\right)^{2}.

$g$ $g$ 是能够让误差平方和尽可能小的同时也要让回归曲线尽量光滑。

其中一种方法是最小化以下的“损失+惩罚”函数

\sum_{i=1}^{n}\left(y_{i}-g\left(x_{i}\right)\right)^{2}+\lambda \int\left[g^{\prime \prime}(t)\right]^{2} d t,

$\lambda$ $\lambda$ $g$ $g$ $x_1,...,x_n$ $g$ $g$ 是带结点的自然三次样条。

局部回归

局部回归方法是一种非参数回归的方法。非参数回归模型（事先不设定回归模型的具体形式）的拟合方法可分为两类：

基于基函数逼近的整体型方法
基于光滑思想的局部拟合方法

$y=m(x)+\varepsilon$ $m$ 只做一些连续性或光滑性的要求。

Nadaraya-Watson估计方法

$x_0\in \mathcal D$ $\mathcal D$ $x$ $x_0$ $x_0$ $m(x)$ $x_0$ 处的估计。

其中，加权平均的范围和权值由一个称为带宽的参数所控制。

$K(t)$ 为给定的核函数，对称，单峰，且满足

\lim_{|t|\rightarrow\infty}K(t)=0,

$K_h(t)=\frac 1 h K(\frac t h)$ $h>0$ 为带宽。

N-W估计：

\hat m_{NW}(x_0)=\frac{\sum_{i=1}^n K_h(x_i-x_0)y_i}{\sum_{i=1}^nK_h(x_i-x_0)}=\frac{\sum_{i=1}^n K(\frac{x_i-x_0}{h})y_i}{\sum_{i=1}^nK(\frac{x_i-x_0}{h})}.

$h$ 的大小对回归函数的估计有重要影响：

$h$ $\hat m_{NW}(x_j)\approx K(0)y_j/K(0)=y_j$ . 估计的回归函数波动越大，从而导致过拟合。
$h$ $\hat m_{NW}(x_j)\approx\sum_{i=1}^n K(0)y_i/\sum_{i=1}^n K(0)=\frac 1 n \sum_{i=1}^n y_i = \bar y$ . 估计的回归函数曲线越光滑，从而导致欠拟合。

$h$ 大小。

常用的核函数

Gauss核

K(t)=\frac{1}{\sqrt{2\pi}}\exp (-\frac 1 2 t^2).

对称Beta函数族

K(t)=\frac{1}{\text{Beta}(1/2,\gamma+1)}(1-t^2)_{+}^{\gamma},\ \gamma=0,1,2,...

N-W估计可看成是下面的加权最小二乘问题：

\min_{a(x_0)}\sum_{i=1}^n(y_i-a(x_0))^2K_h(x_i-x_0).

N-W估计其实是将回归函数在每一点的局部视为常数，然后通过加权最小二乘方法得到回归函数在该点处的估计。N-W估计也被称为局部常数估计。

局部多项式光滑方法

$p$ 次多项式逼近回归函数，然后基于加权最小二乘方法得到回归函数在各点的估计。

$m(x)$ $p$ $x_0\in\mathcal{D}$ $x_0$ 的邻域内

\begin{aligned} m(x)&\approx m(x_0)+m'(x_0)(x-x_0)+\frac{m''(x_0)}{2}(x-x_0)^2+...+\frac{m^{(p)}(x_0)}{p!}(x-x_0)^p\\ &=\sum_{j=0}^p \beta_j(x_0)(x-x_0)^j, \end{aligned}

$\beta_j(x_0)=m^{(j)}(x_0)/j!,\ j=0,1,...,p$ .

$x_0$ 的局部拟合上述多项式，

\hat\beta_0(x_0)=\hat m(x_0)

$m(x_0)$ $x_0$ 处的估计值。

目标函数：

\sum_{i=1}^n\left(y_i-\sum_{j=0}^p\beta_j(x_0)(x_i-x_0)^j\right)^2K_h(x_i-x_0).

在R中使用loess进行局部多项式回归拟合。

广义加性模型

广义加性模型（generalized additive model，GAM）提供了一个推广标准线性回归模型的一般框架。在这个框架里，每一个自变量都被一个它的非线性函数所取代，同时仍保持自变量的可加性。

$y=\beta_0+f_1(x_2)+...+f_p(x_p)+\varepsilon$ .

$x_j$ $f_j,\ j=1,...,p$ $p$ $x_i$ $x_p$ 表示不同的自变量）

优点：

可自动对自变量和因变量进行非线性关系的建模；
非线性拟合可能会提高对因变量的预测精度；
因为加性，在保持其它自变量不变的情形下可以分析每个自变量对因变量的单独效应。

广义加性模型的主要缺点也在“加性”，它忽略了自变量之间的交互效应。

注意：要想摆脱广义加性模型在模型形式上的设定缺陷，可使用随机森林等更一般的方法。广义加性模型可以视为介于线性模型和完全非参数模型之间的一类折中的方法。