这里通过我的一次作业,展示协变量多元响应变量一元 的多元回归
。
Multiple linear regression (MLR), also known simply as multiple regression , is a statistical technique that uses several explanatory variables to predict the outcome of a response variable
问题一 利用多元线性回归模型探讨我们民航客运量与其他协变量之间的关系,数据见ex2.3.xls。其中,y(万人)为民航客运量,x1(亿元)为国民收入,x2(亿元)为销售额,x3(万人)为铁路客运量,x4(万公里)为民航航线里程。x5(万人)为来华旅游入境人数。
线性回归分析 1 2 library(readxl) aviation<-read_excel("ex2.3.xls" )
1 2 3 4 5 6 7 8 9 10 > head(aviation) 年份 y x1 x2 x3 x4 x5 <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 1978 231 3010 1888 81491 14.9 181. 2 1979 298 3350 2195 86389 16 420. 3 1980 343 3688 2531 92204 19.5 570. 4 1981 401 3941 2799 95300 21.8 777. 5 1982 445 4258 3054 99922 23.3 792. 6 1983 391 4736 3358 106044 22.9 948.
1 2 fit<-lm(y~x1+x2+x3+x4+x5,data=aviation) summary(fit)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Call: lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = aviation) Residuals: Min 1 Q Median 3 Q Max -252.31 -48.18 -12.79 52.81 193.02 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -4.012e+02 1.431e+02 -2.803 0.01870 * x1 1.444e-02 2.402e-02 0.601 0.56109 x2 -2.087e-02 8.657e-02 -0.241 0.81440 x3 5.810e-05 1.464e-03 0.040 0.96912 x4 3.044e+01 8.298e+00 3.668 0.00433 ** x5 2.004e-01 1.115e-01 1.798 0.10235 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 129.6 on 10 degrees of freedom Multiple R-squared: 0.9879 , Adjusted R-squared: 0.9818 F -statistic: 162.8 on 5 and 10 DF, p-value: 3.043e-09
由p值可知,民航客运量只与x4民航航线里程有显著的线性相关性 而其它回归方程的系数都没有通过显著性检验
逐步回归分析
逐步回归分析是以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。 R语言中用于逐步回归分析的函数 step()
drop1()
add1()
1 2 fstep<-step(fit) summary(fstep)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 > fstep<-step(fit) Start: AIC=160.15 y ~ x1 + x2 + x3 + x4 + x5 Df Sum of Sq RSS AIC - x3 1 26 168042 158.15 - x2 1 976 168992 158.24 - x1 1 6073 174088 158.72 <none> 168015 160.15 - x5 1 54329 222344 162.63 - x4 1 226106 394122 171.79 Step: AIC=158.15 y ~ x1 + x2 + x4 + x5 Df Sum of Sq RSS AIC - x2 1 957 168999 156.24 - x1 1 6050 174092 156.72 <none> 168042 158.15 - x5 1 55493 223535 160.72 - x4 1 228011 396052 169.87 Step: AIC=156.24 y ~ x1 + x4 + x5 Df Sum of Sq RSS AIC - x1 1 5903 174902 154.79 <none> 168999 156.24 - x5 1 155567 324566 164.68 - x4 1 501855 670854 176.30 Step: AIC=154.79 y ~ x4 + x5 Df Sum of Sq RSS AIC <none> 174902 154.79 - x5 1 180176 355078 164.12 - x4 1 1843682 2018584 191.93
当用x1 x2 x3 x4 x5作为回归方程的系数时,AIC的值为160.15,去掉x3,回归方程的AIC值为158.15;去掉x2 x3,回归方程的AIC值为156.24,去掉x1 x2 x3可以使得AIC达到最小值,之后 AIC的值都增加,逐步回归分析终止 ,得到当前最优的回归方程。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 > summary(fstep) Call: lm(formula = y ~ x4 + x5, data = aviation) Residuals: Min 1 Q Median 3 Q Max -249.75 -42.72 -13.87 54.34 205.41 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -410.07401 57.16828 -7.173 7.23e-06 *** x4 31.47130 2.68842 11.706 2.81e-08 *** x5 0.18680 0.05105 3.660 0.00288 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 116 on 13 degrees of freedom Multiple R-squared: 0.9874 , Adjusted R-squared: 0.9854 F -statistic: 508 on 2 and 13 DF, p-value: 4.572e-13
回归系数显著性明显提高且理想,说明民航客运量与民航航线里程和来华旅游入境人数有线性相关性。 这时我们已经得到了很好的结果,但有时可能其中仍有自变量显著性并不理想,我们还想进一步优化,可以按下述流程继续操作。
逐步回归分析的优化 1 2 3 4 5 6 7 8 9 > drop1(fstep) Single term deletions Model: y ~ x4 + x5 Df Sum of Sq RSS AIC <none> 174902 154.79 x4 1 1843682 2018584 191.93 x5 1 180176 355078 164.12
如果去掉x5 AIC的值从154.79增加到164.12,是变量中增加最小的(虽然我们只剩下两个变量QVQ)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 > fit<-lm(y~x4,data=aviation) > summary(fit) Call: lm(formula = y ~ x4, data = aviation) Residuals: Min 1 Q Median 3 Q Max -229.01 -96.05 -25.34 48.01 323.82 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -382.508 77.808 -4.916 0.000227 *** x4 40.147 1.741 23.061 1.55e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 159.3 on 14 degrees of freedom Multiple R-squared: 0.9744 , Adjusted R-squared: 0.9725 F -statistic: 531.8 on 1 and 14 DF, p-value: 1.548e-12
这回归系数自然是很显著了,当然在这里这步是不必要的。
问题二 表ex2.5给出了我国1985年—2012年财政收入y (亿元),第一产业增加值x1(亿元),工业增加值x2(亿元),建筑业增加值x3(亿元),年末总人口x4(万人),社会消费品零售总额x5(亿元)和受灾面积x6(万公顷)的数据,试探讨我国财政收入与其他因素是否存在显著关系,并建立相应的线性回归模型。
这题就简略地写一下
线性回归分析 1 finance<-read_excel("ex2.5.xls" )
1 2 3 4 5 6 7 8 9 10 > head(finance) 年份 y x1 x2 x3 x4 x5 x6 <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 1985 2005. 2564. 3449. 418. 105851 4305 4436. 2 1986 2122 2789. 3967 526. 107507 4950 4714. 3 1987 2199. 3233 4586. 666. 109300 5820 4209. 4 1988 2357. 3865. 5777. 810 111026 7440 5087. 5 1989 2665. 4266. 6484 794 112704 8101. 4699. 6 1990 2937. 5062 6858 859. 114333 8300. 3847.
1 2 fit<-lm(y~x1+x2+x3+x4+x5+x6,data=finance) summary(fit)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Call: lm(formula = y ~ x1 + x2 + x3 + x4 + x5 + x6, data = finance) Residuals: Min 1 Q Median 3 Q Max -3078.2 -713.3 -118.6 674.8 2852.2 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.716e+04 1.585e+04 2.345 0.028937 * x1 -7.792e-01 3.351e-01 -2.326 0.030138 * x2 2.308e-01 5.888e-02 3.920 0.000786 *** x3 5.425e-01 8.940e-01 0.607 0.550460 x4 -3.059e-01 1.636e-01 -1.869 0.075580 . x5 4.600e-01 1.527e-01 3.012 0.006636 ** x6 -5.757e-01 6.274e-01 -0.918 0.369255 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1428 on 21 degrees of freedom Multiple R-squared: 0.9985 , Adjusted R-squared: 0.9981 F -statistic: 2338 on 6 and 21 DF, p-value: < 2.2e-16
由p值可知,财政收入与x1产业增加值,x2工业增加值,x5消费品零售总额有显著的线性相关性。
逐步回归分析 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 > fstep<-step(fit) Start: AIC=412.73 y ~ x1 + x2 + x3 + x4 + x5 + x6 Df Sum of Sq RSS AIC - x3 1 750912 43571799 411.22 - x6 1 1716840 44537727 411.83 <none> 42820887 412.73 - x4 1 7125754 49946641 415.04 - x1 1 11028364 53849251 417.15 - x5 1 18499558 61320445 420.78 - x2 1 31333958 74154845 426.10 Step: AIC=411.22 y ~ x1 + x2 + x4 + x5 + x6 Df Sum of Sq RSS AIC - x6 1 1114248 44686047 409.92 <none> 43571799 411.22 - x1 1 10574111 54145911 415.30 - x4 1 21835301 65407100 420.59 - x2 1 32092087 75663886 424.67 - x5 1 112640001 156211801 444.97 Step: AIC=409.92 y ~ x1 + x2 + x4 + x5 Df Sum of Sq RSS AIC <none> 44686047 409.92 - x1 1 9603822 54289869 413.37 - x4 1 31433342 76119389 422.84 - x2 1 32250373 76936420 423.14 - x5 1 111626871 156312918 442.98
去掉x3 x6可使AIC达到最低值
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 > summary(fstep) Call: lm(formula = y ~ x1 + x2 + x4 + x5, data = finance) Residuals: Min 1 Q Median 3 Q Max -2972.2 -736.2 -232.6 1003.9 2551.2 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.556e+04 1.088e+04 4.189 0.000352 *** x1 -6.482e-01 2.916e-01 -2.223 0.036302 * x2 2.337e-01 5.735e-02 4.074 0.000468 *** x4 -4.115e-01 1.023e-01 -4.022 0.000532 *** x5 5.376e-01 7.093e-02 7.580 1.07e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1394 on 23 degrees of freedom Multiple R-squared: 0.9984 , Adjusted R-squared: 0.9982 F -statistic: 3681 on 4 and 23 DF, p-value: < 2.2e-16
它们的回归系数均显著。 财政收入与x1产业增加值,x2工业增加值,x4年末总人口,x5消费品零售总额有显著的线性相关性。
问题三 设股票的价格 与 个因素 存在线性关系: 假设 独立同分布且 存在,试证明 的最小二乘估计量为相合估计。(选做)
证明:
这题需要我们利用经典的大数据定律和中心极限定律探讨模型参数估计量的渐近性子
,其中 为协变量, 为响应变量。
讲到The least squares estimator (LSE) 最小二乘估计的时候,zrm老师口出金句:最小二乘估计是回归的万金油,就像统计是万金油,你们看统计比数学好学多了!( )
令 则
由于 存在,则可由大数定律 得到
由中心极限定理 知道
所以
即证 的最小二乘估计量为相合估计