目录
确定研究目的以及确定因变量和自变量
数据预处理
缺失值处理
异常值处理
估计回归模型参数,建立模型
判断数据是否满足多重线性回归假设条件
(1)、线性
(2)、独立性
(3)、正态性
(4)、方差齐性
(5)、消除异方差
对模型进行回归检验
预测
确定研究目的以及确定因变量和自变量
研究目的:建立多元线性回归模型,预测汽车的耗油效率 MPG。本次实验的 basic 数据集包含 1 个因变量(mpg)和 5 个自变量(cylinders, displacement, horsepower, weight, acceleration)。其变量名称含义如下
数据预处理
缺失值处理
发现存在两个缺失值,并且定位缺失值位置,因缺失值较少,用对应序列平均值填充
异常值处理
通过箱型图发现存在异常值,因为数据较为集中,不能直接删除异常值,通过盖帽法对异常数据替换。
输出异常值
查询是否还有异常值,发现acceleration列还存在异常值,再次盖帽,发现无法盖帽替换异常值,最终通过删除异常值解决
估计回归模型参数,建立模型
将所有的参数代入建立模型,得到系数矩阵,仅有horsepower以及weight通过t检验,故只保留这两参数。
仅保留horsepower和weight建立模型,horsepower和weight均通过t检验最终得到的模型为Y=39.94+-0.023X1+-0.005X2(X1为horsepower,X2为weight)
判断数据是否满足多重线性回归假设条件
(1)、线性
观察horsepower与mpg的线性回归关系,相关程度为-8.03呈现强负相关关系
观察weight与mpg的线性回归关系,相关程度为-0.889呈现强负相关关系
(2)、独立性
两个观察值之间相互独立,通过【德宾-沃森】进行分析,一般来说 Durbin
Waston 检验值分布在 0-4 之间,越接近 2,观察值相互独立的可能性越大。DW值为1.0393接近于2并且p值
(3)、正态性
结果展示,可以得知近似正态性,标准化残差的正态概率图,近似 一条直线,符合正态分布。
(4)、方差齐性
出来结果如下,由于 P 值
(5)、消除异方差
稳健估计方法
NeweyWest()函数可以进行异方差和自相关稳健性Newey—West估计
稳健估计的结果
加权最小二乘方法
加权线性回归
方差齐性
结果分析,由于 P 值>0.05,所以选择零假设,误差方差不变,没有异方差的
存在
对模型进行回归检验
(1)模型拟合效果
自变量对因变量的解释程度可用 R^2(决定系数)来衡量。决定系数取值在 0-1
之间,R^2 越大模型拟合程度越高。本模型中 R^2=0.7815,即解释程度很高。
(2)回归模型显著性检验
对回归模型进行假设检验一般使用方差分析法(F 检验)
方差分析结果:F=577.7,p 值
(3)回归系数显著性检验
对回归系数进行假设检验一般使用 t 检验方法。
t 检验结果:截距项和 x 因素的 p 值小于 0.05,具有统计学意义
预测
总结
新人博主,有什么不对的地方还望指正,谢谢大家
文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34675 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!