做回归的一般步骤为:
1、确定回归方程中的解释变量和被解释变量
2、确定回归模型
通过观察散点图确定是建立线性回归模型还是非线性回归模型
3、建立回归模型
4、对回归方程进行各种检验
5、利用回归方程进行预测
下面就对线性回归模型的建立进行详细的阐述
一、获取数据
R软件里面有很内置的数据集,用data()函数可以查看到各种数据集
这里我们使用的是R软件自带的swiss数据集,这个数据集记录了瑞典1888年的生产力和其他各个 会经济指标的数据
结果显示该数据集中没有缺失值,原因是因为该数据集是R自带的数据集,现实生活中我们的数据肯定是含有很多缺失值和异常值的,这时我们应该先对数据集有一个大致的了解,之后选择相应的处理办法。
(2)异常值分析:查看各个变量是否存在异常值,这里采用的是画箱型图的方式
box=boxplot(swiss)
上图展示了各变量的密度图和各变量之间的散点图,有上图可知,Fertility和其他变量有相关性。
(2)计算相关系数: 这里用到的是psych包里面的 corr.test函数
上图显示Examination的系数通不过显著性检验,
所以用逐步回归
lm.step=step(lmswiss)
summary(lm.step)
上图显示,我们不能拒绝残差服从正态分布的假设
(2)异方差检验:残差的方差不能随着Y值的变化而变化
—-画残差和拟合值的散点图
lm.res=resid(lm.step) #计算残差
lm.fit=predict(lm.step) #计算拟合值
—-得分检验
上图表明残差之间不存在自相关
在存在自相关的情况下,我们可以使用广义差分法消除自相关
5.变量之间无多重共线性
首先计算出自变量之间的相关系数:x=cor(swiss[2:6])
—-求出变量相关系数x的特征值,如果某个特征值很小,或所有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性
kappa值小于100,说明不存在多重共线性
逐步回归可以消除多重共线性的现象
文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34067 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!