一、前言
回归分析时数据分析中最基础也是最重要的工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y类型。这里主要学习线性回归。
1.1 回归分析的任务
- 任务一:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
- 任务二:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的li>
- 任务三:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。
1.2 回归的分类
- 建模比赛中,前两种数据类型最常考到;面板数据较为复杂,是经管类学生在中级计量经济学中才会学到的模型
- 横截面数据往往可以使用回归来进行建模,我们通过回归可以得到自变量与因变量之间的相关关系以及自变量的重要程度
- 时间序列数据往往需要进行我们进行预测,时间序列模型的选择也很多,大家需要选择合适的模型对数据进行建模
二、一元线性回归
说明:如果误差项 μ mu μ含有与已经添加的自变量相关的变量,且该变量和因变量 y y y相关,则存在内生性(简单来说就是在进行回归分析的时候遗漏了变量)
2.2 核心解释变量和控制变量
无内生性要求所有解释变量均与扰动项不相关。这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。是否可能弱化此条件是肯定的,如果你的解释变量可以区分为核心解释变量与控制变量两类。
- 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计(当样本容量无限增大时,收敛于待估计参数的真值)
-
三、示例
3.1 普通最小二乘估计法OSL
题目:
现有某电商平台846条关于婴幼儿奶粉的销售信息,每条信息由11个指标组成。其中,评价量可以从一个侧面反映顾客对产品的关注度。请对所给数据进行以下方面的分析,要求最终的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。
- 以评价量为因变量,分析其它变量和评价量之间的关系;
- 以评价量为因变量,研究影响评价量的重要因素。
state回归的语句
拟合优度 R 2 R^2 R2比较低的解决办法
- 回归分为解释型回归和预测型回归。预测型回归一般才会更看重 R 2 R^2 R2。解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。
- 可以对模型进行调整,例如对数据取对数或者平方后再进行回归
- 数据中可能有存在异常值或者数据的分布极度不均匀
关于拟合优度和调整后的拟合优度:
引入的自变量越多,拟合优度会变大。但我们倾向于使用调整后的拟合优度,如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小(论文当中一般选择调整之后的拟合优度进行分析)
3.2 标准化回归
为了更为精准的研究影响评价量的重要因素(去除量纲的影响),我们可考虑使用标准化回归系数。对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数哦)
注意:在进行回归分析时,只需要分析回归系数显著的自变量
- OLS估计出来的回归系数是无偏、一致的
- 假设检验无法使用(构造的统计量失效了)
- OLS估计量不再是最优线性无偏估计量
异方差的检验方法
- 图形法(只能大致的说明问题)
- 在进行回归之后,输入以下命令
- 假设检验法
结果:
2. 广义最小二乘法GLS
原理:方差较大的数据包含的信息较少,我们可以给予信息量大的数据(即方差较小的数据更大的权重)
缺点:我们不知道扰动项真实的协方差矩阵,因此我们只能用样本数据来估计,这样得到的结果不稳健,存在偶然性。提醒:在大多数情况下应该使用“OLS + 稳健标准误”
五、多重共线性
结果:
文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34530 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!