在上一集《你在,或者不在,需要逻辑回归来算》里,我们初次认识了一种新的统计学方法——逻辑回归。和线性回归相比,逻辑回归能帮助我们应对一种新的情况:因变量是二元变量(通常表现为是/否,数值上分别用1或0表示)。

相信你还会记得,一个包含k个自变量、不包括交互效应项的逻辑回归模型长这个样子:

在图1中,我们还画出了原始数据——该图上方和下方的空心圆点就是数据中每个选民的教育程度和支持的候选人。为什么这样画呢意图1 的y轴是支持聪聪的概率,而数据集的因变量把支持聪聪和支持乐乐分别记为1和0,两者恰好是完全对应的:如果我们已经知道一个选民给聪聪投了票,那么它支持聪聪的概率当然就是1了;反过来,如果它支持的是乐乐,自然它支持聪聪的概率就是0。

我们不难发现,原始数据的大致分布同样支持逻辑回归模型得出的结论。尽管在很大范围内,相似教育程度的选民既有支持聪聪的,也有支持乐乐的,但总体看来,教育程度越高,支持聪聪的比例就更高。这一点在教育程度范围的两头(小于8年和大于14年)尤其明显。

但是,光是“教育程度越高,支持聪聪的可能性越大”这样的定性结论,还不能让我们满意。别忘了,在线性回归里,我们能够得到更为精确的定量结论,比如说,父母平均身高每增加1厘米,孩子的身高平均来说就能增加0.62厘米。我们如何能从逻辑回归模型得到相似的推断和预测呢具体地说,我们这个例子里头的逻辑回归模型里,教育程度的回归系数0.72代表了什么/p>

回顾图1中的蓝色曲线,我们很容易能看到,尽管教育程度和支持聪聪的概率之间有正相关关系,但是教育程度每增加1个单位,支持聪聪的概率提高的程度并不是恒定的。换言之,与线性回归不同,因变量、自变量之间的关系并不是线性的。如果观察得再仔细一点,这条曲线在两端(概率接近0或1)时最为平缓,而在中间(概率在0.5左右)时最为陡峭。

我们在下面的图2中还能看到更具体的实例:当教育程度分别为11和12年时,支持聪聪的概率分别为0.409和0.587,两者之差为0.178;而当教育程度分别为14和15年时,支持聪聪的概率分别为0.857和0.925,两者之间只有0.068的差距。

文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览34016 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年8月10日
下一篇 2019年8月11日

相关推荐