今天给各位分享怎么用spss做哑变量,也算是给不想敲代码的同学带来一些福利。
首先介绍下什么是哑变量。哑变量是由虚拟变量衍生过来,指的是非数值型的字符变量转换而来的变量,通常情况下这些变量都是无序的变量。如性别、职业等等。
因为如果你用0表示女,1表示男,这里数值上,由于1大于0,所以会造成在模型解释上取值为男的权重会比女的大,所以对于这样的无序变量,通常不使用有大小的数值表示。而是引入两个虚拟变量sex_0与sex_1;
另外对某些好似是有序的变量如教育程度,这些是不是应该用梯度的数值的表示,如果高中、专科、本科、硕士分别对应0、1、2、3.,我个人也建议结合自家的数据情况分析,比如学历里对于数值相差较大,难道不能取0,3,5, 6p>
OK,本篇文章来实际介绍下如何给数值进行哑变量编码。这里我们引入spss工具。这个不需要敲代码的工作,现在是sas、python、R的天下,但本人觉得工具只是实现的手段,重要的是理解里面的原理。
我们本篇文章会介绍spss,并把相关的数据集跟下载链接,放在知识星球,各位有兴趣学习spss的可以上去下载破解版的软件跟数据集。
本次给各位介绍的是一份关于客户是否会愿意购买某超市产品的一份数据,里面包括的字段有性别(sex),负债能力(dept),产品价格(price),送货距离(distance)等数十个字段…然后我们去预测客户是否购买(purchase)产品,
首先,我们导入的数据如下:
以下为安装教程:可略过
![图片](https://img-blog.csdnimg.cn/ae4fa2d2300648378ddd65a461d65de8.png
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!