首先介绍下什么是哑变量。哑变量是由虚拟变量衍生过来,指的是非数值型的字符变量转换而来的变量,通常情况下这些变量都是无序的变量。如性别、职业等等。
因为如果你用0表示女,1表示男,这里数值上,由于1大于0,所以会造成在模型解释上取值为男的权重会比女的大,所以对于这样的无序变量,通常不使用有大小的数值表示。而是引入两个虚拟变量sex_0与sex_1;
另外对某些好似是有序的变量如教育程度,这些是不是应该用梯度的数值的表示,如果高中、专科、本科、硕士分别对应0、1、2、3.,我个人也建议结合自家的数据情况分析,比如学历里对于数值相差较大,难道不能取0,3,5, 6p>
OK,本篇文章来实际介绍下如何给数值进行哑变量编码。这里我们引入spss工具。这个不需要敲代码的工作,现在是sas、python、R的天下,但本人觉得工具只是实现的手段,重要的是理解里面的原理。
本次给各位介绍的是一份关于客户是否会愿意购买某超市产品的一份数据,里面包括的字段有性别(sex),负债能力(dept),产品价格(price),送货距离(distance)等数十个字段…然后我们去预测客户是否购买(purchase)产品,
首先,我们导入的数据如下:
接下来,是关于spps的安装教程,可略过

———————- ——————— ————————————- ———————-
十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固 运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他, “番茄风控大数据”一起学习一起聊!
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!