【大白话】卡方鉴定
前言:卡方鉴定是用于类别性与类别性的相关性鉴定,相关性越高则说明该字段对目标字段的影响相关度越高。(如果目标是类别,输入是数值则用T鉴定和方差鉴定。)
学习背景:独立事件概率概念
正文:
【案例】播放的背景音乐对于卖酒有什么样的销售影响/p>
三种背景音乐:1)French音乐2)Italian音乐3)无音乐
三种酒类:1)French酒2)Italian酒3)其他酒
现在有以下的真实数据,判断音乐对酒是否有影响/p>
酒 |
音乐 |
列总数 |
||
无 |
French |
Italian |
||
French |
30 |
39 |
30 |
99 |
Italian |
11 |
1 |
19 |
31 |
其他 |
43 |
35 |
35 |
113 |
行总数 |
84 |
75 |
84 |
243 |
(真实销售数据)
第一步:假设两个字段不相关时(独立时),计算销售量的期望值
没有音乐的状况下会卖出酒的概率是=84/243;卖出法国酒的概率=99/243
假设音乐与卖酒出去的瓶数是相互独立(不相关的)
那么在没有音乐的状况且卖出法国酒的数量=84/243*99/243*243=34.222
所有数值以此类推计算出独立事件的期望值,如下:
酒(瓶) |
音乐 |
列总数 |
||
无 |
French |
Italian |
||
French |
34.222 |
30.556 |
34.222 |
99.000 |
Italian |
10.716 |
9.568 |
10.716 |
31.000 |
其他 |
39.062 |
34.877 |
39.062 |
113.001 |
行总数 |
84.000 |
75.001 |
84.000 |
243.001 |
(独立事件的期望数据)
第二步:看看实际销量与预测销量的差异性(差异大则说明独立假设不成立,2个字段相关。)
差异性表达方程式即为卡方鉴定:
说明:F为对应自由度。自由度=(行字段数-1)*(列字段数-1)=4
通常置信度取95%在表格中对应为0.05那一列。所以对应的临界值=9.49
说明音乐对销售酒有较高影响
【拓展】我们在选取字段时可以用卡方检验来帮助判断类别性变量与类别性目标变量的相关性,相关性低可选择尝试放弃该字段。比如在信用风险评估时,我们判断好客户与是否有工作是否有关系就可以用该判定方法。
利用统计学软件分析结果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
统计量 |
自由度 |
值 |
概率 |
卡方 |
1 |
6.4777 |
0.0109(显著) |
似然比卡方 |
1 |
7.3101 |
0.0069 |
连续校正卡方 |
1 |
5.2868 |
0.0215 |
Mantel-Haenszel 卡方 |
1 |
6.4203 |
0.0113 |
Phi 系数 |
|
-0.2394 |
|
列联系数 |
|
0.2328 |
|
Cramer 的 V |
|
-0.2394 |
|
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!