举一个书上的经典栗子,要分析吸烟与咳嗽是否有关系。
调查了2000人,在1200名不吸烟的人中,有1100人不咳嗽,有100人咳嗽;而800名吸烟的人里,有700人不咳嗽,100人咳嗽。
我们可以根据上面的数据汇集成一个表格,如下:
咳嗽 | 不咳嗽 | 和值 | |
---|---|---|---|
吸烟 | 100 | 700 | 800 |
不吸烟 | 100 | 1100 | 1200 |
和值 | 200 | 1800 | 2000 |
其实,这些数据是样本的调查值,又称之为实际观测值,但实际观测值不一定是准确符合当前现状的,我们根据这些样本要计算出期望值,用期望值与实际观测值比较;我们可以得到以下数据:
咳嗽的人:200,其概率是200/2000=0.1
吸烟的人:800,其概率是800/2000=0.4
那么,吸烟且咳嗽的人的概率:0.1*0.4=0.04,因此吸烟且咳嗽的人数应该是:0.04*2000=80
假如吸烟与咳嗽无关的话,吸烟且咳嗽的人应该是80,但实际观测值则是100,20人的差距不算大,我们可以认为是观测上存在误差。
同样,不咳嗽的人:1800,其概率是1800/2000=0.9
那么,吸烟且不咳嗽的人概率是0.4*0.9=0.36,因此吸烟且不咳嗽的人应该是0.36*2000=720,实际观测值是700。
两者结合说明吸烟与咳嗽存在关系。
我们可以通过上面的方法得到每一个期望值,如下:
咳嗽 | 不咳嗽 | ||
---|---|---|---|
吸烟 | 100 | 700 | 观测值 |
80 | 720 | 期望值 | |
不吸烟 | 100 | 1100 | 观测值 |
120 | 1080 | 期望值 |
这就是卡方检验的一个手动计算步骤,当然现在已经不需要我们这样一步步计算分析,可以很轻松的借助软件直接得到结果,但我们要清楚的是每一个值是怎么得来的,这样才能更好的理解、分析我们想要的结果。