举一个书上的经典栗子,要分析吸烟与咳嗽是否有关系。调查了2000人,在1200名不吸烟的人中,有1100人不咳嗽,有100人咳嗽;而800名吸烟的人里,有700人不咳嗽,100人咳嗽。我们可以根据上面的数据汇集成一个表格,如下: 咳嗽 不咳嗽 和值 吸烟 100 700 800 不吸烟 100 1100 1200 和值 200 18002000 其实,这些数据是样本的调查值,又称之为实际观测值, 但实际观测值不一定是准确符合当前现状的,我们根据这些样本要计算出期望值,用期望值与实际观测值比较;我们可以得到以下数据:咳嗽的人:200,其概率是200/2000=0.1吸烟的人:800,其概率是800/2000=0.4那么,吸烟且咳嗽的人的概率:0.1*0.4=0.04,因此吸烟且咳嗽的人数应该是:0.04*2000=80假如吸烟与咳嗽无关的话,吸烟且咳嗽的人应该是80,但实际观测值则是100, 20人的差距不算大,我们可以认为是观测上存在误差。同样,不咳嗽的人:1800,其概率是1800/2000=0.9那么,吸烟且不咳嗽的人概率是0.4*0.9=0.36,因此吸烟且不咳嗽的人应该是0.36*2000=720,实际观测值是700。两者结合说明吸烟与咳嗽存在关系。我们可以通过上面的方法得到每一个期望值,如下: 咳嗽 不咳嗽 吸烟 100 700 观测值 80 720 期望值
不吸...