一个旅行的小故事理解六西格玛置信区间与置信水平
置信区间是区间估计里一个比较重要的概念,伴随在置信区间身边的还有一个置信水平,两者可谓是好基友,如影随形。
为了更好的解释置信区间,需要先了解点估计与区间估计。
假如,小王和他貌美如花的老婆打算春节的时候去三亚来个7天旅行。在出发之前,小两口做了许多功课,最难预估的就是旅行7天时间的花费大概是多少。
因此,小王在一个旅行网站查看别人的花费,找了30个相似旅行者的花费,然后加起来算平均值,小王算出来的平均花费是11000元。
这就是点估计,用一个样本量的统计参数去估计总体样本的未知参数。
网站内的所有相似旅行者的花费是总体,小王选取30个数值是样本量,简而言之是小王不可能把网站里所有相似旅行者的花费都计算,而是用30个数值的样本平均值去预估总体平均值。
一个总体样本的未知参数有许多,都可以用来表征总体特征,比如小王算的平均值,还有方差与标准差,都可以用来估计总体。
然而,问题来了。
小王兴冲冲的把平均花费11000元的消息告诉老婆,没想到被劈头盖脸的骂了一顿,说小王败家,是不是订了五星级宾馆、包车之类的。
原来,老婆自己参考了一下别人的花费,算出来是6500元。
由此可见,点估计并不是很精确,容易受一些特殊原因下极端值的影响。而且,每一个人估计出来的平均值都不一样,无法确定哪一个更靠近合理的数值。
小王一肚子的苦水,只得再去做功课。要说小王还是很灵活,脑海中灵光一闪,为什么不能使用一个概率范围呢?不是还学过置信区间么!
于是,小王又整理一下30个数值,重新计算平均值与样本方差,取95%的置信区间,意思是有95%的可能性。
通过公式:
计算得知,有95%的概率,旅行的花费在7620~9750元之间。
95%就是置信水平,[7620,9750]就是在95%的置信水平下的置信区间;意思是大概有95%的旅行者花费的金额落在[7620,9750]里面。
当小王屁颠屁颠的告知老婆有大概95%的人在三亚旅行7天的花费是在7620~9750元之间,以为会得到老婆的一顿夸奖,哪知老婆来了一句:“咋不算一下100%的人花费的范围呢?
小王气的吐血,蹦出一句:“100%的概率,花费是0~10万元”
“你这不是废话嘛”,小王媳妇气得直跺脚。
是的,确实是废话。
置信水平越高,置信区间就越大,数值就失去了意义。我们最开始是想通过点估计的样本均值推断总体均值,其实,给总体指定一个区间更合理、更能反映总体的参数情况
暂无评论