数据独立性检验怎么做?
不管是t检验、z检验,亦或是方差分析,如果归为一个大类别,这些都是连续型数据的假设检验,对于这样的假设检验,有三个前提条件必须要满足,才可以进行假设检验分析。
这三个前提条件分别是:
1.数据观测值是互相独立的。
2.数据必须服从正态分布。
3.等方差或方差齐性。
数据服从正态分布是指每一水平下收集的数据通过正态性检验,数据的分布状态是正态的,借助minitab正态性检验即能得到结果。
等方差或方差齐性是指每一水平下服从的正态分布的方差相等,这里的相等并不是指数据相等,而是每一水平下的方差之间没有显著性差异,这也是进行t检验之前要先确定的条件。
数据独立性是指每一水平下收集的数据是相互独立、随机。
在这里,先介绍一个概念:“游程”,依照时间或者其它排列顺序,具有相同的事件或符号的连续部分称之为一个游程,比如:
排列1:男\男\女\女\女\男\女\女\男\男\男\男,按照男女类别区分,总共有5个游程(男3个,女2个)。
排列2:00110111000100100010,按照数字不同区分,总共有11个游程(0是6个,1是5个)。
排列3:++-++---+++-----+--++,按照增减区分,总共9个游程(+是5个,-是4个)
我们想象一下,如果数据是独立的,数据的出现顺序应该是完全随机的,那么游程的出现也应该是随机的。因此,两种游程的个数应该不太多也不太少,互相差别不大。
从这一点上理解,我们可以根据游程的多少来判断数据是否是独立的。
假如,从生产线随机抽取某一个零部件,测量部件上的一个关键尺寸,如下图:
怎么检验数据是互相独立的?
第一,先建立假设。
原假设H0:数据是互相独立的
备择假设:H1:数据不是互相独立的
第二,打开minitab,入口“统计”--“质量工具”--“运行图”,这里可以看到对运行图的注释:“查找过程数据中的模式和非随机行为的检验”,即数据是否是互相独立的。
打开之后,填入对应的数据,如下:
然后,minitab输出一个中位数运行图,如下:
在这张图上,我们可以知道两点:
1.总共有10个游程,其中+(向上的)5个,-(向下的)5个。根据上述的观点,两种游程的个数应该不太多也不太少,互相差别不大。
2.图中4个p值都>0.05,因此没有足够的理由拒绝原假设,可以判定数据是独立的。
除了以上所述看游程的个数与4个p值,还有另外一种方法检验数据独立性,直接使用非参里面的游程检验,如下:
minitab输出结果如下:
输出结果的p值=0.605>0.05,没有足够的理由拒绝原假设,因此数据顺序是随机的,即互相独立的。
但这种方法对样本量有一定的要求,正如上图中最下面的小字注释一样,要使样本中高于或低于k的观测值个数大于11,p值才更准确。
暂无评论