样本量足够大,可以直接计算过程能力吗?
自习人课堂⑥群有同学提出一个非常好的问题:
他提到:过程稳定,但是数据非正态,样本量足够大,根据中心极限定理是可以认为数据是正态的吗?是不是可以直接计算过程能力?
我在群里回复:中心极限定理并不能改变数据原有性质,你不正态就不正态,这是既定事实。
中心极限定理告诉我们:无论总体分布是什么形状,只要样本量n足够大,样本均值的分布就会近似于正态分布。
这听起来简直是我们数据量大且非正态的救命稻草!
但它并不是万能的,更不是我们绕开去查找非正态的原因而去强行做过程能力分析的捷径小路
中心极限定理的核心应用场景是:对“总体均值”进行推断。
然而,过程能力分析的核心不仅仅是均值!
过程能力分析关注的是整个个体的分布,而不仅仅是样本均值的分布。
我们想知道的是,下一个生产出来的单个零件,其尺寸落在规格限内的能力是多少。
这时,中心极限定理并不能直接为单个数据的分布提供保护。
举个例子:
假设你的生产过程稳定,但产出数据的分布像一个歪脖子树(右偏分布)。你抽取了200个样本。
根据中心极限定理,如果你重复抽样很多次,每次计算这200个数据的平均值,那么这些“平均值”的分布会形成一座好看的正态分布的钟形山。
但是,你手中的这200个原始数据点,它们构成的分布,依然是一棵“歪脖子树”。这是不变的事实,中心极限定理并不能改变数据本身的分布形态
当你用这200个原始数据点直接计算标准差和Cpk时,你本质上还是在用正态分布的模型去套一个非正态的数据集,结果很可能是不准确的。
现在我们来回答最初的问题:样本量足够大时,数据非正态可以直接计算过程能力吗?
答案是:可以作为一个近似的、初步的参考,但有巨大风险,不应作为最终决策的唯一依据。
那么,到底该怎么做?
我们知道计算Cpk的前提条件有两个,一是要过程受控,二是数据要服从正态分布。
那么如果数据不是正态分布,该怎么计算Cpk呢?
首先,第一步我们要验证数据是否稳定,看过程是否受控
先随机一组自由度为5,数量为20的卡方分布
我们知道卡方分布不服从正态分布
通过概率图来看,的确也不服从正态分布。
然后我们看这组数据是否稳定,做控制图来看
控制图显示数据标签第五个数据点出界了,说明过程不受控
我们去观察原始数据发现第五个数据有点异常,出现极大值13.6780
假设这是一个异常数据,我们将它剔除后再做控制图看看
这个时候就过程受控了
这个时候就有同学问,查明原因后剔除了异常值会不会数据就正态了呢?
我们试试
这个时候概率图的P值0.207大于0.05,数据正态
这就是为什么数据不是正态分布的时候
我们首要做的是分析原因,而不是直接去转换
看是不是有什么异常情况导致数据非正态
当然这个例子有很大的偶然因素在里面,
并不是每一次剔除异常值都能使得数据变为正态分布
第二步,非正态数据常用转换方法
假设刚才我们随机的数据就是正常情况
数据5也不是异常数据,确确实实不正态
我们常见非正态数据转换的方法为Box-Cox变换
我们将变换后的数据存储在C2列标注“变换后数据”
最终得到这个图,可以看到数据变换以后发生了变化,那到底发生了什么样的变化呢?
通过这个图,我们可以看到Lambda的均值有95%的概率落在(-1.01,0.51)之间,系统给到估计值为-0.20,
为了便于计算,minitab取整值为0。
Lambda取值不同,转换方式也不同,总结如下图
这里取值为0,说明应该取自然对数
也就是通过Ln(Y)转换
我们对变换后的数据做稳定性验证
其次,做正态性验证
得出结论:转换后的数据稳定且正态
满足了算CPK的条件
所以接下来我们才能做过程能力分析,得出CPK值
注意,规格上下限也要跟着做Ln(Y)的变换才行哦
end~~
2025通关六西格玛考试,
就从自习人课堂「备考四件套」开始!
添加六六老师微信:zixiren666
免费领取六西格玛海量备考资料
全部 0条评论