六西格玛基础知识系列之:泊松分布
泊松分布由法国数学家西莫恩·德尼·泊松(Simeon-Denis Poisson)于1837年在《概率研究》一书中首次提出,最初用于解决二项分布在“试验次数多、单次概率小”场景下的近似计算问题。
随着应用推广,人们发现它能精准拟合大量自然的稀有事件分布,逐渐成为独立的重要分布。
1. 分布特征:离散型右偏分布
泊松分布是离散型分布,仅对非负整数(事件发生次数k=0,1,2,...)有意义,泊松分布有以下特点:
右偏性:当事件发生的平均次数λ较小时(如λ<5),分布呈明显右偏态,即“发生次数少”的概率高,“发生次数多”的概率极低;
对称性:随着λ增大(如λ≥20),分布逐渐趋近于对称,可近似为正态分布。

非负性:事件发生次数k≥0,因此概率仅在非负整数范围内有意义,k为负数时概率为0。
可加性:若两个相互独立的随机变量X、Y分别服从参数为λ₁和λ₂的泊松分布,则X+Y服从参数为λ₁+λ₂的泊松分布。
举例说明,如果1000平方米一匹的化纤布平均瑕疵点数是25,那么100平米的化纤布服从均值为2.5的泊松分布,他们是可分(可叠加)的。
注:这是历年真题高频考点!
泊松分布的概率质量函数用于计算“在固定单位内,事件恰好发生k次”的概率,数学表达式为:

其中:
X为随机变量,表示“固定单位内事件发生的次数”;
k为事件发生的具体次数(k=0,1,2,...);
λ(读作“拉姆达”)是泊松分布的唯一参数,代表“固定单位内事件发生的平均次数”(λ>0);
e是自然常数(约2.7183);
k!表示k的阶乘(注意0! = 1)
(可能有同学问什么是阶乘?举例当k=5时,5! =5×4×3×2×1)
泊松分布的形态由唯一参数λ完全决定,通常记为X ~ P(λ)(或X ~ Poisson(λ))。

λ既是“固定单位内事件发生的平均次数”,也是泊松分布的均值(期望)和方差。

均值(期望)E(X) = λ:长期观察下,固定单位内事件发生的平均次数为λ;
方差Var(X) = λ:事件发生次数的离散程度由λ决定,λ越大,发生次数的波动范围越大。
注意:泊松分布“均值=方差”的性质是判断数据是否服从泊松分布的重要依据之一。
敲黑板:这里有个很多同学疑惑的点,泊松分布里均值和方差为什么相等?
我们知道均值与原观测值的量纲(ps量纲是单位的意思)相同,比如观测值的量纲是米,那么均值也是米,方差的量纲一定是原观测值的平方,那方差的量纲就是平方米, 那么米=平方米?这怎么可能?!
所以,仅从量纲上看,由于量纲自己与量纲的平方竟然相同
那么此量纲一定是无量纲的常数,即“点数”“件数”“次数”“个数”等
任何带有实际物理量纲者(如长度、重量等)绝不可能服从泊松分布
纵观世间分布成百上千,有此性质的分布唯有泊松分布!(霸气否~~)
文章开头说到,泊松分布最初是用于解决二项分布在“试验次数多、单次概率小”场景下的近似计算问题。
所以泊松分布的起源是二项分布的近似,当二项分布(X ~ B(n,p))满足“试验次数n极大、单次试验成功概率p极小
(通常n≥100,p≤0.05),且np=λ(λ为常数)时,二项分布可近似为泊松分布P(λ)。
二项分布的概率计算需用到组合数C(n,k),当n极大时计算量极大;

而泊松分布的概率公式更简洁,可大幅简化计算。

例如,计算“10000个零件中恰好出现3个次品”的概率(单次次品率p=0.003),可直接用λ=np=3的泊松分布近似计算,无需复杂的组合数运算。
我们来用minitab算一下

minitab路径:计算-概率分布-二项

点击确定
得出常量0的概率为0.0497647
我们再用泊松分布算一下

minitab路径:计算-概率分布-泊松分布

均值3是10000×0.003=3
点击确定

得出常量为0的概率为0.0497871,与二项分布得出概率为0.0497647无限接近
感兴趣的同学可以将常量为0.1.2.3.4.5.6......都用minitab试试
看看泊松分布于二项分布的差异到底大不大

关于二项分布、泊松分布、泊松分布之间的关系我们这里延伸一下:
①当二项分布中的参数n足够大(比如超过100),参数p不是太大或太小(0.1<p<0.9),则二项分布B(n,p)近似于正态分布N(np,np(1-p))。
意味着在某种特定情况下二项分布近似正态分布
②在二项分布中,当n较大(超过100)时,如果p值很小(p<0.05,且np<30),则二项分布B(n,p)可以近似看成是Poisson分布P(np)。
意味着在某种特定情况下二项分布近似泊松分布
那么我们是不是可以列个等式如下:特定条件下
二项分布≈泊松分布≈正态分布
那这个理论正确吗?
大胆猜想小心求证,我们用minitab试一下
分别随机一组样本量为100的泊松分布和二项分布




得到以下两组数据:

我们做图形化汇总


得出图形化汇总

可以看到此时的泊松分布和二项分布P均大于0.05,他们都符合正态分布
所以特定条件下:
二项分布≈泊松分布≈正态分布可以成立!
今天这篇文章干货内容比较多,建议同学们反复观看,彻底掌握泊松分布的相关知识点。
学六西格玛,认准自习人!
添加六六老师微信:zixiren666
[自习人课堂]六西格玛绿带与黑带备考“四件套”:视频课、直播课、有解析的专业题库、答疑服务,助你通过考试!


全部 0条评论