泊松分布、二项分布、超几何分布、指数分布在什么时候用?
大家在做数据分析时,是不是总被各种概率分布绕晕?
比如以下情况应该用什么分布:
生产线一天出现 5 次停机,想评估这个频率是否正常?
来料抽检 100 件发现 3 件不良,要判断整批是否合格?
设备平均运行 1000 小时才故障,想知道它撑过 1500 小时的概率?
......
先说结论—省流版:

重复独立试验→二项;
不放回抽样→超几何;
时间 / 空间内发生次数→泊松;
寿命 / 等待时间→指数
泊松分布:随机事件常用

用场景:描述「一定时间 / 空间内,随机事件发生的次数」比如:
客服中心 1 小时接到的电话次数
服务器 1 天内发生故障的次数
一块玻璃上的气泡数、一件产品的瑕疵数
关键字:随机
公式:

关键性质:均值 = 方差 = λ
当你想知道 “某个随机事件在一段区间内会发生几次”,就用泊松分布。
二项分布:只有两种结果

适用场景:n 次独立重复试验,每次只有「成功 / 失败」两种结果,且每次 “成功” 概率固定为 p比如:
抛 10 次硬币,正面朝上的次数
抽检 50 个产品,合格产品的数量
关键字:只有两个结果
公式:

均值与方差:

当你需要计算「n 次试验中成功 k 次的概率」,就用二项分布。
超几何分布:不放回抽样

适用场景:有限总体的不放回抽样,总体分为两类(如 “不良 / 良品”),关注抽中某一类的数量比如:
100 个产品里有 6 个不良,抽 10 个,求其中有 2 个不良的概率
关键字:有放回抽样是二项分布;无放回抽样是超几何分布
公式:

(N 是总体量,M 是总体中 “目标类” 的数量,n 是抽样量)
当样本量 n < 总体量 N 的 10% 时,超几何分布可以用二项分布近似计算,结果差异很小
指数分布:寿命相关

适用场景:描述「首次故障时间」「维修时间」等与 “寿命” 相关的连续型随机变量比如:
电子元件从开始工作到第一次故障的时间
设备故障后需要维修的时间
关键字:寿命
公式:

均值与方差:

学六西格玛,认准自习人!
找六六老师(zixiren666)免费领取六西格玛备考资料
[自习人课堂]六西格玛绿带与黑带备考“四件套”:视频课、直播课、有解析的专业题库、答疑服务,助你通过考试!


全部 0条评论