六西格玛基础知识系列之:正态分布
正态分布的概念最早由法国数学家棣莫弗在18世纪初研究二项分布的近似计算时提出,后经德国数学家高斯在天文学观测数据的误差分析中进一步完善和推广,因此也被广泛称为高斯分布。
为了纪念高斯的伟大贡献,在德国10马克的钞票上不但印上了高斯的头像,而且把正态密度曲线连同式印在钞票的正面


正态分布有以下特性:
对称性:曲线关于均值μ对称,即均值左侧和右侧的曲线形状完全镜像,对应概率相等。
注:统计学里可以用样本估算总体的底层逻辑也是来源于此。
单峰性:曲线只有一个最高点,对应均值μ的位置,此时概率密度最大,说明数据在均值附近出现的频率最高
注:是频率而非数值。
渐进性:曲线向左右两端逐渐靠近横轴,数据在理论上可以取到任意远离均值的值。
注:出现的概率无限趋近于0,但永远不会与横轴相交。
正态分布的形态完全由两个参数决定:均值μ和标准差σ,通常记为X ~ N(μ, σ²),其中σ²是方差(标准差的平方)

ps:π是圆周率(约3.1416),e是自然常数(约2.7183)
1. 均值μ(位置参数)
均值μ是正态分布的中心,也是随机变量X的数学期望和中位数、众数。
对于正态分布而言,均值=中位数=众数,这是对称分布的典型特征。
改变μ的值,曲线会沿x轴左右平移,而形状保持不变(σ固定时)。
2. 标准差σ(尺度参数)
标准差σ衡量了数据的离散程度,反映了随机变量X取值偏离均值μ的平均水平。
σ越大,数据分布越分散,曲线越“矮胖”;
σ越小,数据分布越集中,曲线越“高瘦”。
正态分布的概率集中在均值附近,其中最常用的是“3σ原则”,如下:

约68.26%的概率落在区间[μ-σ, μ+σ]内(即1个标准差范围内);
约95.46%的概率落在区间[μ-2σ, μ+2σ]内(即2个标准差范围内);
约99.73%的概率落在区间[μ-3σ, μ+3σ]内(即3个标准差范围内)。
注:超出[μ-3σ, μ+3σ]范围的数据出现的概率极低(仅约0.27%),这就是休哈特制定SPC控制图的的由来。
当正态分布的均值μ=0、标准差σ=1时,该分布称为标准正态分布,记为X ~ N(0, 1)。
标准正态分布是正态分布的“基准形式”,其他任意正态分布都可以通过“标准化变换”转化为标准正态分布。
通过这一变换,不同均值、不同标准差的正态分布都能统一到标准形式,方便通过标准正态分布表(或统计软件)查询概率。
学六西格玛,认准自习人
[自习人课堂]六西格玛绿带与黑带备考“四件套”:视频课、直播课、有解析的专业题库、答疑服务,助你通过考试!
添加六六老师微信:zixiren666
免费领取备考资料



全部 0条评论