样本量大于等于30个默认为正态分布的数据吗?
样本量大于等于30个默认为正态分布的数据吗?
可能很多小伙伴在参加培训或者浏览文章的时候都听过这个说法,而且默认这个说法是正确的。
但其实这句话是错误的,而且很容易反驳。
比如,掷色子,响应变量y是色子出现的点数。不要说掷30次,就算是掷300次、3万次,y的分布也不是正态的。
但为什么会流传出样本量大于等于30个是正态呢?
这是源自于对中心极限定理的误解。
中心极限定理是这样描述的:“不管原来的总体分布是什么,离散的也好,连续的也罢,当样本量足够大时,样本均值的分布会近似正态分布”
当原始分布不是对称的,样本量n大于等于30的时候,样本均值近似正态分布。
由此,坊间演变出了“样本量大于等于30个默认为正态分布”的说法,而且这种错误的说法流传的还很广,并且很难纠正。
当你解释中心极限定理不是这样说的时候,ta还理直气壮的说给我们培训的老师就是这样教的啊......我还能说啥呢?
记住,中心极限定理说的是样本均值的分布,而不是随机变量的分布。
全部 0条评论