残差图不会分析?用1800字教会你
首先,我们要知道什么是残差图,残差图长什么样?就是下面的这个“四合一”图。
但残差不等于残缺,残差图也不是断臂的维纳斯,上面4个图缺一不可。
有同学要问了,为什么叫残差?残差到底是什么意思?
残差是利用x估计的回归方程去预测y而引起的误差
有的同学听到这个解释,是这个表情
那我们先简单来解释一下什么是残差
红色方框里,是温度x取各种值时实际的y产量,这和模型无关;
绿色方框里,是温度x取各种值时根据y=60+5x这个模型,计算出来的理论产量,这和实际产量无关,是理论值;
黄色方框里,就是实际值减去理论值得来的,
以第一行温度x=2时为例,实际产量为58,
理论产量为y=60+5*2=70,残差就是58-70=-12
由此可见,残差是实际值与模型构建的理论值的差值,我们称之为残差。
现在,我们回过头来看看刚才的解释,是否就可以理解了。
残差是利用x估计的回归方程去预测y而引起的误差
这个时候,同学们的表情应该是这样才对
现在我们知晓了残差的基本含义时,我们还需要知道残差值的以下特性假定:(敲黑板,划重点)
①残差的均值为0
②残差的方差相等
③残差值相互独立,互不影响
④残差服从正态分布
我们之所以能利用T检验和F检验去确定X和Y之间的关系是否显著,并得出置信区间估计和预测区间估计,其理论上的依据皆源于上述关残差的几项基本假定。如果残差的假定不那么可靠,那么有关回归关系的显著性假设检验和区间估计的结果也就不可靠。
简单来说,我们做残差分析,就是要分析这四项假定是否满足要求
如果假定对所有的x值,残差的方差都是相同的,并且假定描述变量X和Y之间关系的回归模型是合理的,那么残差图给出的一个总印象就是,所有的散点都应随机地无规律落在一条以0为中心的水平带中间。
如果不是这样,就意味着这里出现问题,接下来我们逐个分析
我们先看左上角这个图
这个图,我们需要判断④残差服从正态分布是否符合要求
有两个办法:
第一是看图形,各个点是否紧紧围绕在直线附近,未发生弯曲,即为正态,不过这个方法比较粗糙;
第二个办法是看P值是否大于0.05,图形中P0.455>0.05,可以得出残差正态,这个方法比看图形更加准确。
我们看左下角这个图
这个图形我们可以判断什么呢?
第一点,看横坐标的中间是0,我们可以看出0左边的数据频数和0右边的数据频数,还可以看出大概的取值范围,从而可得粗略得出①残差的均值为0的结论。
第二点,这是直方图,也能粗略的看图形分布是左偏还是右偏,还是基本正态,也可以基本得出④残差服从正态分布的结论,当然这个图形参考意义大于实际意义。
最常见的评判残差图是否异常,主要是看右上角和右下角的这两张图
我们再看右上角这个图
可以看到横坐标是拟合值(也就是通过模型计算出的理论值),也就是上表中绿色方框。
纵坐标是残差值,是实际值减去拟合值得出的误差值,也就是上表中黄色方框。
由于第三个假定③残差值相互独立,互不影响,那么残差值随着拟合值的增加,而不会发生任何有规律的变化,从这个图也看出来,确实是杂乱无章,没有跟着增大或减小,是好事情。如果发生了有规律的变化,那就说明残差不独立,受某种未知的因素影响了。
在这里,如果残差和拟合值发生弯曲,我们首先要考虑对Y的变换
我们最后看右下角这个图
还是由于第三个假定③残差值相互独立,互不影响,残差值不会因为顺序而自己发生任何有规律的变化,这里有规律的变化我们常见的有喇叭口、漏斗型、拱桥型,一字型等,这里也没有任何规律,说明是好事。
残差图的这四个图我们讲完了,可以看到残差和拟合值比较了,也和顺序值比较了,那有同学就要说了,残差图可不可以和X值比较?
这就是残差与自变量比较的图,它是游离在残差四合一图以外的
我们知道③残差值相互独立,互不影响,
它这里独立,不仅要和Y比,和顺序比,还要和X比,都要随机独立才行。不然就是哪里出现了问题
如果这里残差和X的图发生了弯曲,我们还要对Y做变换吗?如下
那这个时候就要增加X的高次项,再次回归
可以看到,这个图形弯曲以后,我们对X增加了高次项,可以使得残差与X自变量图形变正常。
所以当我们遇到实际问题的时候,问你是要对Y做变换还是对X增加高此项,
你就要看到底是残差图与拟合值的图形有问题,
还是残差与自变量的图形有问题!
切记切记!
自习人,是一种学习方式。
讲到这里我相信大家估计领会的差不多了,那我们就来刷刷题,巩固一下知识点
这是公众号:自习人课堂 里面《黑带试卷2》的第30题。
下面是题库中对于该题目的详细解析,你做对了吗?
图片距离中质协考试还有59天时间,大家加油!!
图片识别下方的二维码了解“每一题都有解析思路与步骤的专业题库”
暂无评论