代码化是不是多此一举?
最近有几个小伙伴都在后台私信问一个问题:
明明已知了各项参数的真实值用以构建回归方程,为什么要用代码化?
这不就多此一举了吗?
今天我们来捋一捋思路,搞清楚这个代码化到底有什么用?
我们知道,去做DOE试验的目的不管是筛选因子还是建立关系式,都要建立回归方程。
建立回归方程可以用原始真实数据,也可以用代码化后的数据。
那么,是对原始的自变量数值直接进行回归分析好,
还是先将这些数值进行代码化后再进行回归分析好呢?
把原始数据代码化到底是不是多此一举的无用举措呢?
带着这些疑问,我们进入:自习人课堂
代码化 ,是将该因子所取的低水平设定的代码值取为-1,高水平设定的代码值取为 1,中心水平定为0。
举个例子,我们在实验中温度作为一个因子,我们取高水平100℃,低水平60℃。那么中心点就是80℃。
代码化后,我们将高水平100℃变为+1,中心点80℃变为0,低水平60℃变为-1。
统计学家通过大量的理论证明代码化后有很多好处:
(1)量纲相同。代码化后的回归方程中,
自变量及交互作用项的各系数可以直接比较,
系数绝对值大者之效应比系数绝对值小者之效应更重要、更显著。
大家知道,对自变量原始数据所进行的回归方程中的回归系数是有单位的。
如果代码化后,每个自变量都化为无量纲的 [-1,1]间的数据,
这时,各自变量间具有相同 的“尺寸”,各系数之间就可以比较了。
“借题发挥,以学促考”是自习人课堂的一贯宗旨!
我们来看看中质协根据这个知识点,怎么考我们
(2)系数不变。代码化后的回归方程内各项系数的估计量间是不相关的。
很明显,x1与x1x2之间是相关的,
它们的回归系数的估计量之间也是相关的。
比如,在回归方程中,保留x1x2项及删除此项时,
x1的回归系数肯定要发生变化,
这造成了使用中的诸多不便。
一旦将自变量全部代码化,则没有这个问题了,
删除或增加某项对于其他项的回归系数将不会产生任何影响。
“借题发挥,以学促考”是自习人课堂的一贯宗旨!
我们来看看中质协根据这个知识点,怎么考我们
例题:在一个试验设计的分析问题中,建立响应变量与各因子及交互效应的回归方程可以有两种办法:一是对各因子的代码值(Coded Units)建立回归方程;二是直接对各因子的原始值( UncodedUnits)建立回归方程。在判断各因子或交互作用是否影响显著时,要进行对各因子回归系数的显著性检验时,可以使用这两种方法中的哪一种?
(3)量化截距。在自变量代码化后,
回归方程中的常数项(或称“截距”)就有了具体的物理意义。
代码“-1”与“+1”的中点恰好为“0”,
而将全部自变量以“0”代入方程得到的响应变量预测值则恰好是截距值。
因此,截距值是全部试验结果的平均值,也是全部试验范围中心点上的预测值。
用代码数据得到的回归方程是重要的
(例如我们在判断因子或因子间的交互效应是否显著时只能使用此方程),
但用原始数据得到的回归方程有时也是有意义的
(例如求出最佳设置的原始值),
因此我们应该熟悉真实值与代码值间的换算。
以这个例题为例,我们来把代码化转换为原始数据方程。
我们假设题干的代码化后的回归方程为Y=aX+b
这里的a为回归系数,b为截距
题中说代码化后的回归系数是4
那么代码化后的回归方程就是Y=4X+b
根据这个公式,我们知道
代码值=(真实值-M)/D
这里的M就是中心点,题中给了高低水平分别是70和50,
那么M就是(70+50)/2=60
D就是(70-50)/2=10
带入公式:
代码值=(真实值-60)/10
然后下一步怎么办呢?
把这个带入代码化后的回归方程,可以算出来原始数据的回归方程
Y=4X+b(代码化)
就变为了
Y=4(真实值/10-6)+b(原始数据)
打开括号
Y=4*真实值/10-4*6+b
所以
Y=4/10*真实值-24+b
那么真实值的系数不就是4/10=0.4了吗
梳理完代码化后的知识点,现在大家还觉得把原始数据代码化是多此一举吗?
下课之前,给各位同学出一道课后作业,
公众号:自习人课堂第6套黑带试卷里的113题。
各位可以在留言板上写下答案,我会一一回复。
需要更多六西格玛资料或者想进学习交流群的同学,扫码加我说明来意即可
暂无评论