如何理解线性回归的方差齐性检验

2019-11-25 冯国双 小白学统计

不少人可能对方差齐性检验不是很重视,觉得正态性可能更重要,但其实方差齐性的重要程度可能更大,因为它可能会让你的标准误发生很大变化,从而导致结论的变化。线性回归中,方差齐性是一个必须考虑的前提条件。本文主要介绍一下,如何理解线性回归中的方差齐性的含义,以及如何对方差是否齐性进行探测。线性回归中方差齐性的含义所谓方差齐性,也就是方差相等,在t检验和方差分析中,都需要满足这一前提条件。在两组和多组比较中

不少人可能对方差齐性检验不是很重视,觉得正态性可能更重要,但其实方差齐性的重要程度可能更大,因为它可能会让你的标准误发生很大变化,从而导致结论的变化。线性回归中,方差齐性是一个必须考虑的前提条件。

本文主要介绍一下,如何理解线性回归中的方差齐性的含义,以及如何对方差是否齐性进行探测。

线性回归中方差齐性的含义

所谓方差齐性,也就是方差相等,在t检验和方差分析中,都需要满足这一前提条件。

在两组和多组比较中,方差齐性的意思很容易理解,无非就是比较各组的方差大小,看看各组的方差是不是差不多大小,如果差别太大,就认为是方差不齐,或方差不等。如果差别不大,就认为方差齐性或方差相等。当然,这种所谓的差别大或小,需要统计学的检验,所以就有了方差齐性检验。

在两组和多组比较中,每组都有很多数据,可以求出每组的方差,然后比较就行了,很容易理解。但是在线性回归中,有的人就不理解方差齐性是什么意思了。因为线性回归中自变量x不是分类变量,x取值很多。

通常情况下,每个x值只对应1个y值。比如,分析身高对血压值的影响,可能每个身高对应的血压值只有一个数值。很显然,对于1个数是没有办法计算方差的,那还何来“方差齐性”检验呢?

这是因为,尽管在一次抽样中每个x取值上可能只有1个y值,但对于总体而言,理论上每个x取值上对应的y值是有很多的。

例如,研究身高(x)与血压值(y)的关系,尽管在一次抽样中每一身高值(如170cm)所对应的血压值可能只有1个值(如140mmHg),但从总体而言这一固定的身高(170cm)所对应的血压值应该有很多,可能是140mmHg,也可能是150mmHg,只是在我们的抽样中恰好抽中了这1个值而已。

事实上,如果你重新抽样,170cm所对应的血压值可能就不是140mmHg了,有可能就是145mmHg或138mmHg等。

所以,线性回归中,理论上也是有方差的。然而这种理论上的方差,除非你知道总体中每个x取值上的所有对应的y值,否则你是没有办法真正去计算方差的。但这种情况几乎是不可能发生的,因此在线性回归中的方差齐性检验,很多情况下只是一种探测而已。

线性回归的方差齐性检验

既然线性回归无法做到对每一个x取值上的y值计算方差,那我们可以放宽一下,可以简单地看某一x取值范围内的y值的方差,这是可以做到的。

所以实际中我们经常通过线性回归的残差图来判断方差齐性,即以因变量残差作为纵坐标,以某自变量作为横坐标,绘制散点图。如下图所示。如果残差总的来说是随机分布的,没有随着自变量的增加而有其它趋势,基本就可以认为方差齐性。

当然残差图只是观察一下,如果想用统计学方法来验证是否有趋势的话,那很自然的一个想法就是,分析具体某一自变量与残差有没有关系就可以了。

这也就是BP(Breusch-Pagan)法和White检验进行方差齐性检验的思想。即以残差为因变量,观察自变量与残差之间是否存在线性关系(BP法)或非线性关系(White检验)。如果存在,提示可能存在方差不齐。BP检验和White检验是较为常用的两种方差齐性检验的方法。

下面是SAS软件给出的两种检验结果。



SAS软件中可通过proc model过程或proc reg过程的model语句的spec选项探测方差齐性。R软件可通过lmtest包中bptest函数,通过指定不同的变量形式,可输出BP检验或White检验。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1701385, encodeId=590c1e013856c, content=<a href='/topic/show?id=214ee756845' target=_blank style='color:#2F92EE;'>#线性回归#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=36, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=77568, encryptionId=214ee756845, topicName=线性回归)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=748630348850, createdName=天堂的云, createdTime=Sat May 16 23:03:00 CST 2020, time=2020-05-16, status=1, ipAttribution=)]

相关资讯

线性回归分析(2)

线性回归分析(2)

线性回归分析(3)

线性回归分析(3)

线性回归中非多重共线性假定与解决方案(3)

5. 逐步分析法     当模型中存在多重共线性时,可以用逐步分析法剔除那些引起多重共线性的,不重要的解释变量从而消除多重共线性。 逐步分析法的步骤是,首先估计被解释变量对每一个解释变量的回归方程,然后依据显著性检验确定出对因变量贡献最大的解释变量所对应的回归方程,并以它为基础,逐个引入其余解释变量

SPSS软件应用——线性回归分析操作及演示图

“回归”,最早由英国遗传学家弗朗西斯•高尔顿(Francis Galton)引入。在一篇著名的论文“Family Likeness in Stature”中,高尔顿发现,虽然有一个趋势:父母高,子女也高;父母矮,子女也矮,即父母的身高对子女的身高起到决定性作用。但给定父母的身高,子女的平均身高却趋向于或者“回归”到种族人群的平均身高。换言之,尽管父母都非常高或非常矮,但儿女的身高却有回归到人群总体

线性回归分析(1)

线性回归分析(1)

线性回归中非多重共线性假定与解决方案(2)

>t            (7.40) 由于xt 1,xt 2存在多重共线性,因而从模型中剔除xt 2。模型(7.40) 变成    yt= b0 + b1* xt 1+ ut *    &