第九章 直线回归、直线相关与logistic回归(下)

2012-04-17 生物谷 不详

第九章 直线回归、直线相关与logistic回归(下) §8.4  多元线性回归 REG过程不仅可以完成只有一个自变量的简单直线回归,还可以作含有多个自变量的多元线性回归。作多元线性回归时REG过程的语法格式与简单直线回归的语法几乎完全相同,只要把要分析的多个自变量名放在MODEL语句中应变量后即可。因为多元线性回归时一般要作自变量的筛选,涉及到MODEL语句的选项,现将多元线性回

第九章 直线回归、直线相关与logistic回归(下)

§8.4  多元线性回归

REG过程不仅可以完成只有一个自变量的简单直线回归,还可以作含有多个自变量的多元线性回归。作多元线性回归时REG过程的语法格式与简单直线回归的语法几乎完全相同,只要把要分析的多个自变量名放在MODEL语句中应变量后即可。因为多元线性回归时一般要作自变量的筛选,涉及到MODEL语句的选项,现将多元线性回归常用的选项介绍如下:

8.4.1 语法选项

  1. SELECTION=method,规定变量筛选的方法,method可以是以下几种选项
  • FORWARD(F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型
  • BACKWARD(或B),后退法,按照SLS规定的P值从含有全部变量的模型开始,依次剔除一个变量
  • STEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量
  • NONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全回归模型
  1. SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15
  2. SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15
  3. 标准化偏回归系数 STB 可用来比较各个自变量作用的大小

  4. COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件数,来判断自变量之间有无多重共线性。

8.4.2 应用实例

8.3 现有20名糖尿病人的血糖(y,mmol/L)、胰岛素(X1,mU/L))及生长素(X2,μg/L)的测量数据列于中,试进行多元线性回归分析(卫生统计第四版例11.1)。

20名糖尿病人的血糖、胰岛素及生长素的测量数据

病例号i

y

胰岛素X1

生长素X2

1

12.21

15.20

9.51

2

14.54

16.70

11.43

3

12.27

11.90

7.53

4

12.04

14.00

12.17

5

7.88

19.80

2.33

6

11.10

16.20

13.52

7

10.43

17.00

10.07

8

13.32

10.30

18.89

9

19.59

5.90

13.14

10

9.05

18.70

9.63

11

6.44

25.10

5.10

12

9.49

16.40

4.53

13

10.16

22.00

2.16

14

8.38

23.10

4.26

15

8.49

23.20

3.42

16

7.71

25.00

7.34

17

11.38

16.80

12.75

18

10.82

11.20

10.88

19

12.49

13.70

11.06

20

9.21

24.40

9.16

平均值

10.85

17.77

8.94

假设上表的资料已建立文本文件c:\user\li4_1,调用REG过程拟合多元回归方程,程序如下:

Libname a ‘c:\user’;

data a.bk4_1;

 infile ‘c:\user\li4_1’;

 input id y x1 x2@@;

proc reg data=a.bk4_1;

 model y=x1 x2/stb;

 model y=x1 x2/ selection=stepwise stb;

run;

REG过程中MODEL语句可以交互使用,本例我们建立了两个模型,第一个model没有作变量筛选,建立一个含有两个自变量的方程,并输出标准化偏回归系数。第二个model指定逐步回归法筛选变量。程序运行的主要结果如下:

Model:model1 模型1
Dependent Variable:Y
                                Analysis of Variance
                                  回归模型的方差分析
                                    Sum of       Mean
            Source          DF      Squares      Square      F Value     Prob>F
           变异来源        自由度   离均差平方和    均方         F值         P值 
            Model            2    116.62646     58.31323     21.539      0.0001
            Error           17     46.02494      2.70735
            C Total         19    162.65140
          误差的均方根 Root MSE       1.64540     决定系数       R-square   0.7170
          应变量的均数 Dep Mean      10.85000     调整的决定系数 Adj R-sq   0.6837
          应变量的变异系数 C.V.      15.16500
                                      Parameter Estimates
以下是参数估计和假设检验(t检验法)
                      Parameter    Standard    T for H0:                Standardized
     Variable  DF     Estimate     Error       Parameter=0  Prob > |T|  Estimate
      变量名   自由度 参数估计值 估计值的标准误Sb    t值          P值
截距 INTERCEP   1     17.010824   2.47237134      6.880      0.0001     0.00000000
        X1      1     -0.405907   0.09412204     -4.313      0.0005    -0.74340924
        X2      1      0.097669   0.11588150      0.843      0.4110     0.14528940
Model:model2(模型2)
Dependent Variable:Y(应变量名)
                                      Analysis of Variance
                              Sum of        Mean
      Source          DF      Squares       Square      F Value       Prob>F
       Model            1    114.70324    114.70324      43.060       0.0001
       Error           18     47.94816      2.66379
       C Total         19    162.65140
                    Root MSE       1.63211     R-square       0.7052
                    Dep Mean      10.85000     Adj R-sq       0.6888
                    C.V.          15.04250
                                      Parameter Estimates
                    Parameter   Standard    T for H0:            Standardized
    Variable  DF    Estimate    Error       Parameter=0  Prob > |T|   Estimate
    INTERCEP   1    18.796143   1.26472741    14.862     0.0001    0.00000000
    X1         1    -0.458520   0.06987466    -6.562     0.0001   -0.83976728

REG过程拟合带截距项的直线回归方程,用最小二乘法估计模型的参数,并给出模型及参数的方差分析和t检验。本例的两个模型检验P值都小于0.05,模型有统计学意义。模型1含有两个自变量,其截距项和X1检验有统计学意义,X2的检验无统计学意义。模型2为逐步回归法,只纳入了X1。比较两个模型的决定系数,模型1因含有两个自变量,决定系数比模型2要大,但因为模型纳入了不显著的自变量X2,导致它的调整决定系数反而较小,所以我们选择模型2,回归方程:Y=18.796-0.459X1

§8.5   logistic回归

如果应变量为分类的变量,则不符合一般回归分析模型的要求,可用logistic回归来分析。Logistic回归按反应变量的类型分为:

  • 两分类的Logistic回归
  • 多分类有序反应变量的Logistic回归
  • 多分类无序反应变量的Logistic回归

按照设计类型可分为:

  • 非条件Logistic回归,即研究对象未经过配对
  • 条件Logistic回归,即研究对象为111m配对

简单的Logistic回归需调用SASLOGISTIC过程完成,一些较复杂的则需要调用CATMOD过程来实现。本节我们重点介绍LOGISTIC过程的用法,通过实例说明如何实现简单的Logistic回归分析。

8.5.1 语法格式

PROC LOGISTIC [DATA=数据集名] [选项];

 MODEL 应变量名=自变量名列/ [选项];

 [BY <变量名列>;

 FREQ <变量名>;

 WEIGHT <变量名>;

 OUTPUT ...;]

8.5.2 语法说明

LOGISTIC过程,用最大似然法对应变量拟合一个Logistic模型。除了PROC MODEL语句为必需,其他都可省略。

【过程选项】

  • OUTEST=数据集名 指定统计量和参数估计输出的新数据集名。

  • NOPRINT 禁止统计结果在OUTPUT视窗中输出。
  • ORDER=DATA|FORMATTED|INTERNAL 规定拟和模型的应变量的水平顺序

           DATA :应变量的顺序与数据集中出现的顺序一致

           FORMATTED:按照格式化值的顺序,为默认的选项,相当于应变量所赋
                      值的大小顺序

           INTERNAL:按照非格式化值的顺序

  • DESCENDING|DES 颠倒应变量的排列顺序,如果同时指定了选项ORDER,则系统先按照ORDER规定的顺序排列,然后则降序排列。就是说,如果应变量的赋值,死亡为1,存活0,为了得到死亡对存活的概率(或者说是死亡的风险),应选择此选项,否则得到的是存活对死亡的概率。

MODEL语句】

MODEL语句指定模型的自变量、应变量,模型选项及结果输出选项,如要拟和交互作用项,需先产生一个表示交互作用的新变量。可以拟合带有一个或多个自变量的Logistic回归模型,用最大似然估计法估计模型的参数,打印出模型估计的过程和模型参数的可信区间。

MODEL语句中常用的选项有:

  • NOINT 在模型中不拟合常数项,在条件的Logistic回归中用到。
  • SELECTION= FORWARD(F)| BACKWARD(或B| STEPWISE|SCORE 规定变量筛选的方法,分别为向前、向后、逐步和最优子集法。缺省时为NONE,拟合全回归模型。
  • SLE=概率值,指定变量进入模型的显著水平,缺省为0.05
  • SLS=概率值,指定变量保留在模型的显著水平,缺省为0.05
  • CL|WALDCL,要求估计所有回归参数的可信区间
  • CLODDS=PL|WALD|BOTH 要求计算OR值的可信区间
  • PLRL,对所有自变量估计OR的可信区间

8.5.3 应用实例

8.4 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。

表中有关符号意义说明:

i 样品序号

x1:确诊时患者的年龄()

x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级

x3:肾细胞癌组织内微血管数(MVC)

x4:肾癌细胞核组织学分级,由低到高共Ⅳ级

x5:肾细胞癌分期,由低到高共Ⅳ期

y 肾细胞癌转移情况(有转移y=1; 无转移y=0)

26例行根治性肾切除术患者的肾癌标本资料

i

X1

X2

X3

X4

X5

Y

1

59

2

43.4

2

1

0

2

36

1

57.2

1

1

0

3

61

2

190.0

2

1

0

4

58

3

128.0

4

3

1

5

55

3

80.0

3

4

1

6

61

1

94.4

2

1

0

7

38

1

76.0

1

1

0

8

42

1

240.0

3

2

0

9

50

1

74.0

1

1

0

10

58

3

68.6

2

2

0

11

68

3

132.8

4

2

0

12

25

2

94.6

4

3

1

13

52

1

56.0

1

1

0

14

31

1

47.8

2

1

0

15

36

3

31.6

3

1

1

16

42

1

66.2

2

1

0

17

14

3

138.6

3

3

1

18

32

1

114.0

2

3

0

19

35

1

40.2

2

1

0

20

70

3

177.2

4

3

1

21

65

2

51.6

4

4

1

22

45

2

124.0

2

4

0

23

68

3

127.2

3

3

1

24

31

2

124.8

2

3

0

25

58

1

128.0

4

3

0

26

60

3

149.8

4

3

1

本题的应变量为二分类变量,用最简单的logistic回归模型进行配合,采用逐步筛选法筛选变量,程序如下:

libname a 'c:\user';

data a.bk4_2;

 input x1-x5 y;

定义X1X2XX4X5Y五个变量。

 cards;

 59 2 43.4 2 1 0

 ...

 60 3 149.8 4 3 1

proc logistic des;

选项des指定按照y=1|y=0 概率来拟合模型

 model y=x1-x5/ selection=stepwise;

用逐步回归法拟合模型

run;

过程名后面如果不指定选项DES,则系统按照Y=0的概率拟和模型(Y=0|Y=1),可尝试一下去掉此选项,会发现不仅应变量的排序水平颠倒了,而且所有的参数估计符号相反,OR值为原来的倒数。程序运行的主要输出结果如下:

                            The LOGISTIC Procedure
             Data Set: A.BK4_2                计算所用的数据集名
             Response Variable: Y             应变量
             Response Levels: 2               应变量的水平数
             Number of Observations: 26       观察单位数
             Link Function: Logit             联系函数
                                  Response Profile
                             Ordered
                             Value      Y     Count
                                1       1       9
                                2       0      17
               根据ORDER和DES选项对应变量的重新排序,给出排序值和及每个水
                   平相应的例数,拟合排序为1对应的应变量水平的概率
         Model Fitting Information and Testing Global Null Hypothesis BETA=0
                         对模型的总的检验,无效假设为总体的β=0,
                       Intercept
             Intercept     and
Criterion      Only    Covariates    Chi-Square for Covariates
AIC          35.542      17.826         .
SC           36.800      21.600         .
-2 LOG L     33.542      11.826     21.716 with 2 DF (p=0.0001)(相当于似然比χ2检验)
Score             .           .     15.844 with 2 DF (p=0.0004)(相当于Pearsonχ2检验)
                   模型的总的检验,P值均小于0.05,故模型总体有意义。
                     Analysis of Maximum Likelihood Estimates
		Parameter   Standard  Wald          Pr>     Standardized OddS
Variable   DF	Estimate    Error     Chi-Square Chi-Square Estimate     Ratio
	 自由度	参数估计     标准误     Waldχ2      P值     标准化回归系数 比值比
INTERCPT   1	-12.3285    5.4305     5.1540    0.0232        .           .
X2         1	2.4134      1.1960     4.0719    0.0436     1.185510     11.172
X4         1	2.0963      1.0879     3.7131    0.0540     1.230697      8.136
           Association of Predicted Probabilities and Observed Responses
                                预测数和观测数的关联性分析
                      Concordant = 94.1%          Somers' D = 0.902
                      Discordant =  3.9%          Gamma     = 0.920
                      Tied       =  2.0%          Tau-a     = 0.425
                      (153 pairs)                 c         = 0.951

最后一部分是关于预测概率和观察到的结果的关联性,包括对不同结果的个数和四种秩相关指数的分析。

逐步回归法筛选出两个有意义的变量X2X4,其P值都小于0.05,回归系数β分别为2.41342.0963,比数比分别为11.1728.136,事实上,比数比OR=ebeta

据此,写出本例的回归方程如下:LogitP=-12.3285+2.4134X2+2.0963X4

 上面的方程中X4的P值大于0.05,但没有被剔除出去,这是因为所采用的筛选方法为Stepwise,X4的P值并没有超过剔除标准,因此仍在方程内。结合专业,最终的方程仍然保留了X4

本例用逐步回归法筛选出对患肾细胞癌有意义的危险因素有两个,肾细胞癌血管内皮生长因子(VEGF)的等级越高,肾癌细胞核组织学分级越高,患肾细胞癌的危险越大。比较两个标准化回归系数,X2对于患肾细胞癌的影响要大于X4

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (3)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1746715, encodeId=a1811e4671552, content=<a href='/topic/show?id=88e91099e10' target=_blank style='color:#2F92EE;'>#logistic回归#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=25, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=10997, encryptionId=88e91099e10, topicName=logistic回归)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=d3c135838005, createdName=xlwang2703, createdTime=Thu Aug 23 10:14:00 CST 2012, time=2012-08-23, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1905744, encodeId=6ac01905e44e4, content=<a href='/topic/show?id=9dc4109964f' target=_blank style='color:#2F92EE;'>#Logistic#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=36, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=10996, encryptionId=9dc4109964f, topicName=Logistic)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=afa4194, createdName=cenghis, createdTime=Mon May 14 00:14:00 CST 2012, time=2012-05-14, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1455087, encodeId=b96e145508e66, content=<a href='/topic/show?id=bebe8032fc' target=_blank style='color:#2F92EE;'>#GIST#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=35, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=8032, encryptionId=bebe8032fc, topicName=GIST)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=6e445632366, createdName=july_977, createdTime=Thu Apr 19 09:14:00 CST 2012, time=2012-04-19, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1746715, encodeId=a1811e4671552, content=<a href='/topic/show?id=88e91099e10' target=_blank style='color:#2F92EE;'>#logistic回归#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=25, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=10997, encryptionId=88e91099e10, topicName=logistic回归)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=d3c135838005, createdName=xlwang2703, createdTime=Thu Aug 23 10:14:00 CST 2012, time=2012-08-23, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1905744, encodeId=6ac01905e44e4, content=<a href='/topic/show?id=9dc4109964f' target=_blank style='color:#2F92EE;'>#Logistic#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=36, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=10996, encryptionId=9dc4109964f, topicName=Logistic)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=afa4194, createdName=cenghis, createdTime=Mon May 14 00:14:00 CST 2012, time=2012-05-14, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1455087, encodeId=b96e145508e66, content=<a href='/topic/show?id=bebe8032fc' target=_blank style='color:#2F92EE;'>#GIST#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=35, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=8032, encryptionId=bebe8032fc, topicName=GIST)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=6e445632366, createdName=july_977, createdTime=Thu Apr 19 09:14:00 CST 2012, time=2012-04-19, status=1, ipAttribution=)]
    2012-05-14 cenghis
  3. [GetPortalCommentsPageByObjectIdResponse(id=1746715, encodeId=a1811e4671552, content=<a href='/topic/show?id=88e91099e10' target=_blank style='color:#2F92EE;'>#logistic回归#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=25, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=10997, encryptionId=88e91099e10, topicName=logistic回归)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=d3c135838005, createdName=xlwang2703, createdTime=Thu Aug 23 10:14:00 CST 2012, time=2012-08-23, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1905744, encodeId=6ac01905e44e4, content=<a href='/topic/show?id=9dc4109964f' target=_blank style='color:#2F92EE;'>#Logistic#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=36, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=10996, encryptionId=9dc4109964f, topicName=Logistic)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=afa4194, createdName=cenghis, createdTime=Mon May 14 00:14:00 CST 2012, time=2012-05-14, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1455087, encodeId=b96e145508e66, content=<a href='/topic/show?id=bebe8032fc' target=_blank style='color:#2F92EE;'>#GIST#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=35, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=8032, encryptionId=bebe8032fc, topicName=GIST)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=6e445632366, createdName=july_977, createdTime=Thu Apr 19 09:14:00 CST 2012, time=2012-04-19, status=1, ipAttribution=)]
    2012-04-19 july_977

相关资讯

第五章 定量资料的统计描述和t、u检验

第五章 定量资料的统计描述和t、u检验   从本章开始,我们将正式开始使用SAS解决我们的统计问题。从前面的几章可知,SAS的主要功能是由不同的程序步来体现的。因此在以后的各章中,我们将对每种问题重点介绍一些常用的程序步,以及它们的输出结果的解释。 对于定量资料的统计描述和简单推断,SAS提供了三个强有力的程序步,它们是: UNIVARIATE过程 提供单个变量的详细描述和对其分布类

第六章 分类资料的统计描述与简单推断

第六章 分类资料的统计描述与简单推断   在SAS/STAT模块中FREQ、TABULATE和SUMMARY等过程可用于分类资料的统计描述,其中FREQ过程兼具统计描述和统计推断的功能,对分类变量计算频数分布,产生从一维到n维的频数表和列联表;对于二维表,可进行c2检验,对于三维表,可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的一个常用过程。本章将向大家介绍F

第八章 直线回归、直线相关与logistic回归(上)

第八章 直线回归、直线相关与logistic回归(上)   直线回归与相关是联系非常紧密的两种统计分析方法,事实上SAS用于回归分析的程序步REG也可提供相关分析的结果,但进一步的深入分析仍应采用相应的程序步--CORR才能实现。本章前三节主要介绍两个常用的用于直线回归和相关分析的程序步――REG过程和CORR过程。后两节则介绍多元线性回归和Logistic回归的方法和所用的过程。 §8.1

第三章 SAS程序初步

第三章 SAS程序初步   从本质上讲,SAS是一种完善的第四代计算机语言。因此要真正掌握它,我们仍然要抛开其华丽的外表,从学习它的核心――SAS程序开始。 现在,让我们将SAS看成一个计算能力极强的统计学白痴(之所以这样说,是因为它计算能力虽然极强,却只能帮你计算而不能提出自己的实验设计方案或研究方向来),而你有一个非常小的关于数据分析的问题要请它帮忙。自然你要开口提出请求,无论措辞是委婉

第四章 统计图

第四章 统计图   统计图是统计描述的重要工具,它可以直观的反映出事物间的数量关系。因此,许多统计软件均提供了强大的统计做图功能。SAS的许多程序步,如Univariate过程等,也附有相应的绘图功能,这些我们拟在相关章节中讲述。本章将向大家介绍两个专门用于绘图的程序步――GCHART过程和GPLOT过程。前者用于绘制各种常用的统计图,而后者则用于绘制散点图。 在早期的DOS版本中,SAS只

第七章 方差分析和协方差分析

第七章 方差分析和协方差分析 方差分析和协方差分析在SAS系统中由SAS/STAT模块来完成,其中我们常用的有ANOVA过程和GLM过程。前者运算速度较快,但功能较为有限;后者运算速度较慢,但功能强大,我们做协方差分析时就要用到GLM过程。本章将首先介绍方差分析所用数据集的建立技巧,然后重点介绍这两个程序步。 其实,这里的速度快慢只是相对而言,SAS的处理速度是首屈一指的。举个例子,这个暑假我