SPSS教程第十一课:分类分析

2012-04-12 生物谷 生物谷

人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。在医学实践中也经常需要做分类的工作,如根据病人的一系列症状、体征和生化检查的结果,判断病人所患疾病的类型;或对一系列检查方法及其结果,将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙类病的检查;等等。统计学中常用的分类统计方法主要是聚类分析与判别分析。  &nbs

人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。在医学实践中也经常需要做分类的工作,如根据病人的一系列症状、体征和生化检查的结果,判断病人所患疾病的类型;或对一系列检查方法及其结果,将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙类病的检查;等等。统计学中常用的分类统计方法主要是聚类分析与判别分析。

    聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。聚类分析与判别分析有很大的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新对象的分类。

   

第一节 K-Means Cluster过程

 

10.1.1 主要功能

    调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。

10.1.2 实例操作

   [例10.1]为研究儿童生长发育的分期,调查1253名1月至7岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。资料作如下整理:先把1月至7岁划成19个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。

 

月份

月平均增长率(%)                                            

身高

体重

胸围

坐高

1

2

3

4

6

8

10

12

15

18

24

30

36

42

48

54

60

66

72

11.03

5.47

3.58

2.01

2.13

2.06

1.63

1.17

1.03

0.69

0.77

0.59

0.65

0.51

0.73

0.53

0.36

0.52

0.34

50.30

19.30

9.85

4.17

5.65

1.74

2.04

1.60

2.34

1.33

1.41

1.25

1.19

0.93

1.13

0.82

0.52

1.03

0.49

11.81

5.20

3.14

1.47

1.04

0.17

1.04

0.89

0.53

0.48

0.52

0.30

0.49

0.16

0.35

0.16

0.19

0.30

0.18

11.27

7.18

2.11

1.58

2.11

1.57

1.46

0.76

0.89

0.58

0.42

0.14

0.38

0.25

0.55

0.34

0.21

0.55

0.16

 

10.1.2.1  数据准备

    激活数据管理窗口,定义变量名:虽然月份分组不作分析变量,但为了更直观地了解聚类结果,也将之输入数据库,其变量名为month;身高、体重、胸围和坐高的变量名分别为x1、x2、x3和x4,输入原始数额。

 

10.1.2.2  统计分析

    激活Statistics菜单选Classify中的K-Means Cluster...项,弹出K-Means Cluster Analysis对话框(如图10.1示)。从对话框左侧的变量列表中选x1、x2、x3、x4,点击Ø钮使之进入Variables框;在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两种:Iterate and classify指先定初始类别中心点,而后按K-means算法作叠代分类,Classify only指仅按初始类别中心点分类,本例选用前一方法。

 

图10.1  逐步聚类分析对话框

       为在原始数据库中逐一显示分类结果,点击Save...钮弹出K-Means Cluster:Save New Variables对话框,选择Cluster membership项,点击Continue钮返回K-Means Cluster Analysis对话框。

       本例还要求对聚类结果进行方差分析,故点击Options...钮弹出K-Means Cluster:来Options对话框,在Statistics栏中选择ANOVA table项,点击Continue钮返回K-Means Cluster Analysis对话框,再点击OK钮即完成分析。

 

10.1.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

       首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K-means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。

 

Initial Cluster Centers.

      Cluster       X1            X2           X3           X4

        1        11.0300       50.3000       11.8100       11.2700

        2         5.4700       19.3000        5.2000        7.1800

        3         3.5800        9.8500        3.1400        2.1100

        4          .3400         .4900         .1800         .1600

 

Convergence achieved due to no or small distance change.

The maximum distance by which any center has changed is .0000

Current iteration is  2

 

Minimum distance between initial centers is 10.5200

 

   Iteration               Change in Cluster Centers

                    1         2         3         4

     1             .0000     .0000  2.46E+00  1.27E+00

     2             .0000     .0000     .0000     .0000

 

Case listing of Cluster membership.

     Case ID   Cluster       Distance

       1         1           .000

       2         2           .000

       3         3          2.457

       4         4          3.219

       5         3          2.457

       6         4          1.530

       7         4          1.346

       8         4           .515

       9         4           .915

      10         4           .266

      11         4           .281

      12         4           .668

      13         4           .467

      14         4           .844

      15         4           .415

      16         4           .873

      17         4          1.215

      18         4           .619

      19         4          1.269

 

 Final Cluster Centers.

     Cluster        X1            X2           X3           X4

        1        11.0300       50.3000       11.8100       11.2700

        2         5.4700       19.3000        5.2000        7.1800

        3         2.8550        7.7500        2.0900        2.1100

        4          .9060        1.4660         .4820         .6560

 

 

       之后对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均<0.001,即聚类效果好。这样,原有19类(即原有的19个月份分组)聚合成4类,第一类含原有1类,第二类含原有1类,第三类含原有2类,第四类含原有15类。具体结果系统以变量名QCL_1存于原始数据库中。

 

Distances between Final Cluster Centers.

     Cluster         1             2             3             4

        1          .0000

        2        32.4397         .0000

        3        45.3400       13.2521         .0000

        4        52.2325       20.0924        6.9273         .0000

 

 Analysis of Variance.

 Variable       Cluster MS   DF         Error MS     DF         F      Prob

    X1          37.5806    3             .369      15.0     101.7853   .000

    X2         817.1164    3            1.354      15.0     603.2588   .000

    X3          45.4089    3             .281      15.0     161.1145   .000

    X4          46.0994    3             .235      15.0     195.4933   .000

 

 Number of Cases in each Cluster.

      Cluster       unweighted cases    weighted cases

        1                   1.0               1.0

        2                   1.0               1.0

        3                   2.0               2.0

        4                  15.0              15.0

  Missing                     0

  Valid cases              19.0              19.0

 

 Variable Saved into Working File.

  QCL_1 (Cluster Number)

 

 

       在原始数据库(图10.2)中,我们可清楚地看到聚类结果;参照专业知识,将儿童生长发育分期定为:

       第一期,出生后至满月,增长率最高;

       第二期,第2个月起至第3个月,增长率次之;

       第三期,第3个月起至第8个月,增长率减缓;

       第四期,第8个月后,增长率显著减缓。

图10.2  逐步聚类分析的分类结果

 

第二节 Hierarchical Cluster过程

 

10.2.1 主要功能

    调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式,一是对研究对象本身进行分类,称为Q型举类;另一是对研究对象的观察指标进行分类,称为R型聚类。

 

10.2.2 实例操作

   [例10.2]29名儿童的血红蛋白(g/100ml)与微量元素(μg/100ml)测定结果如下表。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济快捷地评价儿童的营养状态。

 

编号

N0.

X1

X2

X3

X4

X5

血红蛋白

X6

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

54.89

72.49

53.81

64.74

58.80

43.67

54.89

86.12

60.35

54.04

61.23

60.17

69.69

72.28

55.13

70.08

63.05

48.75

52.28

52.21

49.71

61.02

53.68

50.22

65.34

56.39

66.12

73.89

47.31

30.86

42.61

52.86

39.18

37.67

26.18

30.86

43.79

38.20

34.23

37.35

33.67

40.01

40.12

33.02

36.81

35.07

30.53

27.14

36.18

25.43

29.27

28.79

29.17

29.99

29.29

31.93

32.94

28.55

448.70

467.30

425.61

469.80

456.55

395.78

448.70

440.13

394.40

405.60

446.00

383.20

416.70

430.80

445.80

409.80

384.10

342.90

326.29

388.54

331.10

258.94

292.80

292.60

312.80

283.00

344.20

312.50

294.70

 0.012

 0.008

 0.004

 0.005

 0.012

 0.001

 0.012

 0.017

 0.001

 0.008

 0.022

 0.001

 0.012

 0.000

 0.012

 0.012

 0.000

 0.018

 0.004

 0.024

 0.012

 0.016

 0.048

 0.006

 0.006

 0.016

 0.000

 0.064

 0.005

1.010

1.640

1.220

1.220

1.010

0.594

1.010

1.770

1.140

1.300

1.380

0.914

1.350

1.200

0.918

1.190

0.853

0.924

0.817

1.020

0.897

1.190

1.320

1.040

1.030

1.350

0.689

1.150

0.838

13.50

13.00

13.75

14.00

14.25

12.75

12.50

12.25

12.00

11.75

11.50

11.25

11.00

10.75

10.50

10.25

10.00

 9.75

 9.50

 9.25

 9.00

 8.75

 8.50

 8.25

 8.00

 7.80

 7.50

 7.25

 7.00

 

10.2.2.1  数据准备

    激活数据管理窗口,定义变量名:钙、镁、铁、锰、铜和血红蛋白的变量名分别为x1、x2、x3、x4、x5、x6,之后输入原始数据。

 

10.2.2.2  统计分析

    激活Statistics菜单选Classify中的Hierarchical Cluster...项,弹出Hierarchical Cluster Analysis对话框(图10.3)。从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击Ø钮使之进入Variable(s)框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,本例选择Variables。

 

图10.3  系统聚类分析对话框

 

   &nbs

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

SPSS教程第七课:方差分析

方差分析是R.A.Fister发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析的基本思想是:通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。     方差分析主要用于:1、均数

SPSS教程第八课:相关分析

任何事物的存在都不是孤立的,而是相互联系、相互制约的。在医学领域中,身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。     值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。但如果事物之间有因果关系,则两者必然相关。     SPS

SPSS教程第九课:回归分析

 回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。   第一节 Linear过程  8.1.1 主要功能     调用此过程可完成二元或多元的线性回归分析

SPSS教程第十课:对数线性模型

对数线性模型是用于离散型数据或整理成列联表格式的计数资料的统计分析工具。在对数线性模型中,所有用作的分类的因素均为独立变量,列联表各单元中的例数为应变量。对于列联表资料,通常作χ2 检验,但χ2 检验无法系统地评价变量间的联系,也无法估计变量间相互作用的大小,而对数线性模型是处理这些问题的最佳方法。   第一节 General过程   9.1.1 主要功能  

第五课:摘要性分析

 摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2 检验。本章将介绍其操作方法。  第一节 Frequenci

SPSS教程第六课:平均数的比较

 在正态或近似正态分布的计量资料中(如临床常见的体温、血压、脉搏、身高、体重等测量值,几乎均为此类资料),经常在使用前一章计量资料描述过程分析后,还要进行组与组之间平均水平的比较。本章将分四节分别介绍这一统计方法:即常用的t检验和单因素方差分析。   第一节 Means过程   5.1.1 主要功能     &nbs