第六章 分类资料的统计描述与简单推断

2012-04-17 生物谷 不详

第六章 分类资料的统计描述与简单推断   在SAS/STAT模块中FREQ、TABULATE和SUMMARY等过程可用于分类资料的统计描述,其中FREQ过程兼具统计描述和统计推断的功能,对分类变量计算频数分布,产生从一维到n维的频数表和列联表;对于二维表,可进行c2检验,对于三维表,可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的一个常用过程。本章将向大家介绍F

第六章 分类资料的统计描述与简单推断

 

SAS/STAT模块中FREQTABULATESUMMARY等过程可用于分类资料的统计描述,其中FREQ过程兼具统计描述和统计推断的功能,对分类变量计算频数分布,产生从一维到n维的频数表和列联表;对于二维表,可进行c2检验,对于三维表,可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的一个常用过程。本章将向大家介绍FREQ过程的用法。

§6.1

6.1 某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作对照组,问两种方法治疗效果有无差别(医统第二版P37 3.10)?

未愈合

合计

呋喃硝胺

54

8

62

甲氰咪胍

44

20

64

98

28

126

解:在建立行´ 列表的数据集时一般需要三个变量――行变量、列变量和指示每个格子中频数的变量。本例首先建立这样一个数据集,然后调用FREQ过程输出行´ 列表,同时利用CHISQ选项进行c 2检验。

设定数据库环境:

LIBNAME A C:\USER ;

数据步,建立数据集(这里同时给出直接输入和利用循环语句输入两种程序):

DATA A.YTLI8_1;

DATA A.YTLI8_1;

 INPUT ROW COLUMN NUMBER ;

 DO ROW=1 TO 2;

 CARDS;

  DO COLUMN=1 TO 2;

 1 1 54

   INPUT NUMBER @@;

 1 2   8

   OUTPUT;

 2 1 44

  END;

 2 2 20

 END;

 CARDS;

RUN;

 54 8 44 20

RUN;

调用FREQ过程,进行c 2检验:

PROC FREQ DATA=A.YTLI8_1;

 TABLE ROW*COLUMN / CHISQ;

 WEIGHT NUMBER;

RUN;

§6.2 FREQ过程

6.2.1 语法格式

PROC FREQ [选项];

 TABLES 请求式/[选项];

  必需,指定行变量和列变量

 WEIGHT <变量名>;

  指定频数指定变量

BY <变量名列>;

如:PROC FREQ

TABLES A

产生变量A的一维频数表。

PROC FREQ

TABLES A*B

产生AB两个变量的列联表,*前为行变量,*后为列变量。

TABLES语句中用*号连接三个或n个变量名,可得到三维或n维列联表,最后一个变量各水平形成表的列,倒数第二个变量各水平形成表的行,其它变量的每一级水平(或水平组合)形成一层,且每一层都形成分离的列联表。

如:PROC FREQ

TABLES A*B*C*D

列联表的数量为AB不同水平的组合数,每个表的上部为D的各水平,左侧为C的各水平。

6.2.2 语法说明

【程序步选项】

  • DATA=数据集 规定PROC FREQ语句使用的数据集
  • ORDERFREQ 按频数递减顺序排列
  • ORDERDATA 按数据集中出现的顺序排列
  • ORDERINTERNAL 按内部值排列(缺省)
  • ORDERFORMATTED 按外部格式值排列

TABLES语句】

PROC FREQ过程中可有多条TABLES语句,TABLES语句后可接多个表格请求式,每个请求式可包含任何数量的变量,从而得到所需的表格。

如果TABLES语句缺省,则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时,若需某变量的一维频数,FREQ给出该变量每一水平的频数(freqency)、累积频数(cumulative freqency)、频数的百分比(percent)和累积百分比(cumulative percent);若需二维频数表,FREQ产生交叉分组列表,即包括各格的频数、总频数的格百分数、行频数的格百分数和列频数的格百分数。

请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中,如:

TABLES A*(B C);等价于TABLES A*B A*C

TABLES (A-C)*D;等价于TABLES A*D B*D C*D

下列选项可用于TABLES语句中“/”的后面:

  1. 普通选项
  • OUT=数据集 建立一个包含变量值和频数计数的输出数据集。如果TABLES语句中不止一个请求式,数据集的内容相应于TABLES语句中最后一个请求。
  1. 统计分析选项
  • CHISQ 对每层作c 2检验,包括Pearson c 2、似然比c 2Mantel-Haenszel c 2。此外还给出与c 2检验有关的关联指标包括Phi系数、列联系数和Cramer’s V。对于2×2表,给出Fisher精确概率。
  • AGREE 进行配对c 2检验。
  • EXACT 对大于2×2的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。
  • MEASURES 对每层的二维表计算一系列关联指标及相应的标准误,包括PearsonSpearman相关系数,以及GammaKendall系数等。对于2×2表,还给出常用的危险度指标及其标准误。
  • CMH 给出Cochran-Mantel-Haenszel统计量,可检验在调整了TABLES语句中其它变量后,行变量与列变量之间的关联程度。对于2×2表,FREQ过程给出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验。
  • ALL 给出CHISQMEASURESCMH所请求的全部统计量。
  • ALPHAp 给出检验水准。缺省为0.05
  1. 有关表格信息选项
  • EXPECTED 给出期望频数
  • DEVIATION 给出每格的实际频数与期望频数的差值
  • CELLCHISQ 给出每格对总c 2的贡献,即计算每格的(实际频数-期望频数)2/期望频数。
  • CUMCOL 给出累积列百分数
  1. 禁止输出选项
  • NOFREQ 不给出列联表中的格频数
  • NOPERCENT 不给出列联表中的格百分数
  • NOROW 不给出列联表中各格的行百分数
  • NOCOL 不给出列联表中各格的列百分数
  • NOCUM 不给出频数表的累积频数和累积百分数
  • NOPRINT 不给出表格,但给出CHISQMEASURESCMH等语句所指定的统计量。

WEIGHT语句

通常每个观察值提供数值1给频数计数,当WEIGHT语句出现时,每个观察值提供的是该观察值的加权变量值。该值必须非负,但可不必为整数。只能使用一个WEIGHT语句,且该语句作用于所有的表。

6.2.3 结果解释

TABLES语句不带任何选项时,FREQ过程只输出N维频数表,只有在选项中指定统计方法后才输出相应的检验结果。下面以本章例8.1的输出为例,解释FREQ过程的结果。

TABLE OF ROW BY COLUMN

每个单元格给出以下结果:ROW为行变量COLUMN为列变量

 

ROW     COLUMN
频数,指格频数  Frequency|
百分数 Percent  | 百分数即指该格频数占总频数的百分比
行百分数 Row Pct  | 指该格频数占该行总频数的百分比
列百分数 Col Pct  |      1|     2 | Total 行变量的不同取值及合计

---------+-------+-------+

       1 |    54 |     8 |    62

         | 42.86 |  6.35 | 49.21
         | 87.10 | 12.90 |
         | 55.10 | 28.57 |
---------+-------+-------+
       2 |    44 |    20 |    64
         | 34.92 | 15.87 | 50.79
         | 68.75 | 31.25 |
         | 44.90 | 71.43 |
---------+-------+-------+
Total         98      28     126
           77.78   22.22  100.00

STATISTICS FOR TABLE OF ROW BY COLUMN

                    Statistic                      DF     Value      Prob

                    ------------------------------------------------------

Pearson c2          Chi-Square                      1     6.133      0.013

似然比c2             Likelihood Ratio Chi-Square     1     6.304      0.012

c2M-H                Continuity Adj. Chi-Square      1     5.118      0.024

                    Mantel-Haenszel Chi-Square      1     6.084      0.014

                    Fisher's Exact Test (Left)                       0.997

                                        (Right)                      0.011

                                        (2-Tail)                     0.018

                    Phi Coefficient                       0.221

                    Contingency Coefficient               0.215

                    Cramer's V                            0.221

                    Sample Size = 126 样本例数为126

以上统计结果的最后三行为三个系数,三项均无P值,只给出具体的统计量值。它们都是用于刻划行变量、列变量两个分类变量之间关联强度的描述性统计量。

给大家讲件真事,也是笑话,如果你笑得出来。有位同学做课题,考虑到统计不太熟,就找另一位研究生(当然不是统计专业的)来帮他。这位朋友用FREQ过程得出c 2检验结果,同学看了直犯愁,便问道:“这么多P值,用哪个呀?”朋友反问:“你是想有差别还是无差别?”他回答:“当然是有差别喽。”答曰:“那就用P值最小的那个!”

 6.2.4 应用实例

6.2 某地测得6094人的血型结果如下,问ABO血型与MN血型有无关联?(医学统计学第二版P.197 2.11)

M

N

MN

合计

O

431

490

902

1823

A

388

410

800

1598

B

495

587

950

2032

AB

137

179

325

641

1451

1666

2977

6094

解:程序如下:

data.yt2_11;

 do a=1 to 4;

  do b=1 to 3;

   input count @@;

   output;

  end;

 end;

 cards;

 431 490 902 388 ...

;

proc freq;

 tables a * b/chisq;

 weight count;

run;

6.3 用甲乙两种培养基培养结核杆菌45份,问两种培养基何者为优?(医学统计学第一版P.310 1.14)




养基

 

甲培养基

 
 

+

合计

+

12

16

28

4

13

17

合计

16

29

45

:程序如下(结果给出c2及其P):

data a.yt1_14;

 input r c num @@;

 cards;

 1 1 12 1 2 16 2 1 4 2 2 13

;

proc freq;

 tables r*c/agree;

 weight num;

run;

注:该方法在ASSIST视窗中无法实现,在低版本的SAS中也无法实现。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

第五章 定量资料的统计描述和t、u检验

第五章 定量资料的统计描述和t、u检验   从本章开始,我们将正式开始使用SAS解决我们的统计问题。从前面的几章可知,SAS的主要功能是由不同的程序步来体现的。因此在以后的各章中,我们将对每种问题重点介绍一些常用的程序步,以及它们的输出结果的解释。 对于定量资料的统计描述和简单推断,SAS提供了三个强有力的程序步,它们是: UNIVARIATE过程 提供单个变量的详细描述和对其分布类

第五章 多个率比较的SAS编程实现

两个率或多个率的比较,我们非常熟悉的就是采用卡方检验的方法。除此之外,在特定条件下还可根据正态近似的原则采用u检验的方法进行分析。在SAS中,卡方检验的功能包含在freq过程之中,下面我们先熟悉一下freq过程的基本内容和功能。 一、freq过程的语句和功能 freq过程包含在SAS的BASE模块中,它可以执行描述性统计以及假设检验的功能,能产生从1维到n维的表格,即频数表以及列联表。对于单因

第一章 统计软件中的数据录入格式

第一章  统计软件中的数据录入格式 统计分析是科研中的必要环节,统计软件则是进行统计分析的利器。但是,在计算机已逐渐普及的今天,统计软件却仍让人感到几分神秘:除了大型统计软件都还没有中文版这一原因,统计软件在许多小的方面也有自己的特点,往往就是这些小地方就会让许多人深入宝山而空返。今天我们就来谈谈使用统计软件时一个最基本而又非常重要的问题--数据录入格式。 简言之,我们平时往往用表格

第二章 SAS/ASSIST视窗简介

第二章 SAS/ASSIST视窗简介 SAS是一个庞大的系统,它由许多模块组成,每个模块分别完成不同功能。由于SAS最初是为专业统计人员设计的(这一点和SPSS恰恰相反),因此使用上以编程为主,初学者掌握较为困难。现在,微机操作系统已经进入了WINDOWS时代,而WINDOWS软件的一个重要特点就是易学易用。要想在市场中继续领先,SAS必须推出能体现WINDOWS软件这一特色的新界面,SAS/A

第三章 SAS程序初步

第三章 SAS程序初步   从本质上讲,SAS是一种完善的第四代计算机语言。因此要真正掌握它,我们仍然要抛开其华丽的外表,从学习它的核心――SAS程序开始。 现在,让我们将SAS看成一个计算能力极强的统计学白痴(之所以这样说,是因为它计算能力虽然极强,却只能帮你计算而不能提出自己的实验设计方案或研究方向来),而你有一个非常小的关于数据分析的问题要请它帮忙。自然你要开口提出请求,无论措辞是委婉

第四章 统计图

第四章 统计图   统计图是统计描述的重要工具,它可以直观的反映出事物间的数量关系。因此,许多统计软件均提供了强大的统计做图功能。SAS的许多程序步,如Univariate过程等,也附有相应的绘图功能,这些我们拟在相关章节中讲述。本章将向大家介绍两个专门用于绘图的程序步――GCHART过程和GPLOT过程。前者用于绘制各种常用的统计图,而后者则用于绘制散点图。 在早期的DOS版本中,SAS只