SAS常用程序(1)

2012-04-17 生物谷 不详

2.1  利用SAS软件描述样本数据   用SAS可以对样本数据进行全面描述,得出样本的各种特征数以及频数分布图。在阅读以下内容之前请先阅读第一章“SAS软件基本操作”。   2.1.1  用MEANS语句描述数据   例 2.1  计算课本上习题1.2的平均数和标准差。 解 

2.1  利用SAS软件描述样本数据

 

SAS可以对样本数据进行全面描述,得出样本的各种特征数以及频数分布图。在阅读以下内容之前请先阅读第一章“SAS软件基本操作

 

2.1.1  MEANS语句描述数据

 

2.1  计算课本上习题1.2的平均数和标准差。

  在进行分析之前,最好先建立一个外部数据文件。如果不建立外部数据文件,在作业流中输入数据也可以。一般来说,在数据量比较大,有可能重复使用时,最好建立一个数据文件。在这里我们创建一个称为2-1data.dat 的外部数据文件,存储在A盘中。用MEANS过程描述数据的最基本的程序如下:

 

              options  linesize=76;

              data  abc;

                     infile  ‘a:\2-1data.dat’;

                     input  x;

              run;

              proc  means;

              run;

 

提交SAS运行后,所得结果如下:

 

21 2.1输出的结果

                                                                               

 

The SAS System

  Analysis Variable : X

 

N

Mean

Std Dev

Minimum

Maximum

250

63.2760000

3.0139941

55.0000000

70.0000000

                                                                              

 

 

打印的结果中包括数据个数平均数标准差最小值和最大值。这是MEANS语句在缺省时得到的基本结果。若需要对数据作更详细的描述,则要指明所需的统计量(关于统计量的概念见课本2.2.4)。用MEANS过程所计算的统计量,在这里也一并列出。下面还会反复提到变量这一名词,关于变量的概念见课本2.2.1MEANS过程所计算的统计量是用关键词表示,这些关键词及其含义如下:

       N:输入的观测值(观测值的概念见课本2.2.1)个数

       NMISS:每个变量所含缺失值的个数

       MEAN:变量的平均数

       STD:变量的标准差

       MIN:变量的最小值

       MAX:变量的最大值

       RANGE:变量的极差

       SUM:变量所有值的和

       VAR:变量的方差

       USS:每一变量原始数据的平方和(未校正平方和)

       CSS:每一变量的离均差平方和(校正平方和)

       CV:变异系数

       STDERR:每一变量的标准误差(平均数的标准差)

       T:在H0:μ= 0时的t 值(见课本5.1.4

       PRT:在H0:μ= 0 的假设下,统计量t 大于t 临界值绝对值的概率(见课本4.1.1

       SKEWNESS:偏斜度

       KURTOSIS:峭度

       CLM:置信区间的上限和下限(见课本6.2.1

       LCLM:置信区间的下限

       UCLM:置信区间的上限

另外,在PROC  MEANS语句中还有12个选项,其中几个主要选项如下:

DATA=(SAS 数据集):指出SAS 数据集的名称,若省略,则使用最近产生的数据集

MAXDEC=(数字):指出所输出的结果中,小数部分的最大位数(08),缺省时为8

FW=(域宽):指出打印的结果中每个统计量的域宽,缺省时为12

VARDEF=(DF / N):VARDEFDF为缺省值,表示计算方差时,使用n-1 作分母,

                     VARDEFN表示计算方差时,使用观测值个数n 作分母

ALPHA=(α值):指出在计算置信区间时,选用的显著水平

 

 

 

 

 

    2.2  计算课本上习题1.2的离均差平方和,方差,偏斜度和平均数的0.95置信区间。

  仍然使用2-1data.dat 外部数据文件。MEANS过程如下:

 

              options  linesize=76;

              data  abc;

                   infile  ‘a:\2-1data.dat’;

                   input  x;

              run;

              proc  means  data=abc  maxdec=4  fw=8  alpha=0.05

          css  var  skewness  clm;

              run;

 

运行的结果如下:

 

22:例2.2输出的结果

                                                                                

 

The SAS System

 Analysis Variable : X

CSS

Variance

Skewness

Kurtosis

Lower 95.0% CLM

Upper 95.0% CLM

2261.96

9.0842

-0.1548

-0.1894

62.9006

63.6514

                                                                              

 

PROC MEANS语句中data=abc选项是可以省略的因为PROC MEANS语句所分析的正是最近的SAS数据集若需从SAS数据库中调用某一数据集时DATA选项不可省略。在建立外部数据文件时,应每个数据占一行,250个数据占250行(只占一列)。这样输入数据太麻烦,核对起来也不方便。如果想连续输入数据,则应在INPUT语句的变量后加上@@,即“inpet x @@;”,具体说明见例2.4

在进行科学研究时,需要处理的变量数目往往很多,而且变量之间还存在一定关系,经常要计算在某一变量特定水平下,其它变量的一些特征数。例如,在做人群健康情况调查时,涉及的变量多达十几个甚至几十个。如,性别、年龄、身高、体重、吸烟程度、饮酒程度、视力、听力、血压、脉搏、血黏度、胆固醇含量……。如果要计算不同程度吸烟者或不同性别受检者的各项指标或其中若干项指标的某些统计量,只需加上VAR语句和CLASS语句,便能很容易完成此项工作。VAR语句指明所需描述的变量,CLASS语句可以按观测值的不同类别分类计算指定的统计量。

 

    2.3  在做小麦育种时,调查了杂交后代的若干性状,选取其中一部分列在下表中(表2本文系梅斯医学(MedSci)原创编译整理,转载需授权!-->

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2007735, encodeId=763d200e735d8, content=<a href='/topic/show?id=cf4d1590956' target=_blank style='color:#2F92EE;'>#SAS#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=60, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=15909, encryptionId=cf4d1590956, topicName=SAS)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=8e4c53, createdName=jiyangfei, createdTime=Fri Mar 08 08:14:00 CST 2013, time=2013-03-08, status=1, ipAttribution=)]
    2013-03-08 jiyangfei

相关资讯

第五章 定量资料的统计描述和t、u检验

第五章 定量资料的统计描述和t、u检验   从本章开始,我们将正式开始使用SAS解决我们的统计问题。从前面的几章可知,SAS的主要功能是由不同的程序步来体现的。因此在以后的各章中,我们将对每种问题重点介绍一些常用的程序步,以及它们的输出结果的解释。 对于定量资料的统计描述和简单推断,SAS提供了三个强有力的程序步,它们是: UNIVARIATE过程 提供单个变量的详细描述和对其分布类

第九章 直线回归、直线相关与logistic回归(下)

第九章 直线回归、直线相关与logistic回归(下) §8.4  多元线性回归 REG过程不仅可以完成只有一个自变量的简单直线回归,还可以作含有多个自变量的多元线性回归。作多元线性回归时REG过程的语法格式与简单直线回归的语法几乎完全相同,只要把要分析的多个自变量名放在MODEL语句中应变量后即可。因为多元线性回归时一般要作自变量的筛选,涉及到MODEL语句的选项,现将多元线性回

第六章 分类资料的统计描述与简单推断

第六章 分类资料的统计描述与简单推断   在SAS/STAT模块中FREQ、TABULATE和SUMMARY等过程可用于分类资料的统计描述,其中FREQ过程兼具统计描述和统计推断的功能,对分类变量计算频数分布,产生从一维到n维的频数表和列联表;对于二维表,可进行c2检验,对于三维表,可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的一个常用过程。本章将向大家介绍F

第八章 直线回归、直线相关与logistic回归(上)

第八章 直线回归、直线相关与logistic回归(上)   直线回归与相关是联系非常紧密的两种统计分析方法,事实上SAS用于回归分析的程序步REG也可提供相关分析的结果,但进一步的深入分析仍应采用相应的程序步--CORR才能实现。本章前三节主要介绍两个常用的用于直线回归和相关分析的程序步――REG过程和CORR过程。后两节则介绍多元线性回归和Logistic回归的方法和所用的过程。 §8.1

第七章 方差分析和协方差分析

第七章 方差分析和协方差分析 方差分析和协方差分析在SAS系统中由SAS/STAT模块来完成,其中我们常用的有ANOVA过程和GLM过程。前者运算速度较快,但功能较为有限;后者运算速度较慢,但功能强大,我们做协方差分析时就要用到GLM过程。本章将首先介绍方差分析所用数据集的建立技巧,然后重点介绍这两个程序步。 其实,这里的速度快慢只是相对而言,SAS的处理速度是首屈一指的。举个例子,这个暑假我

第十章 非参数检验

第十章 非参数检验     非参数统计是统计分析的重要组成部分。可是与之很不相称的是它的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和NPAR1WAY过程来实现,前两者在前面的章节中已经介绍,它们可以进行配对设计差值的符号秩和检验(WILCOXON配对法);后者是一个单因素的非参数方差分析过程,可进