第五课:摘要性分析

2012-04-12 生物谷 生物谷

 摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2 检验。本章将介绍其操作方法。  第一节 Frequenci

 摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2 检验。本章将介绍其操作方法。 

第一节 Frequencies过程

 

4.1.1 主要功能

    调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。

 

4.1.2 实例操作

    [例4-1]调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。

 

7.43  7.88  6.88  7.80  7.04  8.05  6.97  7.12  7.35  8.05

7.95  7.56  7.50  7.88  7.20  7.20  7.20  7.43  7.12  7.20

7.50  7.35  7.88  7.43  7.58  6.50  7.43  7.12  6.97  6.80

7.35  7.50  7.20  6.43  7.58  8.03  6.97  7.43  7.35  7.35

7.58  7.58  6.88  7.65  7.04  7.12  8.12  7.50  7.04  6.80

7.04  7.20  7.65  7.43  7.65  7.76  6.73  7.20  7.50  7.43

7.35  7.95  7.35  7.47  6.50  7.65  8.16  7.54  7.27  7.27

6.72  7.65  7.27  7.04  7.72  6.88  6.73  6.73  6.73  7.27

7.58  7.35  7.50  7.27  7.35  7.35  7.27  8.16  7.03  7.43

7.35  7.95  7.04  7.65  7.27  7.72  8.43  7.50  7.65  7.04

 

4.1.2.1 数据准备

    激活数据管理窗口,定义血清总蛋白含量的变量名为X,然后输入血清总蛋白含量的原始数据,结果见图4.1。

 

4.1.2.2 统计分析

    激活Statistics菜单,选Summarize中的Frequencies...命令项,弹出Frequencies对话框(图4.2)。现欲对血清总蛋白含量值进行频数表分析,故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框。同时可点击Format...钮弹出Frequencies:Format对话框,在Order by栏中有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。本例选Ascending values项后点击Continue钮返回Frequencies对话框。

 

    点击Statistics...钮,弹出Frequencies:Statistics对话框(图4.3),可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。

  

    点击Charts...钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Bar chart),适用于非连续性的变量;另一是直方图(Histogram),适用于连续性的变量。本例要求对变量x绘制直方图,故选择Histogram项,并要求绘制正态曲线(With normal curve),点击Continue钮返回Frequencies对话框,再点击OK钮即可。

 

4.1.2.3 结果解释

    在输出结果窗口中将看到如下统计数据:

    系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。

 

X                                                        Valid     Cum

Value Label                 Value   Frequency  Percent  Percent  Percent

                             6.43         1      1.0      1.0      1.0

                             6.50         2      2.0      2.0      3.0

                             6.72         1      1.0      1.0      4.0

                             6.73         4      4.0      4.0      8.0

                             6.80         2      2.0      2.0     10.0

                             6.88         3      3.0      3.0     13.0

                             6.97         3      3.0      3.0     16.0

                             7.03         1      1.0      1.0     17.0

                             7.04         7      7.0      7.0     24.0

                             7.12         4      4.0      4.0     28.0

                             7.20         7      7.0      7.0     35.0

                             7.27         7      7.0      7.0     42.0

                             7.35        11     11.0     11.0     53.0

                             7.43         8      8.0      8.0     61.0

                             7.47         1      1.0      1.0     62.0

                             7.50         7      7.0      7.0     69.0

                             7.54         1      1.0      1.0     70.0

                             7.56         1      1.0      1.0     71.0

                             7.58         5      5.0      5.0     76.0

                             7.65         7      7.0      7.0     83.0

                             7.72         2      2.0      2.0     85.0

                             7.76         1      1.0      1.0     86.0

                             7.80         1      1.0      1.0     87.0

                             7.88         3      3.0      3.0     90.0

                             7.95         3      3.0      3.0     93.0

                             8.03         1      1.0      1.0     94.0

                             8.05         2      2.0      2.0     96.0

                             8.12         1      1.0      1.0     97.0

                             8.16         2      2.0      2.0     99.0

                             8.43         1      1.0      1.0    100.0

                                     ------   -------  -------

                            Total       100    100.0    100.0

 

 

       接着输出各基本统计指标,其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580,共100个观察值,无缺失值。

 

Mean          7.366        Std err        .039      Median        7.350

Mode          7.350        Std dev        .394      Variance       .155

Kurtosis       .034        S E Kurt       .478      Skewness       .060

S E Skew       .241        Range         2.000      Minimum       6.430

Maximum       8.430

 

 Percentile   Value      Percentile    Value      Percentile    Value

  25.00       7.120        50.00       7.350        75.00       7.580

 

Valid cases     100      Missing cases      0

 

        最后系统输出带有正态曲线的直方图

     

从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项,在弹出的Recode Into Different Variable对话框中选x点击钮使之进入Numeric Variable®Output Variable框,在Output Variable栏的Name处输入x1,点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框,在Old value栏内选Range项,输入第一个分组的数值范围:6.4~6.599,在New value栏内输入新值:6.4,点击Add钮,依此将各组的范围及对应的新值逐一输入,最后点击Continue钮返回Recode Into Different Variable对话框,再点击OK钮即完成。系统在原数据库中生成一新变量为x1,这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。

 

X1

                                                         Valid     Cum

Value Label                 Value   Frequency  Percent  Percent  Percent

                             6.40         3      3.0      3.0      3.0

                             6.60         5      5.0      5.0      8.0

                             6.80         8      8.0      8.0     16.0

                             7.00        12     12.0     12.0     28.0

                             7.20        25     25.0     25.0     53.0

                             7.40        23     23.0     23.0     76.0

                             7.60        10     10.0     10.0     86.0

                             7.80         7      7.0      7.0     93.0

                             8.00         6      6.0      6.0     99.0

                             8.40         1      1.0      1.0    100.0

                                    -------   -------  -------

                            Total      100     100.0    100.0

 

Valid cases     100      Missing cases      0

 

 

 

第二节 Descriptives过程

 

4.2.1 主要功能

    调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。

 4.2.2 实例操作

  [例4-2]调查20名男婴的出生体重(克)资料如下,试作描述性统计。

 

2770  2915  2795  2995  2860  2970  3087  3126  3125  4654

2272  3503  3418  3921  2669  4218  3707  2310  2573  3881

 

4.2.2.1 数据准备

    激活数据管理窗口,定义男婴出生体重的变量名为X,然后输入男婴出生体重的原始数据。

 

4.2.2.2 统计分析

    激活Statistics菜单选Summarize中的Descriptives...命令项,弹出Descriptives对话框(图4.5)。现欲对男婴出生体重进行描述性分析,故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框;本例要求将原始数据转换成z分值,故选Save standardized value as variables项。

 

    点击Options...钮,弹出Descriptives:Options对话框(图4.6)。框中各指标的意义请读者参阅本章第一节。选好项目后点击 Continue钮返回Descriptives对话框,再点击OK钮即可。

 

4.2.2.3 结果解释

    在结果输出窗口中将看到如下统计数据:均数为3188.450, 标准误为140.681, 标准差为629.146, 方差为395824.997, 峰度系数为0.118, 峰度系数的标准误为0.992, 偏度系数为0.732, 偏度系数的标准误为0.512, 全距为2382.000, 最小值为2272, 最大值为4654, 有效例数为100,无缺失值。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

用SPSS进行非线性回归分析实例

非线性回归分析 在回归分析中,当自变量和因变量间的关系不能简单地表示为线性方程,或者不能表示为可化为线性方程的时侯,可采用非线性估计来建立回归模型。 SPSS提供了非线性回归“Nonlinear”过程,下面就以实例来介绍非线性拟合“Nonlinear”过程的基本步骤和使用方法。 应用实例 研究了南美斑潜蝇幼虫在不同温度条件下的发育速率,得到试验数据如下: 表5-1 南美斑潜蝇幼虫在不同

第二课:SPSS的安装与概貌

第一章 SPSS的安装与概貌                第一节 SPSS的安装  1.1.1 SPSS简介     SPSS的全称是:Statistical Program for Social S

用SPSS进行列联表分析(Crosstabs)实例

列联表分析(Crosstabs) 列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。其中卡方检验是分析列联表资料常用的假设检验方法。例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x

SPSS教程**课:统计分析利器SPSS入门

虽然现在SPSS最高版本已经到11.5了,但是现在9.0还是使用最广,不过SPSS的性能从7.0到10.0基本没有太大的进步,功能也没有增强多少,但是从11.0后性能明显增强,运算速度加快,统计上也增加了不少实用性功能,稳住了全球老二的位置,仅次于SAS,但易用性则排在第一位。生物谷内以前已经多次介绍。 SPSS(Statistical Package for the Social Scien

第三课:SPSS的数据管理

统计分析离不开数据,因此数据管理是SPSS的重要组成部分。详细了解SPSS的数据管理方法,将有助于用户提高工作效率。SPSS的数据管理是借助于数据管理窗口和主窗口的File、Data、Transform等菜单完成的。   第一节 数据的输入   2.1.1 变量的定义    先激活数据管理窗口,然后选Data菜单的Define Variable.

第四课:SPSS文本文件的编辑

上一章介绍了SPSS数据管理窗口的使用方法。在第一章中,我们还提到过SPSS的其他窗口,如结果输出窗口(图3.1)和命令编辑窗口(图3.2),这两个窗口是系统用于接收或输出文本的。用户经常在实际工作中需要对之进行必要的编辑。SPSS的文本编辑是借助于主窗口的File、Edit等菜单完成的,本章介绍SPSS的文本编辑方法。       第一节 文本文件