第五课：摘要性分析

2012-04-12 生物谷生物谷

 摘要性分析是对原始数据进行描述性分析，这是统计工作的出发点。统计学的一系列基本描述指标，不仅让人了解资料的特征，而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程，可完成许多统计学指标，对于计量资料，可完成均数、标准差、标准误等指标的计算；对于计数和一些等级资料，可完成构成比、率等指标的计算和χ2 检验。本章将介绍其操作方法。  第一节 Frequenci

摘要性分析是对原始数据进行描述性分析，这是统计工作的出发点。统计学的一系列基本描述指标，不仅让人了解资料的特征，而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程，可完成许多统计学指标，对于计量资料，可完成均数、标准差、标准误等指标的计算；对于计数和一些等级资料，可完成构成比、率等指标的计算和χ²检验。本章将介绍其操作方法。

第一节 Frequencies过程

4.1.1 主要功能

调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一，此外还可对数据的分布趋势进行初步分析。

4.1.2 实例操作

[例4-1]调查100名健康女大学生的血清总蛋白含量（g%）如下表，试作频数表分析。

7.43 7.88 6.88 7.80 7.04 8.05 6.97 7.12 7.35 8.05

7.95 7.56 7.50 7.88 7.20 7.20 7.20 7.43 7.12 7.20

7.50 7.35 7.88 7.43 7.58 6.50 7.43 7.12 6.97 6.80

7.35 7.50 7.20 6.43 7.58 8.03 6.97 7.43 7.35 7.35

7.58 7.58 6.88 7.65 7.04 7.12 8.12 7.50 7.04 6.80

7.04 7.20 7.65 7.43 7.65 7.76 6.73 7.20 7.50 7.43

7.35 7.95 7.35 7.47 6.50 7.65 8.16 7.54 7.27 7.27

6.72 7.65 7.27 7.04 7.72 6.88 6.73 6.73 6.73 7.27

7.58 7.35 7.50 7.27 7.35 7.35 7.27 8.16 7.03 7.43

7.35 7.95 7.04 7.65 7.27 7.72 8.43 7.50 7.65 7.04

4.1.2.1 数据准备

激活数据管理窗口，定义血清总蛋白含量的变量名为X，然后输入血清总蛋白含量的原始数据，结果见图4.1。

4.1.2.2 统计分析

激活Statistics菜单，选Summarize中的Frequencies...命令项，弹出Frequencies对话框（图4.2）。现欲对血清总蛋白含量值进行频数表分析，故在对话框左侧的变量列表中选x，点击钮使之进入Variable(s)框。同时可点击Format...钮弹出Frequencies：Format对话框，在Order by栏中有四个选项：Ascending values为根据数值大小按升序从小到大作频数分布；Descending values为根据数值大小按降序从大到小作频数分布；Ascending counts为根据频数多少按升序从少到多作频数分布；Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。本例选Ascending values项后点击Continue钮返回Frequencies对话框。

点击Statistics...钮，弹出Frequencies:Statistics对话框（图4.3），可点击相应项目，要求系统在作频数表分析的基础上，附带作各种统计指标的描述，特别是可进行任何水平的百分位数计算。本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数（Skewness）和峰度系数(Kurtosis)，选好后点击Continue钮返回Frequencies对话框。

点击Charts...钮，弹出Frequencies:Charts对话框，用户可选两种图形，一是直条图（Bar chart），适用于非连续性的变量；另一是直方图（Histogram），适用于连续性的变量。本例要求对变量x绘制直方图，故选择Histogram项，并要求绘制正态曲线（With normal curve），点击Continue钮返回Frequencies对话框，再点击OK钮即可。

4.1.2.3 结果解释

在输出结果窗口中将看到如下统计数据：

系统对变量x的原始数据作频数分布表，Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。

X Valid Cum

Value Label Value Frequency Percent Percent Percent

6.43 1 1.0 1.0 1.0

6.50 2 2.0 2.0 3.0

6.72 1 1.0 1.0 4.0

6.73 4 4.0 4.0 8.0

6.80 2 2.0 2.0 10.0

6.88 3 3.0 3.0 13.0

6.97 3 3.0 3.0 16.0

7.03 1 1.0 1.0 17.0

7.04 7 7.0 7.0 24.0

7.12 4 4.0 4.0 28.0

7.20 7 7.0 7.0 35.0

7.27 7 7.0 7.0 42.0

7.35 11 11.0 11.0 53.0

7.43 8 8.0 8.0 61.0

7.47 1 1.0 1.0 62.0

7.50 7 7.0 7.0 69.0

7.54 1 1.0 1.0 70.0

7.56 1 1.0 1.0 71.0

7.58 5 5.0 5.0 76.0

7.65 7 7.0 7.0 83.0

7.72 2 2.0 2.0 85.0

7.76 1 1.0 1.0 86.0

7.80 1 1.0 1.0 87.0

7.88 3 3.0 3.0 90.0

7.95 3 3.0 3.0 93.0

8.03 1 1.0 1.0 94.0

8.05 2 2.0 2.0 96.0

8.12 1 1.0 1.0 97.0

8.16 2 2.0 2.0 99.0

8.43 1 1.0 1.0 100.0

------ ------- -------

Total 100 100.0 100.0

接着输出各基本统计指标，其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580，共100个观察值，无缺失值。

Mean 7.366 Std err .039 Median 7.350

Mode 7.350 Std dev .394 Variance .155

Kurtosis .034 S E Kurt .478 Skewness .060

S E Skew .241 Range 2.000 Minimum 6.430

Maximum 8.430

Percentile Value Percentile Value Percentile Value

25.00 7.120 50.00 7.350 75.00 7.580

Valid cases 100 Missing cases 0

最后系统输出带有正态曲线的直方图。

从上述内容可知，系统在未特别指定的情形下，频数分布表是按照原始数值逐一作频数分布的，这与日常需要的等距分组、且组数保持在8～15组的要求不符。为此，在调用Frequencies过程命令之前，可先对原始数据进行算术处理：已知最小值为6.430，最大值为8.430，全距为2.000，故可要求分成10组，起点为6.4，组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项，在弹出的Recode Into Different Variable对话框中选x点击钮使之进入Numeric Variable®Output Variable框，在Output Variable栏的Name处输入x1，点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框，在Old value栏内选Range项，输入第一个分组的数值范围：6.4～6.599，在New value栏内输入新值：6.4，点击Add钮，依此将各组的范围及对应的新值逐一输入，最后点击Continue钮返回Recode Into Different Variable对话框，再点击OK钮即完成。系统在原数据库中生成一新变量为x1，这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。

Valid Cum

Value Label Value Frequency Percent Percent Percent

6.40 3 3.0 3.0 3.0

6.60 5 5.0 5.0 8.0

6.80 8 8.0 8.0 16.0

7.00 12 12.0 12.0 28.0

7.20 25 25.0 25.0 53.0

7.40 23 23.0 23.0 76.0

7.60 10 10.0 10.0 86.0

7.80 7 7.0 7.0 93.0

8.00 6 6.0 6.0 99.0

8.40 1 1.0 1.0 100.0

------- ------- -------

Total 100 100.0 100.0

Valid cases 100 Missing cases 0

第二节 Descriptives过程

4.2.1 主要功能

调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，且可将原始数据转换成标准Z分值并存入数据库，所谓Z分值是指某原始数值比其均值高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。

4.2.2 实例操作

[例4-2]调查20名男婴的出生体重（克）资料如下，试作描述性统计。

2770 2915 2795 2995 2860 2970 3087 3126 3125 4654

2272 3503 3418 3921 2669 4218 3707 2310 2573 3881

4.2.2.1 数据准备

激活数据管理窗口，定义男婴出生体重的变量名为X，然后输入男婴出生体重的原始数据。

4.2.2.2 统计分析

激活Statistics菜单选Summarize中的Descriptives...命令项，弹出Descriptives对话框（图4.5）。现欲对男婴出生体重进行描述性分析，故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框；本例要求将原始数据转换成z分值，故选Save standardized value as variables项。

点击Options...钮，弹出Descriptives:Options对话框（图4.6）。框中各指标的意义请读者参阅本章第一节。选好项目后点击 Continue钮返回Descriptives对话框，再点击OK钮即可。

4.2.2.3 结果解释

在结果输出窗口中将看到如下统计数据：均数为3188.450, 标准误为140.681, 标准差为629.146, 方差为395824.997, 峰度系数为0.118, 峰度系数的标准误为0.992, 偏度系数为0.732, 偏度系数的标准误为0.512, 全距为2382.000, 最小值为2272, 最大值为4654, 有效例数为100，无缺失值。

版权声明：
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (0)

#插入话题

插入图片

下载梅斯医学APP，方便讨论，随时阅读！立即前往下载 >>

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

研究设计与统计

第五课：摘要性分析

相关资讯

科室

工具

服务