第四章 摘要性分析
摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2 检验。本章将介绍其操作方法。
第一节 Frequencies过程
4.1.1 主要功能
调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。
4.1.2 实例操作
[例4-1]调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。
|
7.43 7.88 6.88 7.80
7.04 8.05 6.97 7.12
7.35 8.05 7.95 7.56 7.50 7.88
7.20 7.20 7.20 7.43
7.12 7.20 7.50 7.35 7.88 7.43
7.58 6.50 7.43 7.12
6.97 6.80 7.35 7.50 7.20 6.43
7.58 8.03 6.97 7.43
7.35 7.35 7.58 7.58 6.88 7.65
7.04 7.12 8.12 7.50
7.04 6.80 7.04 7.20 7.65 7.43
7.65 7.76 6.73 7.20
7.50 7.43 7.35 7.95 7.35 7.47
6.50 7.65 8.16 7.54
7.27 7.27 6.72 7.65 7.27 7.04
7.72 6.88 6.73 6.73
6.73 7.27 7.58 7.35 7.50 7.27
7.35 7.35 7.27 8.16
7.03 7.43 7.35
7.95 7.04 7.65 7.27 7.72 8.43 7.50 7.65 7.04 |
4.1.2.1 数据准备
激活数据管理窗口,定义血清总蛋白含量的变量名为X,然后输入血清总蛋白含量的原始数据,结果见图4.1。
|
图4.1 输入血清总蛋白含量值 |
4.1.2.2 统计分析
激活Statistics菜单,选Summarize中的Frequencies...命令项,弹出Frequencies对话框(图4.2)。现欲对血清总蛋白含量值进行频数表分析,故在对话框左侧的变量列表中选x,点击
|
图4.2 频数表分析对话框 |
点击Statistics...钮,弹出Frequencies:Statistics对话框(图4.3),可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距
(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。
|
图4.3 频数表分析的统计指标对话框 |
点击Charts...钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Bar
chart),适用于非连续性的变量;另一是直方图(Histogram),适用于连续性的变量。本例要求对变量x绘制直方图,故选择Histogram项,并要求绘制正态曲线(With
normal curve),点击Continue钮返回Frequencies对话框,再点击OK钮即可。
4.1.2.3 结果解释
在输出结果窗口中将看到如下统计数据:
系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid
percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。
|
X
Valid Cum Value
Label
Value
Frequency Percent Percent Percent
6.43
1
1.0
1.0
1.0
6.50
2
2.0
2.0
3.0
6.72
1
1.0
1.0
4.0
6.73
4
4.0
4.0
8.0
6.80
2
2.0
2.0
10.0
6.88
3
3.0 3.0 13.0
6.97
3
3.0
3.0
16.0
7.03
1
1.0
1.0
17.0
7.04
7
7.0
7.0
24.0
7.12
4
4.0
4.0
28.0
7.20
7
7.0
7.0
35.0
7.27
7
7.0
7.0
42.0
7.35
11
11.0
11.0
53.0
7.43
8
8.0
8.0
61.0
7.47
1
1.0
1.0
62.0
7.50
7
7.0
7.0
69.0
7.54
1
1.0
1.0
70.0
7.56
1
1.0
1.0
71.0
7.58
5
5.0
5.0
76.0
7.65
7
7.0
7.0
83.0
7.72
2
2.0
2.0
85.0
7.76
1
1.0
1.0
86.0
7.80
1
1.0
1.0
87.0
7.88
3
3.0
3.0
90.0
7.95
3
3.0
3.0
93.0
8.03
1
1.0
1.0
94.0
8.05
2
2.0
2.0
96.0
8.12 1 1.0 1.0 97.0
8.16
2
2.0
2.0
99.0
8.43
1
1.0
1.0 100.0
------ ------- ------- Total 100 100.0 100.0 |
接着输出各基本统计指标,其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350,
标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000,
最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580,共100个观察值,无缺失值。
|
Mean 7.366
Std err
.039
Median 7.350 Mode 7.350
Std dev
.394
Variance .155 Kurtosis
.034 S E Kurt .478 Skewness .060 S E Skew .241
Range 2.000 Minimum 6.430 Maximum 8.430 Percentile Value Percentile Value
Percentile
Value 25.00 7.120
50.00 7.350
75.00 7.580 Valid
cases 100 Missing
cases 0 |
最后系统输出带有正态曲线的直方图(图4.4),由图中可见,数据基本呈现正态分布形状。
|
图4.4 频数分布的直方图 |
从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。选Transform菜单Recode项的Into
Different Variable...命令项,在弹出的Recode Into Different Variable对话框中选x点击
|
X1
Valid
Cum Value
Label
Value
Frequency Percent Percent Percent
6.40
3
3.0
3.0
3.0
6.60
5
5.0
5.0
8.0
6.80
8
8.0
8.0
16.0
7.00
12
12.0
12.0 28.0
7.20
25
25.0
25.0
53.0
7.40
23
23.0
23.0
76.0
7.60
10
10.0
10.0
86.0
7.80 7 7.0 7.0 93.0
8.00
6
6.0
6.0
99.0
8.40
1
1.0
1.0 100.0
-------
------- -------
Total 100 100.0 100.0 Valid
cases 100 Missing
cases 0 |
第二节 Descriptives过程
4.2.1 主要功能
调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。
4.2.2 实例操作
[例4-2]调查20名男婴的出生体重(克)资料如下,试作描述性统计。
|
2770 2915 2795 2995
2860 2970 3087 3126
3125 4654 2272
3503 3418 3921 2669 4218 3707 2310
2573 3881 |
4.2.2.1 数据准备
激活数据管理窗口,定义男婴出生体重的变量名为X,然后输入男婴出生体重的原始数据。
4.2.2.2 统计分析
激活Statistics菜单选Summarize中的Descriptives...命令项,弹出Descriptives对话框(图4.5)。现欲对男婴出生体重进行描述性分析,故在对话框左侧的变量列表中选x,点击
|
图4.5 描述性统计对话框 |
点击Options...钮,弹出Descriptives:Options对话框(图4.6)。框中各指标的意义请读者参阅本章第一节。选好项目后点击
Continue钮返回Descriptives对话框,再点击OK钮即可。
|
图4.6 描述性统计指标对话框 |
4.2.2.3 结果解释
在结果输出窗口中将看到如下统计数据:均数为3188.450, 标准误为140.681,
标准差为629.146, 方差为395824.997, 峰度系数为0.118, 峰度系数的标准误为0.992, 偏度系数为0.732, 偏度系数的标准误为0.512,
全距为2382.000, 最小值为2272, 最大值为4654, 有效例数为100,无缺失值。
|
Number of
valid observations (listwise) = 20.00 Variable X Mean
3188.450
S.E. Mean 140.681 Std Dev 629.146
Variance
395824.997 Kurtosis .118
S.E. Kurt .992 Skewness .732
S.E. Skew .512 Range
2382.000
Minimum 2272 Maximum 4654
Sum
63769.000 Valid
observations - 20 Missing
observations -
0 |
此外,系统以zx为变量名将原始数据转换成标准z分值,存放在原数据库中(图4.7)。例如,已知均数为3188.450,
标准差为629.146,故原始值2770的Z分值为
= - 0.66511;原始值2770的Z分值为
= 1.10078。新变量具有均值为0、标准差为1的特征,亦即变量的标准化过程。
|
图4.7 原始数据及其标准Z分值 |
第三节 Explore过程
4.3.1 主要功能
调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。
4.3.2 实例操作
[例4-3]下表为30名10岁少儿的身高(cm)资料,试作探索性分析。
|
编号 |
身高 |
|
|
男孩 |
女孩 |
|
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
121.4 131.5 132.6 129.2 134.1 135.8 140.4 136.0 128.2 137.4 135.5 129.0 132.2 140.9 129.3 |
133.4 132.7 130.1 136.7 139.7 133.0 140.3 124.0 125.4 137.5 120.9 138.8 138.6 141.4 137.5 |
4.3.2.1 数据准备
激活数据管理窗口,定义少儿身高的变量名为X,然后再定义一个变质为SEX,用于作性别分组。顺序输入少儿身高的原始数据,在变量SEX中,男孩输入1、女孩输入2。
4.3.2.2 统计分析
激活Statistics菜单选Summarize中的Explore...项,弹出Explore对话框(如图4.8),现欲对少儿身高资料进行分组的探索性分析,故在对话框左侧的变量列表中选x点击
|
图4.8 探索性分析对话框 |
点击Statistics...钮,弹出Explore:Statistics对话框(图4.9),有如下选项:
1、Descriptives:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误;
2、M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数;
3、Outliers:输出五个最大值与五个最小值;
4、Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数;
5、Grouped Frequency tables:输出分组的例数与数值范围表。
本例全部选择,之后点击Continue钮返回Explore对话框。
|
图4.9 探索性分析统计对话框 |
点击Plot...钮弹出Explore:Plot对话框(图4.10),在Boxplot栏内选Factor
levels together项要求按组别进行箱图绘制;在Descriptive栏内选Stem-and-leaf项要求作茎叶情形描述。之后点击Continue钮返回Explore对话框,再点击OK钮即可。
|
图4.10 探索性分析绘图对话框 |