第四章 摘要性分析

第一节 Frequencies过程

4.1.1 主要功能

4.1.2 实例操作

第二节 Descriptives过程

4.2.1 主要功能

4.2.2 实例操作

第三节 Explore过程

4.3.1 主要功能

4.3.2 实例操作

第四节 Crosstabs过程

4.4.1 主要功能

4.4.2 实例操作

 

    摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2 检验。本章将介绍其操作方法。

 

第一节 Frequencies过程

 

4.1.1 主要功能

    调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。

返回目录  返回全书目录

 

4.1.2 实例操作

    [例4-1]调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。

 

7.43  7.88  6.88  7.80  7.04  8.05  6.97  7.12  7.35  8.05

7.95  7.56  7.50  7.88  7.20  7.20  7.20  7.43  7.12  7.20

7.50  7.35  7.88  7.43  7.58  6.50  7.43  7.12  6.97  6.80

7.35  7.50  7.20  6.43  7.58  8.03  6.97  7.43  7.35  7.35

7.58  7.58  6.88  7.65  7.04  7.12  8.12  7.50  7.04  6.80

7.04  7.20  7.65  7.43  7.65  7.76  6.73  7.20  7.50  7.43

7.35  7.95  7.35  7.47  6.50  7.65  8.16  7.54  7.27  7.27

6.72  7.65  7.27  7.04  7.72  6.88  6.73  6.73  6.73  7.27

7.58  7.35  7.50  7.27  7.35  7.35  7.27  8.16  7.03  7.43

7.35  7.95  7.04  7.65  7.27  7.72  8.43  7.50  7.65  7.04

 

4.1.2.1 数据准备

    激活数据管理窗口,定义血清总蛋白含量的变量名为X,然后输入血清总蛋白含量的原始数据,结果见图4.1。

 

 

4.1  输入血清总蛋白含量值

 

4.1.2.2 统计分析

    激活Statistics菜单,选Summarize中的Frequencies...命令项,弹出Frequencies对话框(图4.2)。现欲对血清总蛋白含量值进行频数表分析,故在对话框左侧的变量列表中选x,点击错误!未定义书签。钮使之进入Variable(s)框。同时可点击Format...钮弹出Frequencies:Format对话框,在Order by栏中有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。本例选Ascending values项后点击Continue钮返回Frequencies对话框。

 

 

4.2  频数表分析对话框

 

    点击Statistics...钮,弹出Frequencies:Statistics对话框(图4.3),可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。

 

 

4.3  频数表分析的统计指标对话框

 

    点击Charts...钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Bar chart),适用于非连续性的变量;另一是直方图(Histogram),适用于连续性的变量。本例要求对变量x绘制直方图,故选择Histogram项,并要求绘制正态曲线(With normal curve),点击Continue钮返回Frequencies对话框,再点击OK钮即可。

 

4.1.2.3 结果解释

    在输出结果窗口中将看到如下统计数据:

    系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。

 

X                                                        Valid     Cum

Value Label                 Value   Frequency  Percent  Percent  Percent

                             6.43         1      1.0      1.0      1.0

                             6.50         2      2.0      2.0      3.0

                             6.72         1      1.0      1.0      4.0

                             6.73         4      4.0      4.0      8.0

                             6.80         2      2.0      2.0     10.0

                             6.88         3      3.0      3.0     13.0

                             6.97         3      3.0      3.0     16.0

                             7.03         1      1.0      1.0     17.0

                             7.04         7      7.0      7.0     24.0

                             7.12         4      4.0      4.0     28.0

                             7.20         7      7.0      7.0     35.0

                             7.27         7      7.0      7.0     42.0

                             7.35        11     11.0     11.0     53.0

                             7.43         8      8.0      8.0     61.0

                             7.47         1      1.0      1.0     62.0

                             7.50         7      7.0      7.0     69.0

                             7.54         1      1.0      1.0     70.0

                             7.56         1      1.0      1.0     71.0

                             7.58         5      5.0      5.0     76.0

                             7.65         7      7.0      7.0     83.0

                             7.72         2      2.0      2.0     85.0

                             7.76         1      1.0      1.0     86.0

                             7.80         1      1.0      1.0     87.0

                             7.88         3      3.0      3.0     90.0

                             7.95         3      3.0      3.0     93.0

                             8.03         1      1.0      1.0     94.0

                             8.05         2      2.0      2.0     96.0

                             8.12         1      1.0      1.0     97.0

                             8.16         2      2.0      2.0     99.0

                             8.43         1      1.0      1.0    100.0

                                     ------   -------  -------

                            Total       100    100.0    100.0

 

 

       接着输出各基本统计指标,其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580,共100个观察值,无缺失值。

 

Mean          7.366        Std err        .039      Median        7.350

Mode          7.350        Std dev        .394      Variance       .155

Kurtosis       .034        S E Kurt       .478      Skewness       .060

S E Skew       .241        Range         2.000      Minimum       6.430

Maximum       8.430

 

 Percentile   Value      Percentile    Value      Percentile    Value

  25.00       7.120        50.00       7.350        75.00       7.580

 

Valid cases     100      Missing cases      0

 

 

       最后系统输出带有正态曲线的直方图(图4.4),由图中可见,数据基本呈现正态分布形状。

   

 

4.4  频数分布的直方图

 

从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项,在弹出的Recode Into Different Variable对话框中选x点击错误!未定义书签。钮使之进入Numeric Variable®Output Variable框,在Output Variable栏的Name处输入x1,点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框,在Old value栏内选Range项,输入第一个分组的数值范围:6.4~6.599,在New value栏内输入新值:6.4,点击Add钮,依此将各组的范围及对应的新值逐一输入,最后点击Continue钮返回Recode Into Different Variable对话框,再点击OK钮即完成。系统在原数据库中生成一新变量为x1,这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。

 

X1

                                                         Valid     Cum

Value Label                 Value   Frequency  Percent  Percent  Percent

                             6.40         3      3.0      3.0      3.0

                             6.60         5      5.0      5.0      8.0

                             6.80         8      8.0      8.0     16.0

                             7.00        12     12.0     12.0     28.0

                             7.20        25     25.0     25.0     53.0

                             7.40        23     23.0     23.0     76.0

                             7.60        10     10.0     10.0     86.0

                             7.80         7      7.0      7.0     93.0

                             8.00         6      6.0      6.0     99.0

                             8.40         1      1.0      1.0    100.0

                                    -------   -------  -------

                            Total      100     100.0    100.0

 

Valid cases     100      Missing cases      0

 

 

返回目录  返回全书目录

 

第二节 Descriptives过程

 

4.2.1 主要功能

    调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。

 

返回目录  返回全书目录

 

4.2.2 实例操作

  [例4-2]调查20名男婴的出生体重(克)资料如下,试作描述性统计。

 

2770  2915  2795  2995  2860  2970  3087  3126  3125  4654

2272  3503  3418  3921  2669  4218  3707  2310  2573  3881

 

4.2.2.1 数据准备

    激活数据管理窗口,定义男婴出生体重的变量名为X,然后输入男婴出生体重的原始数据。

 

4.2.2.2 统计分析

    激活Statistics菜单选Summarize中的Descriptives...命令项,弹出Descriptives对话框(图4.5)。现欲对男婴出生体重进行描述性分析,故在对话框左侧的变量列表中选x,点击错误!未定义书签。钮使之进入Variable(s)框;本例要求将原始数据转换成z分值,故选Save standardized value as variables项。

 

 

4.5  描述性统计对话框

 

    点击Options...钮,弹出Descriptives:Options对话框(图4.6)。框中各指标的意义请读者参阅本章第一节。选好项目后点击 Continue钮返回Descriptives对话框,再点击OK钮即可。

 

 

4.6  描述性统计指标对话框

 

4.2.2.3 结果解释

    在结果输出窗口中将看到如下统计数据:均数为3188.450, 标准误为140.681, 标准差为629.146, 方差为395824.997, 峰度系数为0.118, 峰度系数的标准误为0.992, 偏度系数为0.732, 偏度系数的标准误为0.512, 全距为2382.000, 最小值为2272, 最大值为4654, 有效例数为100,无缺失值。

Number of valid observations (listwise) =        20.00

Variable  X

 

Mean          3188.450                  S.E. Mean        140.681

Std Dev        629.146                  Variance      395824.997

Kurtosis          .118                  S.E. Kurt           .992

Skewness          .732                  S.E. Skew           .512

Range         2382.000                  Minimum         2272

Maximum       4654                      Sum            63769.000

 

Valid observations -       20         Missing observations -        0

 

 

    此外,系统以zx为变量名将原始数据转换成标准z分值,存放在原数据库中(图4.7)。例如,已知均数为3188.450, 标准差为629.146,故原始值2770的Z分值为 = - 0.66511;原始值2770的Z分值为 = 1.10078。新变量具有均值为0、标准差为1的特征,亦即变量的标准化过程。

 

 

4.7  原始数据及其标准Z分值

 

返回目录  返回全书目录

 

第三节 Explore过程

 

4.3.1 主要功能

    调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。

 

返回目录  返回全书目录

 

4.3.2 实例操作

  [例4-3]下表为30名10岁少儿的身高(cm)资料,试作探索性分析。

 

编号

身高

男孩

女孩

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

121.4

131.5

132.6

129.2

134.1

135.8

140.4

136.0

128.2

137.4

135.5

129.0

132.2

140.9

129.3

133.4

132.7

130.1

136.7

139.7

133.0

140.3

124.0

125.4

137.5

120.9

138.8

138.6

141.4

137.5

 

4.3.2.1 数据准备

    激活数据管理窗口,定义少儿身高的变量名为X,然后再定义一个变质为SEX,用于作性别分组。顺序输入少儿身高的原始数据,在变量SEX中,男孩输入1、女孩输入2。

 

4.3.2.2 统计分析

  激活Statistics菜单选Summarize中的Explore...项,弹出Explore对话框(如图4.8),现欲对少儿身高资料进行分组的探索性分析,故在对话框左侧的变量列表中选x点击错误!未定义书签。钮使之进入Dependent List框,再选sex点击错误!未定义书签。钮使之进入Factor List框。

 

4.8  探索性分析对话框

 

    点击Statistics...钮,弹出Explore:Statistics对话框(图4.9),有如下选项:

    1、Descriptives:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误;

    2、M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数;

    3、Outliers:输出五个最大值与五个最小值;

    4、Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数;

    5、Grouped Frequency tables:输出分组的例数与数值范围表。

    本例全部选择,之后点击Continue钮返回Explore对话框。

 

 

4.9  探索性分析统计对话框

 

    点击Plot...钮弹出Explore:Plot对话框(图4.10),在Boxplot栏内选Factor levels together项要求按组别进行箱图绘制;在Descriptive栏内选Stem-and-leaf项要求作茎叶情形描述。之后点击Continue钮返回Explore对话框,再点击OK钮即可。

 

 

4.10  探索性分析绘图对话框