第一节 Frequencies过程
4.1.1 主要功能
调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。
4.1.2 实例操作
[例4-1]调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。
7.43 7.88 6.88 7.80 7.04 8.05 6.97 7.12 7.35 8.05 7.95 7.56 7.50 7.88 7.20 7.20 7.20 7.43 7.12 7.20 7.50 7.35 7.88 7.43 7.58 6.50 7.43 7.12 6.97 6.80 7.35 7.50 7.20 6.43 7.58 8.03 6.97 7.43 7.35 7.35 7.58 7.58 6.88 7.65 7.04 7.12 8.12 7.50 7.04 6.80 7.04 7.20 7.65 7.43 7.65 7.76 6.73 7.20 7.50 7.43 7.35 7.95 7.35 7.47 6.50 7.65 8.16 7.54 7.27 7.27 6.72 7.65 7.27 7.04 7.72 6.88 6.73 6.73 6.73 7.27 7.58 7.35 7.50 7.27 7.35 7.35 7.27 8.16 7.03 7.43 7.35 7.95 7.04 7.65 7.27 7.72 8.43 7.50 7.65 7.04 |
4.1.2.1 数据准备
激活数据管理窗口,定义血清总蛋白含量的变量名为X,然后输入血清总蛋白含量的原始数据,结果见图4.1。
4.1.2.2 统计分析
激活Statistics菜单,选Summarize中的Frequencies...命令项,弹出Frequencies对话框(图4.2)。现欲对血清总蛋白含量值进行频数表分析,故在对话框左侧的变量列表中选x,点击钮使之进入Variable(s)框。同时可点击Format...钮弹出Frequencies:Format对话框,在Order by栏中有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。本例选Ascending values项后点击Continue钮返回Frequencies对话框。
点击Statistics...钮,弹出Frequencies:Statistics对话框(图4.3),可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击Continue钮返回Frequencies对话框。
点击Charts...钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Bar chart),适用于非连续性的变量;另一是直方图(Histogram),适用于连续性的变量。本例要求对变量x绘制直方图,故选择Histogram项,并要求绘制正态曲线(With normal curve),点击Continue钮返回Frequencies对话框,再点击OK钮即可。
4.1.2.3 结果解释
在输出结果窗口中将看到如下统计数据:
系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。
X Valid Cum Value Label Value Frequency Percent Percent Percent 6.43 1 1.0 1.0 1.0 6.50 2 2.0 2.0 3.0 6.72 1 1.0 1.0 4.0 6.73 4 4.0 4.0 8.0 6.80 2 2.0 2.0 10.0 6.88 3 3.0 3.0 13.0 6.97 3 3.0 3.0 16.0 7.03 1 1.0 1.0 17.0 7.04 7 7.0 7.0 24.0 7.12 4 4.0 4.0 28.0 7.20 7 7.0 7.0 35.0 7.27 7 7.0 7.0 42.0 7.35 11 11.0 11.0 53.0 7.43 8 8.0 8.0 61.0 7.47 1 1.0 1.0 62.0 7.50 7 7.0 7.0 69.0 7.54 1 1.0 1.0 70.0 7.56 1 1.0 1.0 71.0 7.58 5 5.0 5.0 76.0 7.65 7 7.0 7.0 83.0 7.72 2 2.0 2.0 85.0 7.76 1 1.0 1.0 86.0 7.80 1 1.0 1.0 87.0 7.88 3 3.0 3.0 90.0 7.95 3 3.0 3.0 93.0 8.03 1 1.0 1.0 94.0 8.05 2 2.0 2.0 96.0 8.12 1 1.0 1.0 97.0 8.16 2 2.0 2.0 99.0 8.43 1 1.0 1.0 100.0 ------ ------- ------- Total 100 100.0 100.0
|
接着输出各基本统计指标,其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580,共100个观察值,无缺失值。
Mean 7.366 Std err .039 Median 7.350 Mode 7.350 Std dev .394 Variance .155 Kurtosis .034 S E Kurt .478 Skewness .060 S E Skew .241 Range 2.000 Minimum 6.430 Maximum 8.430
Percentile Value Percentile Value Percentile Value 25.00 7.120 50.00 7.350 75.00 7.580
Valid cases 100 Missing cases 0
|
最后系统输出带有正态曲线的直方图。
从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项,在弹出的Recode Into Different Variable对话框中选x点击钮使之进入Numeric Variable®Output Variable框,在Output Variable栏的Name处输入x1,点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框,在Old value栏内选Range项,输入第一个分组的数值范围:6.4~6.599,在New value栏内输入新值:6.4,点击Add钮,依此将各组的范围及对应的新值逐一输入,最后点击Continue钮返回Recode Into Different Variable对话框,再点击OK钮即完成。系统在原数据库中生成一新变量为x1,这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。
X1 Valid Cum Value Label Value Frequency Percent Percent Percent 6.40 3 3.0 3.0 3.0 6.60 5 5.0 5.0 8.0 6.80 8 8.0 8.0 16.0 7.00 12 12.0 12.0 28.0 7.20 25 25.0 25.0 53.0 7.40 23 23.0 23.0 76.0 7.60 10 10.0 10.0 86.0 7.80 7 7.0 7.0 93.0 8.00 6 6.0 6.0 99.0 8.40 1 1.0 1.0 100.0 ------- ------- ------- Total 100 100.0 100.0
Valid cases 100 Missing cases 0
|
4.1.2.3 结果解释
在输出结果窗口中将看到如下统计数据:
系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。
X Valid Cum Value Label Value Frequency Percent Percent Percent 6.43 1 1.0 1.0 1.0 6.50 2 2.0 2.0 3.0 6.72 1 1.0 1.0 4.0 6.73 4 4.0 4.0 8.0 6.80 2 2.0 2.0 10.0 6.88 3 3.0 3.0 13.0 6.97 3 3.0 3.0 16.0 7.03 1 1.0 1.0 17.0 7.04 7 7.0 7.0 24.0 7.12 4 4.0 4.0 28.0 7.20 7 7.0 7.0 35.0 7.27 7 7.0 7.0 42.0 7.35 11 11.0 11.0 53.0 7.43 8 8.0 8.0 61.0 7.47 1 1.0 1.0 62.0 7.50 7 7.0 7.0 69.0 7.54 1 1.0 1.0 70.0 7.56 1 1.0 1.0 71.0 7.58 5 5.0 5.0 76.0 7.65 7 7.0 7.0 83.0 7.72 2 2.0 2.0 85.0 7.76 1 1.0 1.0 86.0 7.80 1 1.0 1.0 87.0 7.88 3 3.0 3.0 90.0 7.95 3 3.0 3.0 93.0 8.03 1 1.0 1.0 94.0 8.05 2 2.0 2.0 96.0 8.12 1 1.0 1.0 97.0 8.16 2 2.0 2.0 99.0 8.43 1 1.0 1.0 100.0 ------ ------- ------- Total 100 100.0 100.0
|
接着输出各基本统计指标,其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580,共100个观察值,无缺失值。
Mean 7.366 Std err .039 Median 7.350 Mode 7.350 Std dev .394 Variance .155 Kurtosis .034 S E Kurt .478 Skewness .060 S E Skew .241 Range 2.000 Minimum 6.430 Maximum 8.430
Percentile Value Percentile Value Percentile Value 25.00 7.120 50.00 7.350 75.00 7.580
Valid cases 100 Missing cases 0
|
最后系统输出带有正态曲线的直方图。
从上述内容可知,系统在未特别指定的情形下,频数分布表是按照原始数值逐一作频数分布的,这与日常需要的等距分组、且组数保持在8~15组的要求不符。为此,在调用Frequencies过程命令之前,可先对原始数据进行算术处理:已知最小值为6.430,最大值为8.430,全距为2.000,故可要求分成10组,起点为6.4,组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项,在弹出的Recode Into Different Variable对话框中选x点击钮使之进入Numeric Variable®Output Variable框,在Output Variable栏的Name处输入x1,点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框,在Old value栏内选Range项,输入第一个分组的数值范围:6.4~6.599,在New value栏内输入新值:6.4,点击Add钮,依此将各组的范围及对应的新值逐一输入,最后点击Continue钮返回Recode Into Different Variable对话框,再点击OK钮即完成。系统在原数据库中生成一新变量为x1,这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。
X1 Valid Cum Value Label Value Frequency Percent Percent Percent 6.40 3 3.0 3.0 3.0 6.60 5 5.0 5.0 8.0 6.80 8 8.0 8.0 16.0 7.00 12 12.0 12.0 28.0 7.20 25 25.0 25.0 53.0 7.40 23 23.0 23.0 76.0 7.60 10 10.0 10.0 86.0 7.80 7 7.0 7.0 93.0 8.00 6 6.0 6.0 99.0 8.40 1 1.0 1.0 100.0 ------- ------- ------- Total 100 100.0 100.0
Valid cases 100 Missing cases 0
|
欢迎光临 CFA论坛 (http://forum.theanalystspace.com/) | Powered by Discuz! 7.2 |