在计算机领域中有个著名的80/20规则,也就是在奔腾及更早的CPU所采用的CISC指令集中,有80%的任务是被20%的最常用指令所完成的;换言之,另外80%的复杂指令只完成20%的不常用任务。
好了,言归正传。现在我要非常高兴的向大家宣布:80/20规则在SPSS的使用中同样有效!仅以Analyze菜单为例,其中最常用的子菜单为:
只要掌握了它们的使用秘籍,你就可以理直气壮的宣称你已经可以用SPSS解决80%的统计学难题。如果不满足,你在召开新闻发布会的时候还可以对以上指标进行四舍五入。
此时课堂上有一美眉提问:老师,那我们是不是可以只学这几项功能就行了?
我...我...气死我了...
好,言归更正传。在以上五个菜单中,Compare Means是最简单的一个,但使用频率却几乎最高!因此,他的重要性也就不用我多说了吧...(以下省略五十万字)。
下面让我们大家一起踏上Compare Means之旅。该菜单集中了几个用于计量资料均数间比较的过程。具体有:
和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。显然要方便的多。
【Dependent List框】
用于选入需要分析的变量。
【Independent List框】
用于选入分组变量。
【Options钮】
弹出Options对话框,选择需要计算的描述统计量和统计分析:
sum,number of cases 总和,记录数
mean, geometric mean, harmonic mean 均数,几何均数,修正均数
standard deviation,variance,standard error of the mean 标准差,均数的标准误, 方差
median, grouped median 中位数,频数表资料中位数(比如30岁组有5人,40岁组有6人,则在计算grouped median时均按组中值35和45进行计算)。
minimum,maximum,range 最小值,最大值,全距
kurtosis, standard error of kurtosis 峰度系数,峰度系数的标准误
skewness, standard error of skewness 偏度系数,偏度系数的标准误
percentage of total sum, percentage of total N 总和的百分比,样本例数的百分比
Anova table and eta 对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值。
Test for linearity 检验线性相关性,实际上就是上面的单因素方差分析。
有了上一章的基础,Means过程的输出看起来就不太困难了。以第一章的数据为例,输出如下:
Means
上表还是缺失值报告。
常用统计描述量报表。这里按默认情况输出均数,样本量和标准差。由于我们选择了分组变量,因此三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。
上表为单因素方差分析表。在选择了Anova table and eta或Test for linearity复选框时出现。实际上就是在检验各组间均数有无差异。上面各项的具体含义将在单因素方差分析一节中解释。
相关性度量指标,给出Eta值以及Eta值的平方根。
One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。
【Test Variables框】
用于选入需要分析的变量。
【Test Value框】
在此处输入已知的总体均数,默认值为0。
【Options钮】
弹出Options对话框,用于定义相关的选项,有:
One-Samples T Test过程的输出也是比较简单的,由描述统计表和t检验表组成,比如要检验数据li1_1.sav中血磷值的总体均数是否等于1,则输出如下:
T-Test
所分析变量的基本情况描述,有样本量、均数、标准差和标准误。
上表为单样本t检验表,第一行注明了用于比较的已知总体均数为1,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均数的差值(Mean Difference)、差值的95%可信区间。由上表可知:t=2.975,P=0.007。因此可以认为血磷值的总体均数不等于1。
该过程用于进行配对设计的差值均数与总体均数0比较的t检验,对统计学比较熟悉的朋友可以看出,他的功能实际上是和One-Samples T Test过程相重复的(等价于已知总体均数为0的情况),但Paired-Samples T Test过程使用的数据输入格式和前者不同,即我们所称的统计表格格式,因此仍然有存在的价值。
对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课。
整个界面上只有一个Paired Variable框需要介绍,他用于选入希望进行比较的一对或几对变量--注意这里的量词是对而不是个。选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击将其选入。如果只选中一个变量,则按钮为灰色,不可用。
例7.1 某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别(卫统第三版例4.5)?
大白鼠对号 |
正常饲料组 |
维生素E缺乏 |
1 |
3550 |
2450 |
2 |
2000 |
2400 |
3 |
3000 |
1800 |
4 |
3950 |
3200 |
5 |
3800 |
3250 |
6 |
3750 |
2700 |
7 |
3450 |
2500 |
8 |
3050 |
1750 |
解:为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。操作如下:
以例7.1为例,其输出结果如下:
T-Test
配对变量各自的统计描述,此处只有1对,故只有Pair 1。
此处进行配对变量间的相关性分析。等价于Analyze==>Correlate==>Bivariate。
配对t检验表,给出最终的检验结果,由上表可见P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。
上表的标题内容翻译如下:
|
对子间的差异 |
||||||||
差值均数 |
标准差 |
标准误 |
均数的95%可信区间 |
t值 |
自由度 |
P值(双侧) | |||
下限 |
上限 | ||||||||
第一对 |
G1 - G2 |
812.5000 |
546.2535 |
193.1298 |
355.8207 |
1269.1793 |
4.207 |
7 |
.004 |
One-Way ANOVA过程用于进行两组及多组样本均数的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较,在本章的内容中,他是最为复杂的一个,但是有了前面的基础,拿下他应该不成问题。
对统计分析的数据格式不太熟悉的朋友,请一定先去看看统计软件第一课:论统计软件中的数据录入格式,会大有帮助的。
【Dependent List框】
选入需要分析的变量,可选入多个结果变量(应变量)。
【Factor框】
选入需要比较的分组因素,只能选入一个。
【Contrast钮】
弹出Contrast对话框,用于对精细趋势检验和精确两两比较的选项进行定义,由于该对话框太专业,也较少用,这里只做简单介绍。
【Post Hoc钮】
弹出Post Hoc Multiple Comparisons对话框,用于选择进行各组间两两比较的方法,有:
此处只是介绍可用的方法,并不是要推荐说那种最好,使用时请认真参考有关统计书籍。
【Options钮】
弹出Options对话框,用于定义相关的选项,有:
例7.2 某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别(卫统第三版例5.1)?
石棉肺患者 | 可疑患者 | 非患者 |
1.8 |
2.3 |
2.9 |
1.4 |
2.1 |
3.2 |
1.5 |
2.1 |
2.7 |
2.1 |
2.1 |
2.8 |
1.9 |
2.6 |
2.7 |
1.7 |
2.5 |
3.0 |
1.8 |
2.3 |
3.4 |
1.9 |
2.4 |
3.0 |
1.8 |
2.4 |
3.4 |
1.8 |
|
3.3 |
2.0 |
3.5 |
解:设数据已经输好,分组变量为group,三组取值分别为1、2、3,结果变量为X。此处先进行单因素方差分析,然后进行两两比较,这里选择S-N-K法进行两两比较。操作如下:
上题的输出结果如下:
Oneway
上面实际上是一个典型的方差分析表。给出了单因素方差分析的结果,可见F=84.544,P<0.001。因此可认为三组矿工用力肺活量不同。上表的标题内容翻译如下:
|
离均差平方和SS |
自由度 |
均方MS |
F值 |
P值 |
组间变异 |
9.266 |
2 |
4.633 |
84.544 |
.000 |
组内变异 |
1.534 |
28 |
5.480E-02 |
||
总变异 |
10.800 |
30 |
Post Hoc Tests
Homogeneous Subsets
上表是用S-N-K法进行两两比较的结果,简单的说,在表格的纵向上各组均数按大小排序,然后在表格的横向上被分成了若干个亚组,不同亚组间的P值小于0.05,而同一亚组内的各组均数比较的P值则大于0.05。从上表可见,石棉肺患者、可疑患者和非患者被分在了三个不同的亚组中,因此三组间两两比较均有差异;由于各个亚组均只有1个组别进入,因此最下方的组内两两比较P值均为1.000(自己和自己比较,当然绝对不会有差异了)。
欢迎光临 CFA论坛 (http://forum.theanalystspace.com/) | Powered by Discuz! 7.2 |