返回列表 发帖

SPSS 10.0高级教程八:均数间的比较

在计算机领域中有个著名的80/20规则,也就是在奔腾及更早的CPU所采用的CISC指令集中,有80%的任务是被20%的最常用指令所完成的;换言之,另外80%的复杂指令只完成20%的不常用任务。

好了,言归正传。现在我要非常高兴的向大家宣布:80/20规则在SPSS的使用中同样有效!仅以Analyze菜单为例,其中最常用的子菜单为:

  • Discriptive Statistics
  • Compare Means
  • General Linear Model(第一项)
  • Correlate
  • Regression(前半截)

只要掌握了它们的使用秘籍,你就可以理直气壮的宣称你已经可以用SPSS解决80%的统计学难题。如果不满足,你在召开新闻发布会的时候还可以对以上指标进行四舍五入

此时课堂上有一美眉提问:老师,那我们是不是可以只学这几项功能就行了?

我...我...气死我了...

好,言归更正传。在以上五个菜单中,Compare Means是最简单的一个,但使用频率却几乎最高!因此,他的重要性也就不用我多说了吧...(以下省略五十万字)。

下面让我们大家一起踏上Compare Means之旅。该菜单集中了几个用于计量资料均数间比较的过程。具体有:

  • Means过程 对准备比较的各组计算描述指标,进行预分析,也可直接比较。
  • One-Samples T Test过程 进行样本均数与已知总体均数的比较。
  • Independent-Samples T Test过程 进行两样本均数差别的比较,即通常所说的两组资料的t检验。
  • Paired-Samples T Test过程 进行配对资料的显著性检验,即配对t检验。
  • One-Way ANOVA过程 进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。

§7.1 Means过程

和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。显然要方便的多。

7.1.1 界面说明

Dependent List框

用于选入需要分析的变量。

【Independent List框

用于选入分组变量。

Options钮

弹出Options对话框,选择需要计算的描述统计量和统计分析:

  • Statistics框 可选的描述统计量。它们是:
  1. sum,number of cases 总和,记录数

  2. mean, geometric mean, harmonic mean 均数,几何均数,修正均数

  3. standard deviation,variance,standard error of the mean 标准差,均数的标准误, 方差

  4. median, grouped median 中位数,频数表资料中位数(比如30岁组有5人,40岁组有6人,则在计算grouped median时均按组中值35和45进行计算)。

  5. minimum,maximum,range 最小值,最大值,全距

  6. kurtosis, standard error of kurtosis 峰度系数,峰度系数的标准误

  7. skewness, standard error of skewness 偏度系数,偏度系数的标准误

  8. percentage of total sum, percentage of total N 总和的百分比,样本例数的百分比

  • Cell Statistics框 选入的描述统计量。
  • Statistics for First layer复选框组
  1. Anova table and eta 对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值。

  2. Test for linearity 检验线性相关性,实际上就是上面的单因素方差分析。

7.1.2 结果解释

有了上一章的基础,Means过程的输出看起来就不太困难了。以第一章的数据为例,输出如下:

Means

上表还是缺失值报告。

常用统计描述量报表。这里按默认情况输出均数,样本量和标准差。由于我们选择了分组变量,因此三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。

上表为单因素方差分析表。在选择了Anova table and eta或Test for linearity复选框时出现。实际上就是在检验各组间均数有无差异。上面各项的具体含义将在单因素方差分析一节中解释。

相关性度量指标,给出Eta值以及Eta值的平方根。

TOP

§7.2 One-Samples T Test过程

One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。

7.2.1 界面说明

Test Variables框

用于选入需要分析的变量。

Test Value框

在此处输入已知的总体均数,默认值为0。

Options钮

弹出Options对话框,用于定义相关的选项,有:

  • Confidence Interval框 输入需要计算的均数差值可信区间范围,默认为95%。如果是和总体均数为0相比,则此处计算的就是样本所在总体均数的可信区间。
  • Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

7.2.2 结果解释

One-Samples T Test过程的输出也是比较简单的,由描述统计表和t检验表组成,比如要检验数据li1_1.sav中血磷值的总体均数是否等于1,则输出如下:

T-Test

所分析变量的基本情况描述,有样本量、均数、标准差和标准误。

上表为单样本t检验表,第一行注明了用于比较的已知总体均数为1,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均数的差值(Mean Difference)、差值的95%可信区间。由上表可知:t=2.975,P=0.007。因此可以认为血磷值的总体均数不等于1。

TOP

§7.4 Paired-Samples T Test过程

该过程用于进行配对设计的差值均数与总体均数0比较的t检验,对统计学比较熟悉的朋友可以看出,他的功能实际上是和One-Samples T Test过程相重复的(等价于已知总体均数为0的情况),但Paired-Samples T Test过程使用的数据输入格式和前者不同,即我们所称的统计表格格式,因此仍然有存在的价值。

对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课

7.4.1 界面说明

整个界面上只有一个Paired Variable框需要介绍,他用于选入希望进行比较的一对或几对变量--注意这里的量词是对而不是个。选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击将其选入。如果只选中一个变量,则按钮为灰色,不可用。

7.4.2 分析实例

例7.1 某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别(卫统第三版例4.5)?

大白鼠对号

正常饲料组

维生素E缺乏

1

3550

2450

2

2000

2400

3

3000

1800

4

3950

3200

5

3800

3250

6

3750

2700

7

3450

2500

8

3050

1750

解:为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。操作如下:

  1. 同时选中G1、G2:选入Paired Variables框
  2. 单击OK钮

7.4.3 结果解释

以例7.1为例,其输出结果如下:

T-Test

配对变量各自的统计描述,此处只有1对,故只有Pair 1。

此处进行配对变量间的相关性分析。等价于Analyze==>Correlate==>Bivariate。

配对t检验表,给出最终的检验结果,由上表可见P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。

上表的标题内容翻译如下:

对子间的差异

差值均数

标准差

标准误

均数的95%可信区间

t值

自由度

P值(双侧)

下限

上限

第一对

G1 - G2

812.5000

546.2535

193.1298

355.8207

1269.1793

4.207

7

.004

TOP

§7.5 One-Way ANOVA过程

One-Way ANOVA过程用于进行两组及多组样本均数的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较,在本章的内容中,他是最为复杂的一个,但是有了前面的基础,拿下他应该不成问题。

对统计分析的数据格式不太熟悉的朋友,请一定先去看看统计软件第一课:论统计软件中的数据录入格式,会大有帮助的。

7.5.1 界面说明

Dependent List框

选入需要分析的变量,可选入多个结果变量(应变量)。

Factor框

选入需要比较的分组因素,只能选入一个。

Contrast钮

弹出Contrast对话框,用于对精细趋势检验和精确两两比较的选项进行定义,由于该对话框太专业,也较少用,这里只做简单介绍。

  • Polynomial复选框 定义是否在方差分析中进行趋势检验。
  • Degree下拉列表 和Polynomial复选框配合使用,可选则从线性趋势一直到最高五次方曲线来进行检验。
  • Coefficients框 定义精确两两比较的选项。这里按照分组变量升序给每组一个系数值,注意最终所有系数值相加应为0。如果不为0仍可检验,只不过结果是错的。比如说在下面的例7.2中要对第一、三组进行单独比较,则在这里给三组分配系数为1、0、-1,就会在结果中给出相应的检验内容。

Post Hoc钮

弹出Post Hoc Multiple Comparisons对话框,用于选择进行各组间两两比较的方法,有:

  • Equar Variances Assumed复选框组 一组当各组方差齐时可用的两两比较方法,共有14中种这里不一一列出了,其中最常用的为LSD和S-N-K法。
  • Equar Variances Not Assumed复选框组 一组当各组方差不齐时可用的两两比较方法,共有4种,其中以Dunnetts's C法较常用。
  • Significance Level框 定义两两比较时的显著性水平,默认为0.05。

此处只是介绍可用的方法,并不是要推荐说那种最好,使用时请认真参考有关统计书籍。

Options钮

弹出Options对话框,用于定义相关的选项,有:

  • Statistics复选框组 选择一些附加的统计分析项目,有统计描述(Descriptive)和方差齐性检验(Homogeneity-of-variance)。
  • Means plot复选框 用各组均数做图,以直观的了解它们的差异。
  • Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

7.5.2 分析实例

例7.2 某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量(L)测定,问三组石棉矿工的用力肺活量有无差别(卫统第三版例5.1)?

石棉肺患者 可疑患者 非患者

1.8

2.3

2.9

1.4

2.1

3.2

1.5

2.1

2.7

2.1

2.1

2.8

1.9

2.6

2.7

1.7

2.5

3.0

1.8

2.3

3.4

1.9

2.4

3.0

1.8

2.4

3.4

1.8


3.3

2.0

3.5

解:设数据已经输好,分组变量为group,三组取值分别为1、2、3,结果变量为X。此处先进行单因素方差分析,然后进行两两比较,这里选择S-N-K法进行两两比较。操作如下:

  • Dependent List框:选入X
  • Factor框:选入group
  • Post Hoc钮:选中S-N-K复选框:单击Continue钮
  • 单击OK钮

7.5.3 结果解释

上题的输出结果如下:

Oneway

上面实际上是一个典型的方差分析表。给出了单因素方差分析的结果,可见F=84.544,P<0.001。因此可认为三组矿工用力肺活量不同。上表的标题内容翻译如下:

离均差平方和SS

自由度

均方MS

F值

P值

组间变异

9.266

2

4.633

84.544

.000

组内变异

1.534

28

5.480E-02

总变异

10.800

30

Post Hoc Tests

Homogeneous Subsets

上表是用S-N-K法进行两两比较的结果,简单的说,在表格的纵向上各组均数按大小排序,然后在表格的横向上被分成了若干个亚组,不同亚组间的P值小于0.05,而同一亚组内的各组均数比较的P值则大于0.05。从上表可见,石棉肺患者、可疑患者和非患者被分在了三个不同的亚组中,因此三组间两两比较均有差异;由于各个亚组均只有1个组别进入,因此最下方的组内两两比较P值均为1.000(自己和自己比较,当然绝对不会有差异了)。

TOP

3x

TOP

返回列表