返回列表 发帖

SPSS教程第九课:回归分析

回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。

第五节 Nonlinear过程

8.5.1 主要功能

调用此过程可完成非线性回归的运算。所谓非线性回归,即为曲线型的回归分析,一些曲线模型我们已在本章第二节中述及。但在医学研究中经,还经常会遇到除本章第二节中述及的曲线模型,对此,SPSS提供Nonlinear过程让用户根据实际需要,建立各种曲线模型以用于研究变量间的相互关系。在医学中,如细菌繁殖与培养时间关系的研究即可借助Nonlinear过程完成。

下面一些曲线模型是在论文中较常见的,提供给用户应用时作参考:

模型名称 模型表达式

Asympt. Regression 1 Y = b1 + b2×exp( b3 X )

Asympt. Regression 2 Y = b1 -( b2 × ( b3 X ))

Density Y = ( b1 + b2 ×X ) (-1/ b3 )

Gauss Y = b1× (1- b3×exp( -b2 ×X 2))

Gompertz Y = b1×exp( -b2 ×exp( -b3 ×X ))

Johnson-Schumacher Y = b1×exp( -b2 / ( X + b3))

Log Modified Y = ( b1 + b3×X )b2

Log-Logistic Y = b1 -ln(1+ b2 ×exp( -b3×X ))

Metcherlich Law of Dim. Ret. Y = b1 + b2×exp( -b3×X )

Michaelis Menten Y = b1×X /( X + b2 )

Morgan-Mercer-Florin Y = ( b1×b2 + b3×X b4 )/( b2 + X b4 )

Peal-Reed Y = b1 /(1+ b2 ×exp(-( b3×X + b4×X 2+ b5×X 3 )))

Ratio of Cubics Y = ( b1 + b2×X + b3×X 2 + b4×X 3 )/( b5×X 3 )

Ratio of Quadratics Y = ( b1 + b2×X + b3×X2 )/( b4×X 2 )

Richards Y = b1 /((1+ b3×exp(- b2×X )) (1/ b4 ) )

Verhulst Y = b1 /(1 + b3×exp(- b2×X ))

Von Bertalanffy Y = ( b1 (1 - b4 ) - b2×exp( -b3×X )) (1/(1 - b4 ))

Weibull Y = b1 - b2×exp(- b3×X b4 )

Yield Density Y = (b1 + b2×X + b3×X 2 )(-1)

8.5.2 实例操作

[例8.5]选取某地某年寿命表中40-80岁各年龄组的尚存人数资料如下表,请就该资料试拟合Gompertz曲线(Y = b1×b2(b3X))。

年龄组(岁)

年龄简化值(X)

尚存人数(Y)

40

45

50

55

60

65

70

75

80

0

1

2

3

4

5

6

7

8

81277

79258

76532

72850

67568

59911

50800

39325

28074

8.5.2.1 数据准备

激活数据管理窗口,定义变量名:年龄简化值为X,尚存人数为Y。输入原始数据。

8.5.2.2 统计分析

激活Statistics菜单选Regression中的Nonlinear...项,弹出Nonlinear Regression对话框(如图8.11示)。从对话框左侧的变量列表中选y,点击Ø钮使之进入Dependent框。由于SPSS系统尚无法智能地自动拟合用户所需的曲线,故一方面要求用户估计方程中常数项和各系数项进行叠代运算的起始值,另一方面要求用户列出方程模型。对此,可首先点击Nonlinear Regression对话框的Parameters...钮,弹出Nonlinear Regression: Parameters对话框(图8.12),在Name处定义系数名,在Start Value处输入起始值(这项工作是十分重要的,否则系统可能无法运算,甚至会因叠代次数过大导致SPSS系统的崩溃),本例定义b1=8500、b2=1、b3=1.5,每定义一个系数,即点击Add钮加以确定;若在后面的运算中出错,则还可修改系数项的起始值,修改后点击Change钮加以确定;然后点击Continue钮返回Nonlinear Regression对话框。在Model Expression处写出曲线方程表达式,用户可借助系统提供的数码盘和函数列表写出方程。本例要求计算根据回归方程求出的预测值,可点击Save钮,在Nonlinear Regression:Save New Variables对话框中选Predicted value项。最后点击OK钮即可。

8.12 系数项定义对话框

8.5.2.3 结果解释

在结果输出窗口中将看到如下统计数据:

Iteration Residual SS B1 B2 B3

1 28327193463 8500.00000 1.00000000 1.50000000

1.1 14333434800 80175.3427 .739240551 1.50000000

2 14333434800 80175.3427 .739240551 1.50000000

2.1 3.8505E+11 194572.013 .006502086 -.21629077

2.2 800135019.6 83185.8046 .842994797 1.19852430

3 800135019.6 83185.8046 .842994797 1.19852430

3.1 12857378788 81201.8322 1.01579267 1.42927791

3.2 550558275.1 85774.2528 .850493197 1.21433127

4 550558275.1 85774.2528 .850493197 1.21433127

4.1 205793117.6 90637.3496 .859429212 1.25276932

5 205793117.6 90637.3496 .859429212 1.25276932

5.1 49937888.65 92251.6832 .905992700 1.33942536

6 49937888.65 92251.6832 .905992700 1.33942536

6.1 438492814.3 83503.5809 .966421043 1.46365602

6.2 14165723.65 91420.4568 .909112694 1.36083115

7 14165723.65 91420.4568 .909112694 1.36083115

7.1 8227661.248 89440.0706 .923463315 1.38898940

8 8227661.248 89440.0706 .923463315 1.38898940

8.1 17416856.86 85916.5498 .948299986 1.45005498

8.2 4600297.866 88467.6768 .930296397 1.40797724

9 4600297.866 88467.6768 .930296397 1.40797724

9.1 2761649.685 86538.9357 .943736707 1.44419408

10 2761649.685 86538.9357 .943736707 1.44419408

10.1 644830.0765 85633.9620 .949714917 1.46896660

11 644830.0765 85633.9620 .949714917 1.46896660

11.1 475140.3684 85680.9561 .949325567 1.46898044

12 475140.3684 85680.9561 .949325567 1.46898044

12.1 475135.4265 85679.2273 .949338713 1.46903683

13 475135.4265 85679.2273 .949338713 1.46903683

13.1 475135.4262 85679.2477 .949338590 1.46903640

Run stopped after 30 model evaluations and 13 derivative evaluations.

Iterations have been stopped because the relative reduction between successive

residual sums of squares is at most SSCON = 1.000E-08

Nonlinear Regression Summary Statistics Dependent Variable Y

Source DF Sum of Squares Mean Square

Regression 3 37121583327.6 12373861109.2

Residual 6 475135.42624 79189.23771

Uncorrected Total 9 37122058463.0

(Corrected Total) 8 2823635793.56

R squared = 1 - Residual SS / Corrected SS =.99983

Asymptotic 95 %

Asymptotic Confidence Interval

Parameter Estimate Std. Error Lower Upper

B1 85679.247671 383.76368720 84740.211757 86618.283585

B2 .949338590 .002336270 .943621944 .955055236

B3 1.469036403 .008908976 1.447236923 1.490835883

Asymptotic Correlation Matrix of the Parameter Estimates

B1 B2 B3

B1 1.0000 -.9245 -.8880

B2 -.9245 1.0000 .9902

B3 -.8880 .9902 1.0000

经30次叠代运算后,相邻两次的方程剩余均方差值不大于规定的1×10-8,满足要求;回归方程的决定系数R2 = 0.99983,Gompertz曲线方程为:

Y = 85679.247671×0.94933859(1.469036403X)

本例要求计算预测值,系统将结果存入原始数据库中(图8.13),系统以pred_作为预测值的变量名。由结果可见,预测值与实际值十分接近。

图8.13 原始数据及其预测值

TOP

8.3.2.3 结果解释

在结果输出窗口中将看到如下统计数据:

Dependent Variable Encoding:

Original Internal

Value Value

y 0

n 1

Parameter

Value Freq Coding

(1)

X4 n 5 1.000

y 10 -1.000

系统先对字符变量进行重新赋值,对于应变量Y,回答是(Y)的赋值为0,回答否(X)的赋值为1;对于应变量X4,回答是(Y)的赋值为-1,回答否(X)的赋值为1。

Dependent Variable.. Y

Beginning Block Number 0. Initial Log Likelihood Function

-2 Log Likelihood 19.095425

* Constant is included in the model.

Beginning Block Number 1. Method: Forward Stepwise (COND)

Improv. Model Correct

Step Chi-Sq. df sig Chi-Sq. df sig Class % Variable

1 8.510 1 .004 8.510 1 .004 80.00 IN: X3

2 6.766 1 .009 15.276 2 .000 93.33 IN: X6

No more variables can be deleted or added.

End Block Number 1 PIN = .0500 Limits reached.

Final Equation for Block 1

Estimation terminated at iteration number 12 because

Log Likelihood decreased by less than .01 percent.

-2 Log Likelihood 3.819

Goodness of Fit 3.000

Chi-Square df Significance

Model Chi-Square 15.276 2 .0005

Improvement 6.766 1 .0093

Classification Table for Y

Predicted

y n Percent Correct

y | n

Observed +———+———+

y y | 4 | 1 | 80.00%

+———+———+

n n | 0 | 10 | 100.00%

+———+———+

Overall 93.33%

---------------------- Variables in the Equation -----------------------

Variable B S.E. Wald df Sig R Exp(B)

X3 -30.5171 298.0526 .0105 1 .9184 .0000 .0000

X6 -10.2797 107.9559 .0091 1 .9241 .0000 .0000

Constant 123.4053 1155.1065 .0114 1 .9149

结果表明,第一步自变量X3入选,方程分类能力达80.00%;第二步自变量X6入选,方程分类能力达93.33%(参见结果中的分类分析表);方程有效性经χ2检验,χ2=15.276,P=0.0005。

Logistic回归的分类概率方程为:

e123.4053-30.5171X3-10.2797X6

P = ——————————————

1+ e123.4053-30.5171X3-10.2797X6

根据该方程,若一胃癌患者营养状态评分(X3)为3,癌肿病理分度(X6)为9,则其P=4.5×10-27≈0,这意味着术后将发生院内感染;另一胃癌患者营养状态评分(X3)为1,癌肿病理分度(X6)为4,则其P=0.98105≈1,这意味着术后将不会发生院内感染。

TOP

第三节 Logistic过程

8.3.1 主要功能

调用此过程可完成Logistic回归的运算。所谓Logistic回归,是指应变量为二级计分或二类评定的回归分析,这在医学研究中经常遇到,如:死亡与否(即生、死二类评定)的概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、不患病二类评定)与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归来完成。

特别指出,本节介绍的Logistic过程,应与日常所说的Logistic曲线模型(即S或倒S形曲线)相区别。用户如果要拟合Logistic曲线模型,可调用本章第二节Curve Estimation过程,系统提供11种曲线模型,其中含有Logistic曲线模型(参见上节)。

在一般的多元回归中,若以P(概率)为应变量,则方程为P=b0+b1X1+b2X2+…+bkXk,

但用该方程计算时,常会出现P>1或P<0的不合理情形。为此,对P作对数单位转换,即logitP=ln(P/1-P),于是,可得到Logistic回归方程为:

eb0+b1X1+b2X2+…+bkXk

P = ———————————

1+ eb0+b1X1+b2X2+…+bkXk

8.3.2 实例操作

[例8.3]某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。

术后感染

(有无)

Y

年龄

(岁)

X1

手术创伤程度

(5等级)

X2

营养状态

(3等级)

X3

术前预防性抗菌

(有无)

X4

白细胞数

(×109/L)

X5

癌肿病理分度

(TNM得分总和)

X6

69

72

57

41

32

65

58

54

55

59

64

36

42

48

50

4

5

3

1

1

3

3

4

2

1

2

1

3

4

1

2

3

2

1

1

3

2

2

2

1

2

1

1

2

2

5.6

4.4

9.7

11.2

10.4

7.0

3.1

6.6

7.9

6.0

9.1

8.4

5.3

4.6

12.8

9

6

4

5

5

5

6

6

7

4

6

8

6

5

4

8.3.2.1 数据准备

激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y、无输入N),白细胞数为X5,癌肿病理分度为X6。按要求输入原始数据。

8.3.2.2 统计分析

激活Statistics菜单选Regression中的Logistic...项,弹出Logistic Regression对话框(如图8.8示)。从对话框左侧的变量列表中选y,点击Ø钮使之进入Dependent框,选x1、x2、x3、x4、x5和x6,点击Ø钮使之进入Covariates框;点击Method处的下拉按钮,系统提供7种方法:

1、Enter:所有自变量强制进入回归方程;

2、Forward: Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;

3、Forward: LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;

4、Forward: Wald:作Wald概率统计法,向前逐步选择自变量;

5、Backward: Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;

6、Backward: LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;

7、Backward: Wald:作Wald概率统计法,向后逐步选择自变量。

本例选用Forward: Conditional法,以便选择有主要作用的影响因素;点击Options...钮,弹出Logistic Regression:Options对话框,在Display框中选取At last step项,要求只显示最终计算结果,点击Continue钮返回Logistic Regression对话框,再点击OK钮即可。

TOP

第二节 Curve Estimation过程

8.2.1 主要功能

调用此过程可完成下列有关曲线拟合的功能:

1、Linear:拟合直线方程(实际上与Linear过程的二元直线回归相同,即Y = b0+ b1X);

2、Quadratic:拟合二次方程(Y = b0+ b1X+b2X2);

3、Compound:拟合复合曲线模型(Y = bb1X);

4、Growth:拟合等比级数曲线模型(Y = e(b0+b1X));

5、Logarithmic:拟合对数方程(Y = b0+b1lnX)

6、Cubic:拟合三次方程(Y = b0+ b1X+b2X2+b3X3);

7、S:拟合S形曲线(Y = e(b0+b1/X));

8、Exponential:拟合指数方程(Y = b0 eb1X);

9、Inverse:数据按Y = b0+b1/X进行变换;

10、Power:拟合乘幂曲线模型(Y = b0X b1);

11、Logistic:拟合Logistic曲线模型(Y = 1/(1/u + bb1X)。

8.2.2 实例操作

[例8.2]某地1963年调查得儿童年龄(岁)X与锡克试验阴性率(%)Y的资料如下,试拟合对数曲线。

年龄(岁)

X

锡克试验阴性率(%)

Y

1

2

3

4

5

6

7

57.1

76.0

90.9

93.0

96.7

95.6

96.2

8.2.2.1 数据准备

激活数据管理窗口,定义变量名:锡克试验阴性率为Y,年龄为X,输入原始数据。

8.2.2.2 统计分析

激活Statistics菜单选Regression中的Curve Estimation...项,弹出Curve Estimation对话框(如图8.5示)。从对话框左侧的变量列表中选y,点击Ø钮使之进入Dependent框,选x,点击Ø钮使之进入Indepentdent(s)框;在Model框内选择所需的曲线模型,本例选择Logarithmic模型(即对数曲线);选Plot models项要求绘制曲线拟合图;点击Save...钮,弹出Curve Estimation:Save对话框,选择Predicted value项,要求在原始数据库中保存根据对数方程求出的Y预测值,点击Continue钮返回Curve Estimation对话框,再点击OK钮即可。

8.2.2.3 结果解释

在结果输出窗口中将看到如下统计数据:

ndependent: X

Dependent Mth Rsq d.f. F Sigf b0 b1

Y LOG .913 5 52.32 .001 61.3259 20.6704

在以X为自变量、Y为应变量,采用对数曲线拟合方法建立的方程,决定系数R2=0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32,P=0.001,拟合度很好,对数方程为:Y=61.3259+20.6704lnX。

本例要求绘制曲线拟合图,结果如图8.6所示。

图8.6 对数曲线拟合情形

根据方程Y=61.3259+20.6704lnX,将原始数据X值代入,求得Y预测值(变量名为fit_1)存入数据库中,参见图8.7。

图8.7 计算结果的保存

TOP

8.1.2.3 结果解释

在结果输出窗口中将看到如下统计数据:

* * * * M U L T I P L E R E G R E S S I O N * * * *

Listwise Deletion of Missing Data

Equation Number 1 Dependent Variable.. Y

Block Number 1. Method: Enter X1 X2

Variable(s) Entered on Step Number

1.. X2

2.. X1

Multiple R .94964

R Square .90181

Adjusted R Square .87376

Standard Error .14335

Analysis of Variance

DF Sum of Squares Mean Square

Regression 2 1.32104 .66052

Residual 7 .14384 .02055

F = 32.14499 Signif F = .0003

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

X1 .068701 .074768 .215256 .919 .3887

X2 .183756 .056816 .757660 3.234 .0144

(Constant) -2.856476 6.017776 -.475 .6495

End Block Number 1 All requested variables entered.

结果显示,本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。

本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值(即库中zpr_1栏),详见图8.3。

图8.3 计算结果的保存

本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向Chart Carousel窗口,双击该窗口可见下图显示结果。

图8.4 对标准化Y预测值所作的正态分布图

TOP

第一节 Linear过程

8.1.1 主要功能

调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。


8.1.2 实例操作

[例8.1]某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。

儿童编号

体表面积(Y)

身高(X1

体重(X2

1

2

3

4

5

6

7

8

9

10

5.382

5.299

5.358

5.292

5.602

6.014

5.830

6.102

6.075

6.411

88.0

87.6

88.5

89.0

87.7

89.5

88.8

90.4

90.6

91.2

11.0

11.8

12.0

12.3

13.1

13.7

14.4

14.9

15.2

16.0

8.1.2.1 数据准备

激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据,结果如图8.1所示。

8.1.2.2 统计分析

激活Statistics菜单选Regression中的Linear...项,弹出Linear Regression对话框(如图8.2示)。从对话框左侧的变量列表中选y,点击Ø钮使之进入Dependent框,选x1、x2,点击Ø钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。本例选用Enter法。点击OK钮即完成分析。

用户还可点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。

TOP

返回列表