一、引言
主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法。现在SPSS、SAS等统计软件使用越来越普遍,但SPSS并未像SAS一样,将主成分分析与因子分析作为两个独立的方法并列处理[注:主成分分析与因子分析二者是又有着区别与联系,最主要的不同在于它们的数学模型的构建上,具体区别请见参考文献2],而是根据二者之间的关系有机地将主成分分析嵌入到因子分析之中,这样虽然简化了分析程序,却为主成分分析的计算带来不便。且国内许多SPSS教程并没有详细讲解如果应用SPSS进行主成分分析,如何使用SPSS对主成分分析进行计算呢?为使读者能够正确使用SPSS软件进行主成分分析,本文将通过一个实例来详细介绍如何用SPSS做主成分分析。接下来先简单介绍主成分分析原理与模型,以便读者对主成分分析有个大致的了解。
二、主成分分析原理和模型[1]
(一)主分成分析原理
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
(二)主成分分析数学模型
F2=a12ZX1+a22ZX2……+ap2ZXp
……
Fp=a1mZX1+a2mZX2+……+apmZXp
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。
主成分与综合主成分(评价)值。
三、对沿海10个省市经济综合指标进行主成分分析
(一)指标选取原则
图表 1 沿海10个省市经济数据
地区 |
GDP |
人均GDP |
农业增加值 |
工业增加值 |
第三产业增加值 |
固定资产投资 |
基本建设投资 |
社会消费品零售总额 |
海关出口总额 |
地方财政收入 |
辽宁 |
5458.2 |
13000 |
14883.3 |
1376.2 |
2258.4 |
1315.9 |
529 |
2258.4 |
123.7 |
399.7 |
山东 |
10550 |
11643 |
1390 |
3502.5 |
3851 |
2288.7 |
1070.7 |
3181.9 |
211.1 |
610.2 |
河北 |
6076.6 |
9047 |
950.2 |
1406.7 |
2092.6 |
1161.6 |
597.1 |
1968.3 |
45.9 |
302.3 |
天津 |
2022.6 |
22068 |
83.9 |
822.8 |
960 |
703.7 |
361.9 |
941.4 |
115.7 |
171.8 |
江苏 |
10636 |
14397 |
1122.6 |
3536.3 |
3967.2 |
2320 |
1141.3 |
3215.8 |
384.7 |
643.7 |
上海 |
5408.8 |
40627 |
86.2 |
2196.2 |
2755.8 |
1970.2 |
779.3 |
2035.2 |
320.5 |
709 |
浙江 |
7670 |
16570 |
680 |
2356.5 |
3065 |
2296.6 |
1180.6 |
2877.5 |
294.2 |
566.9 |
福建 |
4682 |
13510 |
663 |
1047.1 |
1859 |
964.5 |
397.9 |
1663.3 |
173.7 |
272.9 |
广东 |
11770 |
15030 |
1023.9 |
4224.6 |
4793.6 |
3022.9 |
1275.5 |
5013.6 |
1843.7 |
1202 |
广西 |
2437.2 |
5062 |
591.4 |
367 |
995.7 |
542.2 |
352.7 |
1025.5 |
15.1 |
186.7 |
(二)主成分分析在SPSS中的具体操作步骤
图表 2 Factor Analyze对话框与Descriptives子对话框
图表 3 相关系数矩阵
图表 4 方差分解主成分提取分析表
欢迎光临 CFA论坛 (http://forum.theanalystspace.com/) | Powered by Discuz! 7.2 |