返回列表 发帖

SPSS中的缺失值分析

缺失值经常在下列一些情况出现:
  拒绝回答问题;
  没有答案;
  调查研究中的损耗;
  从多个数据源中合并数据。

  众所周知,在诸如收入、交通事故等问题的调查研究中,大量存在未回答的问题。以下是一些例子:
  在一项消费者经济状况调查中,28%的受访者没有回答收入情况;
  在一次人口调查中,20%的人没有回答收入情况,高收入者的回答率比中等收入者要低;
  在严重交通事故报告中,诸如是否使用安全带和酒精浓度等关键问题在很多个案中都没有记录。

  缺失值会表现为以下问题:
  有缺失值的个案系统地不同于完整的个案;
  有缺失值的个案表明信息不完整;
  标准统计方法只接受完整数据。

  以上问题意味着:
  偏向:分析结果可能会有偏差;
  无效:较少的有效个案导致估计精度下降;
  某些情况下,诸如均值置换和列表删除等大量可用逼近方法可能过于天真,甚至是错误的

  统计学家研究出一个缺失值逼近方法,如极大似然逼近(maximun likelihood,ML)。要使用ML,必须有数据模型和缺失值机制模型。数据模型可能是数据为多变量正态,缺失值机制模型可能是数据完全随机缺失(missing completely at random,MCAR)或者随机缺失(missing at random,MAR)。下面给出这些术语的定义和描述:

  数据完全随机缺失(Missing Completely At Random,MCAR),表示缺失和变量的取值无关。例如,假设您在研究年龄和收入。如果缺失和年龄或收入数值无关,则缺失值方式为MCAR。要评估MCAR是否为站得住脚的假设,您可以用比较回答者和未回答者的分布来评估观察数据。也可以使用单变量t-检验或Little's MCAR多变量检验来进行更正规的评估。如果MCAR假设为真,可以使用列表删除(listwise deletion)(完整个案分析),无需担心估计偏差,尽管可能会丧失一些有效性。如果MCAR不成立,列表删除、均值置换等逼近方法就可能不是好的选择。

  如果数据不为MCAR,可以考虑评估回答者和未回答者的特性差异是否能够用同时测度回答者和未回答者的变量来理解。这就引出了随时缺失(missing at random,MAR)的概念,其中缺失分布中调查变量只依赖于数据组数中有记录的变量。继续上面的例子,考虑到年龄全部被观察,而且收入有时有缺失。这样,如果收入缺失值仅依赖于年龄,缺失值就为MAR。如果收入缺失值依赖于收入值,则既不是MCAR,也不是MAR。

  区别MCAR和MAR的含义在于:由于MCAR通常实际上很难遇到,应该在进行调查之前就考虑哪些重要变量可能会有非无效的未回答,还要尽量在调查中包括共变量,以便用这些变量来估算缺失值



MCAR举例

  图一显示了相关系数为0.6的两个高斯变量X和Y的1000个观测值的散点图。


图一

  假设对X和Y随机地删除了大约5%的回答。在这样的随机机制下,期望结果数据为MCAR。对结果变量XMISS和YMISS进行相关分析,相关系数用基于列表删除的方法来计算,期望这个相关是已知相关0.6的无偏估计。图二显示了SPSS相关分析的结果。

  在图二中,我们看到XMISS有956个有效观测值,YMISS有948个。经过列表删除以后,相关性用907个完整个案来计算。相关系数为0.596,和已知值0.6非常接近。

  图三是在SPSS MVA中用极大似然估计计算的相关系数,以及Little's MCAR检验。

  p-值为0.874,表示不具显著性。这样就不能拒绝零假设(数据为MCAR)。

MAR举例

  图四显示了相关系数为0.6的两个高斯变量X和Y的400个观测值的散点图。


图四

  通过随机地设置X值大于0的个案中40%的Y值缺失,以判断Y值的缺失对X值是否是偶然的,这样就形成了缺失值结构MAR。

  图五显示设为缺失(预示变量Ind等于1)的个案:


图五

图六只显示了回答完整的个案。


图六

  通过列表删除,YMISS和X之间的相关系数是0.576(331个个案)

  图七显示了对Y变量缺失值进行均值置换的效果:


图七

  图七阐明了均值置换的一个主要问题:保持YMISS的均值时,YMISS和X之间的相关性是曲解的。均值置换的YMISS和X之间的相关系数为0.505(400个观测量)。

  假设不进行均值置换,而用YMISS对X的回归构造一个回归方程,然后预示YMISS缺失的个案的YMISS。图八显示了结果:


图八

  天真的回归估算的问题是估算值的方差太小。回归估算的YMISS和X之间的相关系数为0.627,夸大了Y和X的相关系数。

  图九显示了在SPSS MVA中使用极大似然估计作出的估计相关性:

  估计值为0.591,与Y和X已知的相关系数0.6非常接近。请注意Litter's MCAR检验非常具有统计显著性。由于数据被构造成展示MAR缺失值方式,我们不应对数据不是MCAR感到奇怪。

  最后,图10显示了使用SPSS MVA回归估算时YMISS和X的散点图。


图十

  SPSS MVA 回归估算是单步极大似然逼近,加入了保持相关结构的误差条件。回归估算的YMISS和X之间的相关系数为0.601,与已知值0.6非常接近。

返回列表