Análisis de valores perdidos Ana María López Departamento de Psicología Experimental Introducción • La presencia de valores perdidos (información ausente o faltante) es un problema común a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio hasta la aparición de sesgos inaceptables. La eliminación de sujetos con características especiales limita la representatividad o validez externa de los resultados del estudio. • Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de medida, los sujetos no asisten a la entrevista (en diseños longitudinales pueden abandonar el estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la opción no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y muchas otras los datos perdidos son ubicuos en la investigación en ciencias sociales y de la salud (Allison, 2002). Introducción • Hay una solución fácil para el tratamiento de bases de datos con valores perdidos y consiste en analizar sólo los casos con Información completa en el conjunto de variables. Esta solución, es la opción por defecto de la mayoría de los paquetes estadísticos, se conoce como análisis de casos completos (Casewise, Listwise). El análisis de casos completos tiene la ventaja de su simplicidad pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en los análisis estadísticos. Patrones de pérdida de información • La forma o patrón para la pérdida de datos puede ser muy variada. En la figura siguiente aparecen representada tres posibles matrices de datos con perdida de información univariante, monótona y aleatoria. a) X1 X2 X3 ..…Yp c) b) Y1 Y2 Y3 ……Yp 1 2 3 . . . . . . N Y1 Y2 Y3....Yp ? ? ? ? ? ? ? Figura 1. Patrones de pedida de información: a) univariado, b) monótono, y c) arbitrario Mecanismos de perdida de datos Se distinguen tres mecanismos de perdida de datos: • Datos perdidos completamente al azar (MCAR = missing completely at random) • Datos perdidos al azar (MAR= missing completely at random) • Datos perdidos no ignorables o no debidos al azar (MNI=missing nonignorable, o MNAR=missing not at random). Mecanismos de perdida de datos Se considera que los datos perdidos son MCAR cuando las características de los sujetos con información son las mismas que las de los sujetos sin información. Dicho de otra manera la probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de otras variables del cuestionario ni de los valores de la propia variable con valores perdidos. Las observaciones con datos perdidos son una muestra aleatoria del conjunto de observaciones. Ejemplo de MCAR: 1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario que las personas que nos lo proporcionan. 2. Las características estadísticas (media, porcentajes) del resto de las variables son las misma para los sujetos que nos proporcionan su salario y para los que no lo proporcionan. Mecanismos de perdida de datos La perdida de datos es MAR cuando los sujetos con datos incompletos son diferentes significativamente de los que presentan datos completos en alguna variable, y el patrón de ausencia de datos puede ser predecible a partir de variables con datos observados en la base de datos del estudio que no muestran ausencia de datos. La probabilidad de que se produzca la ausencia de una observación depende de otras variables pero no de los valores de la variable con el valor ausente. Es imposible probar si la condición MAR es satisfecha y la razón es que dado que no conocemos la información faltante no podemos comparar los valores de aquellos sujetos que tienen información con los que no la tienen. Un ejemplo de MAR 1. La pérdida de valores en la variable sueldo es MAR si depende del estado civil pero dentro de cada categoría, la probabilidad de missing no está relacionada con el sueldo. Mecanismos de perdida de datos La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una variable Y depende de los valores de dicha variable una vez que se han controlado el resto de las variables. Ejemplo: 1. Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el salario, una vez controladas el resto de las variables, entonces la perdida de datos no es aleatoria ni ignorable. 2. En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y para dos variables. En este último ejemplo tomado de Schafer y Graham, 2002 se simulan los tres mecanismos de pérdida con dos variables. Análisis de Valores perdidos con SPSS Análisis de Valores perdidos con SPSS Archivo: opinion.sav Análisis de valores perdidos Estadísticos univariados N s alario opinion s exo Media 71 1536,0563 100 4,2900 100 Des viación típ. 567,98511 1,77693 Perdidos Recuento Porcentaje 29 29,0 0 ,0 0 ,0 a. Número de cas os fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC). opinion Según lista Todos los valores EM Regresión salario Resumen de las medias estimadas 1536,0563 1536,0563 1637,1620 1585,1126 4,7324 4,2900 4,2900 4,2900 opinion Según lista Todos los valores EM Regresión salario Resumen de las desviaciones típicas estimadas 567,98511 567,98511 598,12110 517,90342 1,57623 1,77693 1,77693 1,77693 a No de extremos Bajos Altos 0 5 0 0 Análisis de valores perdidos salario salario opinion Pruebas T con varianzas separadasa t . gl . no pres ente 71 no perdido 0 Media(Presentes ) 1536,0563 Media(Perdidos) . 4,0 46,5 71 29 4,7324 3,2069 Para cada variable cuantitativa, los pares de grupos están formados por variables indicador (pres ente, perdido). a. Las variables indicador con menos del 5% de los valores perdidos no s e mues tran. Tablas de contingencia de variables indicador frente a categóricas Perdidos Recuento Porcentaje % perd. sistema hombre Presente mujer s alario Total sexo 71 71,0 29,0 45 81,8 18,2 26 57,8 42,2 Las variables indicador con menos del 5% de s us valores perdidos no se mues tran. Análisis de valores perdidos - indica un valor extrem o bajo, m ientras que + indica un valor extrem o alto. El rango utilizado es (C1 - 1,5*AIC, C3 + 1,5*AIC). a. Los cas os y las variables s e ordenan según los patrones de los perdidos . sexo salario Número de casos 71 29 opinion S S S S S S S S S S S S S S S S S S S S S S S S S S S S S Patrones a perdidos X Completo si... b Patrones tabulados salario 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 sexo 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Patrones de valores extrem os y a perdidos opinion % perdido Cas o 43 44 45 47 48 49 50 52 54 55 79 80 81 82 83 84 85 86 87 88 89 91 92 93 95 96 98 99 100 no perdido Patrones perdidos (casos con valores perdidos) 71 100 Los patrones con menos del 1% de los casos (1 o menos ) no s e muestran. a. Las variables se ordenan s egún los patrones perdidos. b. Número de casos completos si las variables perdidas en es e patrón (marcado con X) no s e utilizan. Análisis de valores perdidos Estadísticos según lista Medias según lista opinion 1 -,634 1 opinion salario salario 1536,0563 opinion Número de caso 71 s alario opinion salario Correlaciones según lista Covarianzas según lista 322607,08250 -567,92757 2,48451 s alario opinion 4,7324 Estadísticos según pareja Medias según pareja Desviaciones típicas según pareja 100 opinion 3,15747 s alario opinion 1 -,634 1 opinion s alario opinion s exo salario opinion 4,7324 4,2900 4,2900 Correlaciones según pareja opinion salario 322607,08250 -567,92757 1536,0563 1536,0563 1536,0563 Media de la variable cuantitativa cuando es tá presente la otra variable. Covarianzas según pareja s alario opinion salario 100 100 s alario opinion s exo salario 71 71 71 sexo opinion s alario opinion s exo salario Frecuencias según pareja 567,98511 567,98511 567,98511 1,57623 1,77693 1,77693 Des viación típica de la variable cuantitativa cuando es tá pres ente la otra variable. Análisis de valores perdidos Estadísticos de EM estimados Covarianzas de EMa 357748,85539 -721,71074 3,15747 a. Prueba MCAR de Little: Chi-cuadrado = 15,175, GL = 1, Sig. = ,000 s alario opinion opinion a. Prueba MCAR de Little: Chi-cuadrado = 15,175, GL = 1, Sig. = ,000 s alario opinion salario 4,2900 Correlaciones de EMa opinion opinion 1637,1620 salario salario Medias de EMa 1 -,679 1 a. Prueba MCAR de Little: Chi-cuadrado = 15,175, GL = 1, Sig. = ,000 Estadísticos de regresión estimados Covarianzas de regresióna Correlaciones de regresióna a. Se añade a cada estimación el res iduo de un cas o elegido aleatoriamente. 268223,95183 -611,10178 3,15747 a. Se añade a cada estimación el res iduo de un cas o elegido aleatoriamente. s alario opinion opinion s alario opinion salario 4,2900 opinion opinion 1585,1126 salario salario Medias de regresióna 1 -,664 1 a. Se añade a cada estimación el res iduo de un cas o elegido aleatoriamente. Métodos para tratar valores perdidos • Análisis de casos completos: para el conjunto de variables (Listwise, Complete case) • Análisis de casos completos: por pares de variables (Pairwise) Métodos para tratar valores perdidos Métodos de imputación de datos Imputación simple 1. • Sustitución por la media de las observaciones con información. • Imputación mediante regresión múltiple. Asigna a los valores missing los valores predichos por una ecuación de regresión estimada a partir de los sujetos con información completa. • Algoritmo EM 2. Imputación múltiple Referencias bibliográficas: Allison, P.D. (2002). Missing values. Sage Little, R. J. A. y Rubin, D. B. (1989) “The Analysis of Social Science Data with Missing Values.” Sociological Methods and Research 18: 292-326. Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data, 2nd edition. New York: Wiley. Rejas, J. Imputación de datos ausentes en estudios de calidad de vida relacionados con la salud: patrones de pérdida de datos y métodos de imputación. Investig. Clín. Farm. 2005, Vol. 2 (1): 23-29 Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, Vol. 7, No. 2, 147–77 Tutorial sobre análisis de valores perdidos http://www2.chass.ncsu.edu/garson/pa765/missing.htm con SPSS 13.