Subido por julianjclc

valores perdidos

Anuncio
Análisis de valores perdidos
Ana María López
Departamento de Psicología Experimental
Introducción
•
La presencia de valores perdidos (información ausente o faltante) es un problema común a
cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos
ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio
hasta la aparición de sesgos inaceptables. La eliminación de sujetos con características
especiales limita la representatividad o validez externa de los resultados del estudio.
•
Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de
medida, los sujetos no asisten a la entrevista (en diseños longitudinales pueden abandonar el
estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la
opción no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y
muchas otras los datos perdidos son ubicuos en la investigación en ciencias sociales y de la
salud (Allison, 2002).
Introducción
•
Hay una solución fácil para el tratamiento de bases de datos con valores perdidos y consiste en
analizar sólo los casos con Información completa en el conjunto de variables. Esta solución, es la
opción por defecto de la mayoría de los paquetes estadísticos, se conoce como análisis de casos
completos (Casewise, Listwise). El análisis de casos completos tiene la ventaja de su simplicidad
pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en los análisis
estadísticos.
Patrones de pérdida de información
•
La forma o patrón para la pérdida de datos puede ser muy variada. En la figura siguiente
aparecen representada tres posibles matrices de datos con perdida de información univariante,
monótona y aleatoria.
a)
X1 X2 X3 ..…Yp
c)
b)
Y1
Y2
Y3 ……Yp
1
2
3
.
.
.
.
.
.
N
Y1 Y2
Y3....Yp
?
?
?
?
?
?
?
Figura 1. Patrones de pedida de información: a) univariado, b) monótono, y c) arbitrario
Mecanismos de perdida de datos
Se distinguen tres mecanismos de perdida de datos:
•
Datos perdidos completamente al azar (MCAR = missing completely at
random)
•
Datos perdidos al azar (MAR= missing completely at random)
•
Datos perdidos no ignorables o no debidos al azar (MNI=missing nonignorable, o MNAR=missing not at random).
Mecanismos de perdida de datos
Se considera que los datos perdidos son MCAR cuando las características de los sujetos con
información son las mismas que las de los sujetos sin información. Dicho de otra manera la
probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de
otras variables del cuestionario ni de los valores de la propia variable con valores perdidos.
Las observaciones con datos perdidos son una muestra aleatoria del conjunto de
observaciones. Ejemplo de MCAR:
1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario
que las personas que nos lo proporcionan.
2. Las características estadísticas (media, porcentajes) del resto de las variables son las
misma para los sujetos que nos proporcionan su salario y para los que no lo proporcionan.
Mecanismos de perdida de datos
La perdida de datos es MAR cuando los sujetos con datos incompletos son
diferentes significativamente de los que presentan datos completos en alguna
variable, y el patrón de ausencia de datos puede ser predecible a partir de
variables con datos observados en la base de datos del estudio que no muestran
ausencia de datos. La probabilidad de que se produzca la ausencia de una
observación depende de otras variables pero no de los valores de la variable con
el valor ausente. Es imposible probar si la condición MAR es satisfecha y la razón
es que dado que no conocemos la información faltante no podemos comparar los
valores de aquellos sujetos que tienen información con los que no la tienen. Un
ejemplo de MAR
1.
La pérdida de valores en la variable sueldo es MAR si depende del estado civil pero
dentro de cada categoría, la probabilidad de missing no está relacionada con el sueldo.
Mecanismos de perdida de datos
La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una
variable Y depende de los valores de dicha variable una vez que se han controlado el resto de
las variables. Ejemplo:
1.
Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el
salario, una vez controladas el resto de las variables, entonces la perdida de datos no es
aleatoria ni ignorable.
2.
En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y
para dos variables. En este último ejemplo tomado de Schafer y Graham, 2002 se
simulan los tres mecanismos de pérdida con dos variables.
Análisis de Valores perdidos con SPSS
Análisis de Valores perdidos con SPSS
Archivo: opinion.sav
Análisis de valores perdidos
Estadísticos univariados
N
s alario
opinion
s exo
Media
71 1536,0563
100
4,2900
100
Des viación
típ.
567,98511
1,77693
Perdidos
Recuento Porcentaje
29
29,0
0
,0
0
,0
a. Número de cas os fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).
opinion
Según lista
Todos los valores
EM
Regresión
salario
Resumen de las medias estimadas
1536,0563
1536,0563
1637,1620
1585,1126
4,7324
4,2900
4,2900
4,2900
opinion
Según lista
Todos los valores
EM
Regresión
salario
Resumen de las desviaciones típicas estimadas
567,98511
567,98511
598,12110
517,90342
1,57623
1,77693
1,77693
1,77693
a
No de extremos
Bajos
Altos
0
5
0
0
Análisis de valores perdidos
salario
salario
opinion
Pruebas T con varianzas separadasa
t
.
gl
.
no pres ente
71
no perdido
0
Media(Presentes ) 1536,0563
Media(Perdidos)
.
4,0
46,5
71
29
4,7324
3,2069
Para cada variable cuantitativa, los pares de grupos están
formados por variables indicador (pres ente, perdido).
a. Las variables indicador con menos del 5% de los
valores perdidos no s e mues tran.
Tablas de contingencia de variables indicador frente a categóricas
Perdidos
Recuento
Porcentaje
% perd. sistema
hombre
Presente
mujer
s alario
Total
sexo
71
71,0
29,0
45
81,8
18,2
26
57,8
42,2
Las variables indicador con menos del 5% de s us valores
perdidos no se mues tran.
Análisis de valores perdidos
- indica un valor extrem o bajo, m ientras que + indica un valor
extrem o alto. El rango utilizado es (C1 - 1,5*AIC, C3 + 1,5*AIC).
a. Los cas os y las variables s e ordenan según los
patrones de los perdidos .
sexo
salario
Número de casos
71
29
opinion
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
Patrones
a
perdidos
X
Completo si...
b
Patrones tabulados
salario
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
33,3
sexo
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Patrones de
valores
extrem os y
a
perdidos
opinion
% perdido
Cas o
43
44
45
47
48
49
50
52
54
55
79
80
81
82
83
84
85
86
87
88
89
91
92
93
95
96
98
99
100
no perdido
Patrones perdidos (casos con valores perdidos)
71
100
Los patrones con menos del 1% de los casos (1 o menos ) no
s e muestran.
a. Las variables se ordenan s egún los patrones
perdidos.
b. Número de casos completos si las variables perdidas
en es e patrón (marcado con X) no s e utilizan.
Análisis de valores perdidos
Estadísticos según lista
Medias según lista
opinion
1
-,634
1
opinion
salario
salario
1536,0563
opinion
Número de caso
71
s alario
opinion
salario
Correlaciones según lista
Covarianzas según lista
322607,08250
-567,92757
2,48451
s alario
opinion
4,7324
Estadísticos según pareja
Medias según pareja
Desviaciones típicas según pareja
100
opinion
3,15747
s alario
opinion
1
-,634
1
opinion
s alario
opinion
s exo
salario
opinion
4,7324
4,2900
4,2900
Correlaciones según pareja
opinion
salario
322607,08250
-567,92757
1536,0563
1536,0563
1536,0563
Media de la variable cuantitativa
cuando es tá presente la otra variable.
Covarianzas según pareja
s alario
opinion
salario
100
100
s alario
opinion
s exo
salario
71
71
71
sexo
opinion
s alario
opinion
s exo
salario
Frecuencias según pareja
567,98511
567,98511
567,98511
1,57623
1,77693
1,77693
Des viación típica de la variable cuantitativa
cuando es tá pres ente la otra variable.
Análisis de valores perdidos
Estadísticos de EM estimados
Covarianzas de EMa
357748,85539
-721,71074
3,15747
a. Prueba MCAR de Little: Chi-cuadrado
= 15,175, GL = 1, Sig. = ,000
s alario
opinion
opinion
a. Prueba MCAR de Little: Chi-cuadrado
= 15,175, GL = 1, Sig. = ,000
s alario
opinion
salario
4,2900
Correlaciones de EMa
opinion
opinion
1637,1620
salario
salario
Medias de EMa
1
-,679
1
a. Prueba MCAR de Little: Chi-cuadrado
= 15,175, GL = 1, Sig. = ,000
Estadísticos de regresión estimados
Covarianzas de regresióna
Correlaciones de regresióna
a. Se añade a cada estimación el res iduo
de un cas o elegido aleatoriamente.
268223,95183
-611,10178
3,15747
a. Se añade a cada estimación el res iduo
de un cas o elegido aleatoriamente.
s alario
opinion
opinion
s alario
opinion
salario
4,2900
opinion
opinion
1585,1126
salario
salario
Medias de regresióna
1
-,664
1
a. Se añade a cada estimación el res iduo
de un cas o elegido aleatoriamente.
Métodos para tratar valores perdidos
•
Análisis de casos completos: para el conjunto de variables (Listwise,
Complete case)
•
Análisis de casos completos: por pares de variables (Pairwise)
Métodos para tratar valores perdidos
Métodos de imputación de datos
Imputación simple
1.
•
Sustitución por la media de las observaciones con información.
•
Imputación mediante regresión múltiple. Asigna a los valores missing los valores
predichos por una ecuación de regresión estimada a partir de los sujetos con
información completa.
•
Algoritmo EM
2. Imputación múltiple
Referencias bibliográficas:
Allison, P.D. (2002). Missing values. Sage
Little, R. J. A. y Rubin, D. B. (1989) “The Analysis of Social Science Data with Missing Values.”
Sociological Methods and Research 18: 292-326.
Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data,
2nd edition. New York: Wiley.
Rejas, J. Imputación de datos ausentes en estudios de calidad de vida relacionados con la salud:
patrones de pérdida de datos y métodos de imputación. Investig. Clín. Farm. 2005, Vol. 2 (1):
23-29
Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological
Methods, Vol. 7, No. 2, 147–77
Tutorial
sobre
análisis
de
valores
perdidos
http://www2.chass.ncsu.edu/garson/pa765/missing.htm
con
SPSS
13.
Descargar