Introducción a la estimación con datos faltantes. Algoritmo EM para

Trabajo C Trabajos Curso 2012-2013 1 Introducción a la estimación con datos faltantes. Algoritmo EM para poblaciones normales 1. 1.1. Conceptos generales sobre datos faltantes Datos faltantes Las técnicas estadı́sticas estándar analizan conjuntos de datos que usualmente vienen dados por una matriz rectangular en la que las filas representan los individuos (casos) objeto de estudio y las columnas indican los valores de las variables medidas sobre cada individuo. Este tipo de presentación de los datos recibe el nombre de introducción por casos, en contraposición a la introducción por variables, la cual se obtiene sin más que trasponer la anterior matriz. No obstante, en las aplicaciones prácticas, dicha matriz de datos puede no estar completa, esto es, hay datos faltantes. Por ejemplo, en un experimento realizado en una cadena de montaje, pueden faltar algunos resultados debido a una averı́a en la cadena de producción. Otro ejemplo muy común de falta de datos ocurre en las encuestas de opinión; por ejemplo en una encuesta de intención de voto algunos individuos pueden no dar su preferencia por ninguno de los candidatos presentados. En el primer caso es natural tratar los valores no observados como perdidos o faltantes (missings) ya que existen valores subyacentes que podrı́an haberse observado si las técnicas de mantenimineto de la cadena de producción fueran mejores. En el segundo caso, sin embargo, es menos claro que se debiera tratar el valor no observado como perdido puesto que la no respuesta no marca ninguna preferencia por un candidato sino que representa un punto adicional en el espacio muestral de la variable en estudio (no sabe). La mayor parte del software estadı́stico identifica el estrato de no respuesta creando uno o más códigos especiales para aquellas entradas de la matriz de datos que no son observadas (no sabe, no contesta, valor fuera de rango,...). Algunos paquetes estadı́sticos excluyen a los individuos para los que no existen códigos para alguna de las variables. Esta estrategia es generalmente inapropiada ya que el investigador suele estar interesado en realizar inferencias sobre la muestra de forma completa antes que sólo sobre la porción que haya respondido a las variables objeto de estudio. Algunas de las técnicas aquı́ presentadas están implementadas en paquetes estadı́sticos, como el capı́tulo AM de BMDP. 1.2. Una clasificación de métodos con datos parcialmente perdidos La literatura sobre análisis de datos parcialmente perdidos es relativamente reciente: Afifi y Elashoff (1966), Hartley y Hocking (1971), Orchard y Woodburg (1972), Dempster, Laird y Rubin (1977), Little (1982),... La siguiente es una clasificación dada en un sentido amplio, con categorı́as no excluyentes. Procedimientos basados en casos completos. En estos métodos se elimina los individuos para los que existe algún dato faltante, tratando sólo con aquellos con casos completos. Esta estrategia puede resultar satisfactoria si hay pocos datos faltantes y hay que tener en cuenta que, en general, puede conducir a importantes sesgos y no es esencialmente eficiente. Procedimientos de imputación. Análisis Multivariante. 3o Grado en Estadı́stica Trabajo C Trabajos Curso 2012-2013 2 Los datos faltantes se completan por algún método. Entre otros destacan: • Imputación Hot Deck, en el que se emplea otros datos procedentes de la muestra observada. • Imputación por la media. En ella se sustituye el valor faltante por medias procedentes del conjunto de datos observados. • Imputación por regresión. En ella los valores faltantes para un individuo se estiman mediante predicción a partir de la regresión de las variables conocidas para ese individuo. Procedimientos ponderados. Las inferencias realizadas en encuestas donde hay presencia de datos faltantes suele realizarse basándose en diseños ponderados, con ponderaciones inversamente proporcionales a la probabilidad de selección. Si Y es una variable e yi es el valor que sobre ella toma el individuo i-ésimo, entonces la media poblacional suele estimarse por P −1 π yi P i −1 πi donde la suma se extiende a todas las unidades muestrales, πi es la probabilidad de inclusión en la muestra del individuo i-ésimo y πi−1 es el peso dado por el diseño para dicho individuo. Los procedimientos ponderados modifican los pesos en un intento para ajustar la no respuesta. El estimador anterior suele reemplazarse por P (π pb )−1 y P i i −1 i (πi pbi ) donde la suma se extiende ahora sobre los individuos con respuesta y pbi es un estimador de la probabilidad de respuesta para el individuo i-ésimo, estimador que suele ser la proporción de individuos que responden en una subclase de la muestra. La ponderación está relacionada con la imputación mediante la media. Por ejemplo, si los pesos diseñados son constantes en subclases de la muestra, entonces imputar las unidades perdidas por las medias de las subclases en cada subclase y ponderar las unidades por la proporción de respuesta en cada subclase, conduce a las mismas estimaciones de las medias, si bien no a las mismas estimaciones de las varianzas muestrales. Procedimientos basados en modelos. Una amplia clase de procedimientos están amparados en la existencia de un modelo subyacente para los datos parcialmente perdidos, realizándose las inferencias sobre la verosimilitud asociada al modelo y estimando los parámetros por técnicas como la máxima verosimilitud. Las ventajas de estos métodos es su flexibilidad, evitar procedimientos ad hoc, la disponibilidad de estimaciones de la varianza para grandes muestras basadas en las segundas derivadas del logaritmo de la verosimilitud. Análisis Multivariante. 3o Grado en Estadı́stica Trabajo C 1.3. Trabajos Curso 2012-2013 3 Patrones de datos faltantes Algunos métodos de análisis están concebidos para patrones particulares de datos faltantes y emplean sólo análisis para datos completos. Otros métodos, como el algoritmo E.M., son aplicables a patrones más generales pero implican más cálculos que los diseñados para patrones especiales. Como ejemplo tomemos el analizado por Marin, Olsen y Rubin en 1980 sobre estudiantes de 10 escuelas de Illinois. En primer lugar se tiene un bloque de variables, fijado para todos los individuos al principio del estudio y, por lo tanto, es completamente observado. El segundo bloque consiste en variables medidas para todos los encuestados anteriores pero quince años después. Del total muestral anterior, el 79 % respondieron al bloque segundo. Ası́ pues el bloque primero es más observado que el bloque segundo. Los datos del estudio realizado a los quince años fueron tomados en varias fases y, por razones económicas, se fijaron los valores de las variables para un subconjunto de los individuos que respondieron al segundo bloque. Por lo tanto el bloque segundo es más observado que el tercero. Los bloques 1,2 y 3 forman un patrón monótono de datos faltantes. El cuarto bloque de variables está formado por un pequeño número de items medidos mediante un cuestionario enviado a los padres de todos los estudiantes de la muestra original. Del total respondieron el 65 %. Los cuatro bloques de variables no forman ya un patrón monótono. Sin embargo, sacrificando un relativamente pequeño número de datos, puede obtenerse un patrón monótono. 1.4. Mecanismos que conducen a datos faltantes El conocimiento, o la falta de él, sobre los mecanismos que conducen a la existencia de datos faltantes es un elemento clave para elegir un análisis apropiado e interpretar resultados. Algunas veces el mecanismo está bajo el control del estadı́stico. Por ejemplo, en una encuesta el mecanismo puede ser el proceso de selección muestral: unas variables (variables de diseño muestral) están dadas para todas las unidades de la población y otras son faltantes para las unidades que no han sido seleccionadas. Si los individuos fueran seleccionadas por muestreo probabilı́stico, entonces el macanismo está bajo el control del encuestador y puede considerarse ignorable. La técnica del doble muestreo en la metodologı́a de las encuestas proporciona otra circunstancia en la que el patrón de datos faltantes está bajo el control del encuestador. Se selecciona una muestra grande, fijando ciertas caracterı́sticas para los individuos. Los datos resultantes forman un patrón monótono. El caso de muestras censuradas ilustra una situación en la que el mecanismo que conduce a los datos faltantes no está bajo el control del estadı́stico, pero es conocido. Los datos, en este caso, están constituidos por el tiempo de ocurrencia de un suceso (fallo de una componente,...). Para algunos individuos de la muestra, el tiempo se censura porque el suceso no ha ocurrido antes de concluir el experimento. Si el tiempo de censura está determinado de antemano, entonces tenemos información parcial de que el tiempo de fallo excede al tiempo de censura. El análisis de los datos necesita tener en cuenta esta información para evitar resultados sesgados. En muchos análisis de datos el mecanismo que da lugar a la existencia de datos faltantes no se tiene de forma explı́cita. En tales casos se suele hacer la hipótesis de que el mecanismo es ignorable. Es posible, no obstante, incluir el mecanismo en el modelo estadı́stico mediante variables indicadoras que tomen el valor 1 si un item ha sido observado y 0 en otro caso. En general este mecanismo no debe ser ignorado. Análisis Multivariante. 3o Grado en Estadı́stica Trabajo C 1.5. Trabajos Curso 2012-2013 4 Muestras univariantes con valores faltantes Tal vez la situación más simple que nos podemos encontrar en este contexto es la de una variable aleatoria unidimensional. Sea Y tal variable y notemos por yi al valor que sobre ella toma el individuo i-ésimo. Supongamos que tenemos una muestra aleatoria y1 , . . . , yn de la cual son conocidos los valores y1 , . . . , ym (m < n) y desconocidos los valores ym+1 , . . . , yn . Una consecuencia obvia de la existencia de datos faltantes es la reducción del tamaño muestral de n a m. Podrı́amos plantearnos realizar el mismo análisis para la muestra reducida que el que harı́amos para la muestra completa. Por ejemplo, si suponemos que la variable de partida es normal unidimensional y deseamos hacer inferencias sobre la media poblacional, podrı́amos estimarla por medio de la media muestral de los valores observados. Asimismo se podrı́a estimar la varianza poblacional a partir de los valores observados. Cuando hacemos ésto estamos ignorando el mecanismo que produce la falta de datos observados. En este ambiente unidimensional, el mecanismo que produce la falta de datos puede ser ignorado si los valores faltantes lo son de forma aleatoria, lo cual notaremos por M.A.R. (missing at random). Esto significa que las unidades observadas son una submuestra aleatoria de las unidades muestrales. Si, por el contrario, la probabilidad de que yi sea observable depende del valor de yi entonces el mecanismo no debe ser ignorado ya que el análisis sólo de la muestra observada está sujeta a sesgos. Por ejemplo sea y una variable distribuida de forma normal con media cero y varianza uno y generemos una muestra aleatoria de tamaño 100 a partir de ella. Se estima la media poblacional mediante la media muestral, obteniéndose 0.03. A continuación podemos obtener una submuestra de los datos anteriores borrando unidades de forma independiente con probabilidad 0.5. La probabilidad de eliminar un dato no depende del valor de y. Ası́ obtenemos una muestra de tamaño 52 y la media muestral (en este caso -0.11) puede ser usada para estimar la media poblacional sin sesgo. A continuación tomemos los datos originales y eliminemos todos los valores positivos, manteniendo los negativos. La variable indicadora que muestra el mecanismo de datos faltantes es: 1 yi < 0 P[Ri = 1|yi ] = P[yi observado|yi ] = 0 yi ≥ 0 La probabilidad de respuesta depende de y y por lo tanto el mecanismo no puede ser ignorado ya que podrı́amos llegar a resultados sesgados. En particular la media muestral subestimarı́a la media poblacional al ser todos los valores muestrales menores que cero. En este caso el mecanismo de datos faltantes es del tipo censura. Si, como es el caso, el mecanismo de censura es conocido, entonces hay métodos disponibles que corrigen el sesgo. Estos métodos están casi siempre relacionados con la técnica de estimación por máxima verosimilitud. Si el mecanismo fuera desconocido el problema es bastante más complicado. En este caso, por ejemplo, el mecanismo no es ignorable. Una prueba evidente es que la muestra es asimétrica, lo cual contradice que proceda de una distribución normal. 1.6. Muestras bivariantes en las que los datos faltantes se producen sólo en una variable Supongamos que en el planteamiento anterior añadimos una nueva variable, X, para la cual se conocen todos los valores de una muestra de tamaño n. En ocasiones los valores muestrales de esa variable pueden estar presentes en la muestra desde el principio del experimento (por ejemplo, una covariable) o puede estar fijada de antemano por el experimentador (por ejemplo, una variable control en un diseño aleatorizado). Algunos de los datos Análisis Multivariante. 3o Grado en Estadı́stica Trabajo C Trabajos Curso 2012-2013 5 de Y pueden faltar por múltiples causas: no respuesta del individuo, valores que han sido descartados con posterioridad, errores al presentar los datos, etc... Las variables objeto de estudio pueden ser continuas o categóricas. El caso en el que ambas sean normales ha sido objeto de un estudio especial en la literatura sobre este tema. Si X es categórica e Y continua, los datos tienen una estructura de análisis de la varianza de una vı́a. Si ambas son categóricas entonces conforman una tabla de contingencia. Para los datos que responden a esta estructura es usual clasificar los mecanismos de falta de datos de acuerdo a si la probabilidad de respuesta: (1) Depende de Y y, posiblemente, de X. (2) Depende de X pero no de Y . (3) Es independiente de X y de Y . Rubin en 1976 propone la siguiente terminologı́a. Si se da el caso (3) entonces diremos que los datos faltante son missing at random (M.A.R.) y los observados son observed at random (O.A.R.). En este caso diremos que el total de los datos son completamente aleatorios (M.C.A.R), missing completely at random, y ası́ los valores observados de Y forman también una submuestra aleatoria de los valores muestrales de Y . Si se da el supuesto (2) entonces diremos que los datos son faltantes de forma aleatoria (M.A.R.) (missing at random). En tal caso los valores observados de Y no son necesariamente una submuestra aleatoria de los valores muestrales, pero sı́ son una submuestra aleatoria de los valores muestrales dentro de cada una de las clases definidas por X. Si se verifica el supuesto (1) los datos no son ni M.A.R. ni O.A.R. En los casos (2) y (3) el mecanismo de producción de datos faltantes es ignorable para las inferencias basadas en la verosimilitud. En el caso (3) ese mecanismo es ignorable tanto para las inferencias basadas en la verosimilitud como en las basadas en la propia muestra. En el caso (1) ese mecanismo no es ignorable. Ejemplo 1.1. Supongamos que las variables X e Y representan la edad y los ingresos de una muestra de n individuos. Si la probabilidad de que los ingresos de un individuo sean observados es la misma para todos los individuos, sin tener en cuenta su edad o ingreso, entonces los datos son M.A.R. y O.A.R. (y por lo tanto M.C.A.R). Si la probabilidad de que de que se observe un ingreso varı́a según la edad del encuestado pero no varı́a según el ingreso dentro del mismo grupo de edad, los datos son M.A.R. pero no O.A.R. Si la probabilidad de que el ingreso sea observado varı́a según el ingreso dentro del mismo grupo de edad, entonces no son ni M.A.R. ni O.A.R. Esta última es la cuestión más difı́cil de tratar analı́ticamente, lo cual es bastante importante pues es el caso que más se da en las aplicaciones prácticas. La significación de estos supuestos sobre el mecanismo que da origen a la existencia de datos faltantes depende del objetivo del análisis. Por ejemplo, si el interés radica en la distribución marginal de X , entonces los datos de Y (y el mecanismo que produce que falten datos de esa variable) es irrelevante. Si el interés radica en la distribución condicionada de Y dado X, entonces el análisis basado en las unidades observadas puede ser satisfactorio si los datos son M.A.R. Por otro lado, si Análisis Multivariante. 3o Grado en Estadı́stica Trabajo C Trabajos Curso 2012-2013 6 el interés radica en la distribución marginal de Y , o medidas tales como la media de Y , entonces el análisis basado sólo en los casos completos es generalmente sesgado salvo que los datos sean M.C.A.R. La estimación de la distribución conjunta de X e Y suponiendo que los datos son M.A.R. se simplifica bastante debido a la factorización f (X, Y ) = f (X)f (Y |X) Volviendo al ejemplo anterior, la inferencia sobre la distribución marginal de la edad puede basarse sobre los n valores muestrales de dicha variable. La inferencia sobre la distribución condicionada de los ingresos dada la edad puede basarse en las unidades de X e Y observadas. Los resultados de estos análisis pueden combinarse para estimar la distribución conjunta de la edad y los ingresos o la condicionada de la edad dados los ingresos. La estimación de la distribución condicionada de los ingresos dada la edad es con frecuencia del tipo del análisis de regresión y la estrategia de factorizar la distribución conjunta relaciona la idea de imputar los valores faltantes de los ingresos regresándolos sobre la edad y luego calculando predicciones sobre la ecuación de regresión. 1.7. Datos faltantes multivariantes Las estructuras de datos faltantes comentadas hasta ahora son univariantes en el sentido de que los valores faltantes están relacionados con una sola variable. Veamos ahora algunas estructuras multivariantes. Muchas técnicas estadı́sticas están basadas en la reducción inicial de la información muestral en el vector de medias y la matriz de varianzas-covarianzas muestral. La cuestión que surge ahora es cómo estimarlas a partir de datos incompletos. Supongamos que los datos pueden ponerse como un patrón monótono. Una aproximación simple al problema que tratamos de resolver es calcular los estadı́sticos anteriormente citados con sólo los datos observados. Estos métodos descartan gran cantidad de información. Además los datos pueden no ser M.C.A.R. y ello conlleva sesgos inevitablemente. Otra estrategia es suponer normalidad multivariante en los datos y estimar los parámetros por máxima verosimilitud. En el caso de patrones monótonos la cuestión no es difı́cil porque la estimación se simplifica por medio de factorizaciones de la distribución conjunta, obteniéndose los estimadores máximo verosı́miles a partir de regresiones sucesivas. En ocasiones los datos faltantes no presentan patrones monótonos. Sin embargo se ha desarrollado técnicas que pueden ser aplicadas a cualquier patrón de valores faltantes. Estos métodos están con frecuencia basados en estimaciones máximo verosı́miles suponiendo normalidad multivariante y la estimación supone algoritmos iterativos. El algoritmo de estimación-maximización (E.M.) es una técnica general muy importante para encontrar estimadores máximo-verosı́miles para datos incompletos. Es bastante instructivo puesto que está muy relacionado con los métodos que imputan datos de valores perdidos mediante regresión. Si los datos son categóricos no es apropiado reducir la información muestral mediante el vector de medias y la matriz de varianzas-covarianzas muestral. En tal caso los datos se ordenan en una tabla de contingencia, existiendo procedimientos para ello (incluso si los datos no son M.A.R.). 2. El algoritmo E.M. El algoritmo E.M. es un algoritmo iterativo de carácter general para la estimación máximo verosı́mil en problemas con datos incompletos. De hecho el rango de problemas que pueden ser abordados por este algoritmo es bastante amplio e incluye situaciones como la estimación de componentes de la varianza, mı́nimos cuadrados ponderados de forma iterativa,... Análisis Multivariante. 3o Grado en Estadı́stica Trabajo C Trabajos Curso 2012-2013 7 El algoritmo E.M. formaliza una antigua idea para tratar los datos faltantes: 1. Reemplazar los valores faltantes por valores estimados. 2. Estimar los parámetros del modelo. 3. Reestimar los valores faltantes tomando ahora las estimaciones anteriores de los parámetros. 4. Reestimar de nuevo los parámetros. y ası́ sucesivamente hasta llegar a una convergencia. Los métodos E.M. son algoritmos que se aplican en modelos para los cuales la logverosimilitud para los datos completos ln L(θ|Yo , Yf ) sea lineal en Yf .1 De forma más general se puede decir que antes que las observaciones individuales se necesita estimar estadı́sticos suficientes e, incluso de forma aún más general, es la logverosilimitud ln L(θ|Y ) la que necesita ser estimada en cada iteración del algoritmo para, después, ser maximizada. Puesto que el algoritmo E.M. está cercano a la idea intuitiva de imputar datos faltantes e iterar, no es sorprendente que haya aparecido en diversos contextos. La primera referencia es debida a McKendrick (1926), el cual se sitúa en un ambiente médico. Hartley (1958) considera el caso general de datos de conteo, desarrollando la teorı́a anexa. Baum et al. (1970) usan el algoritmo en un modelo de Markov. Orchard y Woodbury (1972) fueron los primero que vieron la aplicabilidad de la idea del algoritmo, adoptando la terminologı́a principio de información perdida. El término E.M. fue introducido por Dempster, Laird y Rubin en 1977, quienes proporcionaron resultados generales sobre el comportamiento del algoritmo (esencialmente el crecimiento de la logverosimilitud ln L(θ|Yo ) en cada iteración) y propusieron un amplio rango de ejemplos. Cada iteración del algoritmo E.M. consiste en un paso E (cálculo de esperanzas) y un paso M (paso de maximización). Estos pasos suelen ser fáciles de construir conceptualmente ası́ como tienen una interpretación estadı́stica. Una ventaja adicional del algoritmo es que bajo condiciones generales cada iteración hace aumentar la logverosimilitud ln L(θ|Yo ) y, si es acotada, la sucesión ln L(θ(t) |Yo ) converge a un valor estacionario. Más generalmente, si la sucesión θ(t) converge, lo hace a un máximo local o a un punto de silla de ln L(θ|Yo ). Una desventaja del algoritmo es que su razón de convergencia puede ser muy lenta si hay muchos datos faltantes. Dempster, Laird y Rubin (1977) demostraron que la convergencia es lineal con razón proporcional a la fracción de información sobre ln L(θ|Y ) que ha sido observada. El paso M del algoritmo es fácil de describir: desarrolla la estimación máximo veroxı́mil de θ como si no hubiera datos faltantes, o sea, como si hubieran sido imputados. Ası́ pues, el paso M del algoritmo emplea los mismos métodos computacionales que la estimación máximo verosı́mil a partir de ln L(θ|Y ). El paso E calcula la esperanza condicionada de los datos faltantes dados los datos observados y la estimación actual de los parámetros, sustituyendo posteriormente los datos faltantes por esas esperanzas. La idea clave del algoritmo, que se diseña desde la idea de imputar los datos faltantes e iterar, es que las datos faltantes no son Yf sino ciertas funciones suyas que aparecen en la logverosimilitud completa ln L(θ|Y ). 2.1. El algoritmo E.M. en las familias exponenciales El algoritmo E.M. posee una fácil y particular interpretación cuando los datos completos Y tienen una distribución que pertenezca a la familia exponencial regular, con densidad asociada 1 Notamos por Yf a los datos faltantes, mientras que Yo nota a los datos observados. Análisis Multivariante. 3o Grado en Estadı́stica Trabajo C Trabajos Curso 2012-2013 f (Y |θ) = 8 b(Y ) exp(s(Y )θ) a(θ) donde θ es un vector paramétrico d-dimensional, s(Y ) denota un vector de estadı́sticos suficientes y completos, mientras que a y b son funciones de θ e Y respectivamente. Es inmediato verificar que la logverosimilitud en este caso es una función lineal de s(Y ), por lo que el paso E del algoritmo queda reducido a calcular h i s(t+1) = E s(Y )|Yo , θ(t) mientras que el paso M encontrará el valor de θ que maximiza la logverosimilitud resultante a partir del paso anterior, teniendo en cuenta la actualización del conjunto de estadı́sticos suficientes y completos, o sea, se encuentra θ(t+1) que maximiza la función l(θ|s(Y ) = st+1 ). 3. El algoritmo EM para muestras incompletas de una normal multivariante Muchas técnicas estadı́sticas como la regresión lineal múltiple, el análisis de componentes principales, el análisis factorial, la correlación canónica, etc..., están basadas en el resumen inicial de la matriz de datos por medio de la media muestral y la matriz de varianzas-covarianzas. Por esta razón, cuando existen datos faltantes en la muestra, una cuestión de suma importancia es estimar de forma eficiente dichos estadı́sticos muestrales. A continuación exponemos la estimación máximo-verosı́mil de los mismos para una muestra incompleta procedente de una población normal multivariante. Para este desarrollo supondremos que los datos son MAR (missing at random). Sea X Np [µ; Σ] y sea X = (X1 , . . . , XN ) una muestra aleatoria simple extraı́da de dicha 0 0 población. Para cada j = 1, . . . , N notaremos Xj = (Xj,(1) |Xj,(2) )0 , donde la caja Xj,(1) es la parte de datos faltantes del individuo j-ésimo y Xj,(2) es la parte de datos observados en dicho individuo. Notaremos Xf = (X1,(1) , . . . , XN,(1) ) y Xo = (X1,(2) , . . . , XN,(2) ) a la parte de la muestra con datos faltantes y datos observados, respectivamente. N N X X Sean T1 = Xj y T2 = Xj Xj0 los estadı́sticos suficientes para µ y Σ en una población normal j=1 j=1 (t) (t) p-dimensional para una muestra completa. Llamemos T1 y T2 a los estadı́sticos anteriores obtenidos tras la iteración t-ésima. Asimismo sea µ(t) y Σ(t) las estimaciones de los parámetros en esa misma iteración del algoritmo. • El paso E del algoritmo consiste en calcular h i (t+1) |Xo = Xo ; µ(t) , Σ(t) E T1 Ahora bien T1 = N X j=1 y h i (t+1) |Xo = Xo ; µ(t) , Σ(t) E T2 N X Xj,(1) Xj = Xj,(2) j=1 y T2 = N X j=1 Xj Xj0 = N X j=1 Análisis Multivariante. 3o Grado en Estadı́stica 0 0 Xj,(1) Xj,(1) Xj,(1) Xj,(2) 0 0 Xj,(2) Xj,(1) Xj,(2) Xj,(2) ! Trabajo C Trabajos Curso 2012-2013 9 por lo que N h i X E Xj,(1) |Xl,(2) = xl,(2) , l = 1, . . . , N ; µ(t) , Σ(t) (t+1) (t) (t) |Xo = Xo ; µ , Σ = = E T1 E Xj,(2) |Xl,(2) = xl,(2) , l = 1, . . . , N ; µ(t) , Σ(t) j=1 X N N X E Xj,(1) |Xj,(2) = xj,(2) ; µ(t) , Σ(t) = = xj,(2) ! −1 (t) (t) (t) (t) (xj,(2) − µj,(2) ) µj,(1) + Σ12,j Σ22,j j=1 j=1 xj,(2) y razonando de igual manera se tiene i h (t+1) |Xo = Xo ; µ(t) , Σ(t) = E T2 i h  0 |Xj,(2) = xj,(2) ; µ(t) , Σ(t) E Xj,(1) |Xj,(2) = xj,(2) ; µ(t) , Σ(t) x0j,(2) E Xj,(1) Xj,(1)   i h = 0 xj,(2) E Xj,(1) |Xl,(2) = xj,(2) ; µ(t) , Σ(t) xj,(2) x0j,(2) j=1 N X  (t) Si llamamos x] = E Xj,(1) |Xj,(2) = xj,(2) ; µ(t) , Σ(t) entonces el paso E del algoritmo se j,(1) reduce a calcular dicho valor para todo individuo j para el que haya datos faltantes, lo cual (t) (t) permitirá actualizar el estadı́stico T1 . Por otro lado la actualización de T2 se realiza mediante el cálculo de ^ xj,(1) x0j,(1) (t) i h 0 = E Xj,(1) Xj,(1) |Xj,(2) = xj,(2) ; µ(t) , Σ(t) = h i (t) (t) (t) ] (t) ] (t) 0 0 = Cov Xj,(1) |Xj,(2) = xj,(2) ; µ(t) , Σ(t) + x] = Σ11,2,j + x] j,(1) xj,(1) j,(1) xj,(1) (t) ası́ como x] j,(1) xj,(2) , siendo −1 (t) (t) (t) (t) (t) Σ11,2,j = Σ11,j − Σ12,j Σ22,j Σ21,j 0 0 Notemos que dichas matrices dependen del ı́ndice j puesto que la partición Xj = (Xj,(1) |Xj,(2) )0 es distinta, en general, para cada individuo incompleto. De esta forma, en este paso del algoritmo, los datos faltantes se reemplazan por los valores x] j,(1) , obteniéndose ası́ una nueva actualización de los estadı́sticos T1 y T2 . • El paso M del algoritmo se realiza reestimando de nuevo los parámetros µ y Σ a partir de la actualización de los estadı́sticos T1 y T2 , o sea µ(t+1) = 1 (t+1) T N 1 Σ(t+1) = 1 (t+1) 0 T2 − µ(t+1) µ(t+1) N Análisis Multivariante. 3o Grado en Estadı́stica Trabajo C Trabajos Curso 2012-2013 10 La convergencia del algoritmo se suele establecer en cuanto a la estabilidad de las estimaciones y Σ(t) en dos iteraciones sucesivas ası́ como en los valores que va tomando el logaritmo de la función de verosimilitud (que va creciendo en cada etapa). En cuanto a la estimación inicial, punto de partida del algoritmo, se han sugerido diversas opciones, si bien Dempster, Laird y Rubin (1977) demostraron la convergencia del método independientemente de la solución inicial. Las principales alternativas para µ(0) y Σ(0) son: µ(t) • Usar en su cálculo sólo los casos completos. Ello proporciona estimaciones consistentes si los datos son MCAR y hay al menos p + 1 observaciones completas. • Usar para cada variable, y para cada par de variables en el caso de productos cruzados, sólo los casos disponibles. Ello puede llevar a matrices de varianzas-covarianzas no definidas positivas, con los consecuentes problemas en la primera iteración del algoritmo. No obstante, algunos paquetes estadı́sticos plantean en estos casos suavizamientos de la matriz de varianzas-covarianzas que llevan a matrices definidas positivas. Ejemplo 3.1. Dada la siguiente matriz de datos completa, eliminamos cinco de ellos 1 2 3 4 5 6 7 8 9 X1 19,5 24,7 30,7 29,8 19,1 25,6 31,4 27,9 22,1 X2 43,1 49,8 51,9 54,3 42,2 53,9 58,5 52,1 49,9 X3 29,1 28,2 37 31,1 30,9 23,7 27,6 30,6 23,2 1 2 3 4 5 6 7 8 9 X1 19,5 24,7 ∗ 29,8 19,1 25,6 ∗ 27,9 22,1 X2 43,1 49,8 51,9 54,3 ∗ 53,9 58,5 52,1 49,9 X3 29,1 28,2 37 31,1 30,9 23,7 ∗ ∗ 23,2 La solución inicial para el algoritmo EM se calculará empleando los casos disponibles para cada variable y par de variables. Ejercicio: Realizar dos iteraciones completas del algoritmo y rellenar la matriz de datos. Análisis Multivariante. 3o Grado en Estadı́stica

Introducción a la estimación con datos faltantes. Algoritmo EM para

Documentos relacionados

Productos

Apoyo

Introducción a la estimación con datos faltantes. Algoritmo EM para

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib