estimacion robusta en modelos no lineales con respuestas faltantes

ESTIMACION ROBUSTA EN MODELOS NO LINEALES CON RESPUESTAS FALTANTES ANA M. BIANCO(1) y PAULA M. SPANO(2) (1): Universidad de Buenos Aires y CONICET - [email protected] (2): Universidad de Buenos Aires y CONICET - [email protected] RESUMEN Uno de los problemas más frecuentes en Estadı́stica es el de estudiar la relación entre una de variable de respuesta y un conjunto de covariables, y en este marco el modelo más usado es el lineal. Sin embargo, en muchos casos la naturaleza del problema es intrı́nsecamente no lineal en uno o algunos de los parámetros y por lo tanto, no se puede simplificar su tratamiento como si fuera lineal o aproximadamente lineal. En ocasiones, ya sea por diseño o por azar, algunas respuestas son faltantes. En el contexto de modelos lineales con respuestas faltantes el estimador clásico del vector de parámetros es el de mı́nimos cuadrados. Es bien sabido que este estimador es muy vulnerable a la presencia de datos atı́picos. Proponemos una familia de M-estimadores generales simplificados para estimar el parámetro de regresión de un modelo no lineal cuando hay respuestas faltantes al azar. Derivamos la consistencia de Fisher de los estimadores propuestos y probamos que bajo condiciones de regularidad son consistentes y asintóticamente normales. A fin de estudiar su robustez local, derivamos su curva de influencia. Mediante un estudio de Monte Carlo estudiamos el comportamiento de los estimadores propuestos para muestras finitas en distintos modelos no lineales bajo diferentes esquemas de contaminación y para distintos modelos de la probabilidad de respuestas faltantes. PALABRAS CLAVE: Regresión No Lineal; Respuestas Faltantes; Estimación Robusta. 1 1. INTRODUCCIÓN Los modelos paramétricos son los modelos más difundidos en Estadı́stica y se basan en el supuesto de que las observaciones siguen una distribución conocida determinada por uno o más parámetros. Estos parámetros son en general el objeto de interés de la inferencia y tanto puede interesar estimarlos como realizar intervalos de confianza o tests de hipótesis. En este marco, una situación frecuente en el análisis estadı́stico es aquella en que los datos consisten en respuestas 𝑦𝑖 que se sabe están relacionadas con un vector x𝑖 de 𝑝 covariables mediante una función conocida 𝑓 a través de la ecuación 𝑦𝑖 = 𝑓 (x𝑖 , 𝜷) + 𝜎𝜖𝑖 𝑖 = 1, ..., 𝑛 , donde los errores 𝜖𝑖 son independientes, idénticamente distribuidos e independientes de las covariables y 𝜷 es el vector de parámetros a estimar. En la teorı́a clásica, se asume además que los errores 𝜖𝑖 tienen media 0 y varianza 1. Estos modelos asumen que la relación entre las covariables y la respuesta es conocida. Uno de los modelos más difundidos, entre otras razones por su fácil interpretación, es el modelo lineal y corresponde al caso en que 𝑓 (x𝑖 , 𝜷) = xt𝑖 𝜷 . Mediante transformaciones a las variables tanto de respuesta como las covariables, este modelo permite ajustar una gran variedad de problemas. Sin embargo, en muchas ocasiones la naturaleza del problema es intrı́nsecamente no lineal en uno o algunos de los parámetros y por lo tanto, no se puede simplificar su tratamiento como si fuera lineal o aproximadamente lineal. Por ejemplo, esta es la situación del modelo de Michaelis-Menten que se usa frecuentemente en biologı́a o en bioquı́mica para describir la velocidad en muchas reacciones enzimáticas y en investigación pesquera para modelar la relación reproducción-recolección, y está dado por 𝑓 (𝑥, 𝜷) = 𝛽1 𝑥 𝛽2 + 𝑥 𝛽2 > 0 , o el modelo de crecimiento exponencial, que en su expresión más sencilla puede escribirse como 𝑓 (𝑥, 𝜷) = 𝛽0 + 𝛽1 exp(𝛽2 𝑥) 𝛽2 > 0 , o el modelo de componentes lineales que puede expresarse como 𝑓 (x, 𝜷) = 𝑓 (x, 𝜷 1 , 𝜷 2 ) = 𝑝1 ∑ 𝛽1𝑗 𝑔𝑗 (x, 𝜷2 ) = 𝜷 t1 g(x, 𝜷2 ) 𝜷 1 ∈ 𝐼𝑅𝑝1 , 𝜷2 ∈ 𝐼𝑅𝑝2 . 𝑗=1 2 El estimador clásico de 𝜷 en estos modelos se obtiene a través del método de mı́nimos cuadrados y se define como ˆ = argmin 𝜷 b 𝑛 ∑ (𝑦𝑖 − 𝑓 (x𝑖 , b))2 , 𝑖=1 ˆ resuelve el sistema es decir 𝜷 𝑛 ∑ (𝑦𝑖 − 𝑓 (x𝑖 , b)) ḟ(x𝑖 , b) = 0 , (1) 𝑖=1 donde {ḟ}𝑗 = ∂𝑓 (x, b)/∂𝑏𝑗 . Es bien sabido que estos estimadores son muy sensibles al apartamiento de las suposiciones del modelo y podrı́an conducir a conclusiones erróneas si estas no se satisfacen. En este sentido, son muy vulnerables a la presencia de tan solo unos pocos datos atı́picos. Esto ha llevado a la búsqueda de procedimientos robustos que sean estables cuando hay datos anómalos en la muestra y a la vez eficientes cuando se cumplen las suposiciones del modelo. Muchas de las propuestas robustas introducidas en el contexto del modelo lineal fueron extendidas al modelo no lineal, entre ellas podemos mencionar las siguientes. Fraiman (1983) presenta una familia de 𝑀−estimadores generales de influencia acotada. Stromberg y Ruppert (1992) investigan el punto de ruptura en modelos no lineales y prueban que para la mayorı́a de las funciones no lineales el punto de ruptura del estimador de mı́nimos cuadrados es 1/𝑛, siendo 𝑛 el tamaño de la muestra, mostrando que el estimador clásico es sensible aún a un solo dato atı́pico. Stromberg (1993) introduce un algoritmo para computar estimadores de alto punto de ruptura en regresión no lineal que solo requieren una pequeña cantidad de ajustes de mı́nimos cuadrados para 𝑝 puntos y que involucra a la mı́nima mediana de cuadrados. Tabatabai y Argyros (1993) consideran 𝜏 −estimadores para modelos no lineales generales finito dimensionales y tratan también el problema de tests de hipótesis. Mukherjee (1996) discute una clase de estimadores robustos basados en mı́nimas distancias, mientras que Markatou y Manos (1996) consideran 𝑀−estimadores generales para el problema de pruebas de hipótesis. Más recientemente, Fasano (2009) deriva la teorı́a asintótica de los 𝑀𝑀− y 𝜏 −estimadores bajo condiciones generales y Fasano, Maronna, Sued y Yohai (2011) tratan el problema de la continuidad débil, la Fisher consistencia y diferenciabilidad de los funcionales asociados a los estimadores de 3 alto punto de ruptura tanto en el caso lineal como no lineal, incluyendo 𝑆− y 𝑀𝑀−estimadores. Sin embargo, la mayorı́a de ellas consideran la situación en que la muestra es completamente observada. En la práctica puede ocurrir que algunas respuestas sean faltantes. Esto puede suceder ya sea por diseño, como es el caso de estudios de dos etapas, o por simple azar. De hecho algunas personas se niegan a contestar sobre asuntos privados en una encuesta o la variable de respuesta puede ser difı́cil de medir. En otros casos, hay factores no manejables que pueden introducir cierta pérdida de información o puede haber problemas a la hora de registrar los datos. En estos casos es necesario desarrollar métodos especı́ficos para datos faltantes y estudiar sus propiedades. En el contexto de regresión no lineal, Müller (2009) considera el problema de estimar mediante un estimador completamente imputado la esperanza marginal de una función de la variable de respuesta bajo el supuesto de que las respuestas son faltantes al azar, mar (missing at random). Más recientemente, con el interés de estimar la distribución marginal de la respuesta bajo el supuesto de mar, Sued y Yohai (2012) proponen un procedimiento que permite estimar en forma consistente cualquier funcional débilmente continuo de la distribución de las respuestas, que incluye la mediana o 𝑀−estimadores. 2. METODOLOGÍA En el presente trabajo se considera el problema de estimar el parámetro de regresión de un modelo no lineal cuando hay respuestas faltantes, bajo el supuesto de que las respuestas son faltantes al azar, mar (missing at random), pero las covariabes x son completamente observadas. Se asume que ( se tiene ) una muestra incompleta que satisface la condición t mar y tal que 𝑦𝑖 , x𝑖 , 𝛿𝑖 , 1 ≤ 𝑖 ≤ 𝑛, donde 𝛿𝑖 = 1 si 𝑦𝑖 es observada, 𝛿𝑖 = 0 si 𝑦𝑖 es faltante y (𝑦𝑖 , xt𝑖 ) ∈ 𝐼𝑅𝑝+1 son tales que 𝑦𝑖 = 𝑓 (x𝑖 , 𝜷) + 𝜎𝜖𝑖 , donde los errores 𝜖𝑖 son independientes, independientes de x𝑖 con distribución simétrica 𝐹 (⋅). Se asume que la función de regresión 𝑓 es continua en sus dos parámetros. Sea (𝑦, xt, 𝛿) un vector aleatorio con la misma distribución que los vec( ) t tores de la muestra 𝑦𝑖 , x𝑖 , 𝛿𝑖 . El supuesto de respuestas faltantes al azar (mar) significa que 𝑃 (𝛿 = 1∣(𝑦, x)) = 𝑃 (𝛿 = 1∣x) = 𝑝 (x) . 4 (2) En otras palabras, se asume que subyace un mecanismo ignorable que produce los datos faltantes imponiendo que 𝛿 e 𝑦 son condicionalmente independientes dado x. Se introduce una clase de 𝑀−estimadores generales simplificados del parámetro de regresión 𝜷 y a tal efecto se considera una función de pérdida 𝜌 combinada con una función de peso 𝑤1 , a fin de obtener estimadores resistentes a outliers en los residuos y al mismo tiempo resistentes a valores en las covariables x de alta palanca. Sean 𝑤1 : 𝐼𝑅𝑝 → 𝐼𝑅 una función de peso para controlar la palanca de las covariables x y 𝜌 : 𝐼𝑅 → 𝐼𝑅 una función de pérdida que satisface 𝜌(𝑥) es una función no decreciente de ∣𝑥∣, 𝜌(0) = 0, 𝜌(𝑥) es creciente para 𝑥 > 0 cuando 𝜌(𝑥) < ∥𝜌∥∞ , si 𝜌 es acotada, se asume que ∥𝜌∥∞ = 1. Sea 𝜎ˆ = 𝜎ˆ𝑛 un estimador robusto consistente de 𝜎, entonces el estimador ˆ se define como simplificado de 𝜷, 𝜷, ˆ 𝜷 ( 𝑛 𝑦𝑖 − 𝑓 (x𝑖 , b) 1∑ 𝛿𝑖 𝜌 = argminb 𝑛 𝑖=1 𝜎ˆ ) 𝑤1 (x𝑖 ) . (3) ˆ satisSi 𝜌 es continuamente diferenciable con derivada 𝜓(𝑢) = ∂𝜌(𝑢)/∂𝑢, 𝜷 face el sistema en derivadas dado por ( ) 𝑛 𝑦𝑖 − 𝑓 (x𝑖 , b) 1∑ 𝛿𝑖 𝜓 ḟ(x𝑖 , b)𝑤1 (x𝑖 ) = 0 . 𝑛 𝑖=1 𝜎ˆ (4) 3. RESULTADOS Para la familia de estimadores definidos en (3) se probó la consistencia de Fisher y se estudiaron sus propiedades asintóticas. Se probó que bajo condiciones de regularidad, los estimadores obtenidos son consistentes y asintóticamente normales. A modo de investigar sus propiedades de robustez local, se obtuvo la función de influencia de los estimadores propuestos y se ilustra su comportamiento para distintos ejemplos de funciones de regresión y probabilidades de respuestas faltantes. 5 Mediante un estudio de Monte Carlo se estudió el comportamiento para muestras finitas de las propuestas robustas y se comparó con el de los estimadores clásicos. Este estudio numérico se realizó para diversos modelos no lineales teniendo en cuenta distintos esquemas de contaminación y considerando diferentes modelos para las probabilidades de respuestas faltantes. 4. REFERENCIAS FASANO, M. V. (2009). Teorı́a asintótica de estimadores robustos en regresión no lineal. Tesis doctoral, Universidad Nacional de La Plata. Disponible en http://www.mate.unlp.edu.ar/tesis/tesis fasano v.pdf. FASANO, M. V., MARONNA, R. A., SUED, M. y YOHAI, V. J. (2011). Continuity and differentiability of regression M-estimates. Disponible en http://arxiv.org/abs/1004.4314. FRAIMAN, R. (1983). General M-estimators and applications to bounded influence estimation for non-linear regression. Communications in Statistics. Theory and Methods, Vol A12, 22, 2617-2631. MARKATOU, M. y MANOS, G. (1996). Robust tests in nonlinear regression models. Journal of Statistical Planning and Inference, 55, 205-217. MUKHERJEE, K. (1996). Robust estimation in nonlinear regression via minimum distance method. Mathematical Methods of Statistics, 5, 99-112. MÜLLER, U. U. (2009). Estimating linear functionals in nonlinear regression with responses missing at random. Annals of Statistics, 37, 2245-2277. STROMBERG, A. J. (1993). Computation of High Breakdown Nonlinear Regression Parameters. Journal of the American Statistical Association, 88, 237-244. STROMBERG, A. J. y RUPPERT, D. (1992). Breakdown in nonlinear regression. Journal of the American Statistical Association, 87, 991997. 6 SUED, M. y YOHAI, V. J. (2012). A robust approach for location estimation in a missing data setting. Disponible en http://arxiv.org/abs/1004.5418. TABATABAI, M. A. y ARGYROS, I. K. (1993). Robust estimation and testing for general nonlinear regression models. Applied Mathematics and Computation, 58, 85-101. 7

estimacion robusta en modelos no lineales con respuestas faltantes

Documentos relacionados

Productos

Apoyo

estimacion robusta en modelos no lineales con respuestas faltantes

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib