ESTIMACION ROBUSTA EN MODELOS NO LINEALES CON RESPUESTAS FALTANTES ANA M. BIANCO(1) y PAULA M. SPANO(2) (1): Universidad de Buenos Aires y CONICET - [email protected] (2): Universidad de Buenos Aires y CONICET - [email protected] RESUMEN Uno de los problemas más frecuentes en Estadı́stica es el de estudiar la relación entre una de variable de respuesta y un conjunto de covariables, y en este marco el modelo más usado es el lineal. Sin embargo, en muchos casos la naturaleza del problema es intrı́nsecamente no lineal en uno o algunos de los parámetros y por lo tanto, no se puede simplificar su tratamiento como si fuera lineal o aproximadamente lineal. En ocasiones, ya sea por diseño o por azar, algunas respuestas son faltantes. En el contexto de modelos lineales con respuestas faltantes el estimador clásico del vector de parámetros es el de mı́nimos cuadrados. Es bien sabido que este estimador es muy vulnerable a la presencia de datos atı́picos. Proponemos una familia de M-estimadores generales simplificados para estimar el parámetro de regresión de un modelo no lineal cuando hay respuestas faltantes al azar. Derivamos la consistencia de Fisher de los estimadores propuestos y probamos que bajo condiciones de regularidad son consistentes y asintóticamente normales. A fin de estudiar su robustez local, derivamos su curva de influencia. Mediante un estudio de Monte Carlo estudiamos el comportamiento de los estimadores propuestos para muestras finitas en distintos modelos no lineales bajo diferentes esquemas de contaminación y para distintos modelos de la probabilidad de respuestas faltantes. PALABRAS CLAVE: Regresión No Lineal; Respuestas Faltantes; Estimación Robusta. 1 1. INTRODUCCIÓN Los modelos paramétricos son los modelos más difundidos en Estadı́stica y se basan en el supuesto de que las observaciones siguen una distribución conocida determinada por uno o más parámetros. Estos parámetros son en general el objeto de interés de la inferencia y tanto puede interesar estimarlos como realizar intervalos de confianza o tests de hipótesis. En este marco, una situación frecuente en el análisis estadı́stico es aquella en que los datos consisten en respuestas 𝑦𝑖 que se sabe están relacionadas con un vector x𝑖 de 𝑝 covariables mediante una función conocida 𝑓 a través de la ecuación 𝑦𝑖 = 𝑓 (x𝑖 , 𝜷) + 𝜎𝜖𝑖 𝑖 = 1, ..., 𝑛 , donde los errores 𝜖𝑖 son independientes, idénticamente distribuidos e independientes de las covariables y 𝜷 es el vector de parámetros a estimar. En la teorı́a clásica, se asume además que los errores 𝜖𝑖 tienen media 0 y varianza 1. Estos modelos asumen que la relación entre las covariables y la respuesta es conocida. Uno de los modelos más difundidos, entre otras razones por su fácil interpretación, es el modelo lineal y corresponde al caso en que 𝑓 (x𝑖 , 𝜷) = xt𝑖 𝜷 . Mediante transformaciones a las variables tanto de respuesta como las covariables, este modelo permite ajustar una gran variedad de problemas. Sin embargo, en muchas ocasiones la naturaleza del problema es intrı́nsecamente no lineal en uno o algunos de los parámetros y por lo tanto, no se puede simplificar su tratamiento como si fuera lineal o aproximadamente lineal. Por ejemplo, esta es la situación del modelo de Michaelis-Menten que se usa frecuentemente en biologı́a o en bioquı́mica para describir la velocidad en muchas reacciones enzimáticas y en investigación pesquera para modelar la relación reproducción-recolección, y está dado por 𝑓 (𝑥, 𝜷) = 𝛽1 𝑥 𝛽2 + 𝑥 𝛽2 > 0 , o el modelo de crecimiento exponencial, que en su expresión más sencilla puede escribirse como 𝑓 (𝑥, 𝜷) = 𝛽0 + 𝛽1 exp(𝛽2 𝑥) 𝛽2 > 0 , o el modelo de componentes lineales que puede expresarse como 𝑓 (x, 𝜷) = 𝑓 (x, 𝜷 1 , 𝜷 2 ) = 𝑝1 ∑ 𝛽1𝑗 𝑔𝑗 (x, 𝜷2 ) = 𝜷 t1 g(x, 𝜷2 ) 𝜷 1 ∈ 𝐼𝑅𝑝1 , 𝜷2 ∈ 𝐼𝑅𝑝2 . 𝑗=1 2 El estimador clásico de 𝜷 en estos modelos se obtiene a través del método de mı́nimos cuadrados y se define como ˆ = argmin 𝜷 b 𝑛 ∑ (𝑦𝑖 − 𝑓 (x𝑖 , b))2 , 𝑖=1 ˆ resuelve el sistema es decir 𝜷 𝑛 ∑ (𝑦𝑖 − 𝑓 (x𝑖 , b)) ḟ(x𝑖 , b) = 0 , (1) 𝑖=1 donde {ḟ}𝑗 = ∂𝑓 (x, b)/∂𝑏𝑗 . Es bien sabido que estos estimadores son muy sensibles al apartamiento de las suposiciones del modelo y podrı́an conducir a conclusiones erróneas si estas no se satisfacen. En este sentido, son muy vulnerables a la presencia de tan solo unos pocos datos atı́picos. Esto ha llevado a la búsqueda de procedimientos robustos que sean estables cuando hay datos anómalos en la muestra y a la vez eficientes cuando se cumplen las suposiciones del modelo. Muchas de las propuestas robustas introducidas en el contexto del modelo lineal fueron extendidas al modelo no lineal, entre ellas podemos mencionar las siguientes. Fraiman (1983) presenta una familia de 𝑀−estimadores generales de influencia acotada. Stromberg y Ruppert (1992) investigan el punto de ruptura en modelos no lineales y prueban que para la mayorı́a de las funciones no lineales el punto de ruptura del estimador de mı́nimos cuadrados es 1/𝑛, siendo 𝑛 el tamaño de la muestra, mostrando que el estimador clásico es sensible aún a un solo dato atı́pico. Stromberg (1993) introduce un algoritmo para computar estimadores de alto punto de ruptura en regresión no lineal que solo requieren una pequeña cantidad de ajustes de mı́nimos cuadrados para 𝑝 puntos y que involucra a la mı́nima mediana de cuadrados. Tabatabai y Argyros (1993) consideran 𝜏 −estimadores para modelos no lineales generales finito dimensionales y tratan también el problema de tests de hipótesis. Mukherjee (1996) discute una clase de estimadores robustos basados en mı́nimas distancias, mientras que Markatou y Manos (1996) consideran 𝑀−estimadores generales para el problema de pruebas de hipótesis. Más recientemente, Fasano (2009) deriva la teorı́a asintótica de los 𝑀𝑀− y 𝜏 −estimadores bajo condiciones generales y Fasano, Maronna, Sued y Yohai (2011) tratan el problema de la continuidad débil, la Fisher consistencia y diferenciabilidad de los funcionales asociados a los estimadores de 3 alto punto de ruptura tanto en el caso lineal como no lineal, incluyendo 𝑆− y 𝑀𝑀−estimadores. Sin embargo, la mayorı́a de ellas consideran la situación en que la muestra es completamente observada. En la práctica puede ocurrir que algunas respuestas sean faltantes. Esto puede suceder ya sea por diseño, como es el caso de estudios de dos etapas, o por simple azar. De hecho algunas personas se niegan a contestar sobre asuntos privados en una encuesta o la variable de respuesta puede ser difı́cil de medir. En otros casos, hay factores no manejables que pueden introducir cierta pérdida de información o puede haber problemas a la hora de registrar los datos. En estos casos es necesario desarrollar métodos especı́ficos para datos faltantes y estudiar sus propiedades. En el contexto de regresión no lineal, Müller (2009) considera el problema de estimar mediante un estimador completamente imputado la esperanza marginal de una función de la variable de respuesta bajo el supuesto de que las respuestas son faltantes al azar, mar (missing at random). Más recientemente, con el interés de estimar la distribución marginal de la respuesta bajo el supuesto de mar, Sued y Yohai (2012) proponen un procedimiento que permite estimar en forma consistente cualquier funcional débilmente continuo de la distribución de las respuestas, que incluye la mediana o 𝑀−estimadores. 2. METODOLOGÍA En el presente trabajo se considera el problema de estimar el parámetro de regresión de un modelo no lineal cuando hay respuestas faltantes, bajo el supuesto de que las respuestas son faltantes al azar, mar (missing at random), pero las covariabes x son completamente observadas. Se asume que ( se tiene ) una muestra incompleta que satisface la condición t mar y tal que 𝑦𝑖 , x𝑖 , 𝛿𝑖 , 1 ≤ 𝑖 ≤ 𝑛, donde 𝛿𝑖 = 1 si 𝑦𝑖 es observada, 𝛿𝑖 = 0 si 𝑦𝑖 es faltante y (𝑦𝑖 , xt𝑖 ) ∈ 𝐼𝑅𝑝+1 son tales que 𝑦𝑖 = 𝑓 (x𝑖 , 𝜷) + 𝜎𝜖𝑖 , donde los errores 𝜖𝑖 son independientes, independientes de x𝑖 con distribución simétrica 𝐹 (⋅). Se asume que la función de regresión 𝑓 es continua en sus dos parámetros. Sea (𝑦, xt, 𝛿) un vector aleatorio con la misma distribución que los vec( ) t tores de la muestra 𝑦𝑖 , x𝑖 , 𝛿𝑖 . El supuesto de respuestas faltantes al azar (mar) significa que 𝑃 (𝛿 = 1∣(𝑦, x)) = 𝑃 (𝛿 = 1∣x) = 𝑝 (x) . 4 (2) En otras palabras, se asume que subyace un mecanismo ignorable que produce los datos faltantes imponiendo que 𝛿 e 𝑦 son condicionalmente independientes dado x. Se introduce una clase de 𝑀−estimadores generales simplificados del parámetro de regresión 𝜷 y a tal efecto se considera una función de pérdida 𝜌 combinada con una función de peso 𝑤1 , a fin de obtener estimadores resistentes a outliers en los residuos y al mismo tiempo resistentes a valores en las covariables x de alta palanca. Sean 𝑤1 : 𝐼𝑅𝑝 → 𝐼𝑅 una función de peso para controlar la palanca de las covariables x y 𝜌 : 𝐼𝑅 → 𝐼𝑅 una función de pérdida que satisface 𝜌(𝑥) es una función no decreciente de ∣𝑥∣, 𝜌(0) = 0, 𝜌(𝑥) es creciente para 𝑥 > 0 cuando 𝜌(𝑥) < ∥𝜌∥∞ , si 𝜌 es acotada, se asume que ∥𝜌∥∞ = 1. Sea 𝜎ˆ = 𝜎ˆ𝑛 un estimador robusto consistente de 𝜎, entonces el estimador ˆ se define como simplificado de 𝜷, 𝜷, ˆ 𝜷 ( 𝑛 𝑦𝑖 − 𝑓 (x𝑖 , b) 1∑ 𝛿𝑖 𝜌 = argminb 𝑛 𝑖=1 𝜎ˆ ) 𝑤1 (x𝑖 ) . (3) ˆ satisSi 𝜌 es continuamente diferenciable con derivada 𝜓(𝑢) = ∂𝜌(𝑢)/∂𝑢, 𝜷 face el sistema en derivadas dado por ( ) 𝑛 𝑦𝑖 − 𝑓 (x𝑖 , b) 1∑ 𝛿𝑖 𝜓 ḟ(x𝑖 , b)𝑤1 (x𝑖 ) = 0 . 𝑛 𝑖=1 𝜎ˆ (4) 3. RESULTADOS Para la familia de estimadores definidos en (3) se probó la consistencia de Fisher y se estudiaron sus propiedades asintóticas. Se probó que bajo condiciones de regularidad, los estimadores obtenidos son consistentes y asintóticamente normales. A modo de investigar sus propiedades de robustez local, se obtuvo la función de influencia de los estimadores propuestos y se ilustra su comportamiento para distintos ejemplos de funciones de regresión y probabilidades de respuestas faltantes. 5 Mediante un estudio de Monte Carlo se estudió el comportamiento para muestras finitas de las propuestas robustas y se comparó con el de los estimadores clásicos. Este estudio numérico se realizó para diversos modelos no lineales teniendo en cuenta distintos esquemas de contaminación y considerando diferentes modelos para las probabilidades de respuestas faltantes. 4. REFERENCIAS FASANO, M. V. (2009). Teorı́a asintótica de estimadores robustos en regresión no lineal. Tesis doctoral, Universidad Nacional de La Plata. Disponible en http://www.mate.unlp.edu.ar/tesis/tesis fasano v.pdf. FASANO, M. V., MARONNA, R. A., SUED, M. y YOHAI, V. J. (2011). Continuity and differentiability of regression M-estimates. Disponible en http://arxiv.org/abs/1004.4314. FRAIMAN, R. (1983). General M-estimators and applications to bounded influence estimation for non-linear regression. Communications in Statistics. Theory and Methods, Vol A12, 22, 2617-2631. MARKATOU, M. y MANOS, G. (1996). Robust tests in nonlinear regression models. Journal of Statistical Planning and Inference, 55, 205-217. MUKHERJEE, K. (1996). Robust estimation in nonlinear regression via minimum distance method. Mathematical Methods of Statistics, 5, 99-112. MÜLLER, U. U. (2009). Estimating linear functionals in nonlinear regression with responses missing at random. Annals of Statistics, 37, 2245-2277. STROMBERG, A. J. (1993). Computation of High Breakdown Nonlinear Regression Parameters. Journal of the American Statistical Association, 88, 237-244. STROMBERG, A. J. y RUPPERT, D. (1992). Breakdown in nonlinear regression. Journal of the American Statistical Association, 87, 991997. 6 SUED, M. y YOHAI, V. J. (2012). A robust approach for location estimation in a missing data setting. Disponible en http://arxiv.org/abs/1004.5418. TABATABAI, M. A. y ARGYROS, I. K. (1993). Robust estimation and testing for general nonlinear regression models. Applied Mathematics and Computation, 58, 85-101. 7