estimacion robusta en modelos no lineales con respuestas faltantes

Anuncio
ESTIMACION ROBUSTA EN MODELOS
NO LINEALES CON RESPUESTAS FALTANTES
ANA M. BIANCO(1) y PAULA M. SPANO(2)
(1): Universidad de Buenos Aires y CONICET - [email protected]
(2): Universidad de Buenos Aires y CONICET - [email protected]
RESUMEN
Uno de los problemas más frecuentes en Estadı́stica es el de estudiar la
relación entre una de variable de respuesta y un conjunto de covariables, y en
este marco el modelo más usado es el lineal. Sin embargo, en muchos casos
la naturaleza del problema es intrı́nsecamente no lineal en uno o algunos de
los parámetros y por lo tanto, no se puede simplificar su tratamiento como
si fuera lineal o aproximadamente lineal. En ocasiones, ya sea por diseño o
por azar, algunas respuestas son faltantes. En el contexto de modelos lineales
con respuestas faltantes el estimador clásico del vector de parámetros es el
de mı́nimos cuadrados. Es bien sabido que este estimador es muy vulnerable
a la presencia de datos atı́picos. Proponemos una familia de M-estimadores
generales simplificados para estimar el parámetro de regresión de un modelo
no lineal cuando hay respuestas faltantes al azar. Derivamos la consistencia
de Fisher de los estimadores propuestos y probamos que bajo condiciones de
regularidad son consistentes y asintóticamente normales. A fin de estudiar
su robustez local, derivamos su curva de influencia. Mediante un estudio de
Monte Carlo estudiamos el comportamiento de los estimadores propuestos
para muestras finitas en distintos modelos no lineales bajo diferentes esquemas de contaminación y para distintos modelos de la probabilidad de
respuestas faltantes.
PALABRAS CLAVE: Regresión No Lineal; Respuestas Faltantes; Estimación Robusta.
1
1. INTRODUCCIÓN
Los modelos paramétricos son los modelos más difundidos en Estadı́stica
y se basan en el supuesto de que las observaciones siguen una distribución
conocida determinada por uno o más parámetros. Estos parámetros son en
general el objeto de interés de la inferencia y tanto puede interesar estimarlos
como realizar intervalos de confianza o tests de hipótesis. En este marco,
una situación frecuente en el análisis estadı́stico es aquella en que los datos
consisten en respuestas 𝑦𝑖 que se sabe están relacionadas con un vector x𝑖 de
𝑝 covariables mediante una función conocida 𝑓 a través de la ecuación
𝑦𝑖 = 𝑓 (x𝑖 , 𝜷) + 𝜎𝜖𝑖
𝑖 = 1, ..., 𝑛 ,
donde los errores 𝜖𝑖 son independientes, idénticamente distribuidos e independientes de las covariables y 𝜷 es el vector de parámetros a estimar. En la
teorı́a clásica, se asume además que los errores 𝜖𝑖 tienen media 0 y varianza
1. Estos modelos asumen que la relación entre las covariables y la respuesta
es conocida. Uno de los modelos más difundidos, entre otras razones por su
fácil interpretación, es el modelo lineal y corresponde al caso en que
𝑓 (x𝑖 , 𝜷) = xt𝑖 𝜷 .
Mediante transformaciones a las variables tanto de respuesta como las covariables, este modelo permite ajustar una gran variedad de problemas. Sin
embargo, en muchas ocasiones la naturaleza del problema es intrı́nsecamente
no lineal en uno o algunos de los parámetros y por lo tanto, no se puede
simplificar su tratamiento como si fuera lineal o aproximadamente lineal.
Por ejemplo, esta es la situación del modelo de Michaelis-Menten que se usa
frecuentemente en biologı́a o en bioquı́mica para describir la velocidad en
muchas reacciones enzimáticas y en investigación pesquera para modelar la
relación reproducción-recolección, y está dado por
𝑓 (𝑥, 𝜷) =
𝛽1 𝑥
𝛽2 + 𝑥
𝛽2 > 0 ,
o el modelo de crecimiento exponencial, que en su expresión más sencilla
puede escribirse como
𝑓 (𝑥, 𝜷) = 𝛽0 + 𝛽1 exp(𝛽2 𝑥) 𝛽2 > 0 ,
o el modelo de componentes lineales que puede expresarse como
𝑓 (x, 𝜷) = 𝑓 (x, 𝜷 1 , 𝜷 2 ) =
𝑝1
∑
𝛽1𝑗 𝑔𝑗 (x, 𝜷2 ) = 𝜷 t1 g(x, 𝜷2 ) 𝜷 1 ∈ 𝐼𝑅𝑝1 , 𝜷2 ∈ 𝐼𝑅𝑝2 .
𝑗=1
2
El estimador clásico de 𝜷 en estos modelos se obtiene a través del método
de mı́nimos cuadrados y se define como
ˆ = argmin
𝜷
b
𝑛
∑
(𝑦𝑖 − 𝑓 (x𝑖 , b))2 ,
𝑖=1
ˆ resuelve el sistema
es decir 𝜷
𝑛
∑
(𝑦𝑖 − 𝑓 (x𝑖 , b)) ḟ(x𝑖 , b) = 0 ,
(1)
𝑖=1
donde {ḟ}𝑗 = ∂𝑓 (x, b)/∂𝑏𝑗 . Es bien sabido que estos estimadores son muy
sensibles al apartamiento de las suposiciones del modelo y podrı́an conducir
a conclusiones erróneas si estas no se satisfacen. En este sentido, son muy
vulnerables a la presencia de tan solo unos pocos datos atı́picos. Esto ha
llevado a la búsqueda de procedimientos robustos que sean estables cuando
hay datos anómalos en la muestra y a la vez eficientes cuando se cumplen las
suposiciones del modelo.
Muchas de las propuestas robustas introducidas en el contexto del modelo lineal fueron extendidas al modelo no lineal, entre ellas podemos mencionar las siguientes. Fraiman (1983) presenta una familia de 𝑀−estimadores
generales de influencia acotada. Stromberg y Ruppert (1992) investigan el
punto de ruptura en modelos no lineales y prueban que para la mayorı́a
de las funciones no lineales el punto de ruptura del estimador de mı́nimos
cuadrados es 1/𝑛, siendo 𝑛 el tamaño de la muestra, mostrando que el estimador clásico es sensible aún a un solo dato atı́pico. Stromberg (1993)
introduce un algoritmo para computar estimadores de alto punto de ruptura
en regresión no lineal que solo requieren una pequeña cantidad de ajustes
de mı́nimos cuadrados para 𝑝 puntos y que involucra a la mı́nima mediana
de cuadrados. Tabatabai y Argyros (1993) consideran 𝜏 −estimadores para
modelos no lineales generales finito dimensionales y tratan también el problema de tests de hipótesis. Mukherjee (1996) discute una clase de estimadores
robustos basados en mı́nimas distancias, mientras que Markatou y Manos
(1996) consideran 𝑀−estimadores generales para el problema de pruebas de
hipótesis. Más recientemente, Fasano (2009) deriva la teorı́a asintótica de los
𝑀𝑀− y 𝜏 −estimadores bajo condiciones generales y Fasano, Maronna, Sued
y Yohai (2011) tratan el problema de la continuidad débil, la Fisher consistencia y diferenciabilidad de los funcionales asociados a los estimadores de
3
alto punto de ruptura tanto en el caso lineal como no lineal, incluyendo 𝑆− y
𝑀𝑀−estimadores. Sin embargo, la mayorı́a de ellas consideran la situación
en que la muestra es completamente observada.
En la práctica puede ocurrir que algunas respuestas sean faltantes. Esto
puede suceder ya sea por diseño, como es el caso de estudios de dos etapas,
o por simple azar. De hecho algunas personas se niegan a contestar sobre
asuntos privados en una encuesta o la variable de respuesta puede ser difı́cil
de medir. En otros casos, hay factores no manejables que pueden introducir
cierta pérdida de información o puede haber problemas a la hora de registrar
los datos. En estos casos es necesario desarrollar métodos especı́ficos para
datos faltantes y estudiar sus propiedades. En el contexto de regresión no
lineal, Müller (2009) considera el problema de estimar mediante un estimador
completamente imputado la esperanza marginal de una función de la variable
de respuesta bajo el supuesto de que las respuestas son faltantes al azar,
mar (missing at random). Más recientemente, con el interés de estimar la
distribución marginal de la respuesta bajo el supuesto de mar, Sued y Yohai
(2012) proponen un procedimiento que permite estimar en forma consistente
cualquier funcional débilmente continuo de la distribución de las respuestas,
que incluye la mediana o 𝑀−estimadores.
2. METODOLOGÍA
En el presente trabajo se considera el problema de estimar el parámetro
de regresión de un modelo no lineal cuando hay respuestas faltantes, bajo
el supuesto de que las respuestas son faltantes al azar, mar (missing at
random), pero las covariabes x son completamente observadas.
Se asume que
( se tiene
) una muestra incompleta que satisface la condición
t
mar y tal que 𝑦𝑖 , x𝑖 , 𝛿𝑖 , 1 ≤ 𝑖 ≤ 𝑛, donde 𝛿𝑖 = 1 si 𝑦𝑖 es observada, 𝛿𝑖 = 0
si 𝑦𝑖 es faltante y (𝑦𝑖 , xt𝑖 ) ∈ 𝐼𝑅𝑝+1 son tales que
𝑦𝑖 = 𝑓 (x𝑖 , 𝜷) + 𝜎𝜖𝑖 ,
donde los errores 𝜖𝑖 son independientes, independientes de x𝑖 con distribución
simétrica 𝐹 (⋅). Se asume que la función de regresión 𝑓 es continua en sus dos
parámetros.
Sea (𝑦, xt, 𝛿) un vector
aleatorio
con la misma distribución que los vec(
)
t
tores de la muestra 𝑦𝑖 , x𝑖 , 𝛿𝑖 . El supuesto de respuestas faltantes al azar
(mar) significa que
𝑃 (𝛿 = 1∣(𝑦, x)) = 𝑃 (𝛿 = 1∣x) = 𝑝 (x) .
4
(2)
En otras palabras, se asume que subyace un mecanismo ignorable que produce
los datos faltantes imponiendo que 𝛿 e 𝑦 son condicionalmente independientes
dado x.
Se introduce una clase de 𝑀−estimadores generales simplificados del
parámetro de regresión 𝜷 y a tal efecto se considera una función de pérdida
𝜌 combinada con una función de peso 𝑤1 , a fin de obtener estimadores resistentes a outliers en los residuos y al mismo tiempo resistentes a valores en
las covariables x de alta palanca.
Sean 𝑤1 : 𝐼𝑅𝑝 → 𝐼𝑅 una función de peso para controlar la palanca de las
covariables x y 𝜌 : 𝐼𝑅 → 𝐼𝑅 una función de pérdida que satisface
𝜌(𝑥) es una función no decreciente de ∣𝑥∣,
𝜌(0) = 0,
𝜌(𝑥) es creciente para 𝑥 > 0 cuando 𝜌(𝑥) < ∥𝜌∥∞ ,
si 𝜌 es acotada, se asume que ∥𝜌∥∞ = 1.
Sea 𝜎ˆ = 𝜎ˆ𝑛 un estimador robusto consistente de 𝜎, entonces el estimador
ˆ se define como
simplificado de 𝜷, 𝜷,
ˆ
𝜷
(
𝑛
𝑦𝑖 − 𝑓 (x𝑖 , b)
1∑
𝛿𝑖 𝜌
= argminb
𝑛 𝑖=1
𝜎ˆ
)
𝑤1 (x𝑖 ) .
(3)
ˆ satisSi 𝜌 es continuamente diferenciable con derivada 𝜓(𝑢) = ∂𝜌(𝑢)/∂𝑢, 𝜷
face el sistema en derivadas dado por
(
)
𝑛
𝑦𝑖 − 𝑓 (x𝑖 , b)
1∑
𝛿𝑖 𝜓
ḟ(x𝑖 , b)𝑤1 (x𝑖 ) = 0 .
𝑛 𝑖=1
𝜎ˆ
(4)
3. RESULTADOS
Para la familia de estimadores definidos en (3) se probó la consistencia de Fisher y se estudiaron sus propiedades asintóticas. Se probó que bajo condiciones de regularidad, los estimadores obtenidos son consistentes y
asintóticamente normales.
A modo de investigar sus propiedades de robustez local, se obtuvo la
función de influencia de los estimadores propuestos y se ilustra su comportamiento para distintos ejemplos de funciones de regresión y probabilidades
de respuestas faltantes.
5
Mediante un estudio de Monte Carlo se estudió el comportamiento para
muestras finitas de las propuestas robustas y se comparó con el de los estimadores clásicos. Este estudio numérico se realizó para diversos modelos
no lineales teniendo en cuenta distintos esquemas de contaminación y considerando diferentes modelos para las probabilidades de respuestas faltantes.
4. REFERENCIAS
FASANO, M. V. (2009). Teorı́a asintótica de estimadores robustos en
regresión no lineal. Tesis doctoral, Universidad Nacional de La Plata.
Disponible en http://www.mate.unlp.edu.ar/tesis/tesis fasano v.pdf.
FASANO, M. V., MARONNA, R. A., SUED, M. y YOHAI, V. J.
(2011). Continuity and differentiability of regression M-estimates. Disponible
en http://arxiv.org/abs/1004.4314.
FRAIMAN, R. (1983). General M-estimators and applications to bounded influence estimation for non-linear regression. Communications in
Statistics. Theory and Methods, Vol A12, 22, 2617-2631.
MARKATOU, M. y MANOS, G. (1996). Robust tests in nonlinear
regression models. Journal of Statistical Planning and Inference, 55,
205-217.
MUKHERJEE, K. (1996). Robust estimation in nonlinear regression
via minimum distance method. Mathematical Methods of Statistics, 5,
99-112.
MÜLLER, U. U. (2009). Estimating linear functionals in nonlinear regression with responses missing at random. Annals of Statistics, 37,
2245-2277.
STROMBERG, A. J. (1993). Computation of High Breakdown Nonlinear Regression Parameters. Journal of the American Statistical Association, 88, 237-244.
STROMBERG, A. J. y RUPPERT, D. (1992). Breakdown in nonlinear
regression. Journal of the American Statistical Association, 87, 991997.
6
SUED, M. y YOHAI, V. J. (2012). A robust approach for location estimation
in
a
missing
data
setting.
Disponible
en
http://arxiv.org/abs/1004.5418.
TABATABAI, M. A. y ARGYROS, I. K. (1993). Robust estimation and
testing for general nonlinear regression models. Applied Mathematics
and Computation, 58, 85-101.
7
Descargar