Estimación no paramétrica de intervalos de confianza con datos de

Estimación no paramétrica de intervalos de confianza con datos de encuestas de muestreo Omar De La Riva Torres* Resumen Proponemos un nuevo enfoque de verosimilitud empı́rica (VE) que puede ser usado para construir intervalos de confianza (IC) basados en diseño con probabilidades de inclusión desiguales y sin reemplazo. El enfoque propuesto genera IC que pueden tener un desempeño mejor que los estándares basados en el teorema del lı́mite central (TLC). No dependen en estimaciones de varianza, remuestreo, probabilidades de inclusión conjunta o linealización. Puede ser aplicado al estimador de Horvitz-Thompson, el estimador Hájek o al estimador de regresión. El enfoque ofrece además una justificación unificada basada en verosimilitud para enfoques basados en diseño, como la calibración, que son usados en encuestas de muestreo. 1. Introducción Sea U una población finita de N unidades. Sean yi y xi , los valores de la variable de interés y el vector de variables auxiliares asociados a la unidad i, respectivamente. N es fija pero no necesariamente una P cantidad conocida. Supóngase que se busca estimar un total poblacional Y = i∈U yi que una muestra s de tamaño n es seleccionado con probabilidades desiguales sin reemplazo con una fracción de muestreo n/N . La probabilidad de inclusión de la unidad i se denota con πi . El total Y puede ser estimado por el estimador de Horvitz-Thompson [6] YbHT = n X yi , π i i=1 (1) por el estimador de razón de Hájek [5] N YbH = Pn i=1 πi−1 n X yi , π i=1 i (2) por estimadores de regresión [9] o por estimadores de VE. Consideramos un enfoque basado en diseño donde la distribución muestral esta definida por el diseño muestral. El estimador YbHT es más eficiente que YbH cuando la variable de interés esta correlacionada con las probabilidades de inclusión [8]. Los IC basados en el TLC pueden tener un desempeño insatisfactorio cuando la distribución no es normal [10]. Por otro lado, los IC de VE pueden ser mejores en esta situación, debido a que están determinados por la distribución de los datos y el rango del espacio de los parámetros es preservado [10]. Chen & Sitter [3] propusieron un enfoque de * Estudiante de doctorado en: University of Southampton, Faculty of Human and Social Sciences, Division of Social Statistics, Southampton, SO17 1BJ, UK. [email protected] pseudo verosimilitud empı́rica que puede usado para construir IC. El enfoque de pseudo VE no es completamente atractivo desde el punto de vista teórico, debido a que no es aplicable al estimador de Horvitz-Thompson y depende de estimación de varianza. Este enfoque no es un enfoque genuino de VE. Sin embargo, puede ser usado para obtener IC para YbH . La principal contribución de este artı́culo es mostrar que bajo un conjunto de condiciones de regularidad, la distribución del coeficiente log verosimilitud empı́rica converge a una distribución χ2 con un grado de libertad sin la necesidad de ajuste por un efecto de diseño. 2. Enfoque de verosimilitud empı́rica con probabilidades de inclusión desiguales Berger & De La Riva Torres [1] mostraron que usando muestreo condicional de Poisson, la función de verosimilitud empı́rica es dada por ! n Y πi mi Pn . (3) L(m) = π m j j j=1 i=1 Kim [7] propuso una función de VE similar para muestreo de Poisson con masas de probabilidad en lugar de las masas mi . Los estimadores de máxima verosimilitud de mi son los valores m b i que maximizan la función de log verosimilitud empı́rica `(m) = log(L(m)), (4) sujeto a las restricciones mi ≥ 0 y n X mi ci = C; (5) i=1 donde ci es un vector conocido de dimensión Q×1 asociado con la i−ésima unidad muestreada y C es un vector conocido de dimensión Q×1. Usando multiplicadores de Lagrange es posible P hallar la solución al problema de minimización. Debido a que (5) es tal que ni=1 mi πi = n se cumple, la solución es m b i = (πi + η 0 ci ) −1 (6) El parámetro η es tal que la restricción (5) se cumple. El parámetro η puede ser calculado usando un procedimiento iterativo usando el método de Newton-Raphson descrito en [1]. 2.1 Estimador de máxima verosimilitud empı́rica para un total poblacional El estimador de máximo verosimilitud empı́rica de un total está definido como la siguiente función de los estimadores de máxima verosimilitud empı́rica de las masas de medida. n X τb = m b i yi (7) i=1 donde m b i está definido por (5). Un estimador alternativo es el siguiente estimador de razón de máxima verosimilitud empı́rica de un total. Pn m b i yi τbr = N Pi=1 , (8) n bi i=1 m Nótese que ambos estimadores dependen de los valores de ci y de C y que los m bi toman el papel de los pesos muestrales. Bajo condiciones de regularidad especificadas en [1], Berger & De La Riva Torres [1] mostraron que el estimador de máxima verosimilitud empı́rica es asintóticamente equivalente a b 0 (C − C bπ ) + op (N ), τb = YbHT + B (9) b es un vector de coeficientes de regresión definidos por donde B !−1 n n X 1 X 1 b= . B π 2 c c0 π2y c i=1 i i i i=1 i i i (10) El estimador generalizado de regresión [9] se obtiene cuando en (9) ci es un vector de variables auxiliares y C es el vector asociado a los totales poblacionales. Nótese que existe una clara analogı́a entre el enfoque propuesto de VE y la calibración [4], basado en que la función (4) puede ser vista como una función de distancia de calibración y además el estimador de VE es asintóticamente equivalente al estimador de regresión de usado en calibración. 3. Intervalos de confianza de verosimilitud empı́rica Sean m b i los valores que maximizan (4) sujeta a las restricciones mi ≥ 0 y (5) para los valores de ci y C. Sea `(m) b el valor máximo que puede tomar (4). ∗ Sean mi los valores que maximizan (4) sujeta a las restricciones mi ≥ 0 y (5) con ci = (c0i , yi )0 y C = (C 0 , yi )0 . Sea `(m b ∗ ) el valor máximo de (4). La función de cociente de log-verosimilitud empı́rica esta definida por la siguiente función de y. rb(y) = 2{`(m) b − `(m b ∗ )} (11) Nótese que para un valor dado de y es una variable aleatoria con una distribución especificada por el diseño muestral. La ventaja principal de la VE es su capacidad para derivar IC que no dependen de estimaciones de varianza. Berger & De La Riva Torres [1] mostraron que P r{b r(Y ) ≤ χ21 (α)} l 1 − α, (12) donde Y denota un total poblacional y P r{·} denota la probabilidad con respecto al diseño muestral. El α−cuantil superior de una distribución Ji cuadrada con un grado de libertad está definida por χ21 (α). Mientras la propiedad (12) se cumpla, el (1 − α) IC de VE para el total poblacional Y está definido por mı́n{y|b r(y) ≤ χ21 (α)}; máx{y|b r(y) ≤ χ21 (α)} . (13) Es importante notar que rb(y) es función convexa asimétrica con un mı́nimo cuando y es el estimador máximo verosı́mil empı́rico. Este intervalo puede ser hallado usando un método de bisección dentro del intervalo [N mı́n{yi |i ∈ s}; máx{yi |i ∈ s}] [11]. Éste procedimiento involucra estimaciones de rb∗ (y) para diferentes valores y. Tabla 1: Probabilidades de cobertura observadas, errores de cobertura inferiores y superiores y longitudes promedio de los IC del 95 %. N = 800. El estimador puntual es el estimador de Horvitz-Thompson [6]. Tipo de intervalo Probabilidades Errores de cobertura Longitud cor(yi , ŷi ) n de confianza de cobertura inferior superior promedio 0.3 40 VE 93.8 % 1.3 % 4.9 % 1455 Estándar 91.4 % 0.4 % 8.2 % 1386 80 VE 94.6 % 1.8 % 3.6 % 1047 Estándar 93.0 % 0.9 % 6.1 % 972 0.8 40 VE 93.9 % 2.1 % 4.0 % 448 Estándar 92.9 % 1.2 % 5.9 % 425 80 VE 95.4 % 1.5 % 3.1 % 319 Estándar 94.1 % 1.1 % 4.8 % 294 4. Estudio de simulación Considérese N = 800 observaciones dados por yi = 3 + ai + ϕei [10], donde ai provienen de una distribución exponencial estándar y ei ∼ χ21 − 1. The πi son proporcionales a ai + 2. La constante 2 se agregó para eliminar valores muy pequeños de πi . El parámetro ϕ se uso para obtener correlación débil (0.30) o alta (0.80) entre los valores de yi y ŷi = 3 + ai , usamos el muestreo de Chao [2] para seleccionar 1000 muestras y comparar el desempeño de los IC de VE del 95 % con los intervalos de confianza basados en el TLC. Se consideraron dos tamaños de muestra: n = 40 y 80. En este caso ci = πi y C = n y el estimador máximo verosı́mil empı́rico es el estimador de Horvitz-Thompson. En la Tabla 3 destaca que IC de VE en todos los casos tienen una mejor cobertura y balance en los errores de cobertura superiores e inferiores, en comparación de los IC estándares. REFERENCIAS [1] Berger, Y. G., and De La Riva Torres, O. A unified theory of empirical likelihood ratio confidence intervals for survey data with unequal probabilities and non negligible sampling fractions. http://eprints.soton.ac.uk/337688/ Southampton Statistical Sciences Research Institute (S3RI Methodology Working Papers) (2012), 24pp. [2] Chao, M. T. A general purpose unequal probability sampling plan. Biometrika 69 (1982), 653- 656. [3] Chen, J., and Sitter, R. R. A pseudo empirical likelihood approach to the effective use of auxiliary information in complex surveys. Statistica Sinica 9 (1999), 385-406. [4] Deville, J. C., and Särndal, C. E. Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 418 (1992), 376-382. [5] Hájek, J. Comment on a paper by D. Basu. in Foundations of Statistical Inference. Toronto : Holt, Rinehart and Winston, 1971. [6] Horvitz, D. G., and Thompson, D. J. A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association 47, 260 (1952), 663-685. [7] Kim, J. K. Calibration estimation using empirical likelihood in survey sampling. Statistica Sinica 19 (2009), 145-157. [8] Rao, J. N. K. Alternative estimators in pps sampling for multiple characteristics. Sankhyā A28 (1966), 47-60. [9] Särndal, C.-E., Swensson, B., and Wretman, J. Model Assisted Survey Sampling. SpringerVerlag, New York, 1992. [10] Wu, C., and Rao, J. N. K. Pseudo-empirical likelihood ratio confidence intervals for complex surveys. The Canadian Journal of Statistics 34, 3 (2006), 359-375.

Estimación no paramétrica de intervalos de confianza con datos de

Documentos relacionados

Productos

Apoyo

Estimación no paramétrica de intervalos de confianza con datos de

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib