Estimación no paramétrica de intervalos de confianza con datos de

Anuncio
Estimación no paramétrica de intervalos de confianza con datos
de encuestas de muestreo
Omar De La Riva Torres*
Resumen
Proponemos un nuevo enfoque de verosimilitud empı́rica (VE) que puede ser usado para
construir intervalos de confianza (IC) basados en diseño con probabilidades de inclusión desiguales y sin reemplazo. El enfoque propuesto genera IC que pueden tener un desempeño
mejor que los estándares basados en el teorema del lı́mite central (TLC). No dependen en
estimaciones de varianza, remuestreo, probabilidades de inclusión conjunta o linealización.
Puede ser aplicado al estimador de Horvitz-Thompson, el estimador Hájek o al estimador
de regresión. El enfoque ofrece además una justificación unificada basada en verosimilitud para enfoques basados en diseño, como la calibración, que son usados en encuestas de
muestreo.
1. Introducción
Sea U una población finita de N unidades. Sean yi y xi , los valores de la variable de interés y el vector de variables auxiliares asociados a la unidad i, respectivamente. N es fija pero no necesariamente una
P cantidad conocida. Supóngase que
se busca estimar un total poblacional Y = i∈U yi que una muestra s de tamaño
n es seleccionado con probabilidades desiguales sin reemplazo con una fracción
de muestreo n/N . La probabilidad de inclusión de la unidad i se denota con πi . El
total Y puede ser estimado por el estimador de Horvitz-Thompson [6]
YbHT =
n
X
yi
,
π
i
i=1
(1)
por el estimador de razón de Hájek [5]
N
YbH = Pn
i=1
πi−1
n
X
yi
,
π
i=1 i
(2)
por estimadores de regresión [9] o por estimadores de VE. Consideramos un enfoque basado en diseño donde la distribución muestral esta definida por el diseño
muestral. El estimador YbHT es más eficiente que YbH cuando la variable de interés
esta correlacionada con las probabilidades de inclusión [8]. Los IC basados en el
TLC pueden tener un desempeño insatisfactorio cuando la distribución no es normal [10]. Por otro lado, los IC de VE pueden ser mejores en esta situación, debido
a que están determinados por la distribución de los datos y el rango del espacio de
los parámetros es preservado [10]. Chen & Sitter [3] propusieron un enfoque de
*
Estudiante de doctorado en: University of Southampton, Faculty of Human and Social Sciences,
Division of Social Statistics, Southampton, SO17 1BJ, UK. [email protected]
pseudo verosimilitud empı́rica que puede usado para construir IC. El enfoque de
pseudo VE no es completamente atractivo desde el punto de vista teórico, debido
a que no es aplicable al estimador de Horvitz-Thompson y depende de estimación
de varianza. Este enfoque no es un enfoque genuino de VE. Sin embargo, puede ser
usado para obtener IC para YbH . La principal contribución de este artı́culo es mostrar
que bajo un conjunto de condiciones de regularidad, la distribución del coeficiente
log verosimilitud empı́rica converge a una distribución χ2 con un grado de libertad
sin la necesidad de ajuste por un efecto de diseño.
2. Enfoque de verosimilitud empı́rica con probabilidades de inclusión
desiguales
Berger & De La Riva Torres [1] mostraron que usando muestreo condicional de
Poisson, la función de verosimilitud empı́rica es dada por
!
n
Y
πi mi
Pn
.
(3)
L(m) =
π
m
j
j
j=1
i=1
Kim [7] propuso una función de VE similar para muestreo de Poisson con masas de
probabilidad en lugar de las masas mi . Los estimadores de máxima verosimilitud
de mi son los valores m
b i que maximizan la función de log verosimilitud empı́rica
`(m) = log(L(m)),
(4)
sujeto a las restricciones mi ≥ 0 y
n
X
mi ci = C;
(5)
i=1
donde ci es un vector conocido de dimensión Q×1 asociado con la i−ésima unidad
muestreada y C es un vector conocido de dimensión Q×1. Usando multiplicadores
de Lagrange es posible
P hallar la solución al problema de minimización. Debido a
que (5) es tal que ni=1 mi πi = n se cumple, la solución es
m
b i = (πi + η 0 ci )
−1
(6)
El parámetro η es tal que la restricción (5) se cumple. El parámetro η puede ser
calculado usando un procedimiento iterativo usando el método de Newton-Raphson
descrito en [1].
2.1
Estimador de máxima verosimilitud empı́rica para un total poblacional
El estimador de máximo verosimilitud empı́rica de un total está definido como
la siguiente función de los estimadores de máxima verosimilitud empı́rica de las
masas de medida.
n
X
τb =
m
b i yi
(7)
i=1
donde m
b i está definido por (5). Un estimador alternativo es el siguiente estimador
de razón de máxima verosimilitud empı́rica de un total.
Pn
m
b i yi
τbr = N Pi=1
,
(8)
n
bi
i=1 m
Nótese que ambos estimadores dependen de los valores de ci y de C y que los m
bi
toman el papel de los pesos muestrales. Bajo condiciones de regularidad especificadas en [1], Berger & De La Riva Torres [1] mostraron que el estimador de máxima
verosimilitud empı́rica es asintóticamente equivalente a
b 0 (C − C
bπ ) + op (N ),
τb = YbHT + B
(9)
b es un vector de coeficientes de regresión definidos por
donde B
!−1 n
n
X 1
X
1
b=
.
B
π 2 c c0
π2y c
i=1 i i i
i=1 i i i
(10)
El estimador generalizado de regresión [9] se obtiene cuando en (9) ci es un vector
de variables auxiliares y C es el vector asociado a los totales poblacionales. Nótese
que existe una clara analogı́a entre el enfoque propuesto de VE y la calibración [4],
basado en que la función (4) puede ser vista como una función de distancia de calibración y además el estimador de VE es asintóticamente equivalente al estimador
de regresión de usado en calibración.
3. Intervalos de confianza de verosimilitud empı́rica
Sean m
b i los valores que maximizan (4) sujeta a las restricciones mi ≥ 0 y
(5) para los valores de ci y C. Sea `(m)
b el valor máximo que puede tomar (4).
∗
Sean mi los valores que maximizan (4) sujeta a las restricciones mi ≥ 0 y (5) con
ci = (c0i , yi )0 y C = (C 0 , yi )0 . Sea `(m
b ∗ ) el valor máximo de (4). La función de
cociente de log-verosimilitud empı́rica esta definida por la siguiente función de y.
rb(y) = 2{`(m)
b − `(m
b ∗ )}
(11)
Nótese que para un valor dado de y es una variable aleatoria con una distribución
especificada por el diseño muestral. La ventaja principal de la VE es su capacidad
para derivar IC que no dependen de estimaciones de varianza. Berger & De La Riva
Torres [1] mostraron que
P r{b
r(Y ) ≤ χ21 (α)} l 1 − α,
(12)
donde Y denota un total poblacional y P r{·} denota la probabilidad con respecto
al diseño muestral. El α−cuantil superior de una distribución Ji cuadrada con un
grado de libertad está definida por χ21 (α). Mientras la propiedad (12) se cumpla, el
(1 − α) IC de VE para el total poblacional Y está definido por
mı́n{y|b
r(y) ≤ χ21 (α)}; máx{y|b
r(y) ≤ χ21 (α)} .
(13)
Es importante notar que rb(y) es función convexa asimétrica con un mı́nimo cuando y es el estimador máximo verosı́mil empı́rico. Este intervalo puede ser hallado
usando un método de bisección dentro del intervalo [N mı́n{yi |i ∈ s}; máx{yi |i ∈ s}]
[11]. Éste procedimiento involucra estimaciones de rb∗ (y) para diferentes valores y.
Tabla 1: Probabilidades de cobertura observadas, errores de cobertura inferiores
y superiores y longitudes promedio de los IC del 95 %. N = 800. El estimador
puntual es el estimador de Horvitz-Thompson [6].
Tipo de intervalo Probabilidades Errores de cobertura Longitud
cor(yi , ŷi ) n de confianza
de cobertura
inferior superior
promedio
0.3
40 VE
93.8 %
1.3 %
4.9 %
1455
Estándar
91.4 %
0.4 %
8.2 %
1386
80 VE
94.6 %
1.8 %
3.6 %
1047
Estándar
93.0 %
0.9 %
6.1 %
972
0.8
40 VE
93.9 %
2.1 %
4.0 %
448
Estándar
92.9 %
1.2 %
5.9 %
425
80 VE
95.4 %
1.5 %
3.1 %
319
Estándar
94.1 %
1.1 %
4.8 %
294
4. Estudio de simulación
Considérese N = 800 observaciones dados por yi = 3 + ai + ϕei [10], donde ai
provienen de una distribución exponencial estándar y ei ∼ χ21 − 1. The πi son proporcionales a ai + 2. La constante 2 se agregó para eliminar valores muy pequeños
de πi . El parámetro ϕ se uso para obtener correlación débil (0.30) o alta (0.80) entre
los valores de yi y ŷi = 3 + ai , usamos el muestreo de Chao [2] para seleccionar
1000 muestras y comparar el desempeño de los IC de VE del 95 % con los intervalos
de confianza basados en el TLC. Se consideraron dos tamaños de muestra: n = 40
y 80. En este caso ci = πi y C = n y el estimador máximo verosı́mil empı́rico es
el estimador de Horvitz-Thompson. En la Tabla 3 destaca que IC de VE en todos los
casos tienen una mejor cobertura y balance en los errores de cobertura superiores e
inferiores, en comparación de los IC estándares.
REFERENCIAS
[1] Berger, Y. G., and De La Riva Torres, O. A unified theory of empirical likelihood ratio confidence intervals for survey data with unequal probabilities and non negligible sampling fractions.
http://eprints.soton.ac.uk/337688/ Southampton Statistical Sciences Research Institute (S3RI Methodology Working Papers) (2012), 24pp.
[2] Chao, M. T. A general purpose unequal probability sampling plan. Biometrika 69 (1982), 653- 656.
[3] Chen, J., and Sitter, R. R. A pseudo empirical likelihood approach to the effective use of auxiliary
information in complex surveys. Statistica Sinica 9 (1999), 385-406.
[4] Deville, J. C., and Särndal, C. E. Calibration estimators in survey sampling. Journal of the
American Statistical Association 87, 418 (1992), 376-382.
[5] Hájek, J. Comment on a paper by D. Basu. in Foundations of Statistical Inference. Toronto :
Holt, Rinehart and Winston, 1971.
[6] Horvitz, D. G., and Thompson, D. J. A generalization of sampling without replacement from a
finite universe. Journal of the American Statistical Association 47, 260 (1952), 663-685.
[7] Kim, J. K. Calibration estimation using empirical likelihood in survey sampling. Statistica Sinica
19 (2009), 145-157.
[8] Rao, J. N. K. Alternative estimators in pps sampling for multiple characteristics. Sankhyā A28
(1966), 47-60.
[9] Särndal, C.-E., Swensson, B., and Wretman, J. Model Assisted Survey Sampling. SpringerVerlag, New York, 1992.
[10] Wu, C., and Rao, J. N. K. Pseudo-empirical likelihood ratio confidence intervals for complex
surveys. The Canadian Journal of Statistics 34, 3 (2006), 359-375.
Descargar