Ajuste de los Factores de Expansión ante la Presencia de

Anuncio
Ajuste de los Factores de Expansión ante la Presencia de
Observaciones Atípicas
José Elías Rodríguez Muñoz, Universidad de Guanajuato
Luis Fernando Contreras Cruz, Universidad Autónoma Chapingo
Principales Resultados de las Investigaciones Financiadas por el Fondo CONACYT-INEGI, INEGI, Cd. de México, México
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 1 de 20
Contenido
1. Preliminares
2. Metodología
3. Estudio de Simulación
4. Aplicación
5. Comentarios finales
Este proyecto está financiado por el Fondo Sectorial CONACyT-INEGI, convocatoria 2012.
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 2 de 20
1. Preliminares
•
(la idea de) Un valor atípico de la variable de interés es un valor muy grande, o muy pequeño,
con respecto a los valores correspondientes de la mayoría de los individuos de la población.
• El efecto de estos valores atípicos en un estimador insesgado es la alta variabilidad del mismo,
producida ésta por la influencia de dichos valores.
• El problema de estimación en el contexto de estimación en muestreo de poblaciones finitas se
ha enfocado principalmente, en la literatura, al muestreo aleatorio simple sin reemplazo.
• La metodología propuesta aquí es una adaptación de lo expuesto en Ren y Chambers (2003) y
Chambers y Ren (2004), dado que se puede aplicar a diseños de muestreo más complejos.
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 3 de 20
2. Metodología
•
Sea U una población de tamaño N y sean y1,...,yN los valores de la característica de interés. Para
efectos de esta exposición, dichos valores se consideran escalares y sobre una escala continua.
La subpoblación con valores atípicos o discordantes de la variable de interés se denota por U2 y
la subpoblación con valores concordantes se denota por U1=U\U2.
• Varianza poblacional:
𝜎2 =
1
∑(𝑦𝑘 − 𝜇)2 ,
𝑁−1
(1)
𝑘∈𝑈
(Esta varianza se ve influenciada por los valores atípicos; entre más se alejen éstos de la media, mayor será el valor de esta medida de variabilidad.)
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 4 de 20
• El parámetro de interés a estimar es el total poblacional:
𝑡 = ∑ 𝑦𝑘 ,
𝑘∈𝑈
•
(2)
Si se hace distinción entre la población con valores atípicos y la de valores concordantes, el total
t se puede reexpresar como
𝑡 = ∑ 𝑦𝑗 + ∑ 𝑦𝑘 .
𝑗∈𝑈1
•
𝑘∈𝑈2
(3)
Estimador de Horvitz-Thompson de t:
𝑡̂ = ∑ 𝑦𝑘
𝑘∈𝑈
𝑆𝑘
,
𝜋𝑘
(4)
donde πk es la probabilidad de inclusión de primer orden para el individuo k en U. Además las Sk
son las coordenadas del vector muestra.
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 5 de 20
Si consideramos muestras sin reemplazo, entonces
1
si el individuo k está en la muestra
0
si el individuo k no está en la muestra.
𝑆𝑘 = {
Obsérvese que el vector muestra se puede expresar como S=S1+S2, donde las correspondientes
coordenadas de S1 y S2 están dadas por:
𝑆𝑘
si𝑘 ∈ 𝑈𝑗
para𝑗 = 1,2.
𝑆𝑗𝑘 = {
0
en otro caso,
Por lo tanto, el estimador del total en (4) se puede expresar como:
𝑡̂ = ∑ 𝑦𝑗
𝑗∈𝑈1
•
𝑆1j
𝑆2k
+ ∑ 𝑦𝑘
.
𝜋𝑗
𝜋𝑘
(5)
𝑘∈𝑈2
Ahora, el punto de partida de la metodología de la presente propuesta es corregir la varianza en
(1) de tal forma que disminuya la influencia de los valores atípicos en ésta. Una forma de hacer
lo anterior es definir la varianza corregida de la población como el mínimo valor de
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 6 de 20
𝜎 ∗2 =
1
2
( ∑ (𝑔(𝜆)𝑦𝑗 − 𝜇) + ∑ (𝜆𝑦𝑘 − 𝜇)2 ),
𝑁−1
𝑗∈𝑈1
(6)
𝑘∈𝑈2
con respecto al parámetro λ y tal que
𝑡 = ∑ 𝑔(𝜆)𝑦𝑗 + ∑ 𝜆𝑦𝑘 .
𝑗∈𝑈1
𝑘∈𝑈2
(7)
(esta restricción implica que µ tampoco se modifica)
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 7 de 20
•
Sumando y restando los dos términos del lado derecho de la anterior expresión en el lado derecho
de la ecuación (3) se obtiene que
∑𝑘∈𝑈2 𝑦𝑘
(1 − 𝜆) + 1
∑𝑗∈𝑈1 𝑦𝑗
= 𝛿(1 − 𝜆) + 1,
𝑔(𝜆) =
con
𝛿=
∑𝑘∈𝑈2 𝑦𝑘
.
∑𝑗∈𝑈1 𝑦𝑗
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
(8)
Pág. 8 de 20
•
Así, el valor de λ para el cual la varianza corregida en (6) es mínima, utilizando el método más
común de optimización:
𝜆𝑜𝑝𝑡
𝛿(𝛿 + 1) ∑𝑗∈𝑈1 𝑦𝑗2
= 2
.
𝛿 ∑𝑗∈𝑈1 𝑦𝑗2 + ∑𝑘∈𝑈2 𝑦𝑘2
Obsérvese que si𝜆𝑜𝑝𝑡 < 1, esto es si
∑𝑘∈𝑈2 𝑦𝑘 ∑𝑘∈𝑈2 𝑦𝑘2
<
,
∑𝑗∈𝑈1 𝑦𝑗
∑𝑗∈𝑈1 𝑦𝑗2
entonces se tiene un factor de reducción para los valores atípicos. Para una muestra observada, el
parámetro λ tendrá que ser estimado, por lo tanto se deberá cuidar que el valor estimado cumpla con
la anterior propiedad.
También obsérvese que si se tiene un estimador 𝛿̂ de δ, entonces se puede construir un estimador
de𝜆𝑜𝑝𝑡 como:
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 9 de 20
𝜆̂𝑜𝑝𝑡
𝑆1j
𝛿̂ (𝛿̂ + 1) ∑𝑗∈𝑈1 𝑦𝑗2 𝜋
𝑗
=
.
𝑆
𝑆2k
1j
2
2
2
̂
𝛿 ∑𝑗∈𝑈1 𝑦𝑗 𝜋 + ∑𝑘∈𝑈2 𝑦𝑘
𝜋𝑘
𝑗
Así, con los anteriores estimadores de δ y𝜆𝑜𝑝𝑡 ,se obtiene el estimador del total t en (7) robusto ante
valores atípicos:
𝑡̂𝑅𝐴 = (𝛿̂ (1 − 𝜆̂𝑜𝑝𝑡 ) + 1) ∑ 𝑦𝑗
𝑗∈𝑈1
𝑆1j
𝑆2j
+ 𝜆̂𝑜𝑝𝑡 ∑ 𝑦𝑘 ,
𝜋𝑗
𝜋𝑘
(9)
𝑘∈𝑈2
donde𝛿̂(1 − 𝜆̂𝑜𝑝𝑡 ) + 1es el factor de corrección para los factores de expansión 1/πj, si j está en U1, y𝜆̂𝑜𝑝𝑡 ,es
el factor de corrección para 1/πk, si k está en U2.
•
Obsérvese que el tamaño de la muestra debe ser más grande que el tamaño de la subpoblación
con valores atípicos para que el estimador𝑡̂𝑅𝐴esté bien definido.
•
Además, si se utiliza para δ el estimador
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 10 de 20
𝑆2k
𝜋𝑘
𝛿̃ =
,
𝑆1j
∑𝑗∈𝑈1 𝑦𝑗
𝜋𝑗
∑𝑘∈𝑈2 𝑦𝑘
sugerido por la expresión (8), el estimador𝑡̂𝑅𝐴se reduce al estimador de Horvitz-Thompson en (5).
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 11 de 20
• Por tal motivo Ren y Chambers (2003) sugirieron utilizar el estimador:
𝛿̂ =
̂2 [∑𝑘∈𝑈 1 ] [∑𝑘∈𝑈 𝑦𝑘 𝑆2k ]
𝑀
2𝜋
2
𝜋
𝑘
1⁄2
𝑘
𝑆
̂1 [∑𝑗∈𝑈 1 ] [∑𝑗∈𝑈 𝑦𝑗 1j ]
𝑀
1𝜋
1
𝜋𝑗 )
(
𝑗
,
del cual se ha mostrado empíricamente que tiene mayor estabilidad. En esta expresión, 𝑀̂1es la mediana de los
valores observados en la muestra de individuos con valores concordantes y 𝑀̂2es la mediana de los valores atípicos
en la muestra.
• Obsérvese que si la estimación de𝛿̂es cero, esto es no hay valores atípicos en la muestra observada, entonces
la estimación del total t con𝑡̂𝑅𝐴 se reduce al valor que produciría el estimador de Horvitz-Thompson en (4),
como es de esperar. Si utilizamos el anterior estimador de δ, el estimador resultante en (9) resulta sesgado.
•
Para estimar la varianza (el error cuadrático medio) del estimador 𝑡̂𝑅𝐴 , se sugiere utilizar la
expresión:
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 12 de 20
2
𝑧𝑘
̂̂ ) = ∑
̂
𝑉𝑎𝑟(𝑡
𝑅𝐴
𝑘∈𝑈 𝑐𝑘 (𝜋 − 𝑧̊ ) 𝑆𝑘 ,
𝑘
(10)
donde
𝑧𝑙
𝑆𝑙
𝑛
𝜋
𝑙
𝑧̊̂ =
y𝑐𝑘 = (1 − 𝜋𝑘 )
para toda𝑘 ∈ 𝑈,
∑𝑙∈𝑈 𝑐𝑙 𝑆𝑙
𝑛−1
∑𝑙∈𝑈 𝑐𝑙
n es el tamaño de la muestra y
[𝛿̂ (1 − 𝜆̂𝑜𝑝𝑡 ) + 1]𝑦𝑘
𝑧𝑘 = {
𝜆̂𝑜𝑝𝑡 𝑦𝑘
si𝑘 ∈ 𝑈1
si𝑘 ∈ 𝑈2 .
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 13 de 20
• Este estimador, sesgado, de la varianza sólo utiliza las probabilidades de inclusión de primer
orden y es una derivación del presentado por ejemplo en Berger (2011).
•
Por último, cabe mencionar que si el diseño de muestreo es estratificado, entonces el estimador
en (9) y el respectivo estimador de la varianza (10) se aplican por separado en cada estrato. Por
otro lado, si el diseño de muestreo en dos o más etapas, el estimador (9) se aplica únicamente a
las unidades de la última etapa de muestreo y para las etapas anteriores se utilizan estimadores
que no necesariamente consideran valores atípicos.
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 14 de 20
3. Estudio de Simulación
Población
 Tres estratos;
 Valores atípicos en dos de los estratos;
 En cada estrato la población está agrupada en UPM;
 Existe una medida de tamaño para cada UPM;
 Los elementos de la población constituyen las USM.
Diseño de muestreo
 Se consideró un tamaño de muestra tal que el estimador de Horvitz-Thompson del total
tuviera un 5% como error relativo de estimación;
 Estratificado;
 En cada estrado, un diseño de muestreo en dos etapas, en la primera con
probabilidades desiguales y en la segunda, muestreo aleatorio simple sin reemplazo;
 Estimadores: 𝑡̂𝐻𝑇 y 𝑡̂𝑅𝐴 .
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 15 de 20
Resultados
 La raíz cuadrada del error cuadrático medio relativo del estimador 𝑡̂𝑅𝐴 es
aproximadamente 10% menor que la correspondiente (varianza) a la de 𝑡̂𝐻𝑇 ;
 El sesgo relativo del estimador 𝑡̂𝑅𝐴 fue negativo y de aproximadamente 0.42%.
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 16 de 20
4. Aplicación
 La metodología se aplicó a la ENVIPE 2011 para el estado de Yucatán;
 El objetivo era estimar la Incidencia Delictiva;
 Hay una observación atípica cuya contribución a la estimación total es del 26%
aproximadamente;
 La estimación original de la Incidencia Delictiva fue de 40,448 y aplicando la presente
metodología fue de 32,011.
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 17 de 20
5. Comentarios finales
 ¿Es posible recalibrar los pesos de los datos atípicos para que cada uno de ellos
pudiera tener pesos diferentes?
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 18 de 20
Referencias
•
Berger, Y. G. (2011). Asymptotic consistency under large entropy sampling designs with unequal probabilities. Pakistani Journal of Statististics,
Vol. 27, pp. 407-426.
•
Chambers, R. L. (1982). Robust Finite Population Estimation. Unpublished PhD. Thesis. The Johns Hopkings University, Baltimore.
•
Chambers, R. L. (1986). Outlier robust finite population estimation. Journal of American Statistical Association, 81, 1063-1069.
•
Chambers, R. L. y Kokic, P. N. (1993). Outlier robust sample survey inference. Proceedings of the ISI 49th Session, 55-72.
•
Chambers, R. L. y Ren, R. (2004). Outlier Robust Imputation of Survey Data. In Proceedings of the Section on Survey Research Methods of the
American Statistical Association (págs. 3336-3344).
•
Duchesne, P. (1999). Robust calibration estimators. Survey Methodology, 25, 43-56.
•
Hitiroglou, M. H. y Srinath, K. P. (1981). Some estimators of the population total from simple random samples containing large units. Journal
of American Statistical Association, 76, 690-695.
•
Hulliger, B. (1995). Outlier robust Horvitz-Thompson estimators. Survey Methodology, 21, 79-87.
•
Kish, L. (1965). Survey Sampling. John Wiley & Sons, New York.
•
Kokic, P. N. y P. A. Bell (1994). Optimal Winsorizing Cutoffs for a Stratified Finite Population Estimator. Journal of Official Statistics, 10, 419–
435.
•
Lee , H. (1991). Model-based estimators that are robust to outliers. Proceedings of the 1991 Annual Research Conference. U.S. Bureau of
Census.
•
Lee, H. (1995). Outliers in business surveys. In Business Survey Methods, (Eds. B.G. Box, D. A. Binder, B. N. Chinnappa, A. Christianson, M.
J. colledge and P. S. Kott), John Wiley & Sons, New York.
•
Ren, R. y R. L. Chambers (2003). Outlier Robust Methods: Outlier Robust Estimation and Outlier Robust Imputation By Reverse Calibration.
Methods and Experimental Results from the EUREDIT Project.
•
Särndal, C. E., Swensson, B. y Wretman, J. (1992). Model assisted survey sampling. Springer-Verlag, New York.
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 19 de 20
•
Searl, D. T. (1966). An estimator which reduces large true observations. Journal of American Statistical Association, 61, 1200-1204.
•
Welsh, A. H. y Ronchetti, E. (1998). Bias-calibrated estimation from sample surveys containing outliers. Journal of the Royal statistical Society,
B, 60, 413-428.
Ajuste de los Factores de Expansión ante la Presencia de Observaciones Atípicas
Pág. 20 de 20
Descargar