MUESTRAS CON ROTACIÓN DE PANELES

Anuncio
487
MUESTRAS CON ROTACIÓN DE PANELES
THOMAS POLFELDT1
1
Consultor, INE Suecia (Statistics Sweden).
Muestras con rotación de paneles
488
ÍNDICE
Página
1.
Definiciones Generales ........................................................................................................ 489
2.
¿Por Qué una Muestra de Rotación?.................................................................................... 489
3.
La Tasa de Rotación............................................................................................................. 490
4.
Selección de las Muestras y Asignación a Paneles .............................................................. 490
5.
Unidades de Observación que No Permanecen en la Muestra............................................. 491
6.
Fórmulas Fundamentales para Muestras de Rotación.......................................................... 491
a. La comparación de dos rondas consecutivas .................................................................. 491
b. La comparación de una ronda con la ronda de un año más tarde ................................... 492
c. El promedio de un año .................................................................................................... 492
d. Promedio de dos o tres años ........................................................................................... 492
7.
Aplicación de las Fórmulas Fundamentales......................................................................... 493
8.
Estimación con Material de Dos Rondas ............................................................................. 494
Muestras con rotación de paneles
1.
489
Definiciones Generales
Muestras con rotación se pueden usar cuando una encuesta se repite cada año (o cada trimestre, cada
mes). Cada unidad de muestreo (vivienda, persona, impresa) permanece en la muestra un determinado
número de rondas, sea 2, 3, 4 o más. Una fracción de la muestra sale cada vez, y el mismo número de
unidades entran. La fracción corresponde al número de rondas de permanencia - con dos rondas de
permanencia, ½ de la muestra sale cada vez, con 3 rondas, 1/3 sale etc. La tasa de rotación es la fracción
que sale cada vez, es decir 50%, 33%, etc. o 0.50, 0.33, etc. Habrá correlaciones entre las rondas, en
cuanto las mismas unidades participen en más de una ronda.
En encuestas bietápicas de hogares, donde las unidades de muestreo son viviendas, es más natural realizar
la rotación al nivel de las unidades primarias de muestreo (las UPMs), que son áreas geográficas. Así se
conserva la representatividad geográfica, y se evita que las UPMs se sobre-utilicen. En cada ronda, un
grupo de UPMs sale de la muestra, y otro grupo entra. En cada UPM, las viviendas participantes son las
mismas durante todo el período que la UPM permanece en la muestra.
Para ilustrar más fácilmente las ideas, esta presentación adherirá a la terminología de una encuesta
bietápica de viviendas.
Un grupo de UPMs, y las viviendas seleccionadas en aquellas, que permanecen durante las mismas
rondas se llama un panel. Por ejemplo, con una tasa de rotación de 25 % (o sea 4 rondas de
participación), hay cuatro paneles en la muestra en cada ronda. Se puede representar las muestras de las
primeras 5 rondas así:
Muestra de la primera ronda P1 P2 P3 P4
Muestra de la segunda ronda P2 P3 P4 P5
(el panel P1 sale, y P5 entra)
Muestra de la tercera ronda P3 P4 P5 P6
(el panel P2 sale, y P6 entra)
Muestra de la cuarta ronda
P4 P5 P6 P7
Muestra de la quinta ronda
P5 P6 P7 P8
(aquí, no queda ningún panel de la primera ronda)
Como un caso extremo, es posible trabajar con una encuesta de un panel fijo, con una tasa de rotación de
0 %. No es recomendable para encuestas de hogares, porque un panel fijo pierde rápidamente la
representatividad.
2.
¿Por Qué una Muestra de Rotación?
Las ventajas más importantes de una muestra de rotación son:
a) posibilidades de estimar cambios (entre rondas de la encuesta) con mayor precisión, utilizando la
correlación entre rondas
b) reducción del trabajo del campo, ya sea en listados, o en buscar los hogares o en solicitar las
respuestas - las personas que participan conocen las preguntas (y los encuestadores) desde la
primera vez
c) la boleta o el número de preguntas de la segunda ronda y rondas posteriores puede ser reducida.
Algunas desventajas son:
d) la estimación de agregados (por ejemplo un promedio o un total anual) es menos precisa de que se
obtiene con muestras independientes.
e) los participantes se cansan y no permanecen en la muestra todo el tiempo previsto, lo que
significa que se pierde una parte de las ventajas.
Muestras con rotación de paneles
490
f) la necesidad de establecer procedimientos para salidas no planificadas de la muestra, así como para
entradas en la muestra.
g) la necesidad de identificar las personas y hogares que participen en rondas consecutivas.
Encuestas donde puede ser interesante considerar una muestra de rotación son encuestas anuales de
hogares, y encuestas de empleo. En encuestas anuales para hogares, la participación más de dos o tres
veces presentará probablemente problemas grandes de permanencia y de cambios de la composición de
los hogares. En encuestas trimestrales es más oportuno contar con participación hasta 4 o 5 veces. Un
ejemplo interesante de esta región es la encuesta de empleo e ingresos, ENEI, en Guatemala. Eso es una
encuesta trimestral, con una tasa de rotación de 20%.
3.
La Tasa de Rotación
El parámetro más importante a determinar es la fracción de rotación, o el número de rondas de
participación de cada hogar. Hay dos consideraciones contrarias:
a) la importancia de las estimaciones de cambio versus las de niveles - si los cambios son muy
importantes, la fracción debe ser menor, es decir cada unidad debe participar muchas veces
b) la atención a los hogares, y el riesgo de perder hogares en entrevistas repetidas aumenta la
fracción, lo que significa un número bajo de rondas de participación.
Lo más posible se debe hacer cálculos tentativos para obtener estimaciones del efecto de la muestra en las
varianzas obtenidas. Algunos cálculos se presentan abajo (en la sección 7).
4.
Selección de las Muestras y Asignación a Paneles
Para la primera ronda, se selecciona una muestra de UPMs como cualquier muestra. Esto significa
también que es posible utilizar varios diseños; comúnmente la muestra es estratificada. Normalmente se
selecciona las UPMs con probabilidad proporcional al tamaño en cada estrato (ppt; el tamaño es el
número de viviendas en cada UPM). Asumiendo que queremos una tasa de rotación de 25 %, la muestra
debe ser dividida en cuatro paneles. Por eso, cada UPM seleccionada será asignada a uno de los paneles
P1,..., P4. Esto se realiza con una lista de las UPMs seleccionadas en orden de los estratos. Empezando
con un panel aleatorio (por ejemplo P3), la primera UPM de la lista es asignada a P3, la segunda UPM a
P4, la tercera a P1, etc. En un estrato nuevo, se continúa con la secuencia. El número del panel debe ser
incluido en la lista de las UPMs de la muestra.
Para la segunda ronda, precisa sólo el panel P5, que debe sustituir al panel P1. Los otros paneles, con
todas las UPMs y viviendas que contengan, permanecen en la muestra. El número de UPMs en P5 y la
distribución por estratos es completamente determinado por P1. Basta seleccionar – siempre con ppt - el
mismo número de UPMs, en los mismos estratos.
Precisa establecer algunas reglas de reselección. Por ejemplo, se puede estipular que la reselección de una
UPM que sale con P1, sea permisible inmediatamente, mas que las viviendas a seleccionar en la UPM
puedan gozar de un período de descanso de 2 años. No se debe permitir que una UPM entre en dos o más
paneles que son usados simultáneamente. Entonces, en la selección de P5, las UPMs de P2-P4 no serían
permisibles.
En una encuesta trimestral, será conveniente seleccionar todos los paneles necesarios durante un año, a
decir cuatro paneles, simultáneamente en una sola operación. En este caso se propone que todas las UPMs
seleccionadas sean diferentes (sin reposición). Con esta regla, la reselección de una UPM será posible
solo después de un año.
Muestras con rotación de paneles
5.
491
Unidades de Observación que No Permanecen en la Muestra
Por varias razones, hogares y personas no permanecerán en la muestra por todo el período previsto. Sin
experiencia de la probable frecuencia, es necesario seguir el desenvolvimiento con mucha atención,
particularmente en la segunda ronda de la encuesta. En principio, se prefiere trabajar sin substituciones. Si
el problema es muy grande, precisa entonces pensar en términos de un aumento de la muestra bruta o
posiblemente una substitución, a pesar de lo antedicho.
Si un hogar transfiere a otro lugar, o a cualquier vivienda no incluida en la muestra, no se sigue más este
hogar. Por lo contrario, si un nuevo hogar entrara en una vivienda de la muestra, ello será incluido en la
muestra. Se debe evaluar el efecto de esta regla después de la segunda y tercera ronda, para decidir
definitivamente si se quiere o no conservarla. En regiones con una alta tasa de migración, se puede perder
una parte importante de la correlación entre rondas que hace parte del diseño.
Se debe notar también que es necesario identificar los hogares y las personas que participen en más de
una ronda. Eso es necesario para controlar la frecuencia de cambios no deseados, pero es más importante
para el cálculo de correlaciones entre las rondas (ver secciones 6 y 7).
6.
Formulas Fundamentales para Muestras de Rotación
Para estimaciones de una ronda, la muestra funciona como una muestra independiente, y las correlaciones
entre las rondas no se consideran. Las estimaciones más comunes donde se debe calcular con la
correlación son:
• la comparación de dos rondas consecutivas
• la comparación de una ronda con una ronda un año más tarde (para encuestas trimestrales o
mensuales)
• el promedio de un año (si hay más de una ronda en un año).
Llamando el total de una ronda ti, el cálculo de las varianzas en estos casos se hace de manera siguiente.
a.
La comparación de dos rondas consecutivas:
Var (t i +1 − t i ) = Var (t i +1 ) + Var (t i ) − 2 Cov(t i +1 , t i )
(1)
Aquí asumimos que las varianzas Var(tj) son iguales (a Var(t)). Si t i =
∑w x
k
i
k
, si la proporción de
informantes que quedan en la muestra después de una ronda es β1, y si la correlación entre las respuestas
en la ronda i+1 y en la ronda i, de una unidad que permanezca, es ρ1, podemos hacer los siguientes
cálculos y aproximaciones:
Cov(t i +1 , t i ) = Cov(∑1 1 wk x ki +1 + ∑ β n+1 ,
βn
n
1
∑
β 1n
1
wk x ki + ∑ β n +1 )
= Cov(∑1 1 , ∑1 1 ) + 0
βn
=
∑
=
∑ w Cov( x
β1n
1
βn
i +1
k
, x ki ) =
(2)
1
(2)’
Cov( wk x ki +1 , wk x ki ) + 0
2
k
n
∑
β1 n
1
(2)’’
wk2 ρ1Var ( x k )
(asumiendo que Var(xk) es igual en los dos rondas)
(2)’’’
Muestras con rotación de paneles
492
∑ w
∑w
β 1n
=
1
n
1
2
k
2
k
ρ 1 Var (∑1 wk x k )
n
(2)’’’’
(asumiendo que las Var(xk) son iguales para cada k).
Aquí, la razón de sumas es aproximadamente igual a (β1n/n) = β1, la varianza es igual a Var(t), y entonces,
Var (t i +1 − t i ) ≅ 2 Var (t ) − 2 β 1 ρ1 Var (t ) = Var (t ) (2 − 2 β 1 ρ 1 )
(3)
Para calcular esta varianza, observamos que Var(t) se obtiene de los datos de una ronda y β1 = 0.75 si la
tasa de rotación es 25 %. Es necesario estimar ρ1 de los datos de dos rondas consecutivas. Para un
cálculo preliminar, se puede suponer una correlación, probablemente alta como 0.8 - 0.9; ver también la
sección 7.
Una tasa o un promedio de una variable en una ronda se obtiene del total en la manera usual, y varianzas
de comparaciones de promedios y tasas siguen el mismo modelo.
b.
La comparación de una ronda con la ronda un año más tarde.
Suponemos que se trata de una encuesta trimestral, y ti es el total del trimestre i. Entonces, buscamos
Var (t i + 4 − t i ) = Var (t i + 4 ) + Var (t i ) − 2 Cov (t i + 4 , t i )
(4)
≅ 2 Var (t ) − 2 β 4 ρ 4Var (t )
Aquí, β4 denota la proporción de informantes que quedan en la muestra después de 4 cambios. Con una
tasa de rotación de 25% o más, β4 = 0; con la tasa de 20%, β4 = 0.2, etc. La correlación ρ4 indica la
correlación entre las respuestas de unidades que participan en ambas rondas.
c.
El promedio de un año.
Aquí también suponemos que se trata de una encuesta trimestral. Suponemos también que todas las
covarianzas de variables de la misma distancia en el tiempo sean iguales. Entonces,
Var[(t i + t i +1 + t i + 2 + t i + 3 ) / 4] ≅
2 { 3Cov(t i +1 , t i ) + 2Cov(t i + 2 , t i ) + Cov(t i +3 , t i ) }
4Var (t )
+
(5)
16
16
≅ Var (t ) / 4 + { 3β 1 ρ1 + 2 β 2 ρ 2 + β 3 ρ 3 }Var (t ) / 8
= Var (t )
d.
2 + 3β 1 ρ 1 + 2 β 2 ρ 2 + β 3 ρ 3
8
Promedios de dos o tres años
Suponiendo una encuesta anual, se obtiene con aproximaciones símiles para promedios de 2 y 3 años
Muestras con rotación de paneles
Var[(t i + t i +1 ) / 2] =
493
2Var (t ) + 2Cov(t i +1 , t i )
2 + 2 β 1 ρ1
= Var (t )
4
4
(6)
y
Var[(t i + t i +1 + t i + 2 ) / 3] =
3Var (t )
+
9
2 { 2Cov (t i +1 , t i ) + Cov (t i + 2 , t i )}
3 + 4 β 1 ρ1 + 2 β 2 ρ 2
= Var (t )
9
9
(7)
Los promedios de dos o tres años pueden ser indicadores interesantes para desagregación en áreas
menores, donde el número de observaciones en un año no es suficiente para estimaciones con precisión
deseada. Estos promedios sufren de la muestra de rotación, en cuanto aumenta el error estándar.
7.
Aplicación de las Fórmulas Fundamentales
Para aplicar las formulas de la sección 6, se nota que es necesario hacer suposiciones del tamaño de las
correlaciones ρ1 y ρ2 para las variables diferentes. Cuando no hay informaciones, se asume que sean
altas. En los cálculos abajo son supuestos valores de 0,70 - 0,95 para ρ1 y 0,4 - 0,9 para ρ2.
Se nota que el error estándar para la diferencia de dos rondas consecutivas es siempre igual al error en una
ronda, multiplicado por (2 − 2 β 1 ρ 1 ) . Si tr = la tasa de rotación, β1 = 1 - tr, y β1 es la proporción de la
muestra que permanece en las dos rondas consecutivas. (Además, tr = 100% (o β1 = 0) corresponde al
caso de muestras independientes, donde todos los hogares salen de la muestra después de una ronda.) Es
interesante estudiar la tasa de reducción del error estándar con relación al caso de muestras
independientes. Si D denota el error estándar, esta tasa es
Dcon rot (t i +1 − t i )
Dsin rot (t i +1 − t i )
=
Var (t ) (2 − 2 β 1 ρ 1 )
Var (t ) 2
= 1 − β 1 ρ1 .
(8)
Algunos valores se hallan en el siguiente cuadro.
Efecto para la diferencia de dos rondas consecutivas
Tasa \ Rho
0,95
0,90
0,80
0,70
0,50
0,72
0,74
0,77
0,81
0,33
0,60
0,63
0,68
0,73
0,25
0,54
0,57
0,63
0,69
El error estándar de una diferencia, con muestras de rotación, es 60 - 70 % del error para muestras
independientes. Si la correlación ρ1 es muy alta, la diferencia de tasas diferentes es importante.
Por el contrario, cuando se consideran promedios de dos o tres años, se pierde de precisión con muestras
de rotación. Usando la fórmula dada en la sección 6, la razón de los errores estándar aquí es
Var (t ) (1 + β 1 ρ 1 ) / 2
Dconrot ((t i +1 + t i ) / 2)
=
= 1 + β 1 ρ1
Dsin rot ((t i +1 + t i ) / 2)
Var (t ) / 2
(9)
Muestras con rotación de paneles
494
Efecto para el promedio de dos rondas consecutivas
Tasa \ Rho
0,95
0,90
0,80
0,70
0,50
1,21
1,20
1,18
1,16
0,33
1,28
1,27
1,24
1,21
0,25
1,31
1,29
1,26
1,23
El error estándar aumenta de 20 a 30 %. Las alternativas (combinaciones de Tasa y Rho(ρ1)) no son muy
diferentes.
Para un promedio de tres años, se precisan dos correlaciones. Así, la razón relevante es:
(3 + 4 β 1 ρ1 + 2 β 2 ρ 2 ) / 9 / 1 / 3 .
Efecto para el promedio de tres rondas consecutivas
Rho1
0,95
0,95
0,90
0,90
Tasa\Rho2
0,90
0,70
0,85
0,60
0,50
1,28
1,28
1,26
1,26
0,33
1,43
1,42
1,41
1,39
0,25
1,50
1,48
1,48
1,45
0,80
0,75
1,24
1,37
1,43
0,80
0,40
1,24
1,34
1,39
0,70
0,65
1,21
1,33
1,38
0,70
0,40
1,21
1,31
1,35
El error estándar aumenta con 30 a 40 %. El valor de ρ2 no influye mucho sobre la precisión.
8.
Estimación con Material de Dos Rondas
Una encuesta con muestra de rotación no hace necesario un cambio de los estimadores. Por ejemplo, si
tenemos un total T1 en la primera ronda y el correspondiente total T2 en la segunda ronda, la diferencia se
puede estimar por T2 - T1. Se puede estimar la tasa de cambio por T2/T1. Si es interesante un promedio en
las dos rondas, se estima por (P1+ P2)/2 (o por un promedio pesado), donde P1 y P2 son los promedios de
las dos encuestas. Cada parámetro se puede estimar en la manera más directa. Los cálculos en la sección 7
asumen este tipo de estimación.
Sin embargo, existen varios métodos para utilizar la información de una primera ronda en la estimación
de parámetros de la segunda ronda. El método clásico es estimar T2 por una función linear de
T1,c , T1,nc , T2,c y T2,nc , donde c indica las partes de los totales basadas en unidades comunes en las dos
rondas, y nc indica partes provenientes de unidades no comunes. Otro método utiliza un modelo de series
temporales.2
Un problema que se encuentra con estos métodos es que cada variable debe ser estimado con cocientes
especiales, y la suma de algunas variables estimadas (por ejemplo grupos de personas en varias partes del
mercado laboral) no corresponde necesariamente a la estimación de la suma. Por esta razón, se abandonó
la utilización de datos anteriores el la encuesta sueca de empleo cuando se introdujo un sistema avanzado
de calibración. En la calibración, los expansores se determinan con el apoyo de informaciones auxiliares
que se obtiene de registros oficiales de las personas que buscan trabajo, etc.
2
. Un resumen de métodos se halla en Handbook of Statistics, Vol. 6, Cap. 8: Sampling in Time, por D. A. Binder y M. A. Hidiroglu de Statistics
Canadá.
Descargar