487 MUESTRAS CON ROTACIÓN DE PANELES THOMAS POLFELDT1 1 Consultor, INE Suecia (Statistics Sweden). Muestras con rotación de paneles 488 ÍNDICE Página 1. Definiciones Generales ........................................................................................................ 489 2. ¿Por Qué una Muestra de Rotación?.................................................................................... 489 3. La Tasa de Rotación............................................................................................................. 490 4. Selección de las Muestras y Asignación a Paneles .............................................................. 490 5. Unidades de Observación que No Permanecen en la Muestra............................................. 491 6. Fórmulas Fundamentales para Muestras de Rotación.......................................................... 491 a. La comparación de dos rondas consecutivas .................................................................. 491 b. La comparación de una ronda con la ronda de un año más tarde ................................... 492 c. El promedio de un año .................................................................................................... 492 d. Promedio de dos o tres años ........................................................................................... 492 7. Aplicación de las Fórmulas Fundamentales......................................................................... 493 8. Estimación con Material de Dos Rondas ............................................................................. 494 Muestras con rotación de paneles 1. 489 Definiciones Generales Muestras con rotación se pueden usar cuando una encuesta se repite cada año (o cada trimestre, cada mes). Cada unidad de muestreo (vivienda, persona, impresa) permanece en la muestra un determinado número de rondas, sea 2, 3, 4 o más. Una fracción de la muestra sale cada vez, y el mismo número de unidades entran. La fracción corresponde al número de rondas de permanencia - con dos rondas de permanencia, ½ de la muestra sale cada vez, con 3 rondas, 1/3 sale etc. La tasa de rotación es la fracción que sale cada vez, es decir 50%, 33%, etc. o 0.50, 0.33, etc. Habrá correlaciones entre las rondas, en cuanto las mismas unidades participen en más de una ronda. En encuestas bietápicas de hogares, donde las unidades de muestreo son viviendas, es más natural realizar la rotación al nivel de las unidades primarias de muestreo (las UPMs), que son áreas geográficas. Así se conserva la representatividad geográfica, y se evita que las UPMs se sobre-utilicen. En cada ronda, un grupo de UPMs sale de la muestra, y otro grupo entra. En cada UPM, las viviendas participantes son las mismas durante todo el período que la UPM permanece en la muestra. Para ilustrar más fácilmente las ideas, esta presentación adherirá a la terminología de una encuesta bietápica de viviendas. Un grupo de UPMs, y las viviendas seleccionadas en aquellas, que permanecen durante las mismas rondas se llama un panel. Por ejemplo, con una tasa de rotación de 25 % (o sea 4 rondas de participación), hay cuatro paneles en la muestra en cada ronda. Se puede representar las muestras de las primeras 5 rondas así: Muestra de la primera ronda P1 P2 P3 P4 Muestra de la segunda ronda P2 P3 P4 P5 (el panel P1 sale, y P5 entra) Muestra de la tercera ronda P3 P4 P5 P6 (el panel P2 sale, y P6 entra) Muestra de la cuarta ronda P4 P5 P6 P7 Muestra de la quinta ronda P5 P6 P7 P8 (aquí, no queda ningún panel de la primera ronda) Como un caso extremo, es posible trabajar con una encuesta de un panel fijo, con una tasa de rotación de 0 %. No es recomendable para encuestas de hogares, porque un panel fijo pierde rápidamente la representatividad. 2. ¿Por Qué una Muestra de Rotación? Las ventajas más importantes de una muestra de rotación son: a) posibilidades de estimar cambios (entre rondas de la encuesta) con mayor precisión, utilizando la correlación entre rondas b) reducción del trabajo del campo, ya sea en listados, o en buscar los hogares o en solicitar las respuestas - las personas que participan conocen las preguntas (y los encuestadores) desde la primera vez c) la boleta o el número de preguntas de la segunda ronda y rondas posteriores puede ser reducida. Algunas desventajas son: d) la estimación de agregados (por ejemplo un promedio o un total anual) es menos precisa de que se obtiene con muestras independientes. e) los participantes se cansan y no permanecen en la muestra todo el tiempo previsto, lo que significa que se pierde una parte de las ventajas. Muestras con rotación de paneles 490 f) la necesidad de establecer procedimientos para salidas no planificadas de la muestra, así como para entradas en la muestra. g) la necesidad de identificar las personas y hogares que participen en rondas consecutivas. Encuestas donde puede ser interesante considerar una muestra de rotación son encuestas anuales de hogares, y encuestas de empleo. En encuestas anuales para hogares, la participación más de dos o tres veces presentará probablemente problemas grandes de permanencia y de cambios de la composición de los hogares. En encuestas trimestrales es más oportuno contar con participación hasta 4 o 5 veces. Un ejemplo interesante de esta región es la encuesta de empleo e ingresos, ENEI, en Guatemala. Eso es una encuesta trimestral, con una tasa de rotación de 20%. 3. La Tasa de Rotación El parámetro más importante a determinar es la fracción de rotación, o el número de rondas de participación de cada hogar. Hay dos consideraciones contrarias: a) la importancia de las estimaciones de cambio versus las de niveles - si los cambios son muy importantes, la fracción debe ser menor, es decir cada unidad debe participar muchas veces b) la atención a los hogares, y el riesgo de perder hogares en entrevistas repetidas aumenta la fracción, lo que significa un número bajo de rondas de participación. Lo más posible se debe hacer cálculos tentativos para obtener estimaciones del efecto de la muestra en las varianzas obtenidas. Algunos cálculos se presentan abajo (en la sección 7). 4. Selección de las Muestras y Asignación a Paneles Para la primera ronda, se selecciona una muestra de UPMs como cualquier muestra. Esto significa también que es posible utilizar varios diseños; comúnmente la muestra es estratificada. Normalmente se selecciona las UPMs con probabilidad proporcional al tamaño en cada estrato (ppt; el tamaño es el número de viviendas en cada UPM). Asumiendo que queremos una tasa de rotación de 25 %, la muestra debe ser dividida en cuatro paneles. Por eso, cada UPM seleccionada será asignada a uno de los paneles P1,..., P4. Esto se realiza con una lista de las UPMs seleccionadas en orden de los estratos. Empezando con un panel aleatorio (por ejemplo P3), la primera UPM de la lista es asignada a P3, la segunda UPM a P4, la tercera a P1, etc. En un estrato nuevo, se continúa con la secuencia. El número del panel debe ser incluido en la lista de las UPMs de la muestra. Para la segunda ronda, precisa sólo el panel P5, que debe sustituir al panel P1. Los otros paneles, con todas las UPMs y viviendas que contengan, permanecen en la muestra. El número de UPMs en P5 y la distribución por estratos es completamente determinado por P1. Basta seleccionar – siempre con ppt - el mismo número de UPMs, en los mismos estratos. Precisa establecer algunas reglas de reselección. Por ejemplo, se puede estipular que la reselección de una UPM que sale con P1, sea permisible inmediatamente, mas que las viviendas a seleccionar en la UPM puedan gozar de un período de descanso de 2 años. No se debe permitir que una UPM entre en dos o más paneles que son usados simultáneamente. Entonces, en la selección de P5, las UPMs de P2-P4 no serían permisibles. En una encuesta trimestral, será conveniente seleccionar todos los paneles necesarios durante un año, a decir cuatro paneles, simultáneamente en una sola operación. En este caso se propone que todas las UPMs seleccionadas sean diferentes (sin reposición). Con esta regla, la reselección de una UPM será posible solo después de un año. Muestras con rotación de paneles 5. 491 Unidades de Observación que No Permanecen en la Muestra Por varias razones, hogares y personas no permanecerán en la muestra por todo el período previsto. Sin experiencia de la probable frecuencia, es necesario seguir el desenvolvimiento con mucha atención, particularmente en la segunda ronda de la encuesta. En principio, se prefiere trabajar sin substituciones. Si el problema es muy grande, precisa entonces pensar en términos de un aumento de la muestra bruta o posiblemente una substitución, a pesar de lo antedicho. Si un hogar transfiere a otro lugar, o a cualquier vivienda no incluida en la muestra, no se sigue más este hogar. Por lo contrario, si un nuevo hogar entrara en una vivienda de la muestra, ello será incluido en la muestra. Se debe evaluar el efecto de esta regla después de la segunda y tercera ronda, para decidir definitivamente si se quiere o no conservarla. En regiones con una alta tasa de migración, se puede perder una parte importante de la correlación entre rondas que hace parte del diseño. Se debe notar también que es necesario identificar los hogares y las personas que participen en más de una ronda. Eso es necesario para controlar la frecuencia de cambios no deseados, pero es más importante para el cálculo de correlaciones entre las rondas (ver secciones 6 y 7). 6. Formulas Fundamentales para Muestras de Rotación Para estimaciones de una ronda, la muestra funciona como una muestra independiente, y las correlaciones entre las rondas no se consideran. Las estimaciones más comunes donde se debe calcular con la correlación son: • la comparación de dos rondas consecutivas • la comparación de una ronda con una ronda un año más tarde (para encuestas trimestrales o mensuales) • el promedio de un año (si hay más de una ronda en un año). Llamando el total de una ronda ti, el cálculo de las varianzas en estos casos se hace de manera siguiente. a. La comparación de dos rondas consecutivas: Var (t i +1 − t i ) = Var (t i +1 ) + Var (t i ) − 2 Cov(t i +1 , t i ) (1) Aquí asumimos que las varianzas Var(tj) son iguales (a Var(t)). Si t i = ∑w x k i k , si la proporción de informantes que quedan en la muestra después de una ronda es β1, y si la correlación entre las respuestas en la ronda i+1 y en la ronda i, de una unidad que permanezca, es ρ1, podemos hacer los siguientes cálculos y aproximaciones: Cov(t i +1 , t i ) = Cov(∑1 1 wk x ki +1 + ∑ β n+1 , βn n 1 ∑ β 1n 1 wk x ki + ∑ β n +1 ) = Cov(∑1 1 , ∑1 1 ) + 0 βn = ∑ = ∑ w Cov( x β1n 1 βn i +1 k , x ki ) = (2) 1 (2)’ Cov( wk x ki +1 , wk x ki ) + 0 2 k n ∑ β1 n 1 (2)’’ wk2 ρ1Var ( x k ) (asumiendo que Var(xk) es igual en los dos rondas) (2)’’’ Muestras con rotación de paneles 492 ∑ w ∑w β 1n = 1 n 1 2 k 2 k ρ 1 Var (∑1 wk x k ) n (2)’’’’ (asumiendo que las Var(xk) son iguales para cada k). Aquí, la razón de sumas es aproximadamente igual a (β1n/n) = β1, la varianza es igual a Var(t), y entonces, Var (t i +1 − t i ) ≅ 2 Var (t ) − 2 β 1 ρ1 Var (t ) = Var (t ) (2 − 2 β 1 ρ 1 ) (3) Para calcular esta varianza, observamos que Var(t) se obtiene de los datos de una ronda y β1 = 0.75 si la tasa de rotación es 25 %. Es necesario estimar ρ1 de los datos de dos rondas consecutivas. Para un cálculo preliminar, se puede suponer una correlación, probablemente alta como 0.8 - 0.9; ver también la sección 7. Una tasa o un promedio de una variable en una ronda se obtiene del total en la manera usual, y varianzas de comparaciones de promedios y tasas siguen el mismo modelo. b. La comparación de una ronda con la ronda un año más tarde. Suponemos que se trata de una encuesta trimestral, y ti es el total del trimestre i. Entonces, buscamos Var (t i + 4 − t i ) = Var (t i + 4 ) + Var (t i ) − 2 Cov (t i + 4 , t i ) (4) ≅ 2 Var (t ) − 2 β 4 ρ 4Var (t ) Aquí, β4 denota la proporción de informantes que quedan en la muestra después de 4 cambios. Con una tasa de rotación de 25% o más, β4 = 0; con la tasa de 20%, β4 = 0.2, etc. La correlación ρ4 indica la correlación entre las respuestas de unidades que participan en ambas rondas. c. El promedio de un año. Aquí también suponemos que se trata de una encuesta trimestral. Suponemos también que todas las covarianzas de variables de la misma distancia en el tiempo sean iguales. Entonces, Var[(t i + t i +1 + t i + 2 + t i + 3 ) / 4] ≅ 2 { 3Cov(t i +1 , t i ) + 2Cov(t i + 2 , t i ) + Cov(t i +3 , t i ) } 4Var (t ) + (5) 16 16 ≅ Var (t ) / 4 + { 3β 1 ρ1 + 2 β 2 ρ 2 + β 3 ρ 3 }Var (t ) / 8 = Var (t ) d. 2 + 3β 1 ρ 1 + 2 β 2 ρ 2 + β 3 ρ 3 8 Promedios de dos o tres años Suponiendo una encuesta anual, se obtiene con aproximaciones símiles para promedios de 2 y 3 años Muestras con rotación de paneles Var[(t i + t i +1 ) / 2] = 493 2Var (t ) + 2Cov(t i +1 , t i ) 2 + 2 β 1 ρ1 = Var (t ) 4 4 (6) y Var[(t i + t i +1 + t i + 2 ) / 3] = 3Var (t ) + 9 2 { 2Cov (t i +1 , t i ) + Cov (t i + 2 , t i )} 3 + 4 β 1 ρ1 + 2 β 2 ρ 2 = Var (t ) 9 9 (7) Los promedios de dos o tres años pueden ser indicadores interesantes para desagregación en áreas menores, donde el número de observaciones en un año no es suficiente para estimaciones con precisión deseada. Estos promedios sufren de la muestra de rotación, en cuanto aumenta el error estándar. 7. Aplicación de las Fórmulas Fundamentales Para aplicar las formulas de la sección 6, se nota que es necesario hacer suposiciones del tamaño de las correlaciones ρ1 y ρ2 para las variables diferentes. Cuando no hay informaciones, se asume que sean altas. En los cálculos abajo son supuestos valores de 0,70 - 0,95 para ρ1 y 0,4 - 0,9 para ρ2. Se nota que el error estándar para la diferencia de dos rondas consecutivas es siempre igual al error en una ronda, multiplicado por (2 − 2 β 1 ρ 1 ) . Si tr = la tasa de rotación, β1 = 1 - tr, y β1 es la proporción de la muestra que permanece en las dos rondas consecutivas. (Además, tr = 100% (o β1 = 0) corresponde al caso de muestras independientes, donde todos los hogares salen de la muestra después de una ronda.) Es interesante estudiar la tasa de reducción del error estándar con relación al caso de muestras independientes. Si D denota el error estándar, esta tasa es Dcon rot (t i +1 − t i ) Dsin rot (t i +1 − t i ) = Var (t ) (2 − 2 β 1 ρ 1 ) Var (t ) 2 = 1 − β 1 ρ1 . (8) Algunos valores se hallan en el siguiente cuadro. Efecto para la diferencia de dos rondas consecutivas Tasa \ Rho 0,95 0,90 0,80 0,70 0,50 0,72 0,74 0,77 0,81 0,33 0,60 0,63 0,68 0,73 0,25 0,54 0,57 0,63 0,69 El error estándar de una diferencia, con muestras de rotación, es 60 - 70 % del error para muestras independientes. Si la correlación ρ1 es muy alta, la diferencia de tasas diferentes es importante. Por el contrario, cuando se consideran promedios de dos o tres años, se pierde de precisión con muestras de rotación. Usando la fórmula dada en la sección 6, la razón de los errores estándar aquí es Var (t ) (1 + β 1 ρ 1 ) / 2 Dconrot ((t i +1 + t i ) / 2) = = 1 + β 1 ρ1 Dsin rot ((t i +1 + t i ) / 2) Var (t ) / 2 (9) Muestras con rotación de paneles 494 Efecto para el promedio de dos rondas consecutivas Tasa \ Rho 0,95 0,90 0,80 0,70 0,50 1,21 1,20 1,18 1,16 0,33 1,28 1,27 1,24 1,21 0,25 1,31 1,29 1,26 1,23 El error estándar aumenta de 20 a 30 %. Las alternativas (combinaciones de Tasa y Rho(ρ1)) no son muy diferentes. Para un promedio de tres años, se precisan dos correlaciones. Así, la razón relevante es: (3 + 4 β 1 ρ1 + 2 β 2 ρ 2 ) / 9 / 1 / 3 . Efecto para el promedio de tres rondas consecutivas Rho1 0,95 0,95 0,90 0,90 Tasa\Rho2 0,90 0,70 0,85 0,60 0,50 1,28 1,28 1,26 1,26 0,33 1,43 1,42 1,41 1,39 0,25 1,50 1,48 1,48 1,45 0,80 0,75 1,24 1,37 1,43 0,80 0,40 1,24 1,34 1,39 0,70 0,65 1,21 1,33 1,38 0,70 0,40 1,21 1,31 1,35 El error estándar aumenta con 30 a 40 %. El valor de ρ2 no influye mucho sobre la precisión. 8. Estimación con Material de Dos Rondas Una encuesta con muestra de rotación no hace necesario un cambio de los estimadores. Por ejemplo, si tenemos un total T1 en la primera ronda y el correspondiente total T2 en la segunda ronda, la diferencia se puede estimar por T2 - T1. Se puede estimar la tasa de cambio por T2/T1. Si es interesante un promedio en las dos rondas, se estima por (P1+ P2)/2 (o por un promedio pesado), donde P1 y P2 son los promedios de las dos encuestas. Cada parámetro se puede estimar en la manera más directa. Los cálculos en la sección 7 asumen este tipo de estimación. Sin embargo, existen varios métodos para utilizar la información de una primera ronda en la estimación de parámetros de la segunda ronda. El método clásico es estimar T2 por una función linear de T1,c , T1,nc , T2,c y T2,nc , donde c indica las partes de los totales basadas en unidades comunes en las dos rondas, y nc indica partes provenientes de unidades no comunes. Otro método utiliza un modelo de series temporales.2 Un problema que se encuentra con estos métodos es que cada variable debe ser estimado con cocientes especiales, y la suma de algunas variables estimadas (por ejemplo grupos de personas en varias partes del mercado laboral) no corresponde necesariamente a la estimación de la suma. Por esta razón, se abandonó la utilización de datos anteriores el la encuesta sueca de empleo cuando se introdujo un sistema avanzado de calibración. En la calibración, los expansores se determinan con el apoyo de informaciones auxiliares que se obtiene de registros oficiales de las personas que buscan trabajo, etc. 2 . Un resumen de métodos se halla en Handbook of Statistics, Vol. 6, Cap. 8: Sampling in Time, por D. A. Binder y M. A. Hidiroglu de Statistics Canadá.