ESTADÍSTICA ESPAÑOLA Vol. 42, Núm. 146, 2000, págs. 291 a 338 Estimaciones para áreas pequeñas() por RAMIRO LÓPEZ PAÑOS Jefe del Servicio de Metodología Área Estadísticas de Actividad, Empleo y Paro INTRODUCCIÓN Las encuestas por muestreo probabilístico están diseñadas para obtener estimaciones fiables de las principales variables de investigación con un mínimo de precisión prefijada en agregados poblacionales definidos a priori. Sin embargo, es frecuente que los utilizadores de las encuestas demanden datos para agregados poblacionales de magnitud inferior a los considerados en el diseño de la encuesta. Así, por ejemplo, pueden interesar estimaciones municipales en una encuesta cuyo agregado poblacional mínimo considerado en el diseño sea la provincia, o bien, estimaciones para la rama de actividad Transporte ferroviario cuando el agregado mínimo correspondiente es el Transporte terrestre. El problema que se plantea entonces es el de la insuficiencia del número de puntos de muestreo o incluso ausencia total en algunos casos para poder dar cualquier tipo de estimación fiable referida a estos ámbitos no previstos en el diseño. Ante esta situación, se puede ampliar el tamaño de muestra, lo cual no siempre es aconsejable ni económicamente conveniente, o utilizar estimadores especialmente concebidos para dar estimaciones en dominios pequeños, con ayuda de información auxiliar ajena a la encuesta. #ITCFG\EQNCKPGUVKOCDNGC[WFCSWGJGTGEKDKFQFG(NQTGPVKPCNXCTG\NXCTG\5WDFK TGEVQTC)GPGTCNFG'UVCFÈUVKECU&GOQIT¶HKECURCTCNCQDVGPEKÎPFGNCUVCDNCUFGTGUWNVCFQUEQP RTQEGFKOKGPVQU+/.FGN5#5[RQTNCUWRGTXKUKÎPFGNCTVÈEWNQGPIGPGTCN 292 ESTADÍSTICA ESPAÑOLA Los subconjuntos poblacionales de tamaño inferior al considerado en el diseño de la encuesta se denominan dominios o áreas pequeñas. La información auxiliar utilizada para dar estimaciones para áreas pequeñas puede proceder de la propia encuesta (de áreas ajenas o que contienen a la considerada), de otras encuestas, de censos o de registros administrativos. En las páginas siguientes se expone la técnica de elaborar estimaciones para áreas pequeñas en la Encuesta de Población Activa utilizando tres tipos de estimadores (sintético, a posteriori y compuesto) y dos clases de variable auxiliar (un registro de población y un registro laboral). En primer lugar se explican las características relevantes de la encuesta. A continuación se detallan los fundamentos teóricos de la técnica de estimación para áreas pequeñas y el problema de la estimación de sesgos y varianzas. Finalmente, se obtienen y comentan los resultados prácticos de la aplicación del método en las islas (las áreas pequeñas) de la comunidad autónoma de Canarias. Es la primera vez que el Instituto Nacional de Estadística (INE) acomete un estudio sobre la viabilidad de aplicar la metodología relativa a áreas pequeñas. Se tiene intención de profundizar en este campo en el futuro. Al respecto está previsto que el INE participe junto con las oficinas de estadística del Reino Unido y Finlandia, en el 5º proyecto marco dedicado a las técnicas de estimación para áreas pequeñas que financia la Unión Europea. CARACTERÍSTICAS DE LA ENCUESTA DE POBLACIÓN ACTIVA (EPA) La Encuesta de Población Activa es una investigación dirigida a las viviendas familiares cuyo fin es medir la actividad económica de la población, es decir, evaluar el número de ocupados, parados, inactivos, etc., y las características de estos grupos poblacionales. Se realiza desde 1964. Actualmente tiene periodicidad trimestral. La muestra consta de 65.000 viviendas por trimestre, lo que supone entrevistar a casi 200.000 personas. La encuesta sigue la metodología de la Organización Internacional del Trabajo, dada en las XIIIa y XIVa Conferencias Internacionales de Estadísticos del Trabajo (Ginebra, 1982 y 1998). El diseño de la EPA es bietápico, estratificado en las unidades de primera etapa. Estas son las secciones censales (áreas geográficas perfectamente delimitadas de ESTIMACIONES PARA ÁREAS PEQUEÑAS 293 menos de tres mil habitantes). Se seleccionan 3.484 secciones al trimestre de entre las más de 30.000 que tiene España. En cada una de las secciones de la muestra se seleccionan, a su vez, un promedio de 18 viviendas, que son las unidades de segunda etapa. Cada provincia española es un universo independiente. Se han definido estratos en ellas, que son agrupaciones de municipios, siguiendo un criterio poblacional. Así, la capital de la provincia es el estrato 1. El 2 está formado por los municipios mayores de 100.000 habitantes que son importantes en relación con la capital. El 3, por el resto de municipios mayores de 100.000 habitantes. El 4, por los de 50.000 a 100.000 y así sucesivamente con límites en 20.000, 10.000, 5.000 y 2.000. Los municipios menores de 2.000 habitantes constituyen el estrato 9. No todas las provincias tienen los nueve tipos de estratos. El número de secciones asignado a cada provincia se determina en función de la población de dicha provincia y de la necesidad de que los datos tengan un error de muestreo aceptable. A continuación, la muestra de secciones provincial se distribuye por estratos proporcionalmente al tamaño de cada uno de ellos. Se utilizan estimadores de razón tomando como variable auxiliar las proyecciones demográficas de población elaboradas por el Instituto Nacional de Estadística. La expresión del estimador para una cierta variable X es la siguiente: * * = Σ 2J : J R J PJ ∑: JK K = donde P̂h = proyección de la población residente en viviendas familiares en el estrato h. ph = número de personas de la muestra en el estrato h. nh = número de viviendas en el estrato h. X hi = valor de la característica investigada en la vivienda iésima del estrato h. El sumatorio h se extiende a todos los estratos de una provincia, una comunidad autónoma o al total nacional. Una exposición detallada del diseño de la EPA se puede consultar en el documento Informe técnico. Diseño de la EPA y evaluación de la calidad de los datos. 294 ESTADÍSTICA ESPAÑOLA DEFINICIÓN DE LOS ESTIMADORES SINTÉTICO Y A POSTERIORI PARA ÁREAS PEQUEÑAS Supongamos que en la EPA queremos obtener estimaciones para un territorio pequeño D ubicado dentro de una provincia. Uno o varios municipios constituyen el territorio D, a su vez formados por una o varias secciones censales (pertenecientes o no a la muestra EPA). Se tiene entonces M D= 5 K N = donde 5K son las secciones integrantes del dominio D. Sea H el conjunto de estratos de la provincia que tienen intersección no vacía con D. Es decir: { } / * = JL JL ∩ & ≠ Va a ser muy importante conocer con exactitud la afijación de la muestra, no solamente en el dominio, sino también en los estratos que tienen parte común con el dominio. En el diagrama adjunto se tiene un ejemplo donde el diseño original ha establecido cinco estratos a priori en la provincia, estando el dominio representado por la región sombreada a caballo sobre los estratos 3, 4 y 5, que sólo tiene puntos de muestreo en su parte común con los estratos 3 y 4; sin embargo el hecho de tener intersección con el estrato 5 habrá de ser tenido en cuenta a la hora de construir los estimadores para áreas pequeñas. ESTIMACIONES PARA ÁREAS PEQUEÑAS 295 x 1 x x x x 5 2 x x x x 4 x x x 3 x x x x − En este ejemplo * =3, 4, 5. Al existir puntos de muestreo en el dominio, la EPA permite obtener una estimación directa para la variable de interés Y. ;* = ∑ ;* = ∑∑ ;* F J F JI J J∈* I F es la estimación obtenida para un estrato h y un determinado grupo de donde ;*JI clasificación o postestrato g en el dominio. Los estimadores utilizados en la teoría de áreas pequeñas admiten distintos tipos de clasificaciones según que la información sobre la variable de interés Y se recabe exclusivamente del dominio D o rebase el ámbito de D; tenemos así estimadores directos e indirectos. También los estimadores pueden estar basados en la pura reproducción o simulación de muestras o bien en modelos, por ejemplo de regresión. Los dos grupos de estimadores básicos que se proponen son: Estimador a posteriori ;*RQU = ∑∑ J∈* I F ;*JI :F *F JI : JI 296 ESTADÍSTICA ESPAÑOLA Estimador sintético ;*UKP = ;*JI ∑∑ :* J∈* I F :JI JI X es la variable explicativa o auxiliar que aparece en la encuesta y en una fuente ajena a la encuesta (por ejemplo, el Censo, el Padrón o un Registro). El superíndice d indica que la magnitud se refiere al ámbito del dominio en su intersección con el estrato h y el grupo g. F Se observa que ambos estimadores utilizan la misma información auxiliar : JI , obteniéndose las estimaciones a partir de los puntos de muestreo del dominio en el caso del estimador a posteriori mientras que en el caso del estimador sintético se utilizan puntos de muestreo que pertenecen al conjunto de los estratos que tengan intersección no vacía con D, por lo cual se cuenta con un tamaño de muestra mayor que en el primer caso. El subíndice g indica el producto de modalidades de las variables explicativas que se haya decidido tener en cuenta, por ejemplo sexo, grupos de edad, nivel de estudio, tipo de hogar, etc. El caso más simple sería g=1, obtenido al considerar la población total de 16 y más años. Por tanto, la expresión de los estimadores puede tomar formas más simplificadas, dependiendo por una parte del nivel de desagregación para el cual se tiene información auxiliar y por otra del número de puntos de muestreo existentes en la intersección de cada estrato con D, lo que hace que también pueda convenir fusionar estratos. Las variables explicativas favoritas suelen ser sexo cruzado con grupos de edad para las personas, y la condición de demandantes o no demandantes de empleo. Algunos investigadores utilizan los hogares clasificados por tamaño o por su estructura (monoparentales, pareja sin niños, etc.). CARACTERÍSTICAS DE LOS ESTIMADORES Para tener idea de las cualidades e inconvenientes de ambos tipos de estimadores, se van a comparar los sesgos y varianzas, empezando por el estimador sintético que se puede expresar también como 297 ESTIMACIONES PARA ÁREAS PEQUEÑAS ;*UKP = ∑∑ J F 4*JI : JI donde 4*JI = I ;*JI * : JI si tomamos esperanzas ;* JI ' 4*JI = ' : * JI ( ) ( ) ( ) ' ;* ;JI JI ≠ = = 4JI ': * : JI JI ( ) Es decir en principio no podemos suponer que ' 4*JI = 4JI Empleando el método de linealización de Taylor se va a obtener una expresión aproximada de ' 4*JI ( ) 4*JI − 4JI = * ;*JI ;*JI − 4JI : JI − 4JI = * * : : JI JI como * −: : JI * =: +: * − : = : + JI : JI JI JI JI JI : JI Llamando &JI = * −: : JI JI : JI se puede esperar que se cumpla que &JI < , por tanto 4*JI − 4JI = El factor * ;*JI − 4JI : JI : JI ⋅ + &JI se puede considerar como la suma de los términos de una + &JI progresión geométrica de razón &JI < , o sea 4*JI − 4JI = * ;*JI − 4JI : JI : JI ( ( ) − (&JI ) ) ⋅ − &JI + &JI 298 ESTADÍSTICA ESPAÑOLA Si &JI es lo suficientemente pequeño, resultará 4*JI − 4JI ≅ * ;*JI − 4JI : JI : JI o sea 4*JI ≅ 4JI + * ;*JI − 4JI : JI : JI si tomamos esperanzas ( ) ' 4*JI ≅ 4JI Para el caso del estimador a posteriori, se haría un desarrollo similar y se obtendría para la intersección del estrato con el dominio ( ) F F F F < donde &JI ≅ 4JI en el supuesto que &JI ' 4*JI = *F − : F : JI JI F : JI El estimador a posteriori va a ser aproximadamente insesgado ya que ;*RQU = ∑∑ 4* F F JI : JI J , I al tomar esperanza ( ) ∑∑ '(4* ): ' ;*RQU = F JI J F como 4JI = F ;JI F :JI F JI ∑∑ 4 ≅ I J ( ) ∑∑ ; , se obtiene ' ;*RQU ≅ F JI J F F JI : JI I ( ) = ; F o sea ' ;*RQU ≅ ; F valor I verdadero poblacional en el dominio. El cálculo del sesgo del estimador sintético sería por tanto ' ;*UKP − ; F = ' ( ) ∑∑ J I F − 4*JI : JI ∑∑ 4 J I F F JI : JI , o sea ∑∑ (4 J I JI ) F F − 4JI : JI 299 ESTIMACIONES PARA ÁREAS PEQUEÑAS F Solamente en el caso en que se cumpliera 4 JI = 4 JI para cada estrato, se tendría que el estimador sintético es insesgado, por lo cual no podemos esperar que lo sea en general. Vamos a calcular las varianzas de ambos estimadores y tendremos una interF pretación más intuitiva de la condición de homogeneidad 4JI = 4JI dentro del estrato h. VARIANZAS DE LOS ESTIMADORES SINTÉTICO Y A POSTERIORI F 8CT ;*UKP ≅ ' 4*JI − 4JI : JI J I dentro de cada estrato. ( ) ∑∑ ( ) ( ) ya que hemos supuesto que ' 4*JI ≅ 4JI Para mayor simplicidad, consideremos el caso g=1, o sea la población de 16 y más años, se tiene entonces ( ) ∑ '(4* 8CT ;*UKP ≅ J J − 4J ) (: ) F J ( Es decir dentro de cada estrato, la varianza es proporcional a ' 4*J − 4J ( mejor dicho a ' 4*J − 4J ) En virtud del método de linealización anterior, se tiene 4*J − 4J ≅ ( por lo cual ' 4*J − 4J ) ≅ ( * ' ;*J − 4J : J :J ) ) (: ) F J o * ;*J − 4J : J :J . El numerador de la expresión anterior se puede interpretar como la varianza residual de una regresión simple entre las variables ;*J y :J si se repitiera la encuesta r veces aplicando el mismo esquema de selección de muestra en cada repetición. Se ajustaría una recta de regresión a los r pares de valores ;J(T ) : J(T ) , siendo la pendiente de esta recta hipotética el valor Rh, o mejor dicho una estimación de Rh,. 300 ESTADÍSTICA ESPAÑOLA x Y h tgα = R x h x α X h * sería ; = 4 : * El valor teórico que la recta asignaría a la abscisa : J J J J por lo * sería el residuo mínimo cuadrático para cualquier punto de la nube. cual ;*J − 4J : J ( * ' ;*J − 4J : J ) sería la varianza residual correspondiente al modelo ;J = 4J :J + ' dentro del estrato h. Este mismo razonamiento sería válido para la varianza del estimador a posterio ri. En este caso, para cada estrato h, la varianza sería proporcional a ' 4*JF − 4JF y *F ;*F − 4 F : como 4*JF − 4JF ≅ J FJ J se verificaría :J ( ( ' 4*JF − 4JF ) ≅ ( *F ' ;*JF − 4JF : J (: ) F J ) ) El numerador de la expresión anterior también se puede interpretar como la varianza residual correspondiente a un modelo de regresión ;JF = 4JF :JF + ' dentro de la intersección del estrato con el dominio. Igual que en el caso anterior, se tendría 301 ESTIMACIONES PARA ÁREAS PEQUEÑAS x d d Yh x tgα' = R h x α' d Xh 4JF también sería la pendiente de una recta hipotética de mínimos cuadrados. La hipótesis de homogeneidad dentro del estrato consistirá en que tgα=tgα’ lo cual no podemos esperar que ocurra como ya se dijo anteriormente. Teniendo en cuenta que el estimador sintético está construido por definición sobre un tamaño de muestra mayor que el estimador a posterior, su varianza será menor pero su sesgo puede llegar a ser importante. Recordando que para cualquier estimador se tiene E.C.M = varianza + (sesgo)2 siendo E.C.M el error cuadrático medio, no está claro cual de los dos estimadores tendría menor error cuadrático medio. ESTIMADOR GENERALIZADO DE REGRESIÓN (GREG) Se obtuvo anteriormente como sesgo del estimador sintético la expresión: UGUIQ = ∑∑ (4 J I JI ) F F − 4JI : JI 302 ESTADÍSTICA ESPAÑOLA Un estimador del sesgo sería ∑∑ 4* *F JI :JI J − I ∑∑ 4* F *F JI :JI J . Si añadimos al es- I timador sintético la expresión del estimador del sesgo cambiado de signo, tendríamos ;* = ∑∑ 4* F JI : JI J El término ∑∑ 4* *F JI : JI I F *F JI :JI J ∑∑ 4* − J + I ∑∑ 4* F *F JI : JI J I sería la estimación directa ;*F , o sea, I ;* = ;*F + ∑∑ 4* (: JI J F JI *F −: JI I ) Este nuevo estimador obtenido al sumar al sintético la estimación de su sesgo cambiado de signo, es el llamado estimador general de regresión, el cual también se puede expresar como ;*)4') = ∑∑4* F JI :JI J I + ∑∑ (;* F JI J I *F − 4*JI : JI ) El primer sumando es el estimador sintético y el segundo es el residuo de los puntos del estrato intersección con el dominio respecto de la recta de regresión correspondiente al conjunto del estrato. Se tiene entonces que el estimador GREG será insesgado pero su varianza será la del sintético aumentada en la varianza residual correspondiente al segundo sumando. ESTIMADORES COMPUESTOS Otro grupo de estimadores que se utilizan en la estimación de áreas pequeñas son los llamados estimadores compuestos que se obtienen como combinación convexa del estimador a posteriori y del sintético. ;*EQOD = α;*RQU + (− α );*UKP La idea del estimador compuesto es sintetizar las ventajas de ambos tipos de estimadores y reducir los inconvenientes. 303 ESTIMACIONES PARA ÁREAS PEQUEÑAS Existe un valor de α óptimo, en el sentido de que se obtiene el menor E.C.M., la obtención de este óptimo es complicada y su valor aproximado es α= ( ) '%/ ;*UKP '%/ ;*UKP + '%/ ;*RQU ( ) ( ) Un caso especial de estimador compuesto es el llamado estimador que depende del tamaño de la muestra, donde se fija una constante - que toma generalmente los valores 1 ó 0,5. Dentro del estrato h y grupo g se hace αJI = UK αJI = *F : JI F - :JI *F : JI :JI UK ≥ Κ *F : JI F :JI < Κ La expresión del estimador compuesto sería ;*QOD = ∑∑ α J I JI F ;*JI F + :JI F * : JI * ; ∑ ∑ (− α ) :* J I JI JI JI F :JI Si α JI = , se obtiene el estimador a posteriori ya que se considera que el tamaño de muestra existente en la intersección del dominio con el estrato tiene una F . capacidad de representación suficiente para estimar :JI En la Oficina de Estadística de Canadá se ha utilizado Κ = ESTIMADORES BASADOS EN MODELOS Al tratar el tema de la varianza de los estimadores, se interpretaron los valores F como las pendientes de unas rectas de regresión hipotéticas ajustadas a 4JI [4JI partir de los resultados obtenidos al repetir la encuesta r veces en un mismo periodo. Esto indudablemente permitiría conocer el comportamiento de los estimadores en lo que se refiere a sesgo y varianza principalmente, pero lo normal es que los investigadores no tengan fácilmente la opción de repetir la encuesta ni de simularla r veces por lo cual para obtener una estimación de la varianza en base a los datos de una sola realización de encuesta habrá que utilizar los recursos que proporcionan los modelos de regresión. 304 ESTADÍSTICA ESPAÑOLA El estimador sintético ;*UKP = ∑∑ 4* F JI : JI J (1) ;*UKP = ∑$ Z J F J se puede expresar de otra forma I () J Es decir, como un estimador de regresión de Cochran generalizado en varias dimensiones. El modelo de regresión en el estrato h sería ;J = : J$ J + 'J Donde : J sería una matriz de dimensiones PJ × I , siendo PJ el tamaño de la muestra de individuos en el estrato h y g el número de variables explicativas. Cada fila de : J tendrá una coordenada igual a 1 y el resto cero ya que cada individuo pertenece a una sola modalidad de variable explicativa. Se tratará de una regresión múltiple y generalizada, ya que cada elemento del estrato tiene una ponderación asignada por el diseño original. En (1), Bh ( sería estimado por $*J = :J 9J :J ) (: 9 ; ) − J J J 9J sería una matriz diagonal de pesos en el estrato h, e ;J sería el vector columna de dimensiones PJ × correspondiente a la variable Y. Con la expresión (1), Z JF sería un vector de dimensiones I× , constituido por los efectivos que proporciona el Censo o Padrón para cada grupo de variables explicativas en la intersección del estrato con el dominio. Para estimar el sesgo o la varianza, nos apoyaremos en resultados conocidos de la teoría de la regresión. Volviendo a la expresión más habitual del estimador sintético ;* = ∑∑ $* F JI Z JI J I tenemos F F 'NUKIPKHKECFQFG Z J [ :J GUGSWKXCNGPVGGPCODCUGZRTGUKQPGUFGNGUVKOCFQTUKPVÃ VKEQRGTQGP UGQRVCRQTNCOKPÕUEWNCRCTCGXKVCTEQPHWUKQPGUEQPECTCEVGTGUSWGCRCTGEGP GPNCGZRTGUKÎPOCVTKEKCNFG $ J 305 ESTIMACIONES PARA ÁREAS PEQUEÑAS ( ) ∑ 8CT ∑ $* 8CT ;* = J F JI Z JI I Para un estrato h fijo, y recordando que en general se tiene para cualquier par de variables aleatorias x e y 8CT CZ + D[ = C 8CT Z + D 8CT [ + CD%QX Z [ donde a y b son constantes 8CT ( ) ∑ $* F JI Z JI I ( = ∑ (Z ) 8CT($* ) + ∑ (Z F JI I JI F F JI Z JI I≠ I )⋅ %QX($* * JI $ JI ) ) 8CT $*JI y %QX $*JI $*JI se obtendrían a partir de la matriz de covarianzas de $* que proporciona la teoría de la regresión. La expresión general de esta matriz de dimensiones g×g es: %QX $*J = σ J :J 9J :J − Teniendo en cuenta cómo está construida la matriz : J de variables explicativas, donde en cada fila todas las coordenadas son nulas excepto una, la matriz de covarianzas de los coeficientes de regresión será diagonal. La inversa de la matriz de dimensiones g x g ya se conoce al calcular $*J mientras que σ J sería un escalar que expresa la varianza residual mínimo cuadrática correspondiente al modelo de regresión utilizado. Dentro del estrato, la varianza residual se estimaría por PJ σJ = GK ∑ K = PJ − I = * 9 ; − : $ * ;J − :J$ J J J J J PJ − I ;J − :J$*J sería un vector PJ × constituido por los residuos que resultan al aplicar el modelo de regresión a los individuos de la muestra del estrato h. g es el número de parámetros estimados en el modelo 306 ESTADÍSTICA ESPAÑOLA Se observa, pues, que una sola realización de la encuesta permitiría estimar la varianza del estimador sintético. La varianza del estimador a posteriori se haría de forma similar pero en base a la muestra de individuos perteneciente exclusivamente al dominio, con los inconvenientes que esto puede suponer. Si se expresa el estimador a posteriori de la forma: ;*RQU = ∑$ F F J ZJ J El coeficiente de regresión $ JF se estimaría a partir del modelo múltiple similar al caso anterior. El sesgo del estimador sintético sería $ = UGUIQ = ∑ ($ J J ) − $ JF Z JF y se estimaría a partir del modelo por $* = ∑ ($* − $* ) Z J F J F J J $*J y $*JF son de dimensiones 1 x g mientras que Z JF es el vector g x 1 de efectivos proporcionados por el Censo o el Padrón. ENSAYO DE ESTIMADORES PARA ÁREAS PEQUEÑAS EN LA COMUNIDAD AUTÓNOMA DE CANARIAS Los procedimientos de estimación descritos se han ensayado en las provincias que constituyen la Comunidad Autónoma de Canarias. Para ello se ha tenido en cuenta la división de cada provincia en islas de modo que se tiene un recubrimiento por áreas pequeñas para ambas provincias. Provincia de Las Palmas. Información auxiliar del Censo de 1991 Dentro de la provincia de Las Palmas, se han considerado como áreas pequeñas las islas de Gran Canaria, Lanzarote y Fuerteventura. Para ello se ha utilizado el diseño muestral de la EPA correspondiente al primer trimestre del 91 con el fin de aprovechar la información que proporciona el Censo referido a marzo del mismo 307 ESTIMACIONES PARA ÁREAS PEQUEÑAS año. Se tiene también la ventaja de poder comparar la estimación provincial que da la EPA para el conjunto de la provincia con la suma de las estimaciones que se obtienen para cada una de las islas aplicando la teoría de estimadores relativos a áreas pequeñas. Para el total de la provincia se había muestreado un total de 72 secciones censales que se distribuyen por estratos e islas según el cuadro adjunto. Estratos Islas Total 1 4 5 6 7 8 Gran Canaria 62 35 6 8 5 7 1 Lanzarote 7 - - 5 - 2 - Fuerteventura 3 - - - 1 - 2 Total Provincia 72 35 6 13 6 9 3 Los estimadores utilizados son el estimador a posteriori, el sintético y el que depende del tamaño de la muestra, que es una combinación de ambos. Las variables de interés que se han tenido en cuenta han sido el número de ocupados y de parados. Como variable auxiliar se han considerado dos modalidades: población total de 16 y más años y población clasificada por sexo y los grupos de edad 16-24, 25-44, 45 y más. La información auxiliar requerida por los estimadores y ajena a la encuesta viene proporcionada por el Censo del 91. De acuerdo con el Censo del 91, existen municipios correspondientes al estrato 8 en la isla de Lanzarote, aunque en la EPA no hay puntos de muestreo en este estrato; solamente el estimador sintético ha permitido obtener estimaciones de ocupados y parados en el estrato 8. En la isla de Fuerteventura tampoco hay puntos de muestreo en el estrato 7 aunque el Censo sí proporciona información para este estrato, por lo cual el estimador sintético es el único que permite obtener estimaciones en este caso. En las tablas 1.1 a 1.4 aparecen las estimaciones de los distintos estimadores utilizados y la estimación directa que da la EPA sin utilizar ningún tipo de información auxiliar para cada una de las islas de la provincia y el total de la provincia obtenido como suma de las estimaciones relativas a las islas. Se observa que para el conjunto de la provincia y variable ocupados las estimaciones difieren bastante según el tipo de información auxiliar considerada. Si se toma la población de 16 y más, el estimador sintético es el que más se acerca a la estimación directa de la EPA, mientras que para la otra modalidad de información auxiliar, el 308 ESTADÍSTICA ESPAÑOLA estimador que depende del tamaño de la muestra es el que más se acerca a la estimación de EPA. En lo que se refiere a la variable parados hay poca diferencia entre las tres clases de estimadores y buena aproximación a la estimación directa de la EPA, independientemente del tipo de información auxiliar elegida. Para la isla de Gran Canaria y variable ocupados el comportamiento de las estimaciones es muy similar al conjunto de la provincia lo cual es normal si se tiene en cuenta el peso de esta isla a nivel de representación muestral en el conjunto de la provincia. Para los parados, las estimaciones son muy similares entre sí tanto a nivel del estimador como de información auxiliar. En la isla de Fuerteventura hay mejor aproximación por parte del estimador sintético a la estimación de la EPA para la variable ocupados independientemente del tipo de información auxiliar utilizada mientras que para los parados las estimaciones son muy parecidas y cercanas a las de la EPA, aún más la del estimador a posteriori. En la isla de Lanzarote hay mejor aproximación del estimador a posteriori a la estimación directa de EPA tanto para la variable ocupados como para la variable parados, independientemente del tipo de variable auxiliar elegida. Provincia de Santa Cruz de Tenerife. Información auxiliar del Censo de 1991 Para la provincia de Sta. Cruz de Tenerife se han tomado como áreas pequeñas las islas de Tenerife, Palma, Gomera y Hierro. Igual que en el caso de Las Palmas, se ha utilizado el diseño de EPA relativo al primer trimestre del 91 y el mismo tipo de información auxiliar referida al Censo del 91. Para el total de la provincia, el diseño muestreó un total de 72 secciones censales que se distribuyen por islas y estratos según el cuadro adjunto. Estratos Islas Total 1 2 5 6 7 8 Tenerife 64 24 12 12 6 7 3 Palma 6 - - - 3 2 1 Gomera 2 - - - - - 2 Hierro - - - - - - - Total Provincia 72 24 12 12 9 9 6 ESTIMACIONES PARA ÁREAS PEQUEÑAS 309 En esta provincia se ha optado por ensayar exclusivamente el estimador sintético ya que la isla de Hierro no tiene ningún punto de muestreo y el estimador a posteriori daría nulo. Como la isla está constituida exclusivamente por municipios del estrato 8 se ha podido dar una estimación en base al conjunto de la muestra afijada en el estrato 8 de toda la provincia. La isla de la Gomera, aunque tiene municipios del estrato 7 y del estrato 8, sólo tiene muestra en el estrato 8, pero el estimador sintético también proporciona estimación para el estrato 7. En las dos islas restantes de la provincia, hay representación muestral en todos los tipos de estratos que aparecen en ellas. Las variables de interés para las cuales se han obtenido las estimaciones en todas las islas que constituyen la provincia son el número de ocupados, de parados y de inactivos. Esto permite una comparación con las estimaciones directas de la EPA, no sólo por modalidad de relación con la actividad sino entre las poblaciones de 16 y más años que vienen dadas por la suma de las tres modalidades. En las tablas 2.1 a 2.4 aparecen para cada isla y el total de la provincia, las estimaciones obtenidas con el estimador sintético y las de la EPA, por estrato y tipo de información auxiliar empleada. En el conjunto de la provincia, para la variable inactivos la información auxiliar de población total proporciona una estimación más cercana a la estimación de EPA que la población por grupo de edad y sexo. Para las variables ocupados y parados se observa lo mismo que en el caso de la variable inactivos aunque en menor grado. Para la isla de Tenerife, la información auxiliar resumida proporciona una estimación más próxima a la estimación de EPA que la información desagregada en el caso de las variables inactivos y parados mientras que para la variable ocupados se observa preferencia por la población desagregada. En la isla de La Palma, la información auxiliar resumida también se acerca más a la estimación de EPA, encontrándose la mayor diferencia en la variable inactivos. En la isla de La Gomera la representación muestral es pobre y se refleja en las discrepancias sustanciales que existen entre las estimaciones directas y el estimador sintético para todas las variables. En la isla del Hierro, como no existe muestra en absoluto las estimaciones que proporciona el estimador sintético no son comparables con ninguna referencia. 310 ESTADÍSTICA ESPAÑOLA Provincia de Santa Cruz de Tenerife. Información auxiliar del registro de demandantes y del Padrón Municipal de 1996 Por último, se ha ensayado para la provincia de Santa Cruz de Tenerife otra clase de estimador sintético que utiliza como variable auxiliar la condición de demandante o no demandante de empleo para cada sexo. Se han utilizado los datos de EPA correspondientes al segundo trimestre del 96 por su cercanía con la fecha de realización del Padrón Municipal de habitantes. Como fuente estadística auxiliar se ha utilizado el registro de demandantes de empleo correspondiente a mayo de 1996. Los efectivos de no demandantes en cada municipio se han obtenido como diferencia entre las cifras padronales y los demandantes del registro. La distribución de secciones por estratos e islas en el segundo trimestre del 96 era la siguiente: DISTRIBUCIÓN DE SECCIONES POR ISLAS Y ESTRATOS PROVINCIA DE SANTA CRUZ DE TENERIFE. MAYO 1996 Estratos Islas Total 1 2 5 6 7 8 Tenerife Palma 63 8 21 - 12 - 12 - 7 2 9 3 2 3 Gomera - - - - - - - Hierro 1 - - - - - 1 Total Provincia 72 21 12 12 9 12 6 Dentro de cada estrato, la expresión general del estimador empleado ha sido ;* & ;*UP = &* + ;* & * & Y es la variable ocupado o parado, mientras que &* y & indican la condición de demandante estimado por la EPA y proporcionado por el registro respectivamente. * Del mismo modo & y & indican la condición de no demandante en las dos fuentes estadísticas. Para la variable ocupados existe una correlación mucho más importante con la condición de no demandantes que con la de demandantes mientras que para la variable parados ocurre lo contrario. ESTIMACIONES PARA ÁREAS PEQUEÑAS 311 En las tablas 3.1 a 3.5 se comparan las estimaciones directas de EPA y las obtenidas con el estimador sintético para cada una de las islas y el total de la provincia. Para la isla de Tenerife se observa una discrepancia grande para los parados entre la estimación directa de EPA y el estimador sintético. Para los ocupados la diferencia no es tan importante; esto se puede explicar por el hecho de que la variable parados está muy influida por la variable explicativa demandantes y en los estratos 1, 2 y 5 que son exclusivos de la isla de Tenerife existe bastante diferencia entre la estimación proporcionada por la EPA y los efectivos que da el INEM. En cambio, la variable ocupados depende sobre todo de los no demandantes para los cuales la diferencia es mucho menor. En la isla de La Palma, que tiene municipios en los estratos 6, 7 y 8, se observa bastante similitud entre la estimación directa de la EPA y el estimador sintético. En la isla de La Gomera no hay puntos de muestreo en la EPA por lo cual no existe referencia alguna para comparar. En la isla de Hierro, sólo hay un punto de muestreo en el estrato 8 y las cifras son de muy poca magnitud para que la comparación sea significativa. Para el total de la provincia la discrepancia entre las estimaciones para ambas variables viene muy influida por la diferencia observada en la mayor de las islas, Tenerife, que es la que tiene también mayor peso en la representación muestral. Asimismo el hecho de que la estimación directa en La Gomera sea nula contribuye a que aumente la diferencia entre los ocupados y se reduzca la de los parados, resultando de una magnitud casi igual pero de signo contrario, en torno a trece mil, para ambas variables. 312 ESTADÍSTICA ESPAÑOLA TABLA 1.1 TOTAL PROVINCIA DE LAS PALMAS TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimador a posteriori Estimación directa de EPA Ocupados Parados Ocupados Parados 217,7 68,8 223,6 69,7 16-24 años 23,5 13,9 25,8 15,3 25-44 años 86,6 18,3 76,0 15,8 45 y más años 44,3 6,3 47,1 6,8 Total varones 154,3 38,5 148,9 37,9 16-24 años 16,2 13,0 18,0 13,9 25-44 años 43,4 15,9 40,9 14,5 45 y más años 13,9 3,2 15,9 3,5 Total mujeres 73,5 32.1 74,8 31,9 AMBOS SEXOS 227,8 70,6 223,7 69,8 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado 313 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 1.1 TOTAL PROVINCIA DE LAS PALMAS TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Estimador compuesto Ocupados Parados Ocupados Parados 223,5 70,4 216,9 68,9 16-24 años 23,9 14,6 23,2 14,2 25-44 años 89,1 18,1 86,5 18,2 45 y más años 44,8 7,0 43,5 6,6 Total varones 157,8 39,7 153,3 39,0 16-24 años 16,6 13,6 16,2 13,3 25-44 años 44,7 16,2 43,4 15,8 45 y más años 14,1 3,0 13,9 3,1 Total mujeres 75,3 32,9 73,5 32,2 AMBOS SEXOS 233,2 72,6 226,8 71,2 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 314 ESTADÍSTICA ESPAÑOLA TABLA 1.2 ISLA DE GRAN CANARIA TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimador a posteriori Estimación directa de EPA Ocupados Parados Ocupados Parados 190,6 62,9 194,8 64,0 16-24 años 19,6 13,4 22,6 14,7 25-44 años 76,4 15,9 64,6 13,5 45 y más años 39,6 6,1 42,6 6,6 Total varones 135,6 35,4 129,8 34,8 16-24 años 14,2 12,0 16,0 13,2 25-44 años 38,1 14,3 35,1 12,8 45 y más años 12,4 3,0 14,0 3,3 Total mujeres 64,7 29,3 65,1 29,3 AMBOS SEXOS 200,4 64,6 194,9 64,1 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 315 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 1.2 ISLA DE GRAN CANARIA TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Estimador compuesto Ocupados Parados Ocupados Parados 193,3 62,6 190,6 62,9 16-24 años 20,5 12,7 19,6 13,4 25-44 años 75,9 16,6 76,4 16,0 45 y más años 39,5 5,7 39,6 6,1 Total varones 135,8 35,0 135,6 35,5 16-24 años 14,3 12,0 14,2 12,0 25-44 años 38,7 14,4 38,2 14,3 45 y más años 12,5 3,0 12,4 3,0 Total mujeres 65,5 29,4 64,8 29,2 AMBOS SEXOS 201,4 64,4 200,5 64,7 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 316 ESTADÍSTICA ESPAÑOLA TABLA 1.3 ISLA DE FUERTEVENTURA TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimador a posteriori Estimación directa de EPA Ocupados Parados Ocupados Parados 8,5 2,1 12,2 2,3 16-24 años 1,0 0,3 1,3 0,4 25-44 años 3,0 0,8 4,6 0,8 45 y más años 1,9 0,0 1,6 0,0 Total varones 5,9 1,0 7,5 1,2 16-24 años 0,8 0,5 0,9 0,2 25-44 años 1,7 0,6 3,0 0,9 45 y más años 0,6 0,0 0,8 0,0 Total mujeres 3,1 1,1 4,7 1,1 AMBOS SEXOS 9,0 2,1 12,2 2,3 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 317 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 1.3 ISLA DE FUERTEVENTURA TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Estimador compuesto Ocupados Parados Ocupados Parados 9,5 2,9 7,8 2,1 16-24 años 1,0 0,7 1,0 0,3 25-44 años 4,5 0,3 3,1 0,5 45 y más años 1,6 0,3 1,2 0,1 Total varones 7,1 1,3 5,2 0,9 16-24 años 0,5 0,7 0,7 0,4 25-44 años 1,9 0,8 1,7 0,6 45 y más años 0,4 0,0 0,6 0,0 Total mujeres 2,9 1,4 2,9 1,0 AMBOS SEXOS 10,0 2,7 8,1 1,9 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 318 ESTADÍSTICA ESPAÑOLA TABLA 1.4 ISLA DE LANZAROTE TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimador a posteriori Estimación directa de EPA Ocupados Parados Ocupados Parados 18,5 3,8 16,6 3,4 16-24 años 2,9 0,2 1,9 0,2 25-44 años 7,1 1,7 6,8 1,5 45 y más años 2,7 0,2 2,9 0,2 Total varones 12,8 2,2 11,6 1,9 16-24 años 1,3 0,6 1,1 0,5 25-44 años 3,5 1,0 2,8 0,8 45 y más años 0,9 0,2 1,1 0,2 Total mujeres 5,8 1,8 5,0 1,5 AMBOS SEXOS 18,4 3,9 16,6 3,4 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 319 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 1.4 ISLA DE LANZAROTE TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Estimador compuesto Ocupados Parados Ocupados Parados 20,6 5,0 18,4 3,9 16-24 años 2,4 1,2 2,6 0,6 25-44 años 8,7 1,3 7,1 1,7 45 y más años 3,7 1,0 2,7 0,4 Total varones 14,9 3,4 12,5 2,7 16-24 años 1,7 0,0 1,4 0,9 25-44 años 4,1 1,1 3,5 1,0 45 y más años 1,2 0,0 0,9 0,1 Total mujeres 6,9 2,0 5,8 2,0 AMBOS SEXOS 21,7 5,5 18,3 4,6 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 320 ESTADÍSTICA ESPAÑOLA TABLA 2.1 TOTAL PROVINCIA SANTA CRUZ DE TENERIFE TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimación directa de la EPA Total Inactivos Ocupados Parados 550,2 271,3 215,0 63,9 16-24 años 60,7 28,3 20,6 11,7 25-44 años 94,6 6,0 73,5 15,0 45 y más años 107,1 50,5 48,4 8,3 Total varones 262,4 84,8 142,5 35,0 16-24 años 58,0 35,4 12,1 10,6 25-44 años 99,5 43,8 39,8 15,7 45 y más años 130,2 107,3 20,3 2,5 Total mujeres 287,7 186,5 72,2 28,8 AMBOS SEXOS 550,1 271,3 214,7 63,8 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 321 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 2.1 TOTAL PROVINCIA SANTA CRUZ DE TENERIFE TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Total Inactivos Ocupados Parados 543,6 266,9 213,3 63,4 16-24 años 61,7 29,1 20,8 11,8 25-44 años 103,1 6,5 80,2 16,3 45 y más años 100,1 46,4 45,8 7,9 Total varones 264,8 82,0 146,9 35,9 16-24 años 59,8 36,6 12,4 10,8 25-44 años 103,5 46,3 40,9 16,3 45 y más años 115,5 95,3 18,1 2,1 Total mujeres 278,8 178,2 71,4 29,2 AMBOS SEXOS 543,6 260,2 218,3 65,1 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 322 ESTADÍSTICA ESPAÑOLA TABLA 2.2 ISLA DE TENERIFE TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimación directa de la EPA Total Inactivos Ocupados Parados 480,0 229,0 196,6 54,5 16-24 años 53,8 25,5 18,2 10,0 25-44 años 85,2 5,4 67,3 12,4 45 y más años 90,3 40,7 43,1 6,7 Total varones 229,3 71,6 128,6 29,1 16-24 años 50,5 30,1 11,1 9,3 25-44 años 89,3 37,5 38,0 13,7 45 y más años 110,9 89,8 18,7 2,3 Total mujeres 250,7 157,4 67,8 25,3 AMBOS SEXOS 480,0 229,0 196,4 54,4 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 323 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 2.2 ISLA DE TENERIFE TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Total Inactivos Ocupados Parados 472,4 230,5 187,6 54,2 16-24 años 54,1 26,1 17,8 10,2 25-44 años 90,3 5,6 70,6 14,1 45 y más años 85,2 38,8 40,0 6,4 Total varones 229,6 70,5 128,4 30,7 16-24 años 52,5 32,4 10,8 9,2 25-44 años 91,3 40,3 37,0 14,1 45 y más años 99,0 81,8 15,4 1,8 Total mujeres 242,8 154,5 63,2 25,1 AMBOS SEXOS 472,4 225,1 191,6 55,8 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 324 ESTADÍSTICA ESPAÑOLA TABLA 2.3 ISLA DE LA PALMA TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimación directa de la EPA Total Inactivos Ocupados Parados 59,2 33,3 16,8 9,0 16-24 años 6,3 2,6 2,2 1,5 25-44 años 8,2 0,2 5,6 2,4 45 y más años 13,4 6,8 4,9 1,6 Total varones 27,9 9,6 12,7 5,5 16-24 años 7,1 5,1 0,8 1,3 25-44 años 9,6 5,7 1,8 2.0 45 y más años 14,5 12,9 1,4 0,2 Total mujeres 31,2 23,7 4,0 3,5 AMBOS SEXOS 59,1 33,3 16,7 9,0 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 325 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 2.3 ISLA DE LA PALMA TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Total Inactivos Ocupados Parados 56,3 28,3 20,8 7,2 16-24 años 6,0 2,5 2,4 1,1 25-44 años 10,2 0,6 7,8 1,8 45 y más años 11,5 5,5 4,8 1,1 Total varones 27,7 8,6 15,0 4,1 16-24 años 5,8 3,3 1,3 1,2 25-44 años 9,9 4,9 3,2 1,8 45 y más años 12,9 10,5 2,1 0,3 Total mujeres 28,6 18,7 6,6 3,3 AMBOS SEXOS 56,3 27,3 21,7 7,3 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 326 ESTADÍSTICA ESPAÑOLA TABLA 2.4 ISLA DE LA GOMERA TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimación directa de la EPA Total Inactivos Ocupados Parados 11,0 9,0 1,6 0,4 16-24 años 0,6 0,2 0,2 0,2 25-44 años 1,2 0,4 0,6 0,2 45 y más años 3,4 3,0 0,4 0,0 Total varones 5,2 3,6 1,2 0,4 16-24 años 0,4 0,2 0,2 0,0 25-44 años 0,6 0,6 0,0 0,0 45 y más años 4,8 4,6 0,2 0,0 Total mujeres 5,8 5,4 0,4 0,0 AMBOS SEXOS 11,0 9,0 1,6 0,4 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 327 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 2.4 ISLA DE LA GOMERA TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Total Inactivos Ocupados Parados 9,1 4,8 3,1 1,2 16-24 años 1,1 0,5 0,4 0,3 25-44 años 1,6 0,2 1,2 0,2 45 y más años 2,0 1,1 0,6 0,2 Total varones 4,7 1,8 2,2 0,7 16-24 años 1,0 0,6 0,2 0,2 25-44 años 1,4 0,6 0,5 0,3 45 y más años 2,1 1,7 0,3 0,1 Total mujeres 4,5 2,9 1,0 0,6 AMBOS SEXOS 9,2 4,7 3,2 1,3 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 328 ESTADÍSTICA ESPAÑOLA TABLA 2.5 ISLA DE HIERRO TODOS LOS ESTRATOS Cifras en miles Información auxiliar Estimación directa de la EPA Total Inactivos Ocupados Parados 0,0 0,0 0,0 0,0 16-24 años 0,0 0,0 0,0 0,0 25-44 años 0,0 0,0 0,0 0,0 45 y más años 0,0 0,0 0,0 0,0 Total varones 0,0 0,0 0,0 0,0 16-24 años 0,0 0,0 0,0 0,0 25-44 años 0,0 0,0 0,0 0,0 45 y más años 0,0 0,0 0,0 0,0 Total mujeres 0,0 0,0 0,0 0,0 AMBOS SEXOS 0,0 0,0 0,0 0,0 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 329 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 2.5 ISLA DE HIERRO TODOS LOS ESTRATOS (conclusión) Cifras en miles Información auxiliar Estimador sintético Total Inactivos Ocupados Parados 5,7 3,3 1,7 0,7 16-24 años 0,5 0,2 0,2 0,2 25-44 años 1,0 0,1 0,7 0,2 45 y más años 1,4 0,9 0,4 0,1 Total varones 2,8 1,1 1,3 0,5 16-24 años 0,5 0,3 0,1 0,1 25-44 años 0,9 0,5 0,3 0,1 45 y más años 1,5 1,2 0,2 0,0 Total mujeres 2,9 2,0 0,6 0,3 AMBOS SEXOS 5,7 3,1 1,9 0,8 Población de 16 años y más (*) VARONES MUJERES (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado. 330 ESTADÍSTICA ESPAÑOLA TABLA 3.1 TOTAL DE LA PROVINCIA DE SANTA CRUZ DE TENERIFE MAYO 1996 Cifras en miles Información auxiliar Estimación directa EPA Estimador sintético (*) Ocupados Parados Ocupados Parados Demandantes 10,1 52,1 8,1 37,5 No demandantes 239,6 13,1 254,7 14,3 Total 249,7 65,2 262,8 51,8 Demandantes 5,8 27,3 4,2 19,2 No demandantes 154,9 4,2 165,5 4,5 Total 160,7 31,5 169,7 23,7 Demandantes 4,3 24,8 3,7 18,6 No demandantes 84,7 8,9 87,1 9,1 Total 89,0 33,7 90,7 27,7 Demandantes 10,1 52,1 7,9 37,7 No demandantes 239,6 13,1 252,6 13,6 Total 249,7 65,2 260,5 51,3 TOTAL VARONES (a) MUJERES (b) AMBOS SEXOS (a + b) (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado. 331 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 3.2 TOTAL DE LA ISLA DE TENERIFE MAYO 1996 Cifras en miles Información auxiliar Estimación directa EPA Estimador sintético (*) Ocupados Parados Ocupados Parados Demandantes 9,3 48,3 6,7 33,2 No demandantes 210,1 12,5 218,4 12,6 Total 219.4 60,8 225,1 45,8 Demandantes 5,0 25,2 3,4 16,7 No demandantes 135,8 3,8 141,5 4,0 Total 140,8 29,0 144,9 20,7 Demandantes 4,3 23,1 3,1 16,7 No demandantes 74,3 8,7 75,5 8,1 Total 78,6 31,8 78,6 24,8 Demandantes 9,3 48,3 6,5 33,4 No demandantes 210,1 12,5 216,9 12,1 Total 219,4 60,8 223,5 45,5 TOTAL VARONES (a) MUJERES (b) AMBOS SEXOS (a + b) (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado. 332 ESTADÍSTICA ESPAÑOLA TABLA 3.3 TOTAL DE LA ISLA DE LA PALMA MAYO 1996 Cifras en miles Información auxiliar Estimación directa EPA Estimador sintético (*) Ocupados Parados Ocupados Parados Demandantes 0,5 3,8 1,1 3,2 No demandantes 27,7 0,4 28,4 1,3 Total 28,2 4,2 29,5 4,5 Demandantes 0,5 2,1 0,6 2,0 No demandantes 18,1 0,2 18,2 0,4 Total 18,6 2,3 18,8 2,3 Demandantes 0,0 1,7 0,5 1,3 No demandantes 9,6 0,2 9,3 0,7 Total 9,6 1,9 9,8 2,0 Demandantes 0,5 3,8 1.0 3,3 No demandantes 27,7 0,4 27,5 1,1 Total 28,2 4,2 28,6 4,4 TOTAL VARONES (a) MUJERES (b) AMBOS SEXOS (a + b) (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado. 333 ESTIMACIONES PARA ÁREAS PEQUEÑAS TABLA 3.4 TOTAL DE LA ISLA DE HIERRO MAYO 1996 Cifras en miles Información auxiliar Estimación directa EPA Estimador sintético (*) Ocupados Parados Ocupados Parados Demandantes 0,3 0,0 0,1 0,3 No demandantes 1,8 0,2 2,6 0,1 Total 2,1 0,2 2,7 0,4 Demandantes 0,3 0,0 0,1 0,2 No demandantes 1,0 0,2 2,0 0,0 Total 1,3 0,2 2,1 0,2 Demandantes 0,0 0,0 0,0 0,1 No demandantes 0,8 0,0 0,8 0,1 Total 0,8 0,0 0,8 0,2 Demandantes 0,3 0,0 0,1 0,3 No demandantes 1,8 0,2 2,7 0,1 Total 2,1 0,2 2,8 0,4 TOTAL VARONES (a) MUJERES (b) AMBOS SEXOS (a + b) (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado. 334 ESTADÍSTICA ESPAÑOLA TABLA 3.5 TOTAL DE LA ISLA DE LA GOMERA MAYO 1996 Cifras en miles Información auxiliar Estimación directa EPA Estimador sintético (*) Ocupados Parados Ocupados Parados TOTAL Demandantes No demandantes Total 0,0 0,0 0,0 0,0 0,0 0,0 0,2 5,3 5,6 0,8 0,2 1,0 VARONES (a) Demandantes No demandantes Total 0,0 0,0 0,0 0,0 0,0 0,0 0,2 3,8 4,0 0,4 0,1 0,5 MUJERES (b) Demandantes No demandantes Total 0,0 0,0 0,0 0,0 0,0 0,0 0,0 1,6 1,6 0,4 0,2 0,6 AMBOS SEXOS (a + b) Demandantes No demandantes Total 0,0 0,0 0,0 0,0 0,0 0,0 0,2 5,4 5,6 0,8 0,2 1,0 (*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado. ESTIMACIÓN DE LA VARIANZA PARA LA VARIABLE OCUPADOS Para ensayar la metodología de áreas pequeñas en base a una única realización de EPA, se ha utilizado el hecho de que todos los individuos de un mismo estrato tienen la misma probabilidad de pertenecer a la muestra al tratarse de una muestra autoponderada dentro de cada estrato. Por otro lado, no se ha tenido en cuenta el efecto de diseño, que aparece al obtener la muestra final de individuos mediante selección de secciones censales en primera etapa y de viviendas en segunda etapa. Aun sin conocer en qué grado este hecho puede subestimar la estimación de la varianza de los estimadores sintético y aposteriori, parece de interés presentar una estimación de las varianzas utilizando un modelo de regresión generalizada dentro de cada estrato con el fin de poder comparar la precisión de los diferentes estimadores. 335 ESTIMACIONES PARA ÁREAS PEQUEÑAS Se ha estimado la varianza para la variable ocupados en la isla de la La Palma tomando como fecha de referencia el segundo trimestre de 1996 y como información auxiliar los datos patronales de mayo de 1996. En las tablas aparecen, tanto para el estimador sintético como para el estimador a posteriori, los valores de las estimaciones, la varianza de las estimaciones, la desviación típica y el coeficiente de variación obtenido como cociente entre la desviación típica y la estimación. Todo está desagregado para los estratos 6, 7 y 8 que son los únicos que intervienen en la isla de La Palma. Los resultados se han obtenido para los dos conjuntos de variables auxiliares, es decir, total de población de 16 y más en la tabla 4.1 y población desagregada por grupos de edad y sexo en la tabla 4.2 Como era de esperar la varianza del estimador a posteriori es siempre mayor que la del sintético tanto a nivel de estrato como en el conjunto del área pequeña. También se observa que los coeficientes de variación son ligeramente superiores al tomar como variable auxiliar la población de 16 y más. TABLA 4.1 PROVINCIA DE SANTA CRUZ DE TENERIFE ISLA DE LA PALMA VARIANZA DEL ESTIMADOR SINTÉTICO Y A POSTERIORI PARA LA VARIABLE OCUPADOS VARIABLE AUXILIAR: POBLACIÓN DE 16 Y MÁS AÑOS Estimación Estrato 6 Estrato 7 Estrato 8 Todos los estratos Estimador sintético 13.011,4 9.733,7 5.305,9 28.051,0 Varianza Estimador a posteriori 11.436,5 8.366,8 5.746,6 25.549,9 Desviación típica Estimador sintético 448.643,2 225.508,3 166.613,5 840.765,0 Estimador a posteriori 1.853.721,9 868.079,1 283.186,3 3.004.987,3 Coeficiente de variación (%) Estrato 6 Estimador sintético 669,8 Estimador a posteriori 1.361,5 Estimador sintético 5,15 Estimador a posteriori 11,91 Estrato 7 474,9 931,7 4,88 11,14 Estrato 8 Todos los estratos 408,2 916,9 532,2 1.733,5 7,69 3,27 9,26 6,78 336 ESTADÍSTICA ESPAÑOLA TABLA 4.2 PROVINCIA DE SANTA CRUZ DE TENERIFE ISLA DE LA PALMA VARIANZA DEL ESTIMADOR SINTÉTICO Y A POSTERIORI PARA LA VARIABLE OCUPADOS VARIABLE AUXILIAR: POBLACIÓN DE 16 Y MÁS AÑOS POR GRUPOS DE EDAD Y SEXO Estimación Varianza Estrato 6 Estimador sintético 13.035,3 Estimador a posteriori 11.922,6 Estimador sintético 386.994,4 Estimador a posteriori 1.688.657,1 Estrato 7 9.719,9 8.492,9 188.726,5 606.388,6 Estrato 8 Todos los estratos 5.525,8 28.281,0 5.743,9 26.159,4 131.448,1 707.169,0 202.350,8 2.497.396,5 Desviación típica Coeficiente de variación (%) Estrato 6 Estimador sintético 622,1 Estimador a posteriori 1.299,5 Estimador sintético 4,77 Estimador a posteriori 10,90 Estrato 7 434,4 778,7 4,47 9,17 Estrato 8 Todos los estratos 362,6 840,9 449,8 1.580,3 6,56 2,97 7,83 6,04 CONCLUSIONES A la vista del tratamiento teórico de los estimadores de áreas pequeñas y del ensayo realizado en las provincias canarias se puede deducir que esta metodología representa un instrumento subsidiario para llenar el vacío de las estimaciones en ámbitos no previstos por el diseño original de las encuestas, pero también aparecen serias limitaciones. El mayor problema que se plantea es la existencia o no de una mínima representación muestral del área pequeña en base al diseño original. Si no hay muestra o es demasiado exigua, el estimador a posteriori no se puede obtener o es inoperante. Tampoco se va a poder calcular la estimación del sesgo para el estimador ESTIMACIONES PARA ÁREAS PEQUEÑAS 337 sintético (la varianza de éste, por sí sola, no da una buena idea de su precisión al ser el estimador sesgado). La elección de las variables explicativas puede ser muy determinante a la hora de obtener las estimaciones y sus varianzas ya que cualquier modelo de regresión que se utilice proporcionaría una varianza explicada y otra residual o no explicada cuya magnitud dependerá del grupo de variables elegidas; a su vez una mayor varianza residual influirá en una mayor varianza de la estimación, sin olvidar que el poder explicativo de un grupo de variables auxiliares también dependerá de la variable de interés considerada, así por ejemplo la variable población por grupos de edad y sexo puede ser más idónea para la variable ocupados pero no para la variable parados. También la varianza de las estimaciones así como las propias estimaciones obtenidas a partir de los estimadores de regresión, vendrán influidos por la diferencia entre los vectores de efectivos poblacionales que proporciona la EPA y la fuente estadística auxiliar. Como se dijo al principio del artículo, el área pequeña permite en muchos casos realizar una estimación directa a partir del diseño original de EPA y por tanto puede existir cierta preocupación en que no aparezca una discrepancia excesiva entre la estimación directa y la obtenida mediante los estimadores de regresión. Esto en principio no debe constituir un elemento de desconfianza hacia los estimadores utilizados ya que precisamente se parte de la hipótesis de que el área pequeña no tiene la representación muestral suficiente para dar una estimación fiable; sí puede tener en cambio más sentido la comparación a nivel provincial de la estimación directa y la obtenida utilizando información auxiliar. En este caso la discrepancia entre las estimaciones también vendrá influida por la diferencia entre los vectores efectivos provinciales que proporciona la EPA y la fuente auxiliar. Si esta diferencia es sustancial, se pueden poner reservas hacia la fiabilidad de la información ajena a la encuesta o hacia la verosimilitud de las estimaciones que proporciona el diseño a nivel provincial lo cual sería más grave. A nivel de área pequeña, se puede otorgar mayor confianza a la información auxiliar. Todo lo expuesto anteriormente se podría resumir diciendo que la elección de un determinado grupo de variables explicativas vendrá determinada por la disponibilidad de información relativa a estas variables tanto en la encuesta como en una fuente estadística ajena a la muestra como puede ser el Censo, el Padrón o un Registro continuo. En segundo lugar interesa examinar a nivel de provincia la diferencia existente entre los efectivos estimados por la encuesta y la fuente auxiliar para el grupo de variables auxiliares elegidas y por último interesa ver el poder explicativo del grupo de variables a través de la varianza residual resultante. 338 ESTADÍSTICA ESPAÑOLA A pesar de sus inconvenientes, la estimación para áreas pequeñas será una técnica imprescindible para evitar aumentar el tamaño de la muestra y los costes que ello conllevaría, y siempre que no sea posible rediseñar la encuesta para adaptarse a los requerimientos de información en pequeños dominios. En el caso de la EPA es esencial también que las áreas pequeñas definidas en cada provincia (subconjunto poblacional mínimo para el que está previsto dar información en el diseño de la encuesta) constituyan una partición equilibrada de la misma, es decir, se definan de forma que tengan una representación muestral similar y cubran toda la provincia. Esto simplifica bastante el cálculo de sesgos y varianzas, a la vez que permite hacer coherentes los datos dados directamente por la encuesta para el total de la provincia con los estimados para las áreas pequeñas. En cualquier caso, la técnica parece más propia para ser desarrollada en los órganos productores de estadísticas más próximos a la realidad que se pretende medir, es decir, en organismos cercanos a las unidades territoriales municipales o inframunicipales. La coherencia de las estimaciones obtenidas se podrá contrastar así más fácilmente al poder disponer de otras fuentes para zonas análogas o de un mejor conocimiento de la realidad sobre el terreno. REFERENCIAS INE. «Encuesta de Población Activa. Informe técnico». Área de Diseño de Muestras y Evaluación de Resultados. Madrid, 1999. FALORSI, P.D., FALORSI, S ET RUSSO, A. «Comparaison empirique de méthodes d’estimation pour petites regions pour l’enquête sur la population active italienne». Techniques d’enquête, decembre, 1994. vol. 20 p. 179-184. Statistics Canada. DREW, J.D., SINGH, M.P. Y CHOULARY, G.H. «Evaluation des techniques d’estimation pour les petites regions dans l’enquête sur la population active au Canada». Tecniques d’enquête, 1982, vol. 8 p.19-44. MARTÍN-GUZMÁN, M.P. Y MARTÍN PLIEGO, F.J. «Curso básico de Estadística Económica» SÁNCHEZ-CRESPO, G. «Metodología para la estimación en dominios de estudios pequeños». Universidad Autónoma de Madrid, 1983. SÄRNDAL, C.E, SWENSSON, B. Y WRETMAN, J. «Model assisted survey sampling». Springer Series in Statistics