Estimaciones para áreas pequeñas( )

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 42, Núm. 146, 2000, págs. 291 a 338
Estimaciones para áreas pequeñas()
por
RAMIRO LÓPEZ PAÑOS
Jefe del Servicio de Metodología
Área Estadísticas de Actividad, Empleo y Paro
INTRODUCCIÓN
Las encuestas por muestreo probabilístico están diseñadas para obtener estimaciones fiables de las principales variables de investigación con un mínimo de
precisión prefijada en agregados poblacionales definidos a priori.
Sin embargo, es frecuente que los utilizadores de las encuestas demanden datos para agregados poblacionales de magnitud inferior a los considerados en el
diseño de la encuesta. Así, por ejemplo, pueden interesar estimaciones municipales
en una encuesta cuyo agregado poblacional mínimo considerado en el diseño sea
la provincia, o bien, estimaciones para la rama de actividad Transporte ferroviario
cuando el agregado mínimo correspondiente es el Transporte terrestre.
El problema que se plantea entonces es el de la insuficiencia del número de
puntos de muestreo o incluso ausencia total en algunos casos para poder dar
cualquier tipo de estimación fiable referida a estos ámbitos no previstos en el
diseño.
Ante esta situación, se puede ampliar el tamaño de muestra, lo cual no siempre
es aconsejable ni económicamente conveniente, o utilizar estimadores especialmente concebidos para dar estimaciones en dominios pequeños, con ayuda de
información auxiliar ajena a la encuesta.
#ITCFG\EQNCKPGUVKOCDNGC[WFCSWGJGTGEKDKFQFG(NQTGPVKPCNXCTG\NXCTG\5WDFK
TGEVQTC)GPGTCNFG'UVCFÈUVKECU&GOQIT¶HKECURCTCNCQDVGPEKÎPFGNCUVCDNCUFGTGUWNVCFQUEQP
RTQEGFKOKGPVQU+/.FGN5#5[RQTNCUWRGTXKUKÎPFGNCTVÈEWNQGPIGPGTCN
292
ESTADÍSTICA ESPAÑOLA
Los subconjuntos poblacionales de tamaño inferior al considerado en el diseño
de la encuesta se denominan dominios o áreas pequeñas.
La información auxiliar utilizada para dar estimaciones para áreas pequeñas
puede proceder de la propia encuesta (de áreas ajenas o que contienen a la considerada), de otras encuestas, de censos o de registros administrativos.
En las páginas siguientes se expone la técnica de elaborar estimaciones para
áreas pequeñas en la Encuesta de Población Activa utilizando tres tipos de estimadores (sintético, a posteriori y compuesto) y dos clases de variable auxiliar (un
registro de población y un registro laboral).
En primer lugar se explican las características relevantes de la encuesta. A continuación se detallan los fundamentos teóricos de la técnica de estimación para
áreas pequeñas y el problema de la estimación de sesgos y varianzas.
Finalmente, se obtienen y comentan los resultados prácticos de la aplicación del
método en las islas (las áreas pequeñas) de la comunidad autónoma de Canarias.
Es la primera vez que el Instituto Nacional de Estadística (INE) acomete un estudio sobre la viabilidad de aplicar la metodología relativa a áreas pequeñas.
Se tiene intención de profundizar en este campo en el futuro. Al respecto está
previsto que el INE participe junto con las oficinas de estadística del Reino Unido y
Finlandia, en el 5º proyecto marco dedicado a las técnicas de estimación para
áreas pequeñas que financia la Unión Europea.
CARACTERÍSTICAS DE LA ENCUESTA DE POBLACIÓN ACTIVA (EPA)
La Encuesta de Población Activa es una investigación dirigida a las viviendas
familiares cuyo fin es medir la actividad económica de la población, es decir, evaluar el número de ocupados, parados, inactivos, etc., y las características de estos
grupos poblacionales.
Se realiza desde 1964. Actualmente tiene periodicidad trimestral. La muestra
consta de 65.000 viviendas por trimestre, lo que supone entrevistar a casi 200.000
personas.
La encuesta sigue la metodología de la Organización Internacional del Trabajo,
dada en las XIIIa y XIVa Conferencias Internacionales de Estadísticos del Trabajo
(Ginebra, 1982 y 1998).
El diseño de la EPA es bietápico, estratificado en las unidades de primera etapa.
Estas son las secciones censales (áreas geográficas perfectamente delimitadas de
ESTIMACIONES PARA ÁREAS PEQUEÑAS
293
menos de tres mil habitantes). Se seleccionan 3.484 secciones al trimestre de entre
las más de 30.000 que tiene España. En cada una de las secciones de la muestra
se seleccionan, a su vez, un promedio de 18 viviendas, que son las unidades de
segunda etapa.
Cada provincia española es un universo independiente. Se han definido estratos
en ellas, que son agrupaciones de municipios, siguiendo un criterio poblacional.
Así, la capital de la provincia es el estrato 1. El 2 está formado por los municipios
mayores de 100.000 habitantes que son importantes en relación con la capital. El 3,
por el resto de municipios mayores de 100.000 habitantes. El 4, por los de 50.000 a
100.000 y así sucesivamente con límites en 20.000, 10.000, 5.000 y 2.000. Los
municipios menores de 2.000 habitantes constituyen el estrato 9. No todas las
provincias tienen los nueve tipos de estratos.
El número de secciones asignado a cada provincia se determina en función de
la población de dicha provincia y de la necesidad de que los datos tengan un error
de muestreo aceptable. A continuación, la muestra de secciones provincial se
distribuye por estratos proporcionalmente al tamaño de cada uno de ellos.
Se utilizan estimadores de razón tomando como variable auxiliar las proyecciones demográficas de población elaboradas por el Instituto Nacional de Estadística.
La expresión del estimador para una cierta variable X es la siguiente:
*
* = Σ 2J
:
J R
J
PJ
∑:
JK
K =
donde
P̂h = proyección de la población residente en viviendas familiares en el estrato h.
ph = número de personas de la muestra en el estrato h.
nh = número de viviendas en el estrato h.
X hi = valor de la característica investigada en la vivienda iésima del estrato h.
El sumatorio h se extiende a todos los estratos de una provincia, una comunidad
autónoma o al total nacional.
Una exposición detallada del diseño de la EPA se puede consultar en el documento Informe técnico. Diseño de la EPA y evaluación de la calidad de los datos.
294
ESTADÍSTICA ESPAÑOLA
DEFINICIÓN DE LOS ESTIMADORES SINTÉTICO Y A POSTERIORI PARA
ÁREAS PEQUEÑAS
Supongamos que en la EPA queremos obtener estimaciones para un territorio
pequeño D ubicado dentro de una provincia. Uno o varios municipios constituyen el
territorio D, a su vez formados por una o varias secciones censales (pertenecientes
o no a la muestra EPA).
Se tiene entonces
M
D=
5
K
N =
donde 5K son las secciones integrantes del dominio D.
Sea H el conjunto de estratos de la provincia que tienen intersección no vacía
con D. Es decir:
{
}
/
* = JL JL ∩ & ≠ Va a ser muy importante conocer con exactitud la afijación de la muestra, no
solamente en el dominio, sino también en los estratos que tienen parte común con
el dominio.
En el diagrama adjunto se tiene un ejemplo donde el diseño original ha establecido cinco estratos a priori en la provincia, estando el dominio representado por la
región sombreada a caballo sobre los estratos 3, 4 y 5, que sólo tiene puntos de
muestreo en su parte común con los estratos 3 y 4; sin embargo el hecho de tener
intersección con el estrato 5 habrá de ser tenido en cuenta a la hora de construir los
estimadores para áreas pequeñas.
ESTIMACIONES PARA ÁREAS PEQUEÑAS
295
x
1
x
x
x
x
5
2
x
x
x
x
4
x
x
x
3
x
x
x
x
−
En este ejemplo * =3, 4, 5.
Al existir puntos de muestreo en el dominio, la EPA permite obtener una estimación directa para la variable de interés Y.
;* =
∑ ;* = ∑∑ ;*
F
J
F
JI
J
J∈*
I
F
es la estimación obtenida para un estrato h y un determinado grupo de
donde ;*JI
clasificación o postestrato g en el dominio.
Los estimadores utilizados en la teoría de áreas pequeñas admiten distintos tipos de clasificaciones según que la información sobre la variable de interés Y se
recabe exclusivamente del dominio D o rebase el ámbito de D; tenemos así estimadores directos e indirectos. También los estimadores pueden estar basados en la
pura reproducción o simulación de muestras o bien en modelos, por ejemplo de
regresión.
Los dos grupos de estimadores básicos que se proponen son:
Estimador a posteriori
;*RQU =
∑∑
J∈*
I
F
;*JI
:F
*F JI
:
JI
296
ESTADÍSTICA ESPAÑOLA
Estimador sintético
;*UKP =
;*JI
∑∑ :*
J∈*
I
F
:JI
JI
X es la variable explicativa o auxiliar que aparece en la encuesta y en una
fuente ajena a la encuesta (por ejemplo, el Censo, el Padrón o un Registro).
El superíndice d indica que la magnitud se refiere al ámbito del dominio en su
intersección con el estrato h y el grupo g.
F
Se observa que ambos estimadores utilizan la misma información auxiliar : JI
,
obteniéndose las estimaciones a partir de los puntos de muestreo del dominio en el
caso del estimador a posteriori mientras que en el caso del estimador sintético se
utilizan puntos de muestreo que pertenecen al conjunto de los estratos que tengan
intersección no vacía con D, por lo cual se cuenta con un tamaño de muestra mayor
que en el primer caso.
El subíndice g indica el producto de modalidades de las variables explicativas
que se haya decidido tener en cuenta, por ejemplo sexo, grupos de edad, nivel de
estudio, tipo de hogar, etc.
El caso más simple sería g=1, obtenido al considerar la población total de 16 y
más años. Por tanto, la expresión de los estimadores puede tomar formas más
simplificadas, dependiendo por una parte del nivel de desagregación para el cual se
tiene información auxiliar y por otra del número de puntos de muestreo existentes
en la intersección de cada estrato con D, lo que hace que también pueda convenir
fusionar estratos.
Las variables explicativas favoritas suelen ser sexo cruzado con grupos de edad
para las personas, y la condición de demandantes o no demandantes de empleo.
Algunos investigadores utilizan los hogares clasificados por tamaño o por su estructura (monoparentales, pareja sin niños, etc.).
CARACTERÍSTICAS DE LOS ESTIMADORES
Para tener idea de las cualidades e inconvenientes de ambos tipos de estimadores, se van a comparar los sesgos y varianzas, empezando por el estimador sintético que se puede expresar también como
297
ESTIMACIONES PARA ÁREAS PEQUEÑAS
;*UKP =
∑∑
J
F
4*JI : JI
donde 4*JI =
I
;*JI
*
:
JI
si tomamos esperanzas
 ;*
JI
' 4*JI = '
:
*
 JI
( )
( )
( )
 ' ;*
;JI
JI
≠
=
= 4JI
 ':
*
:
JI
JI

( )
Es decir en principio no podemos suponer que ' 4*JI = 4JI
Empleando el método de linealización de Taylor se va a obtener una expresión
aproximada de ' 4*JI
( )
4*JI − 4JI =
*
;*JI
;*JI − 4JI :
JI
− 4JI =
*
*
:
:
JI
JI
como
* −:

:
JI
* =: +:
* − : = : + JI
:
JI
JI
JI
JI
JI 
: JI

Llamando &JI =
* −:
:
JI
JI
: JI




se puede esperar que se cumpla que &JI < , por
tanto
4*JI − 4JI =
El factor
*
;*JI − 4JI :
JI
: JI
⋅
+ &JI
se puede considerar como la suma de los términos de una
+ &JI
progresión geométrica de razón &JI < , o sea
4*JI − 4JI =
*
;*JI − 4JI :
JI
: JI
(
( ) − (&JI ) )
⋅ − &JI + &JI
298
ESTADÍSTICA ESPAÑOLA
Si &JI es lo suficientemente pequeño, resultará
4*JI − 4JI ≅
*
;*JI − 4JI :
JI
: JI
o sea
4*JI ≅ 4JI +
*
;*JI − 4JI :
JI
: JI
si tomamos esperanzas
( )
' 4*JI ≅ 4JI
Para el caso del estimador a posteriori, se haría un desarrollo similar y se obtendría para la intersección del estrato con el dominio
( )
F
F
F
F
< donde &JI
≅ 4JI
en el supuesto que &JI
' 4*JI
=
*F − : F
:
JI
JI
F
: JI
El estimador a posteriori va a ser aproximadamente insesgado ya que
;*RQU =
∑∑ 4*
F
F
JI : JI
J
,
I
al tomar esperanza
( ) ∑∑ '(4* ):
' ;*RQU =
F
JI
J
F
como 4JI
=
F
;JI
F
:JI
F
JI
∑∑ 4
≅
I
J
( ) ∑∑ ;
, se obtiene ' ;*RQU ≅
F
JI
J
F
F
JI : JI
I
( )
= ; F o sea ' ;*RQU ≅ ; F valor
I
verdadero poblacional en el dominio.
El cálculo del sesgo del estimador sintético sería por tanto

' ;*UKP − ; F = '


( )
∑∑
J
I

F 
−
4*JI : JI


∑∑ 4
J
I
F
F
JI : JI
, o sea
∑∑ (4
J
I
JI
)
F
F
− 4JI
: JI
299
ESTIMACIONES PARA ÁREAS PEQUEÑAS
F
Solamente en el caso en que se cumpliera 4 JI = 4 JI
para cada estrato, se tendría que el estimador sintético es insesgado, por lo cual no podemos esperar que lo
sea en general.
Vamos a calcular las varianzas de ambos estimadores y tendremos una interF
pretación más intuitiva de la condición de homogeneidad 4JI = 4JI
dentro del
estrato h.
VARIANZAS DE LOS ESTIMADORES SINTÉTICO Y A POSTERIORI


F 
8CT ;*UKP ≅ '
4*JI − 4JI : JI


 J I

dentro de cada estrato.
( ) ∑∑ (
)
( )
ya que hemos supuesto que ' 4*JI ≅ 4JI
Para mayor simplicidad, consideremos el caso g=1, o sea la población de 16 y
más años, se tiene entonces
( ) ∑ '(4*
8CT ;*UKP ≅
J
J
− 4J
) (: )
F J
(
Es decir dentro de cada estrato, la varianza es proporcional a ' 4*J − 4J
(
mejor dicho a ' 4*J − 4J
)
En virtud del método de linealización anterior, se tiene 4*J − 4J ≅
(
por lo cual ' 4*J − 4J
)
≅
(
*
' ;*J − 4J :
J
:J
)
) (: )
F J
o
* ;*J − 4J :
J
:J
.
El numerador de la expresión anterior se puede interpretar como la varianza residual de una regresión simple entre las variables ;*J y :J si se repitiera la encuesta r veces aplicando el mismo esquema de selección de muestra en cada
repetición. Se ajustaría una recta de regresión a los r pares de valores ;J(T ) : J(T ) ,
siendo la pendiente de esta recta hipotética el valor Rh, o mejor dicho una estimación de Rh,.
300
ESTADÍSTICA ESPAÑOLA
x
Y
h
tgα = R
x
h
x
α
X
h
* sería ; = 4 :
*
El valor teórico que la recta asignaría a la abscisa :
J
J
J J por lo
* sería el residuo mínimo cuadrático para cualquier punto de la nube.
cual ;*J − 4J :
J
(
*
' ;*J − 4J :
J
)
sería
la
varianza
residual
correspondiente
al
modelo
;J = 4J :J + ' dentro del estrato h.
Este mismo razonamiento sería válido para la varianza del estimador a posterio
ri. En este caso, para cada estrato h, la varianza sería proporcional a ' 4*JF − 4JF y
*F ;*F − 4 F :
como 4*JF − 4JF ≅ J FJ J se verificaría
:J
(
(
' 4*JF − 4JF
)
≅
(
*F
' ;*JF − 4JF :
J
(: )
F J
)
)
El numerador de la expresión anterior también se puede interpretar como la varianza residual correspondiente a un modelo de regresión ;JF = 4JF :JF + ' dentro de
la intersección del estrato con el dominio. Igual que en el caso anterior, se tendría
301
ESTIMACIONES PARA ÁREAS PEQUEÑAS
x
d
d
Yh
x
tgα' = R h
x
α'
d
Xh
4JF también sería la pendiente de una recta hipotética de mínimos cuadrados.
La hipótesis de homogeneidad dentro del estrato consistirá en que tgα=tgα’ lo
cual no podemos esperar que ocurra como ya se dijo anteriormente.
Teniendo en cuenta que el estimador sintético está construido por definición sobre un tamaño de muestra mayor que el estimador a posterior, su varianza será
menor pero su sesgo puede llegar a ser importante.
Recordando que para cualquier estimador se tiene
E.C.M = varianza + (sesgo)2 siendo E.C.M el error cuadrático medio, no está claro
cual de los dos estimadores tendría menor error cuadrático medio.
ESTIMADOR GENERALIZADO DE REGRESIÓN (GREG)
Se obtuvo anteriormente como sesgo del estimador sintético la expresión:
UGUIQ =
∑∑ (4
J
I
JI
)
F
F
− 4JI
: JI
302
ESTADÍSTICA ESPAÑOLA
Un estimador del sesgo sería
∑∑ 4*
*F
JI :JI
J
−
I
∑∑ 4*
F *F
JI :JI
J
. Si añadimos al es-
I
timador sintético la expresión del estimador del sesgo cambiado de signo, tendríamos
;* =
∑∑ 4*
F
JI : JI
J
El término
∑∑ 4*
*F
JI : JI
I
F *F
JI :JI
J
∑∑ 4*
−
J
+
I
∑∑ 4*
F *F
JI : JI
J
I
sería la estimación directa ;*F , o sea,
I
;* = ;*F +
∑∑ 4* (:
JI
J
F
JI
*F
−:
JI
I
)
Este nuevo estimador obtenido al sumar al sintético la estimación de su sesgo
cambiado de signo, es el llamado estimador general de regresión, el cual también
se puede expresar como
;*)4') =
∑∑4*
F
JI :JI
J
I
+
∑∑ (;*
F
JI
J
I
*F
− 4*JI :
JI
)
El primer sumando es el estimador sintético y el segundo es el residuo de los
puntos del estrato intersección con el dominio respecto de la recta de regresión
correspondiente al conjunto del estrato. Se tiene entonces que el estimador GREG
será insesgado pero su varianza será la del sintético aumentada en la varianza
residual correspondiente al segundo sumando.
ESTIMADORES COMPUESTOS
Otro grupo de estimadores que se utilizan en la estimación de áreas pequeñas
son los llamados estimadores compuestos que se obtienen como combinación
convexa del estimador a posteriori y del sintético.
;*EQOD = α;*RQU + (− α );*UKP
La idea del estimador compuesto es sintetizar las ventajas de ambos tipos de
estimadores y reducir los inconvenientes.
303
ESTIMACIONES PARA ÁREAS PEQUEÑAS
Existe un valor de α óptimo, en el sentido de que se obtiene el menor E.C.M.,
la obtención de este óptimo es complicada y su valor aproximado es
α=
( )
'%/ ;*UKP
'%/ ;*UKP + '%/ ;*RQU
( )
( )
Un caso especial de estimador compuesto es el llamado estimador que depende
del tamaño de la muestra, donde se fija una constante - que toma generalmente
los valores 1 ó 0,5.
Dentro del estrato h y grupo g se hace
αJI = UK
αJI =
*F
:
JI
F
- :JI
*F
:
JI
:JI
UK
≥ Κ
*F
:
JI
F
:JI
< Κ
La expresión del estimador compuesto sería
;*QOD =
∑∑ α
J
I
JI
F
;*JI
F
+
:JI
F
*
:
JI
*
;
∑ ∑ (− α ) :*
J
I
JI
JI
JI
F
:JI
Si α JI = , se obtiene el estimador a posteriori ya que se considera que el tamaño de muestra existente en la intersección del dominio con el estrato tiene una
F
.
capacidad de representación suficiente para estimar :JI
En la Oficina de Estadística de Canadá se ha utilizado Κ = ESTIMADORES BASADOS EN MODELOS
Al tratar el tema de la varianza de los estimadores, se interpretaron los valores
F
como las pendientes de unas rectas de regresión hipotéticas ajustadas a
4JI [4JI
partir de los resultados obtenidos al repetir la encuesta r veces en un mismo periodo. Esto indudablemente permitiría conocer el comportamiento de los estimadores
en lo que se refiere a sesgo y varianza principalmente, pero lo normal es que los
investigadores no tengan fácilmente la opción de repetir la encuesta ni de simularla
r veces por lo cual para obtener una estimación de la varianza en base a los datos
de una sola realización de encuesta habrá que utilizar los recursos que proporcionan los modelos de regresión.
304
ESTADÍSTICA ESPAÑOLA
El estimador sintético ;*UKP =
∑∑ 4*
F
JI : JI
J
(1) ;*UKP =
∑$ Z
J
F
J
se puede expresar de otra forma
I
()
J
Es decir, como un estimador de regresión de Cochran generalizado en varias
dimensiones.
El modelo de regresión en el estrato h sería
;J = : J$ J + 'J
Donde : J sería una matriz de dimensiones PJ × I , siendo PJ el tamaño de la
muestra de individuos en el estrato h y g el número de variables explicativas. Cada
fila de : J tendrá una coordenada igual a 1 y el resto cero ya que cada individuo
pertenece a una sola modalidad de variable explicativa. Se tratará de una regresión
múltiple y generalizada, ya que cada elemento del estrato tiene una ponderación
asignada por el diseño original.
En (1),
Bh
(
sería estimado por $*J = :J 9J :J
) (: 9 ; )
−
J
J J
9J sería una matriz diagonal de pesos en el estrato h, e ;J sería el vector columna de dimensiones PJ × correspondiente a la variable Y.
Con la expresión (1), Z JF sería un vector de dimensiones I× , constituido por
los efectivos que proporciona el Censo o Padrón para cada grupo de variables
explicativas en la intersección del estrato con el dominio.
Para estimar el sesgo o la varianza, nos apoyaremos en resultados conocidos
de la teoría de la regresión.
Volviendo a la expresión más habitual del estimador sintético
;* =
∑∑ $*
F
JI Z JI
J
I
tenemos
F
F
'NUKIPKHKECFQFG Z J [ :J GUGSWKXCNGPVGGPCODCUGZRTGUKQPGUFGNGUVKOCFQTUKPVÃ
VKEQRGTQGP
UGQRVCRQTNCOKPÕUEWNCRCTCGXKVCTEQPHWUKQPGUEQPECTCEVGTGUSWGCRCTGEGP
GPNCGZRTGUKÎPOCVTKEKCNFG $ J 305
ESTIMACIONES PARA ÁREAS PEQUEÑAS

( ) ∑ 8CT ∑ $*
8CT ;* =
J

F
JI Z JI
I




Para un estrato h fijo, y recordando que en general se tiene para cualquier par
de variables aleatorias x e y
8CT
CZ + D[ = C 8CT
Z + D 8CT
[ + CD%QX
Z [
donde a y b son constantes

8CT


( )
∑ $*
F
JI Z JI
I
(

=


∑ (Z ) 8CT($* ) + ∑ (Z
F JI
I
JI
F
F
JI Z JI
I≠ I
)⋅ %QX($*
*
JI $ JI
)
)
8CT $*JI y %QX $*JI $*JI se obtendrían a partir de la matriz de covarianzas de
$* que proporciona la teoría de la regresión.
La expresión general de esta matriz de dimensiones
g×g
es:
%QX
$*J = σ J :J 9J :J −
Teniendo en cuenta cómo está construida la matriz : J de variables explicativas, donde en cada fila todas las coordenadas son nulas excepto una, la matriz de
covarianzas de los coeficientes de regresión será diagonal.
La inversa de la matriz de dimensiones g x g ya se conoce al calcular $*J mientras que σ J sería un escalar que expresa la varianza residual mínimo cuadrática
correspondiente al modelo de regresión utilizado.
Dentro del estrato, la varianza residual se estimaría por
PJ
σJ =
GK
∑
K =
PJ − I
=
* 9 ; − : $
*
;J − :J$
J
J J
J J
PJ − I
;J − :J$*J sería un vector PJ × constituido por los residuos que resultan al
aplicar el modelo de regresión a los individuos de la muestra del estrato h.
g es el número de parámetros estimados en el modelo
306
ESTADÍSTICA ESPAÑOLA
Se observa, pues, que una sola realización de la encuesta permitiría estimar la
varianza del estimador sintético.
La varianza del estimador a posteriori se haría de forma similar pero en base a
la muestra de individuos perteneciente exclusivamente al dominio, con los inconvenientes que esto puede suponer.
Si se expresa el estimador a posteriori de la forma:
;*RQU =
∑$
F F
J ZJ
J
El coeficiente de regresión $ JF se estimaría a partir del modelo múltiple similar al
caso anterior.
El sesgo del estimador sintético sería
$ = UGUIQ =
∑ ($
J
J
)
− $ JF Z JF y se estimaría a partir del modelo por
$* =
∑ ($* − $* ) Z
J
F
J
F
J
J
$*J y $*JF son de dimensiones 1 x g mientras que Z JF es el vector g x 1 de efectivos proporcionados por el Censo o el Padrón.
ENSAYO DE ESTIMADORES PARA ÁREAS PEQUEÑAS EN LA COMUNIDAD AUTÓNOMA DE CANARIAS
Los procedimientos de estimación descritos se han ensayado en las provincias
que constituyen la Comunidad Autónoma de Canarias. Para ello se ha tenido en
cuenta la división de cada provincia en islas de modo que se tiene un recubrimiento
por áreas pequeñas para ambas provincias.
Provincia de Las Palmas. Información auxiliar del Censo de 1991
Dentro de la provincia de Las Palmas, se han considerado como áreas pequeñas las islas de Gran Canaria, Lanzarote y Fuerteventura. Para ello se ha utilizado
el diseño muestral de la EPA correspondiente al primer trimestre del 91 con el fin de
aprovechar la información que proporciona el Censo referido a marzo del mismo
307
ESTIMACIONES PARA ÁREAS PEQUEÑAS
año. Se tiene también la ventaja de poder comparar la estimación provincial que da
la EPA para el conjunto de la provincia con la suma de las estimaciones que se
obtienen para cada una de las islas aplicando la teoría de estimadores relativos a
áreas pequeñas. Para el total de la provincia se había muestreado un total de 72
secciones censales que se distribuyen por estratos e islas según el cuadro adjunto.
Estratos
Islas
Total
1
4
5
6
7
8
Gran Canaria
62
35
6
8
5
7
1
Lanzarote
7
-
-
5
-
2
-
Fuerteventura
3
-
-
-
1
-
2
Total Provincia
72
35
6
13
6
9
3
Los estimadores utilizados son el estimador a posteriori, el sintético y el que depende del tamaño de la muestra, que es una combinación de ambos. Las variables
de interés que se han tenido en cuenta han sido el número de ocupados y de
parados. Como variable auxiliar se han considerado dos modalidades: población
total de 16 y más años y población clasificada por sexo y los grupos de edad 16-24,
25-44, 45 y más. La información auxiliar requerida por los estimadores y ajena a la
encuesta viene proporcionada por el Censo del 91.
De acuerdo con el Censo del 91, existen municipios correspondientes al estrato
8 en la isla de Lanzarote, aunque en la EPA no hay puntos de muestreo en este
estrato; solamente el estimador sintético ha permitido obtener estimaciones de
ocupados y parados en el estrato 8.
En la isla de Fuerteventura tampoco hay puntos de muestreo en el estrato 7
aunque el Censo sí proporciona información para este estrato, por lo cual el estimador sintético es el único que permite obtener estimaciones en este caso.
En las tablas 1.1 a 1.4 aparecen las estimaciones de los distintos estimadores
utilizados y la estimación directa que da la EPA sin utilizar ningún tipo de información auxiliar para cada una de las islas de la provincia y el total de la provincia
obtenido como suma de las estimaciones relativas a las islas.
Se observa que para el conjunto de la provincia y variable ocupados las estimaciones difieren bastante según el tipo de información auxiliar considerada. Si se toma
la población de 16 y más, el estimador sintético es el que más se acerca a la estimación directa de la EPA, mientras que para la otra modalidad de información auxiliar, el
308
ESTADÍSTICA ESPAÑOLA
estimador que depende del tamaño de la muestra es el que más se acerca a la
estimación de EPA. En lo que se refiere a la variable parados hay poca diferencia
entre las tres clases de estimadores y buena aproximación a la estimación directa de
la EPA, independientemente del tipo de información auxiliar elegida.
Para la isla de Gran Canaria y variable ocupados el comportamiento de las estimaciones es muy similar al conjunto de la provincia lo cual es normal si se tiene en
cuenta el peso de esta isla a nivel de representación muestral en el conjunto de la
provincia. Para los parados, las estimaciones son muy similares entre sí tanto a
nivel del estimador como de información auxiliar.
En la isla de Fuerteventura hay mejor aproximación por parte del estimador sintético a la estimación de la EPA para la variable ocupados independientemente del
tipo de información auxiliar utilizada mientras que para los parados las estimaciones
son muy parecidas y cercanas a las de la EPA, aún más la del estimador a posteriori.
En la isla de Lanzarote hay mejor aproximación del estimador a posteriori a la
estimación directa de EPA tanto para la variable ocupados como para la variable
parados, independientemente del tipo de variable auxiliar elegida.
Provincia de Santa Cruz de Tenerife. Información auxiliar del Censo de 1991
Para la provincia de Sta. Cruz de Tenerife se han tomado como áreas pequeñas
las islas de Tenerife, Palma, Gomera y Hierro. Igual que en el caso de Las Palmas,
se ha utilizado el diseño de EPA relativo al primer trimestre del 91 y el mismo tipo
de información auxiliar referida al Censo del 91. Para el total de la provincia, el
diseño muestreó un total de 72 secciones censales que se distribuyen por islas y
estratos según el cuadro adjunto.
Estratos
Islas
Total
1
2
5
6
7
8
Tenerife
64
24
12
12
6
7
3
Palma
6
-
-
-
3
2
1
Gomera
2
-
-
-
-
-
2
Hierro
-
-
-
-
-
-
-
Total Provincia
72
24
12
12
9
9
6
ESTIMACIONES PARA ÁREAS PEQUEÑAS
309
En esta provincia se ha optado por ensayar exclusivamente el estimador sintético ya que la isla de Hierro no tiene ningún punto de muestreo y el estimador a
posteriori daría nulo. Como la isla está constituida exclusivamente por municipios
del estrato 8 se ha podido dar una estimación en base al conjunto de la muestra
afijada en el estrato 8 de toda la provincia.
La isla de la Gomera, aunque tiene municipios del estrato 7 y del estrato 8, sólo
tiene muestra en el estrato 8, pero el estimador sintético también proporciona
estimación para el estrato 7.
En las dos islas restantes de la provincia, hay representación muestral en todos
los tipos de estratos que aparecen en ellas. Las variables de interés para las cuales
se han obtenido las estimaciones en todas las islas que constituyen la provincia son
el número de ocupados, de parados y de inactivos. Esto permite una comparación
con las estimaciones directas de la EPA, no sólo por modalidad de relación con la
actividad sino entre las poblaciones de 16 y más años que vienen dadas por la
suma de las tres modalidades.
En las tablas 2.1 a 2.4 aparecen para cada isla y el total de la provincia, las estimaciones obtenidas con el estimador sintético y las de la EPA, por estrato y tipo
de información auxiliar empleada.
En el conjunto de la provincia, para la variable inactivos la información auxiliar de
población total proporciona una estimación más cercana a la estimación de EPA que
la población por grupo de edad y sexo. Para las variables ocupados y parados se
observa lo mismo que en el caso de la variable inactivos aunque en menor grado.
Para la isla de Tenerife, la información auxiliar resumida proporciona una estimación más próxima a la estimación de EPA que la información desagregada en el
caso de las variables inactivos y parados mientras que para la variable ocupados se
observa preferencia por la población desagregada.
En la isla de La Palma, la información auxiliar resumida también se acerca más
a la estimación de EPA, encontrándose la mayor diferencia en la variable inactivos.
En la isla de La Gomera la representación muestral es pobre y se refleja en las
discrepancias sustanciales que existen entre las estimaciones directas y el estimador sintético para todas las variables.
En la isla del Hierro, como no existe muestra en absoluto las estimaciones que
proporciona el estimador sintético no son comparables con ninguna referencia.
310
ESTADÍSTICA ESPAÑOLA
Provincia de Santa Cruz de Tenerife. Información auxiliar del registro de demandantes y del Padrón Municipal de 1996
Por último, se ha ensayado para la provincia de Santa Cruz de Tenerife otra clase de estimador sintético que utiliza como variable auxiliar la condición de demandante o no demandante de empleo para cada sexo.
Se han utilizado los datos de EPA correspondientes al segundo trimestre del 96
por su cercanía con la fecha de realización del Padrón Municipal de habitantes.
Como fuente estadística auxiliar se ha utilizado el registro de demandantes de
empleo correspondiente a mayo de 1996. Los efectivos de no demandantes en
cada municipio se han obtenido como diferencia entre las cifras padronales y los
demandantes del registro.
La distribución de secciones por estratos e islas en el segundo trimestre del 96
era la siguiente:
DISTRIBUCIÓN DE SECCIONES POR ISLAS Y ESTRATOS
PROVINCIA DE SANTA CRUZ DE TENERIFE. MAYO 1996
Estratos
Islas
Total
1
2
5
6
7
8
Tenerife
Palma
63
8
21
-
12
-
12
-
7
2
9
3
2
3
Gomera
-
-
-
-
-
-
-
Hierro
1
-
-
-
-
-
1
Total Provincia
72
21
12
12
9
12
6
Dentro de cada estrato, la expresión general del estimador empleado ha sido
;*
&
;*UP =
&*
+
;*
&
*
&
Y es la variable ocupado o parado, mientras que &* y & indican la condición de
demandante estimado por la EPA y proporcionado por el registro respectivamente.
*
Del mismo modo & y & indican la condición de no demandante en las dos fuentes
estadísticas.
Para la variable ocupados existe una correlación mucho más importante con la
condición de no demandantes que con la de demandantes mientras que para la
variable parados ocurre lo contrario.
ESTIMACIONES PARA ÁREAS PEQUEÑAS
311
En las tablas 3.1 a 3.5 se comparan las estimaciones directas de EPA y las obtenidas con el estimador sintético para cada una de las islas y el total de la provincia.
Para la isla de Tenerife se observa una discrepancia grande para los parados
entre la estimación directa de EPA y el estimador sintético. Para los ocupados la
diferencia no es tan importante; esto se puede explicar por el hecho de que la
variable parados está muy influida por la variable explicativa demandantes y en los
estratos 1, 2 y 5 que son exclusivos de la isla de Tenerife existe bastante diferencia
entre la estimación proporcionada por la EPA y los efectivos que da el INEM. En
cambio, la variable ocupados depende sobre todo de los no demandantes para los
cuales la diferencia es mucho menor.
En la isla de La Palma, que tiene municipios en los estratos 6, 7 y 8, se observa
bastante similitud entre la estimación directa de la EPA y el estimador sintético.
En la isla de La Gomera no hay puntos de muestreo en la EPA por lo cual no
existe referencia alguna para comparar.
En la isla de Hierro, sólo hay un punto de muestreo en el estrato 8 y las cifras
son de muy poca magnitud para que la comparación sea significativa.
Para el total de la provincia la discrepancia entre las estimaciones para ambas
variables viene muy influida por la diferencia observada en la mayor de las islas,
Tenerife, que es la que tiene también mayor peso en la representación muestral.
Asimismo el hecho de que la estimación directa en La Gomera sea nula contribuye
a que aumente la diferencia entre los ocupados y se reduzca la de los parados,
resultando de una magnitud casi igual pero de signo contrario, en torno a trece mil,
para ambas variables.
312
ESTADÍSTICA ESPAÑOLA
TABLA 1.1 TOTAL PROVINCIA DE LAS PALMAS
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimador a posteriori
Estimación directa de EPA
Ocupados
Parados
Ocupados
Parados
217,7
68,8
223,6
69,7
16-24 años
23,5
13,9
25,8
15,3
25-44 años
86,6
18,3
76,0
15,8
45 y más años
44,3
6,3
47,1
6,8
Total varones
154,3
38,5
148,9
37,9
16-24 años
16,2
13,0
18,0
13,9
25-44 años
43,4
15,9
40,9
14,5
45 y más años
13,9
3,2
15,9
3,5
Total mujeres
73,5
32.1
74,8
31,9
AMBOS SEXOS
227,8
70,6
223,7
69,8
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar
como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como
suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado
313
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 1.1 TOTAL PROVINCIA DE LAS PALMAS
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Estimador compuesto
Ocupados
Parados
Ocupados
Parados
223,5
70,4
216,9
68,9
16-24 años
23,9
14,6
23,2
14,2
25-44 años
89,1
18,1
86,5
18,2
45 y más años
44,8
7,0
43,5
6,6
Total varones
157,8
39,7
153,3
39,0
16-24 años
16,6
13,6
16,2
13,3
25-44 años
44,7
16,2
43,4
15,8
45 y más años
14,1
3,0
13,9
3,1
Total mujeres
75,3
32,9
73,5
32,2
AMBOS SEXOS
233,2
72,6
226,8
71,2
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar
como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como
suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado.
314
ESTADÍSTICA ESPAÑOLA
TABLA 1.2 ISLA DE GRAN CANARIA
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimador a posteriori
Estimación directa de EPA
Ocupados
Parados
Ocupados
Parados
190,6
62,9
194,8
64,0
16-24 años
19,6
13,4
22,6
14,7
25-44 años
76,4
15,9
64,6
13,5
45 y más años
39,6
6,1
42,6
6,6
Total varones
135,6
35,4
129,8
34,8
16-24 años
14,2
12,0
16,0
13,2
25-44 años
38,1
14,3
35,1
12,8
45 y más años
12,4
3,0
14,0
3,3
Total mujeres
64,7
29,3
65,1
29,3
AMBOS SEXOS
200,4
64,6
194,9
64,1
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar
como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como
suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado.
315
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 1.2 ISLA DE GRAN CANARIA
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Estimador compuesto
Ocupados
Parados
Ocupados
Parados
193,3
62,6
190,6
62,9
16-24 años
20,5
12,7
19,6
13,4
25-44 años
75,9
16,6
76,4
16,0
45 y más años
39,5
5,7
39,6
6,1
Total varones
135,8
35,0
135,6
35,5
16-24 años
14,3
12,0
14,2
12,0
25-44 años
38,7
14,4
38,2
14,3
45 y más años
12,5
3,0
12,4
3,0
Total mujeres
65,5
29,4
64,8
29,2
AMBOS SEXOS
201,4
64,4
200,5
64,7
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar
como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como
suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado.
316
ESTADÍSTICA ESPAÑOLA
TABLA 1.3 ISLA DE FUERTEVENTURA
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimador a posteriori
Estimación directa de EPA
Ocupados
Parados
Ocupados
Parados
8,5
2,1
12,2
2,3
16-24 años
1,0
0,3
1,3
0,4
25-44 años
3,0
0,8
4,6
0,8
45 y más años
1,9
0,0
1,6
0,0
Total varones
5,9
1,0
7,5
1,2
16-24 años
0,8
0,5
0,9
0,2
25-44 años
1,7
0,6
3,0
0,9
45 y más años
0,6
0,0
0,8
0,0
Total mujeres
3,1
1,1
4,7
1,1
AMBOS SEXOS
9,0
2,1
12,2
2,3
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar
como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como
suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado.
317
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 1.3 ISLA DE FUERTEVENTURA
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Estimador compuesto
Ocupados
Parados
Ocupados
Parados
9,5
2,9
7,8
2,1
16-24 años
1,0
0,7
1,0
0,3
25-44 años
4,5
0,3
3,1
0,5
45 y más años
1,6
0,3
1,2
0,1
Total varones
7,1
1,3
5,2
0,9
16-24 años
0,5
0,7
0,7
0,4
25-44 años
1,9
0,8
1,7
0,6
45 y más años
0,4
0,0
0,6
0,0
Total mujeres
2,9
1,4
2,9
1,0
AMBOS SEXOS
10,0
2,7
8,1
1,9
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar
como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como
suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado.
318
ESTADÍSTICA ESPAÑOLA
TABLA 1.4 ISLA DE LANZAROTE
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimador a posteriori
Estimación directa de EPA
Ocupados
Parados
Ocupados
Parados
18,5
3,8
16,6
3,4
16-24 años
2,9
0,2
1,9
0,2
25-44 años
7,1
1,7
6,8
1,5
45 y más años
2,7
0,2
2,9
0,2
Total varones
12,8
2,2
11,6
1,9
16-24 años
1,3
0,6
1,1
0,5
25-44 años
3,5
1,0
2,8
0,8
45 y más años
0,9
0,2
1,1
0,2
Total mujeres
5,8
1,8
5,0
1,5
AMBOS SEXOS
18,4
3,9
16,6
3,4
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar
como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como
suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado.
319
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 1.4 ISLA DE LANZAROTE
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Estimador compuesto
Ocupados
Parados
Ocupados
Parados
20,6
5,0
18,4
3,9
16-24 años
2,4
1,2
2,6
0,6
25-44 años
8,7
1,3
7,1
1,7
45 y más años
3,7
1,0
2,7
0,4
Total varones
14,9
3,4
12,5
2,7
16-24 años
1,7
0,0
1,4
0,9
25-44 años
4,1
1,1
3,5
1,0
45 y más años
1,2
0,0
0,9
0,1
Total mujeres
6,9
2,0
5,8
2,0
AMBOS SEXOS
21,7
5,5
18,3
4,6
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por los estimadores a posteriori, sintético y compuesto al utilizar
como variable auxiliar la población de 16 años y más, no ha de coincidir con la obtenida como
suma de las estimaciones correspondientes a cada sexo y grupo de edad por separado.
320
ESTADÍSTICA ESPAÑOLA
TABLA 2.1 TOTAL PROVINCIA SANTA CRUZ DE TENERIFE
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimación directa de la EPA
Total
Inactivos
Ocupados
Parados
550,2
271,3
215,0
63,9
16-24 años
60,7
28,3
20,6
11,7
25-44 años
94,6
6,0
73,5
15,0
45 y más años
107,1
50,5
48,4
8,3
Total varones
262,4
84,8
142,5
35,0
16-24 años
58,0
35,4
12,1
10,6
25-44 años
99,5
43,8
39,8
15,7
45 y más años
130,2
107,3
20,3
2,5
Total mujeres
287,7
186,5
72,2
28,8
AMBOS SEXOS
550,1
271,3
214,7
63,8
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
321
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 2.1 TOTAL PROVINCIA SANTA CRUZ DE TENERIFE
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Total
Inactivos
Ocupados
Parados
543,6
266,9
213,3
63,4
16-24 años
61,7
29,1
20,8
11,8
25-44 años
103,1
6,5
80,2
16,3
45 y más años
100,1
46,4
45,8
7,9
Total varones
264,8
82,0
146,9
35,9
16-24 años
59,8
36,6
12,4
10,8
25-44 años
103,5
46,3
40,9
16,3
45 y más años
115,5
95,3
18,1
2,1
Total mujeres
278,8
178,2
71,4
29,2
AMBOS SEXOS
543,6
260,2
218,3
65,1
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
322
ESTADÍSTICA ESPAÑOLA
TABLA 2.2 ISLA DE TENERIFE
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimación directa de la EPA
Total
Inactivos
Ocupados
Parados
480,0
229,0
196,6
54,5
16-24 años
53,8
25,5
18,2
10,0
25-44 años
85,2
5,4
67,3
12,4
45 y más años
90,3
40,7
43,1
6,7
Total varones
229,3
71,6
128,6
29,1
16-24 años
50,5
30,1
11,1
9,3
25-44 años
89,3
37,5
38,0
13,7
45 y más años
110,9
89,8
18,7
2,3
Total mujeres
250,7
157,4
67,8
25,3
AMBOS SEXOS
480,0
229,0
196,4
54,4
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
323
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 2.2 ISLA DE TENERIFE
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Total
Inactivos
Ocupados
Parados
472,4
230,5
187,6
54,2
16-24 años
54,1
26,1
17,8
10,2
25-44 años
90,3
5,6
70,6
14,1
45 y más años
85,2
38,8
40,0
6,4
Total varones
229,6
70,5
128,4
30,7
16-24 años
52,5
32,4
10,8
9,2
25-44 años
91,3
40,3
37,0
14,1
45 y más años
99,0
81,8
15,4
1,8
Total mujeres
242,8
154,5
63,2
25,1
AMBOS SEXOS
472,4
225,1
191,6
55,8
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
324
ESTADÍSTICA ESPAÑOLA
TABLA 2.3 ISLA DE LA PALMA
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimación directa de la EPA
Total
Inactivos
Ocupados
Parados
59,2
33,3
16,8
9,0
16-24 años
6,3
2,6
2,2
1,5
25-44 años
8,2
0,2
5,6
2,4
45 y más años
13,4
6,8
4,9
1,6
Total varones
27,9
9,6
12,7
5,5
16-24 años
7,1
5,1
0,8
1,3
25-44 años
9,6
5,7
1,8
2.0
45 y más años
14,5
12,9
1,4
0,2
Total mujeres
31,2
23,7
4,0
3,5
AMBOS SEXOS
59,1
33,3
16,7
9,0
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
325
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 2.3 ISLA DE LA PALMA
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Total
Inactivos
Ocupados
Parados
56,3
28,3
20,8
7,2
16-24 años
6,0
2,5
2,4
1,1
25-44 años
10,2
0,6
7,8
1,8
45 y más años
11,5
5,5
4,8
1,1
Total varones
27,7
8,6
15,0
4,1
16-24 años
5,8
3,3
1,3
1,2
25-44 años
9,9
4,9
3,2
1,8
45 y más años
12,9
10,5
2,1
0,3
Total mujeres
28,6
18,7
6,6
3,3
AMBOS SEXOS
56,3
27,3
21,7
7,3
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
326
ESTADÍSTICA ESPAÑOLA
TABLA 2.4 ISLA DE LA GOMERA
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimación directa de la EPA
Total
Inactivos
Ocupados
Parados
11,0
9,0
1,6
0,4
16-24 años
0,6
0,2
0,2
0,2
25-44 años
1,2
0,4
0,6
0,2
45 y más años
3,4
3,0
0,4
0,0
Total varones
5,2
3,6
1,2
0,4
16-24 años
0,4
0,2
0,2
0,0
25-44 años
0,6
0,6
0,0
0,0
45 y más años
4,8
4,6
0,2
0,0
Total mujeres
5,8
5,4
0,4
0,0
AMBOS SEXOS
11,0
9,0
1,6
0,4
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
327
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 2.4 ISLA DE LA GOMERA
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Total
Inactivos
Ocupados
Parados
9,1
4,8
3,1
1,2
16-24 años
1,1
0,5
0,4
0,3
25-44 años
1,6
0,2
1,2
0,2
45 y más años
2,0
1,1
0,6
0,2
Total varones
4,7
1,8
2,2
0,7
16-24 años
1,0
0,6
0,2
0,2
25-44 años
1,4
0,6
0,5
0,3
45 y más años
2,1
1,7
0,3
0,1
Total mujeres
4,5
2,9
1,0
0,6
AMBOS SEXOS
9,2
4,7
3,2
1,3
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
328
ESTADÍSTICA ESPAÑOLA
TABLA 2.5 ISLA DE HIERRO
TODOS LOS ESTRATOS
Cifras en miles
Información auxiliar
Estimación directa de la EPA
Total
Inactivos
Ocupados
Parados
0,0
0,0
0,0
0,0
16-24 años
0,0
0,0
0,0
0,0
25-44 años
0,0
0,0
0,0
0,0
45 y más años
0,0
0,0
0,0
0,0
Total varones
0,0
0,0
0,0
0,0
16-24 años
0,0
0,0
0,0
0,0
25-44 años
0,0
0,0
0,0
0,0
45 y más años
0,0
0,0
0,0
0,0
Total mujeres
0,0
0,0
0,0
0,0
AMBOS SEXOS
0,0
0,0
0,0
0,0
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
329
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 2.5 ISLA DE HIERRO
TODOS LOS ESTRATOS (conclusión)
Cifras en miles
Información auxiliar
Estimador sintético
Total
Inactivos
Ocupados
Parados
5,7
3,3
1,7
0,7
16-24 años
0,5
0,2
0,2
0,2
25-44 años
1,0
0,1
0,7
0,2
45 y más años
1,4
0,9
0,4
0,1
Total varones
2,8
1,1
1,3
0,5
16-24 años
0,5
0,3
0,1
0,1
25-44 años
0,9
0,5
0,3
0,1
45 y más años
1,5
1,2
0,2
0,0
Total mujeres
2,9
2,0
0,6
0,3
AMBOS SEXOS
5,7
3,1
1,9
0,8
Población de 16 años y
más (*)
VARONES
MUJERES
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
330
ESTADÍSTICA ESPAÑOLA
TABLA 3.1 TOTAL DE LA PROVINCIA DE SANTA CRUZ DE TENERIFE
MAYO 1996
Cifras en miles
Información auxiliar
Estimación directa EPA
Estimador sintético (*)
Ocupados
Parados
Ocupados
Parados
Demandantes
10,1
52,1
8,1
37,5
No demandantes
239,6
13,1
254,7
14,3
Total
249,7
65,2
262,8
51,8
Demandantes
5,8
27,3
4,2
19,2
No demandantes
154,9
4,2
165,5
4,5
Total
160,7
31,5
169,7
23,7
Demandantes
4,3
24,8
3,7
18,6
No demandantes
84,7
8,9
87,1
9,1
Total
89,0
33,7
90,7
27,7
Demandantes
10,1
52,1
7,9
37,7
No demandantes
239,6
13,1
252,6
13,6
Total
249,7
65,2
260,5
51,3
TOTAL
VARONES (a)
MUJERES (b)
AMBOS SEXOS (a + b)
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado.
331
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 3.2 TOTAL DE LA ISLA DE TENERIFE
MAYO 1996
Cifras en miles
Información auxiliar
Estimación directa EPA
Estimador sintético (*)
Ocupados
Parados
Ocupados
Parados
Demandantes
9,3
48,3
6,7
33,2
No demandantes
210,1
12,5
218,4
12,6
Total
219.4
60,8
225,1
45,8
Demandantes
5,0
25,2
3,4
16,7
No demandantes
135,8
3,8
141,5
4,0
Total
140,8
29,0
144,9
20,7
Demandantes
4,3
23,1
3,1
16,7
No demandantes
74,3
8,7
75,5
8,1
Total
78,6
31,8
78,6
24,8
Demandantes
9,3
48,3
6,5
33,4
No demandantes
210,1
12,5
216,9
12,1
Total
219,4
60,8
223,5
45,5
TOTAL
VARONES (a)
MUJERES (b)
AMBOS SEXOS (a + b)
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado.
332
ESTADÍSTICA ESPAÑOLA
TABLA 3.3 TOTAL DE LA ISLA DE LA PALMA
MAYO 1996
Cifras en miles
Información auxiliar
Estimación directa EPA
Estimador sintético (*)
Ocupados
Parados
Ocupados
Parados
Demandantes
0,5
3,8
1,1
3,2
No demandantes
27,7
0,4
28,4
1,3
Total
28,2
4,2
29,5
4,5
Demandantes
0,5
2,1
0,6
2,0
No demandantes
18,1
0,2
18,2
0,4
Total
18,6
2,3
18,8
2,3
Demandantes
0,0
1,7
0,5
1,3
No demandantes
9,6
0,2
9,3
0,7
Total
9,6
1,9
9,8
2,0
Demandantes
0,5
3,8
1.0
3,3
No demandantes
27,7
0,4
27,5
1,1
Total
28,2
4,2
28,6
4,4
TOTAL
VARONES (a)
MUJERES (b)
AMBOS SEXOS (a + b)
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado.
333
ESTIMACIONES PARA ÁREAS PEQUEÑAS
TABLA 3.4 TOTAL DE LA ISLA DE HIERRO
MAYO 1996
Cifras en miles
Información auxiliar
Estimación directa EPA
Estimador sintético (*)
Ocupados
Parados
Ocupados
Parados
Demandantes
0,3
0,0
0,1
0,3
No demandantes
1,8
0,2
2,6
0,1
Total
2,1
0,2
2,7
0,4
Demandantes
0,3
0,0
0,1
0,2
No demandantes
1,0
0,2
2,0
0,0
Total
1,3
0,2
2,1
0,2
Demandantes
0,0
0,0
0,0
0,1
No demandantes
0,8
0,0
0,8
0,1
Total
0,8
0,0
0,8
0,2
Demandantes
0,3
0,0
0,1
0,3
No demandantes
1,8
0,2
2,7
0,1
Total
2,1
0,2
2,8
0,4
TOTAL
VARONES (a)
MUJERES (b)
AMBOS SEXOS (a + b)
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado.
334
ESTADÍSTICA ESPAÑOLA
TABLA 3.5 TOTAL DE LA ISLA DE LA GOMERA
MAYO 1996
Cifras en miles
Información auxiliar
Estimación directa EPA
Estimador sintético (*)
Ocupados
Parados
Ocupados
Parados
TOTAL
Demandantes
No demandantes
Total
0,0
0,0
0,0
0,0
0,0
0,0
0,2
5,3
5,6
0,8
0,2
1,0
VARONES (a)
Demandantes
No demandantes
Total
0,0
0,0
0,0
0,0
0,0
0,0
0,2
3,8
4,0
0,4
0,1
0,5
MUJERES (b)
Demandantes
No demandantes
Total
0,0
0,0
0,0
0,0
0,0
0,0
0,0
1,6
1,6
0,4
0,2
0,6
AMBOS SEXOS (a + b)
Demandantes
No demandantes
Total
0,0
0,0
0,0
0,0
0,0
0,0
0,2
5,4
5,6
0,8
0,2
1,0
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
condición de demandante y no demandante sin cruzar con el sexo no ha de coincidir con la obtenida como suma de las estimaciones correspondientes a cada sexo por separado.
ESTIMACIÓN DE LA VARIANZA PARA LA VARIABLE OCUPADOS
Para ensayar la metodología de áreas pequeñas en base a una única realización de EPA, se ha utilizado el hecho de que todos los individuos de un mismo
estrato tienen la misma probabilidad de pertenecer a la muestra al tratarse de una
muestra autoponderada dentro de cada estrato. Por otro lado, no se ha tenido en
cuenta el efecto de diseño, que aparece al obtener la muestra final de individuos
mediante selección de secciones censales en primera etapa y de viviendas en
segunda etapa. Aun sin conocer en qué grado este hecho puede subestimar la
estimación de la varianza de los estimadores sintético y aposteriori, parece de
interés presentar una estimación de las varianzas utilizando un modelo de regresión
generalizada dentro de cada estrato con el fin de poder comparar la precisión de
los diferentes estimadores.
335
ESTIMACIONES PARA ÁREAS PEQUEÑAS
Se ha estimado la varianza para la variable ocupados en la isla de la La Palma
tomando como fecha de referencia el segundo trimestre de 1996 y como información auxiliar los datos patronales de mayo de 1996.
En las tablas aparecen, tanto para el estimador sintético como para el estimador
a posteriori, los valores de las estimaciones, la varianza de las estimaciones, la
desviación típica y el coeficiente de variación obtenido como cociente entre la
desviación típica y la estimación. Todo está desagregado para los estratos 6, 7 y 8
que son los únicos que intervienen en la isla de La Palma.
Los resultados se han obtenido para los dos conjuntos de variables auxiliares,
es decir, total de población de 16 y más en la tabla 4.1 y población desagregada
por grupos de edad y sexo en la tabla 4.2
Como era de esperar la varianza del estimador a posteriori es siempre mayor
que la del sintético tanto a nivel de estrato como en el conjunto del área pequeña.
También se observa que los coeficientes de variación son ligeramente superiores al tomar como variable auxiliar la población de 16 y más.
TABLA 4.1 PROVINCIA DE SANTA CRUZ DE TENERIFE
ISLA DE LA PALMA
VARIANZA DEL ESTIMADOR SINTÉTICO Y A POSTERIORI PARA LA VARIABLE OCUPADOS
VARIABLE AUXILIAR: POBLACIÓN DE 16 Y MÁS AÑOS
Estimación
Estrato 6
Estrato 7
Estrato 8
Todos los estratos
Estimador
sintético
13.011,4
9.733,7
5.305,9
28.051,0
Varianza
Estimador a
posteriori
11.436,5
8.366,8
5.746,6
25.549,9
Desviación típica
Estimador
sintético
448.643,2
225.508,3
166.613,5
840.765,0
Estimador a
posteriori
1.853.721,9
868.079,1
283.186,3
3.004.987,3
Coeficiente de variación (%)
Estrato 6
Estimador
sintético
669,8
Estimador a
posteriori
1.361,5
Estimador
sintético
5,15
Estimador a
posteriori
11,91
Estrato 7
474,9
931,7
4,88
11,14
Estrato 8
Todos los estratos
408,2
916,9
532,2
1.733,5
7,69
3,27
9,26
6,78
336
ESTADÍSTICA ESPAÑOLA
TABLA 4.2 PROVINCIA DE SANTA CRUZ DE TENERIFE
ISLA DE LA PALMA
VARIANZA DEL ESTIMADOR SINTÉTICO Y A POSTERIORI PARA LA VARIABLE OCUPADOS
VARIABLE AUXILIAR: POBLACIÓN DE 16 Y MÁS AÑOS POR GRUPOS DE
EDAD Y SEXO
Estimación
Varianza
Estrato 6
Estimador
sintético
13.035,3
Estimador a
posteriori
11.922,6
Estimador
sintético
386.994,4
Estimador a
posteriori
1.688.657,1
Estrato 7
9.719,9
8.492,9
188.726,5
606.388,6
Estrato 8
Todos los estratos
5.525,8
28.281,0
5.743,9
26.159,4
131.448,1
707.169,0
202.350,8
2.497.396,5
Desviación típica
Coeficiente de variación (%)
Estrato 6
Estimador
sintético
622,1
Estimador a
posteriori
1.299,5
Estimador
sintético
4,77
Estimador a
posteriori
10,90
Estrato 7
434,4
778,7
4,47
9,17
Estrato 8
Todos los estratos
362,6
840,9
449,8
1.580,3
6,56
2,97
7,83
6,04
CONCLUSIONES
A la vista del tratamiento teórico de los estimadores de áreas pequeñas y del
ensayo realizado en las provincias canarias se puede deducir que esta metodología
representa un instrumento subsidiario para llenar el vacío de las estimaciones en
ámbitos no previstos por el diseño original de las encuestas, pero también aparecen
serias limitaciones.
El mayor problema que se plantea es la existencia o no de una mínima representación muestral del área pequeña en base al diseño original. Si no hay muestra
o es demasiado exigua, el estimador a posteriori no se puede obtener o es inoperante. Tampoco se va a poder calcular la estimación del sesgo para el estimador
ESTIMACIONES PARA ÁREAS PEQUEÑAS
337
sintético (la varianza de éste, por sí sola, no da una buena idea de su precisión al
ser el estimador sesgado).
La elección de las variables explicativas puede ser muy determinante a la hora
de obtener las estimaciones y sus varianzas ya que cualquier modelo de regresión
que se utilice proporcionaría una varianza explicada y otra residual o no explicada
cuya magnitud dependerá del grupo de variables elegidas; a su vez una mayor
varianza residual influirá en una mayor varianza de la estimación, sin olvidar que el
poder explicativo de un grupo de variables auxiliares también dependerá de la
variable de interés considerada, así por ejemplo la variable población por grupos de
edad y sexo puede ser más idónea para la variable ocupados pero no para la
variable parados. También la varianza de las estimaciones así como las propias
estimaciones obtenidas a partir de los estimadores de regresión, vendrán influidos
por la diferencia entre los vectores de efectivos poblacionales que proporciona la
EPA y la fuente estadística auxiliar.
Como se dijo al principio del artículo, el área pequeña permite en muchos casos
realizar una estimación directa a partir del diseño original de EPA y por tanto puede
existir cierta preocupación en que no aparezca una discrepancia excesiva entre la
estimación directa y la obtenida mediante los estimadores de regresión. Esto en
principio no debe constituir un elemento de desconfianza hacia los estimadores
utilizados ya que precisamente se parte de la hipótesis de que el área pequeña no
tiene la representación muestral suficiente para dar una estimación fiable; sí puede
tener en cambio más sentido la comparación a nivel provincial de la estimación
directa y la obtenida utilizando información auxiliar. En este caso la discrepancia
entre las estimaciones también vendrá influida por la diferencia entre los vectores
efectivos provinciales que proporciona la EPA y la fuente auxiliar. Si esta diferencia
es sustancial, se pueden poner reservas hacia la fiabilidad de la información ajena
a la encuesta o hacia la verosimilitud de las estimaciones que proporciona el diseño
a nivel provincial lo cual sería más grave. A nivel de área pequeña, se puede
otorgar mayor confianza a la información auxiliar.
Todo lo expuesto anteriormente se podría resumir diciendo que la elección de
un determinado grupo de variables explicativas vendrá determinada por la disponibilidad de información relativa a estas variables tanto en la encuesta como en una
fuente estadística ajena a la muestra como puede ser el Censo, el Padrón o un
Registro continuo. En segundo lugar interesa examinar a nivel de provincia la
diferencia existente entre los efectivos estimados por la encuesta y la fuente auxiliar
para el grupo de variables auxiliares elegidas y por último interesa ver el poder
explicativo del grupo de variables a través de la varianza residual resultante.
338
ESTADÍSTICA ESPAÑOLA
A pesar de sus inconvenientes, la estimación para áreas pequeñas será una
técnica imprescindible para evitar aumentar el tamaño de la muestra y los costes
que ello conllevaría, y siempre que no sea posible rediseñar la encuesta para
adaptarse a los requerimientos de información en pequeños dominios.
En el caso de la EPA es esencial también que las áreas pequeñas definidas en
cada provincia (subconjunto poblacional mínimo para el que está previsto dar
información en el diseño de la encuesta) constituyan una partición equilibrada de la
misma, es decir, se definan de forma que tengan una representación muestral
similar y cubran toda la provincia. Esto simplifica bastante el cálculo de sesgos y
varianzas, a la vez que permite hacer coherentes los datos dados directamente por
la encuesta para el total de la provincia con los estimados para las áreas pequeñas.
En cualquier caso, la técnica parece más propia para ser desarrollada en los órganos productores de estadísticas más próximos a la realidad que se pretende
medir, es decir, en organismos cercanos a las unidades territoriales municipales o
inframunicipales. La coherencia de las estimaciones obtenidas se podrá contrastar
así más fácilmente al poder disponer de otras fuentes para zonas análogas o de un
mejor conocimiento de la realidad sobre el terreno.
REFERENCIAS
INE. «Encuesta de Población Activa. Informe técnico». Área de Diseño de Muestras
y Evaluación de Resultados. Madrid, 1999.
FALORSI, P.D., FALORSI, S ET RUSSO, A. «Comparaison empirique de méthodes
d’estimation pour petites regions pour l’enquête sur la population active italienne».
Techniques d’enquête, decembre, 1994. vol. 20 p. 179-184. Statistics Canada.
DREW, J.D., SINGH, M.P. Y CHOULARY, G.H. «Evaluation des techniques d’estimation
pour les petites regions dans l’enquête sur la population active au Canada».
Tecniques d’enquête, 1982, vol. 8 p.19-44.
MARTÍN-GUZMÁN, M.P. Y MARTÍN PLIEGO, F.J. «Curso básico de Estadística Económica»
SÁNCHEZ-CRESPO, G. «Metodología para la estimación en dominios de estudios
pequeños». Universidad Autónoma de Madrid, 1983.
SÄRNDAL, C.E, SWENSSON, B. Y WRETMAN, J. «Model assisted survey sampling».
Springer Series in Statistics
Descargar