Diseño de la muestra - Instituto Nacional de Estadísticas

Anuncio
Diseño de la muestra
Juana Porras Puga
ESQUEMA
1. ÁMBITO
2. MARCO DE LA ENCUESTA
3. TIPO DE MUESTREO
4. CRITERIOS DE ESTRATIFICACIÓN
5. TAMAÑO Y AFIJACIÓN DE LA MUESTRA
6. SELECCIÓN
7. DISTRIBUCIÓN DE LA MUESTRA EN EL TIEMPO
8. RENOVACIÓN PARCIAL DE LA MUESTRA
9. ESTIMADORES
10. ERRORES DE MUESTREO
11. ACTUALIZACIÓN DE LAS UNIDADES DE
MUESTREO
2. MARCO DE LA ENCUESTA
Relación de unidades que van a ser muestreadas
junto con toda la información complementaria que se
puede utilizar en el diseño de la encuesta
Se utilizan dos marcos:
‰ Marco de áreas geográficas:
" Comunidades Autónomas
" Provincias
" Municipios - Actualmente 8.200
" Distritos municipales
" Secciones censales. Aproximadamente
34.000
Sección censal
Área geográfica en que se divide el territorio nacional,
utilizada con fines estadísticos y electorales
Características:
‰ Perfectamente definida con límites fácilmente
identificables
‰ El tamaño varía, de acuerdo con la Ley
General Electoral, entre 500 y 2.000 electores
‰ Cualquier parte del territorio nacional debe
pertenecer a una sola sección
SEVILLA
SEVILLA
SEVILLA-Municipio
SEVILLA
Municipio-Secciones
Marco de viviendas
‰Relación de todas las viviendas familiares con sus
direcciones postales, en cada una de las secciones
censales seleccionadas para la encuesta
‰En el caso de la EPA se obtiene en cada censo a partir
de los cuadernos de recorrido utilizados en los trabajos
censales y se elabora una vez finalizada la fase de
recogida de los cuestionarios censales. Se actualiza
periódicamente
‰En las encuestas esporádicas se obtiene de la
explotación del Padrón Continuo
Utilización del Censo en la formación
del marco
‰ Fuente de información desagregada a
nivel de unidades primarias de
muestreo: Estratificación y
subestratificación
‰ Instrumento para la formación del marco
de viviendas, unidades de segunda etapa
‰ Actualización de la cartografía
3.TIPO DE MUESTREO. Muestreo bietápico
con estratificación de unidades de primera etapa
‰ Unidades de primera etapa: Secciones
censales.
La muestra de secciones permanece fija
indefinidamente salvo:
‹Resultados censales que aconsejan otra
afijación
‹Agotamiento de los hogares consultables
‹Actualización de probabilidades de selección
‰ Unidades de segunda etapa: Viviendas
familiares principales y alojamientos fijos
Dentro de las unidades de segunda etapa no se realiza
submuestreo alguno.
4. CRITERIOS DE ESTRATIFICACIÓN
‰Geográfico( Estratos): Según la importancia demográfica
del municipio al que pertenecen las unidades primarias
Municipios Autorrepresentados: Estratos 1-2-3
M unicipios Correpresentados :
Población
Estratos
4
50.000 - 100.000
5
20.000 - 50.000
6
10.000 - 10.000
7
5.000 - 10.000
8
2.000 5.000
9
< 2.000
‰ Socioeconómico (Subestratos): Dentro de cada
estrato las secciones se clasifican según la categoría
socioeconómica de la población activa de la sección
CPRO
CMUN
DIST
NSECC
41
41
41
41
41
41
41
41
41
091
091
091
091
091
091
091
091
091
01
01
01
01
01
01
01
01
01
022
023
024
025
027
028
029
030
031
Población % de
jóvenes
(0-19)
1.146,0
1.487,0
1.261,0
2.036,0
1.391,0
773,0
1.915,0
762,0
758,0
9,34
9,75
10,55
11,25
9,99
12,55
9,92
8,27
8,84
% de
jóvenes
(15-24)
21,29
21,52
17,76
19,40
22,00
20,83
23,86
23,23
17,81
% de
Mayores
20,24
16,75
20,38
17,58
21,21
17,21
13,68
22,18
26,65
% de parados % de
en la sección inactivos
10,38
11,97
10,47
9,48
5,97
11,25
11,96
6,96
10,16
% de
ocupados
53,66
49,83
54,48
49,85
54,57
52,65
47,42
53,67
56,20
% de
extranjeros
35,95
37,26
34,66
37,28
39,47
34,67
35,67
37,53
33,64
3,14
2,69
2,38
2,65
1,01
2,85
1,04
0,79
1,72
% de personas con nivel de estudios
CPRO CMUN DIST
Nº
SECC
41
41
41
41
41
41
41
41
41
022
023
024
025
027
028
029
030
031
091
091
091
091
091
091
091
091
091
01
01
01
01
01
01
01
01
01
inferiores medios
39,70
36,85
44,96
43,71
26,82
46,18
37,08
29,27
41,29
37,87
42,57
33,23
34,33
37,60
33,12
39,95
43,96
39,58
superiores
22,43
19,64
21,41
18,57
35,59
19,28
18,02
24,93
19,13
Renta total
por vivienda
con
percentores
19160,6
17464,7
19662,2
18711,8
44987,0
19579,7
19480,2
33633,7
17857,5
Renta por
desempleo
entre renta
total
2,0
2,2
1,6
1,8
0,5
1,5
1,7
1,2
2,7
Renta Capital
mobiliario e Renta agraria
Subestrato
inmobiliario sobre renta
sobre renta total
total
4,6
3,1
5,2
3,7
23,4
4,6
4,6
6,6
4,1
0,1
0,0
0,3
0,3
1,2
0,4
0,3
0,0
0,1
4
4
4
4
6
4
4
4
4
5. TAMAÑO Y AFIJACIÓN DE LA MUESTRA
Tamaño: En función del coste(Q) y del coeficiente de
variación(C):
= coeficiente de
correlación intraclásica,
Para la población activa
Q = nQs + nmQv
se estimó δ=0,05,
δ
V(P̂) 1− P̂ 1+ δ(m−1)
C (P̂) = 2 = 2 ⋅
nm
P̂
P̂
2
El mínimo para un coste dado se obtuvo para:
n = 3.000 secciones.
m = 20 viviendas por sección.
5.1 Afijación.
Objetivos : Estimaciones provinciales fiables.
Estimaciones nacionales fiables.
Número exacto de bloques
(13 secciones por trimestre)
en cada provincia.
En provincias: De compromiso entre uniforme
y proporcional
En estratos: Estrictamente proporcional
EPA-2005, Tamaño de la muestra de secciones
ESTRATOS
1
1 ALAVA
2 ALBACETE
3 ALICANTE
4 ALM ERIA
5 AVILA
6 BADAJOZ
7 BALEARES
8 BARCELONA
9 BURGOS
10 CACERES
11 CADIZ
12 CASTELLON
13 CIUDAD REAL
14 CORDOBA
15 CORUÑA (LA)
16 CUENCA
17 GIRONA
18 GRANADA
19 GUADALAJARA
20 GUIPUZCOA
21 HUELVA
22 HUESCA
23 JAEN
24 LEON
25 LLEIDA
26 RIOJA (LA)
27 LUGO
30
18
18
16
13
20
44
55
20
19
13
26
13
34
21
10
15
28
20
26
15
13
17
24
15
33
13
2
3
10
4
15
9
6
33
13
6
19
26
9
13
5
6
7
10
5
8
12
10
27
21
7
7
7
26
14
13
11
19
5
4
13
15
6
7
3
12
12
6
3
8
3
3
14
12
10
3
10
7
4
12
11
14
8
10
11
20
13
10
12
10
5
9
7
7
3
6
12
15
3
7
7
12
5
6
12
12
5
6
6
15
9
12
8
5
3
6
8
12
9
3
12
7
8
11
7
6
13
11
6
6
8
9 Total
5
15
10
3
9
25
9
7
15
9
6
9
10
15
6
7
12
19
10
9
39
39
78
39
39
78
104
156
39
78
78
78
78
78
78
39
78
78
39
78
39
39
78
78
39
65
39
ESTRATOS
1
28 MADRID
29 MALAGA
30 MURCIA
31 NAVARRA
32 ORENSE
33 ASTURIAS
34 PALENCIA
35 LAS PALMAS
36 PONTEVEDRA
37 SALAMANCA
38 S.CRUZ TENERIFE
39 CANTABRIA
40 SEGOVIA
41 SEVILLA
42 SORIA
43 TARRAGONA
44 TERUEL
45 TOLEDO
46 VALENCIA
47 VALLADOLID
48 VIZCAYA
49 ZAMORA
50 ZARAGOZA
51 CEUTA
52 MELILLA
TOTAL
2
3
4
5
6
7
92
36
36
18
36
16
30
33
20
44
11
26
20
25
15
35
10
16
52
18
19
12
10
13
13
45
36
29
7
16
59
13
13
1329 183
30
15
10
6
9
18
26
9
4
5
12
9
6
19
6
9
6
9
5
7
5
9
9
3
10
9
5
10
9
9
9
11
7
6
4
9
9
11
23
28
10
24
8
14
18
4
10
11
20
18
12
10
24
9
15
9
4
7
19
4
8
4
5
69 178 445 403
8
15
6
5
9 Total
13
6
9
9
4
12
7
9
3
6
9
21
7
9
15
12
8
16
13
5
6
6
5
19
9
366 284 331
156
78
104
91
39
130
39
104
78
39
91
91
39
117
39
78
39
78
117
52
78
39
78
13
13
3588
6. SELECCIÓN DE LA MUESTRA
Secciones: Probabilidad proporcional al tamaño
medido por el número de viviendas familiares
principales
Viviendas: Probabilidad igual(muestreo sistemático)
De esta forma en cada estrato, las viviendas familiares tienen
la misma probabilidad de pertenecer a la muestra (muestra
autoponderada)
⎛ Vijh ⎞
Vjh m K h . m
⎟ = Kh .
P (Vijh ) = P (S jh ) . P ⎜
=
.
⎜S ⎟
Vh Vjh
Vh
⎝ jh ⎠
7. DISTRIBUCIÓN DE LA MUESTRA EN
EL TIEMPO
•Cada período de la encuesta es de un trimestre siendo
cada una de las secciones de la muestra visitada en una
de las 13 semanas del mismo.
•La distribución de la muestra es uniforme en el tiempo,
Para ello se han considerado las variables provincia,
estrato, turno de rotación y semana.
•La totalidad de la muestra está dividida en tres
submuestras independientes representativas, cada una
de ellas, de toda la población.
•Las submuestras correspondientes a cada turno de
rotación son representativas, aunque su reducido tamaño
impide las estimaciones en dominios medios o pequeños.
8. RENOVACIÓN PARCIAL DE LA MUESTRA
Unidades primarias: Las secciones censales
permanecen fijas indefinidamente en la muestra
(salvo las excepciones señaladas).
Unidades secundarias: Las viviendas familiares de
la muestra son renovadas parcialmente cada
trimestre, Esta renovación afecta a una sexta parte de
las secciones (5/6 permanecen de un trimestre a
otro).
Turnos de rotación: El conjunto de las secciones de
la muestra está repartido en 6 grupos llamados turnos
de rotación.
Cada trimestre, se renueva la muestra de viviendas
correspondientes a las secciones de un determinado
turno de rotación.
9. ESTIMADORES (1)
Se utilizan estimadores de razón y se aplican Técnicas
de reponderación a los estimadores con objeto de
ajustar las estimaciones de la encuesta a la información
procedente de fuentes externas.
Ŷ h
Ŷ = ∑
⋅ Ph
h
P̂ h
Estimador de razón:
Siendo:
Ŷh = ∑
i, j∈h
1
m
Kh ⋅
Vh
1
∑
i , j∈ h
Por tanto:
K
h
K
h
Ŷ = ∑
h
∑
i , j∈ h
⋅ y hij
⋅ y hij
P̂h = ∑
ij∈h
1
m
Kh ⋅
Vh
⋅ p hij
m
⋅
Ph
Vh
⋅ Ph = ∑
∑ y hij
h
ij
∈h
1
p
h
⋅ p hij
m
⋅
Vh
Los datos muestrales elevados no se
ajustan a los datos de la población
E.P.A. Alicante. Varones
100000
90000
Población
80000
70000
60000
50000
40000
30000
20000
10000
1
2
3
4
5
6
7
Grupos de edad
Estimaciones
Población
8
9
10
11
Los datos muestrales elevados no se
ajustan a los datos de la población
E.P.A. Alicante. Mujeres
140000
Población
120000
100000
80000
60000
40000
20000
1
2
3
4
5
6
7
Grupos de edad
Estimaciones
Población
8
9
10
11
9. ESTIMADORES(2)
La expresión del estimador
de razón es:
Esta expresión puede
escribirse como:
Ph
Ŷ = ∑ ∑yhij
h p i, j∈h
h
Ŷ =
∑ dk y k
k∈s
Se dispone de J variables auxiliares cuyos valores
son conocidos para la muestra y cuyos totales son
conocidos para la población
Xj =
∑ x jk
k∈U
Generalmente la muestra no es
equilibrada:
X̂j ≠ ∑dk xjk
k∈s
9. ESTIMADORES(3)
Objetivo de la reponderación: Obtener unos nuevos
pesos wk ,lo mas parecido posible a los pesos dk , que
equilibren la muestra, es decir:
X̂ =
∑ w k xk
k∈s
Solución matemática del problema : Encontrar unos
valores que hagan mínima la expresión:
∑
k∈s
⎛ w
d k G ⎜⎜
⎝ d
siendo:
k
k
⎞ con la
⎟⎟
condición
⎠
∑ w k Xk = X
k∈s
G = Función de distancia.
X= Vector de dimensión (J,1) con los totales de las variables auxiliares.
Xk= Vector de dimensión (J,1) con los valores de las variables
auxiliares en la unidad muestral k.
La solución del problema depende de la función de distancia G que se
utilice.
9. ESTIMADORES( 4)
En la EPA se ha optado por utilizar la función de
distancia lineal con objeto de aprovechar las
propiedades del estimador de regresión, de
pequeña varianza y mínimo sesgo, Además se
ha utilizado un algoritmo que permite acotar las
variaciones de los factores finales respecto de los
iniciales con el fin de evitar factores finales
negativos.
Para la resolución práctica de este problema se
ha utilizado el software CALMAR (CALage sur
MARges) programado por el INSEE (Institut
National de la Statistique et des Études
Économiques) de Francia
9. ESTIMADORES(y 5)
Las variables auxiliares que se han empleado
son:
1- Población de 16 y más años por grupos
de edad y sexo a nivel de Comunidad
Autónoma
2- Población de 16 y más años por
provincia
3- País de nacionalidad
10. ERRORES DE MUESTREO
Se utiliza el método de las semimuestras
reiteradas, procedimiento indirecto de estimación
de la varianza.
Consiste en:
• Obtención de r semimuestras de la muestra total.
• Estimación de la característica con cada una de
las semimuestras.
El estimador de la varianza es:
2
r
1
donde:
V̂ X̂ = ∑ X̂i − X̂
r i =1
()
(
)
r es el número de semimuestras
X̂i es la estimación con la i-ésima reiteración.
X̂ es la estimación obtenida con la muestra completa.
En la E.P.A. el número de reiteraciones es de 40.
Formación de las reiteraciones:
- Se agrupan las secciones de cada estrato por pares.
- Se asigna aleatoriamente la primera sección a 20
reiteraciones y la otra sección a las otras 20.
De esta forma:
- Cada reiteración queda constituida por un número de
secciones equivalente al 50% de la muestra.
- Cada sección aparece en la mitad de las reiteraciones.
Errores de muestreo relativos,en porcentaje, de la población
de 16 y más años según su relación con la actividad económica,
por comunidades autónomas. Tercer trimestre 2006
Comunidades
autónomas
Total
Andalucía
Aragón
Asturias (Principado de)
Balears (Illes)
Canarias
Cantabria
Castilla y León
Castilla - La Mancha
Cataluña
Comunidad Valenciana
Extremadura
Galicia
Madrid (Comunidad de)
Murcia (Región de)
Navarra (Comunidad Foral de)
País Vasco
Rioja (La)
Ceuta
Melilla
Activos
0,22
0,57
1,05
1,58
0,83
0,87
0,96
0,66
0,88
0,54
0,84
0,85
0,95
0,70
1,34
1,14
0,77
1,27
6,45
2,88
Ocupados Parados
Total
0,29
0,74
1,11
1,89
1,04
1,27
1,38
0,78
1,19
0,69
1,01
1,06
1,07
0,89
1,69
1,36
0,88
1,57
7,21
3,74
1,98
3,18
9,63
7,22
10,82
6,68
10,89
4,04
5,79
5,13
5,63
5,62
7,51
9,77
7,95
13,20
7,56
14,80
28,36
17,73
Inactivos
Buscan
Han
primer
trabajado
empleo
antes
3,83
2,02
6,75
3,60
26,62
10,37
21,04
10,77
50,47
9,36
14,67
7,47
19,77
10,83
13,03
4,12
16,27
6,40
15,91
6,11
15,87
6,04
14,96
7,69
20,22
7,59
18,06
10,31
24,11
10,26
26,68
13,15
19,51
9,00
48,49
15,94
34,17
29,75
52,79
12,08
0,32
0,71
1,39
1,59
1,68
1,40
1,20
0,76
1,09
0,89
1,24
0,90
1,13
1,20
1,90
1,83
1,08
1,86
7,30
3,30
Estimadores utilizados en la E P A
a.- Estimador insesgado de expansión(H-T)
Recordamos que la probabilidad de pertenecer a la muestra de una
vivienda ‘i’ de la sección ‘j’ del estrato ‘h’ viene dada por:
⎛ Vijh ⎞
Vjh m Kh . m
P Vijh = P Sjh . P⎜ ⎟ = Kh . .
=
⎜ Sjh ⎟
Vh Vjh
Vh
⎝ ⎠
( ) ( )
Donde ‘Kh’ son las secciones de la muestra en el estrato ‘h’, y
‘m’ es el número de viviendas muestrales por sección.
Según lo anterior, la probabilidad de pertenecer a la muestra
se puede expresar por:
(
P V ijh
)
v ht
=
Vh
Y por tanto el estimador H-T tendrá la expresión:
Vh
ŶH−T = ∑ t ⋅ ∑yi
h v i∈h
h
b.- Corrección de la falta de respuesta
La probabilidad de respuesta por estrato la podemos estimar
por:
PRh
vh
= t
vh
Donde vh representa la muestra efectiva de viviendas en el
estrato h.
Por tanto el estimador corregido será:
Vh
Vh vht
ŶH−TCorr = ∑ t ⋅ ∑ yi = ∑ ∑ yi = ∑ ŶH−TCorr(h)
h v
i∈h
h vh i∈h
h
h vh
c.- Calibrado con fuentes externas(1)
Se utiliza, en primer lugar, un estimador de razón separado
que toma como variable auxiliar las proyecciones de población
de 16 o más años, a mitad del trimestre(Ph).
El estimador tiene la expresión:
ŶCal1 = ∑
h
que desarrollada es:
Ŷ Cal 1
ŶH− TCorr (h )
P̂H− TCorr (h )
⋅ Ph
Vh
∑ yi
Ph
v h i∈h
= ∑
⋅ Ph = ∑
⋅ y h = ∑ dk ⋅ y k
Vh
h
h ph
S
∑ pi
v h i∈h
donde S es la muestra efectiva.
c.- Calibrado con fuentes externas(2)
En el segundo ajuste con fuentes externas se utilizan las siguientes
variables referidas a la población de 16 o más años en cada comunidad
autónoma:
•Proyecciones de población por grupos de edad y sexo(22)
quinquenales
•Proyecciones de población por nacionalidad(españoles y
extranjeros)
•Totales de población por provincia
A partir de ahora llamaremos ‘xj’ a cada una de las ‘p’ variables
auxiliares(j=1,...,p), y ‘Xj’ al total conocido en la comunidad
autónoma.
Es decir:
X = ∑x
j
k ∈U
jk
Lo normal es que la muestra no sea equilibrada:
X̂j ≠ ∑ dk x jk
k∈s
Objetivo de la reponderación: Obtener unos nuevos pesos
wk, lo más parecido posible a los pesos dk , que equilibren la
muestra, es decir:
X̂ = ∑ wk xk
k∈s
donde X es la matriz (p,1) de totales de las variables
auxiliares.
El estimador final de una característica ‘y’ tendrá la
expresión:
Ŷ = ∑ w k y k
k∈s
Formalmente el problema se plantea como:
Encontrar unos valores wk que hagan mínima la
expresión:
⎛ wk ⎞
⎟⎟
∑ d k G ⎜⎜
k∈s
⎝ dk ⎠
con la condición
∑ wk X k = X
k∈s
siendo:
G = Función de distancia.
X= Vector de dimensión (J,1) con los totales de las
variables
auxiliares.
Xk= Vector de dimensión (J,1) con los valores de las
variables auxiliares en la unidad muestral k.
La solución del problema depende de la función
de distancia G que se utilice.
Para la resolución práctica de este problema se ha utilizado
el software CALMAR (CALage sur MARges)
programado por el INSEE (Institut National de la
Statistique et des Études Économiques) de Francia.
CALMAR es una macro pública de SAS
Disponible en: www.insee.fr
Nomenclatures, Definitions, Méthodes
Outils Statistiques
Desarrollo informático: Olivier Sautory(INSEE)
Teoría: Särndal, Deville y Sautory(“Generalized Raking
Procedures in Survey Sampling” JASA 1993 Vol.88,
No423)
Entre las opciones disponibles en CALMAR se ha optado
por utilizar la función de distancia lineal, que proporciona
un estimador de regresión generalizada con conocidas
propiedades de pequeña varianza y mínimo sesgo.
Además se emplea la posibilidad que, proporciona el
programa, de acotar las variaciones de los factores finales
respecto de los iniciales, con el fin de evitar factores finales
negativos.
Reponderación por grupos de población
Poblaciones
Estimación
Reponderació
n
Descargar