Muestreo Estratificado.

Anuncio
Muestreo Estratificado.
1.- Introducción:
Para aplicar este diseño, se precisa que la población esté dividida en subpoblaciones,
estratos, que no se solapen. Se selecciona una muestra probabilística en cada estrato y se
trabaja de manera independiente entre estratos.
Razones de la popularidad de este método:
Permite realizar estimaciones de precisión expecifica en cada estrato;
En un experimento, los aspectos prácticos relacionados con la respuesta, la medida o la
información auxiliar pueden diferir considerablemente de una subpoblación a otra.
Existirán razones administrativas, división territorial, ... .
Cuestiones técnicas que plantea este muestreo:
i) Construcción de Estratos: Los objetivos del estudio y los recursos disponibles
contestarán las siguientes cuestiones ¿Qué características utilizar para dividir la
población en estratos?; ¿Cómo se identificarán los estratos?; ¿Cuántos estratos debe
haber?.
En particular, los estratos deben estar constituidos por unidades lo más homogeneas
posibles; En el caso límite de estricta homogeneidad bastaría seleccionar una sola
unidad en cada estrato
ii) Elección de una muestra y métodos de estimación en cada estrato; El proceso de
muestreo se realizará de manera independiente en cada estrato
Ventajas de este diseño:
i) Si las mediciones dentro de cada estrato son homogénes, la estratificación producirá
un límite más pequeño para el error de estimación que el m.a.
ii) Se puede reducir el costo por observación al estratificar la población en grupos
convenientes.
iii) Permite obtener estimaciones de parámetros poblacionales para subgrupos de la
población.
Ejemplos:
Ciudades
i) El I.P.C. se obtiene a partir de encuestas a:
Familias urbanas
Empresas de bienes y sevicios
Bienes y servicios específicos
ii) Una empresa de publicidad desea determinar cuánto debe emplear en publicidad
televisiva en un municipio, para lo que decide realizar una encuesta por muestreo para
estimar el número medio de horas semanales que se ve la televisión en los hogares del
municipio. Éste comprende dos pueblos, A y B, y un área rural. El pueblo A circunda
una fábrica y los hogares son de trabajadores con niños en edad escolar. El B es un
suburbio de una ciudad vecina con muchos jubilados y pocos niños. El A tiene 155
hogares, el B tiene 62 y el área rural 93.
2.- Notación y Definiciones:
Definición:
Dada una población U  y 1 , . . . , y N , se entiende por estratificación una partición
de U en L subpoblaciones llamadas estratos, U 1  y 11 , . . . , y 1N 1

y k / k ∈ U 1 , . . . , U L  y 11 , . . . , y 1N L  y k / k ∈ U L , verificándose que
N 1 . . . N L  N.
1
Notación:
Muestra total s  s 1 . . . s L / s i muestra en el estrato i-ésimo.
L
L
L
Parámetros:   ∑ y k ∑ ∑ y k ∑ N h y U h ∑  h

∑

N
h1k∈U h
k∈U
L
h1
L
y U h ∑ W h y U h / W h 
Nh
N
h1
h1
Nh
N
h1
tamaño relativo del estrato.
Tamaño relativo de la muestra en el estrato h: f h 
nh
Nh
3.- Estimadores.
-estimador:
L
  ∑  h ; Puesto que la selección en los distintos estratos se realiza de manera
h1
independiente  1 , . . . ,  L son independientes.
L
∑ Var  h
Var  
h1
L
∑ Var  h
Var  
h1
Nota:
Este método teien gran aplicación ya que no precisa que el diseño muestral sea el
mismo en cada estrato,
3.1 Muestreo Aleatorio Simple en los L estratos:
L
i)  st ∑
∑
h1
L
yk
nh
Nh ;
k∈s h
Var st  ∑
h1
L
Var st  ∑
N 2h 1−f h 
nh
 ∗2
h ;
N 2h 1−f h 
nh
S ∗2
h .
h1
L
ii) P st ∑ W h P h ;
h1
L
VarP st  ∑ W 2h
h1
L
VarP st  ∑ W 2h
1−f h 
nh
1−f h 
nh
N h P1−P
N h −1
;
P h 1−P h n h
n h −1
.
h1
3.2 Muestreo Aleatorio Simple con reemplazamiento en los L
estratos:
L
 st ∑ ∑
h1k∈s h
yk
nh
L
Var st  ∑
h1
L
Var st  ∑
h1
2
Nh;
N 2h
nh
 2h ;
N 2h
nh
S ∗2
h
4.- Afijaciones:
La obtención del tamaño muestral n se realiza en base a las condiciones del experimento o
a la fijación de la precisión deseada.
La afijación trata de repartir el tamaño muestral n entre los estratos.
Factores generales a tener en cuenta:
Tamaño del estrato;
Variabilidad entre estratos;
Costo que tiene medir una observación en cada estrato.
4.1 Afijación Uniforme:
i) Conocido n :
Se asigna el mismo número de unidades muestrales a cada estrato, n h ≃ Ln , por tanto
favorece la representación de los estratos pequeños y perjudica la de los grandes.
ii) Consideración de costes:
L
Fijado C  C 0 ∑ C h n h  n 
h1
C−C 0 L
L
∑C h
h1
4.2 Afijación Proporcional.
Se precisa conocer N h  h1,...,L ;
i) Conocido n :
nh
Nh
n  N  n h  nW h . Por tanto, todos los elementos de la población tienen la
misma probabilidad de aparecer en la muestra.
Nota: Esta afijación es óptima siempre que la variabilidad de la respuesta en los
estratos sea casi la misma.
ii) Consideración de costes:
L
Fijado C  C 0 ∑ C h n h
Ejercicio
 n
h1
C−C 0 
L
∑C h W h
h1
iii) Proporcional al total:
∑y k
Si la variable Y es positiva  n h 
Uh
∑y k
; Esta afijación es óptima si CV U h es
U
constante en todos los estratos.
4.3 Afijación de Mínima Varianza, suponiendo m.a.s. en todos los
estratos:
i) Conocido n :
Consiste en determinar los n h  h1,...,L de forma que para un tamaño de muestra fijo la
L

varianza del estimador sea mínima  min Var    ∑ n h − n
;
nh
h1
 
N ∗
Si     n h  n L h h ;
∑N h  ∗h
h1
Observaciones:
1- Los valores de n h son proporcionales a los productos N h  ∗h y cuando  ∗h   ∀h 
n h  nW h . Por esto se dice que es la afijación de mínima varianza, si todos los estratos
tienen la misma variabilidad respecto de la característica en estudio.
3
2- Esta afijación tiene el inconveniente de que precisa estimar mayor número de
características poblacionales:  ∗h  h1,...,L .
3- La utilidad de esta afijación reside en los casos en los que hay gran diferencia en la
variabilidad de la respuesta entre estratos
ii) Consideración de costes:
L
Fijado C  C 0 ∑ C h n h :
h1
min
nh
L

Var    C 0 ∑ C h n h − C
;
h1
 
Si    st  n h 
Wh ∗
h
C−C 0 
Ch
L
∑W 
h
∗
h
Ch
h1
No fijado C :
L

min Var   C 0 ∑ C h n h
nh
h1
 
W ∗
Si    st  n h  h h
;
Ch
Fijado B y K, el error de estimación para una confianza dada), y no fijado C :

L
min
nh
∑ C h n h   Var  − V o
h1
 
Si    st  n h 
; V o   Bk 
L
Wh ∗
h
∑W 
h
Ch
∗
h
Ch
h1
L
B2
K2
2

1
N
∑
.¿Cuánto valdrá n?. ¿Qué pasa si C h  cte.
W h  ∗2
h
h1
∀h?.
4.4 Afijación óptima correlada.
Sea X una v.a. altamente correlada con Y, la variable de interés. Supongamos que se
conoce  ∗X U h .
Se toma:
∗
nh  n
Nh X U
h
L
∑
Ejercicio: Justificar por qué es razonable esta solución
N h  ∗X U
h
h1
5.- Determinación de n fijados B y K :
h
w h  nnh , NNh −1
≃1
Supongamos m.a.s. en los L estratoṡ :
4
L

 st : n 
2
∑ Wwhh  ∗2h
h1
L
B2
K2

2
∑ ∗2h WNhh
h1
L
Si Afijación Proporcional: w h  W h
2
∑ Nwhh  ∗2h
 st : n 
h1
B2
K2

∑ ∗2h N h
wh 
Si Mínima Varianza:
;
L
h1
L
∑
P st : n 
N h  ∗h
L
∑N h  ∗h
h1
W2
h
wh
Nh
N h −1
P h 1−P h 
h1
l
B2
K2

∑P h 1−P h  WNh
Nh
N h −1
h1
Ejercicio:
Una empresa de publicidad desea determinar cuánto debe emplear en publicidad televisiva
en un municipio, para lo que decide realizar una encuesta por muestreo para estimar el
número medio de horas semanales que se ve la televisión en los hogares del municipio. Éste
comprende dos pueblos, A y B, y un área rural. El pueblo A circunda una fábrica y los
hogares son de trabajadores con niños en edad escolar. El B es un suburbio de una ciudad
vecina con muchos jubilados y pocos niños. El A tiene 155 hogares, el B tiene 62 y el área
rural 93. Una encuesta previa sugiere que las varianzas de los estratos son
∗2
∗2
 ∗2
1 ≈ 25,  2 ≈ 225,  3 ≈ 100. Estimar la media poblacional seleccionando el tamaño
de muestra en cada estrato para cometer un error de estimación inferior a 2 horas con una
confianza del 95% y unas fracciones de tamaños muestrales w i  13 ; i  1, 2, 3.
Si ademas se sabe que el coste por observación en cada pueblo es de 9 euros y en el área
rural de 16 euros, encontrar los tamaños de muestra que permitan estimar a la empresa, con
un coste mínimo, el tiempo medio que se ve la televisión.
6.- Comparaciones en la precisión de los
estimadores.
i) Consideremos muestreo aleatorio con reemplazamiento en cada estrato:
L
2
Afijación Proporcional


Var  stcon
∑ Whn h

Var  con

2
n
h1
L
Afijación Proporcional
∑

W h  2h
n
h1
L
∑
W h y h −y 2
n
.
h1
ii) Consideremos m.a.s. en cada estrato:
L
 Afijación Proporcional 1−f
Var st 

∑ W h  ∗2
h
n
h1
∗2

Var    1 − f n
Afijación Proporcional


Var st  
1−f
nN−1
L
∑ N h y h −y
h1
2
−
L
1
N
∑ N
h1
Conclusiones:
a) Si las medias de los estratos son iguales o casi iguales, puede ocurrir que el diseño
estratificado con afijación proporcional de resultados menos precisos que m.a.s. ¿Qué
pasa si y h y ∀h?.
b) La afijación de mínima varianza siempre proporciona un estimador más preciso que
la afijación proporcional; si  h   ∀h, coinciden los errores de muestreo.
5
7.- Ejercicios.
7.1 El servicio cultural de la Junta de Castilla y León desea conocer qué servicio prestan las
bibliotecas existentes en la Comunidad y la utilización que de ellas hacen los ciudadanos.
Por ello, de las N217 bibliotecas existentes (N 1 131 públicas y N 2 86 privadas) se
elige en cada estrato, cada semana y de forma aleatoria, a una de ellas y se anota el número
de libros prestados en dicha semana. Se observa que al final del año se prestaron un total de
11.360 libros en las 52 bibliotecas públicas seleccionadas y 14.413 libros en las respectivas
bibliotecas privadas. Las respectivas variabilidades muestrales fueron, en las bibliotecas
2
públicas, s 2
1  1.415,2 y en las privadas s 2  12.978,5
a) ¿Es el muestreo en cada estrato con o sin reposición?.
b) Determinar el número promedio estimado de libros que presta una biblioteca
Castellano-Leonesa en una semana. Hallar un intervalo de confianza del 95%. ( ).
c) La Junta desea también conocer cuál es la proporción de bibliotecas que prestan en
promedio más de 300 libros por semana. En las públicas, sólo 8 de las 52 bibliotecas
prestaron en la semana observada más de 300 libros, mientras que 29 bibliotecas privadas
sobrepasaron esta cifra. Dar una estimación del porcentaje de bibliotecas que en promedio
prestan más de 300 libros por semana y hallar la varianza estimada correspondiente.
Solución:
a) El muestreo debe ser con reposición.
2

11360
86 14413
 217
 241. 7;
b)  st ∑ W h y h  131
217
52
52
h1
2

Var st  ∑
W 2h
nh
S ∗2
h  49. 12
h1
Intervalo de confianza del 95% 241. 7  1. 96 49. 12 .
2
P st ∑ W h P h 
c)
131 8
217 52

86 24
217 52
 0. 314;
h1
2
VarP st  ∑
W 2h
n h −1
Ph
1 −P h
 0. 0017.
h1
Intervalo de confianza del 95% 0. 314  1. 96 0017 .
7.2 Una escuela desea estimar la calificación promedio que puede ser obtenida en un
examen de comprensión de lectura por estudiantes de 6º de E.G.B. Los alumnos de la
escuela son agrupados en 3 estratos, los que aprenden rápido en el estrato I, los que
aprenden lento en el estrato III y el resto en el estrato II. La escuela decide esta
estratificación porque de esta manera se reduce la variabilidad en las calificaciones del
examen. El 6º curso de E.G.B. contiene 55 alumnos en el estrato I, 80 en el estrato II y 65
en el estrato III. El examen se aplica a la muestra de 50 alumnos utilizando afijación
proporcional, y se obtienen los siguientes resultados:
Estrato I Estrato II Estrato III
yi :
79.71
64.75
37.44
s ∗2
105.14
158.2
186.13
i :
a) Estimar la calificación promedio para este curso.
b) ¿Habría sido conveniente utilizar afijación de mínima varianza?.
c) Encontrar el tamaño de muestra requerido para estimar la calificación promedio, con un
límite de 3.92 puntos para el error de estimación (con una confianza del 95%). Usar
6
asignación proporcional.
d) Repetir el apartado c) usando ahora la asignación de mínima varianza. Comparar los
resultados con los del apartado c).
Solución:
n 1  13. 75  14
Ni
Afijación proporcional  n i  50 ∗ N 
n 2  20  20
n 3  16. 25  16
3
3
h1
3
h1



a) Estimadores:  st ∑ W h  h ; Var st  ∑
W 2h 1−f h 
nh
S ∗2
h / Wh 
Nh
N



Estimaciones:  st ∑ W h y h  59. 98; Var st   2. 28; B  1. 96 ∗ 2. 28  2. 96
h1
Intervalo de confianza del 95% 59. 98  2. 96
b) Para resolver esta cuestión lo que se debería hacer es un contraste de homogeneidad de
las varianzas entre estratos. Si no la respuesta se basa en la comparación visual de
s ∗2
i :105.14, 158.2, 186.13.
c) Afijación proporcional  w h  nnh  NNh  W h / h  1, 2, 3;
L
L
2
∑ Wwhh  ∗2h
Como el parámetro de interés es   n 
h1
L
B2
K2

∑
W2
h
 ∗2
h N
h
∑Wh  ∗2h

L
B2
K2
h1
n 1  33 ∗

55
200
estimación
h1

∑

W2
h
 ∗2
h N
h
32. 05  33
h1
9
n 2  13
n 3  11
d) Afijación de mínima varianza implica estimar w h 
nh
n

∑
parámetro
de
interés
es
w 2  0. 41
N h  ∗h
L
∑
el

L
h1
Como
w 1  0. 23
N h  ∗h
n
W2
h
wh
w 3  0. 36
 ∗2
h
h1
L
B2
K2

2
∑ ∗2h WNhh
 31. 7  32 
h1
n 1  33 ∗ w 1  7
n 2  13 ∗ w 2  13
n 3  11 ∗ w 3  12
7.3 Una empresa de publicidad desea determinar cuánto debe emplear en publicidad
televisiva en un municipio, para lo que decide realizar una encuesta para estimar el número
medio de horas semanales que se ve la televisión en los hogares del municipio. Éste
comprende dos pueblos, A y B, y un área rural. El pueblo A circunda una fábrica y los
hogares son de trabajadores con niños en edad escolar. El B es un suburbio de una ciudad
vecina con muchos jubilados y pocos niños. El A tiene 155 hogares, B 62 y el área rural 93.
Una encuesta previa sugiere que las varianzas de los estratos son
∗2
∗2
 ∗2
1 ≈ 25,  2 ≈ 225,  3 ≈ 100. Estimar la media poblacional seleccionando el tamaño
de muestra en cada estrato para cometer un error de estimación inferior a 2 horas con una
confianza del 95% y unas fracciones de tamaños muestrales w i  13 ; i  1, 2, 3.
7
Solución:
L
2
∑ Nwhh  ∗2h
Fórmula
general
n
h1
L  3; w i  13
N 3  93  n 
;
L
B2
K2

∑
En
este
caso
 ∗2
h Nh
h1
;  ∗2
 ∗2
 ∗2
N 1  155,
1 ≈ 25,
2 ≈ 225,
3 ≈ 100,
i1,2,3
6991.275
 56. 7, es decir n57n i  n ∗ w i  19; i  1, 2, 3
123.225
. N 2  62,
8.- Programas.
Obtención del tamaño de muestra fijado un error de estimación B
y una confianza k:
Programa estranp.m:
Permite obtener el tamaño de muestra n fijado el error de estimación, por ejemplo B  0. 05
y la confianza, por ejemplo k  1. 96. El diseño considerado es muestreo estratificado con
L estratos y m.a.s. en cada estrato. Se supone que la afijación es proporcional. El objetivo
es estimar una proporción poblacional P.
function [n, nh]estranp(B,k,Ni)
Lmax(size(Ni))
Ni2Ni-1
Ni3Ni./Ni2
Nsum(Ni)
WiNi/N
aux1Wi.*Ni3*0.25
n0.25*sum(aux1)/((B^2/k^2)0.25*(sum(aux1)/N))
nhn*Wi
Resolución con MATLAB del ejercico 7.1:
Programa estra71.m:
%Datos:
%Tamaños de los estratos [Bibliotecas Públicas, Privadas]
Ni[131 86]
%Tamaños de muestra [Bibliotecas Públicas, Privadas]
ni[52 52]
%Total de libros prestados [Bibliotecas Públicas, Privadas]
ti[11360 14413]
%Cuasiarianzas muestrales
si2[1415.2 12978.5]
%Solucion apartado b)
%Número medio de libros prestado por semana
muiti./ni
%Pesos relativos de los estratos
Nsum(Ni)
WiNi/N
%Estimación de la media
muestsum(Wi.*mui)
%Estimación del error de muestreo
Wi2Wi.^2
varmusum((Wi2.*si2)./ni)
8
errormusqrt(varmu)
%Intervalo de confianza del 95%
icmu[muest-1.96*errormu, muest1.96*errormu]
%Solucion apartado c)
%Numero de semanas que prestan mas de 300 libros [Bibliotecas Públicas, Privadas]
Ai[8 29]
PiAi./ni
%Estimación de la proporcion
Pestsum(Wi.*Pi)
%Estimacion del error de muestreo
sp2Pi.*(1-Pi)
varpsum((Wi2.*sp2)./(ni-1))
errorpsqrt(varp)
%Intervalo de confianza del 95%
icp[Pest-1.96*errorp, Pest1.96*errorp]
9
Descargar