Tema: Muestreo por etapas.

Anuncio
Tema: Muestreo por etapas.
1.- Introducción:
En el tema dedicado a muestreo por conglomerados, la forma de actuar consistía en
investigar (encuestar) a todos los individuos de los clusters o conglomerados seleccionados:
Se hizo notar que aunque el muestreo por conglomerados es económico también es,
habitualmente, menos eficiente que muestrear el mismo número de individuos directamente
de la población.
Conclusión, para mejorar el muestreo por conglomerados, se ganará en precisión si, fijado
un número de unidades que conformen la muestra:
i) Las unidades están localizadas sobre un gran número de conglomerados.
ii) En lugar de tomar todos los individuos del conglomerado, tomar sólo una muestra.
A esta forma de proceder se la denomina actuar por submuestreo y conduce a la siguiente
definición;
Definición:
El muestreo consistente en tomar en una primera etapa conglomerados (unidades
primarias, psu) y a continuación tomar un número específico de unidades de cada
conglomerado seleccionado (unidades secundarias, ssu), se denomomina muestreo
bietápico o en dos etapas.
Conceptos propios de este diseño:
i) Conglomerado último, introducido por Hansen, Hurwitz y Madow (1953),
corresponde al conjunto de individuos de la muestra que pertenecen a una misma
unidad primaria.
Este concepto permite obtener un posible estimador de la varianza del estimador del
parámero de interés considerando el muestreo Multietápico o Polietápico como un caso
especial de muestreo por conglomerados con una sola etapa.
Bietápico: Unidades primarias y secundarias
ii) Muestreo
Multietápico o Polietápico: Unidades primarias, secundarias, .........
Ejemplo Multietápico: ”Producción de un cierto cereal”; Unidades Primarias: Provincias;
Unidades secundarias: Pueblos; Unidades terciarias: Campos de los pueblos dedicados al
cultivo de ese cereal; Unidades de cuarto orden: Pequeñas parcelas del mismo tamaño
dentro de esos campos.
Evolución Histórica; Los pioneros en esta técnica de muestreo fueron Cochran (1939),
Mahalanobis (1940) y Lahiri (1954).
Notación: (Caso bietápico)
psu: Unidades primarias
ssu: Unidades secundarias;
N I : Número de unidades primarias (psu) que conforman la población;
n I : Número de unidades primarias (psu) seleccionadas en la muestra;
N i : Número de unidades secundarias (ssu) de la i-ésima psu. (Alternativa polietápica
N IIi )
n i : Número de unidades secundarias (ssu) de la i-ésima psu tomadas en la muestra.
(Alternativa polietápica n IIi );
NI
N ∑ N i : Número total de unidades secundarias (ssu) en la población; (Alternativa
i1
polietápica N II );
M
1
N
NI
: Número medio de ssu por psu;
y ij : Valor de la variable de interés medida en la j-ésima ssu de la i-ésima psu
y ij  i1,...,N I
j1,...,N i
Ni
 i ∑ y ij : Total de la variable de interés en la i-ésima psu.
j1
NI
NI Ni
i1
i1 j1
 ∑  i ∑∑ y ij : Total de la variable de interés en la población.
Ni
∑y ij
i 

j1
1
N
ni
Ni
NI

i
Ni
: Media de la variable de interés en la i-ésima psu.
∑ N i  i : Media poblacional de la variable de interés.
i1
y i ∑ y ij : Total muestral de la i-ésima psu.
j1
nI
y  ∑ y i : Total muestral.
i1
y
y i  nii : Media muestral de la i-ésima psu.
 Ii y  Iij : probabilidades de inclusión de las unidades psu con diseño p I ;
 Δ Iij   Iij −  Ii  Ij .
 k/i y  kl/i : probabilidades de inclusión de las unidades ssu con diseño p i 
 Δ kl/i   kl/i −  k/i  l/i
Conclusión: La población U  1, . . . , N es particionada en subpoblaciones, unidades psu,
NI
U 1 , . . . , U N I , U   U i ; Cada conglomerado U i está compuesto por N i unidades ssu /
NI
i1
N ∑ N i ; Por tanto, la población de psu se denomina U I  1, . . . , N I .
i1
2.- Caso Bietápico General.
Situación:
1ª Etapa: Se toma una muestra s I de psu de acuerdo a un diseño p I ; s I  n I
2ª Etapa: Para cada i ∈ s I se toma una muestra de s i elementos utilizando un diseño
p i /s I ; s i  n i
La muestra final de individuos está compuesta por s   s i ; s  n.
i∈s I
Observaciones:
i) La formulación del diseño permite utilizar cualquier diseño en la 1ª etapa y cualquier
diseño de submuestreo en la 2ª etapa ∀i ∈ s I .
ii) El submuestreo en cada U i  i∈s I podría depender de la muestra s I obtenida en la primera
etapa.
iii) El submuestreo en U i no es necesariamente independiente del submuestreo en U j
i ≠ j.
Los apartados ii) y iii) van a conducir a la necesidad de exigir de ahora en adelante dos
propiedades en nuestro diseño, invarianza e independencia.
Conceptos:
i) Invarianza:
p i /s I   p i  ∀s I y ∀i ∈ s I  Siempre que la i-ésima psu se incluya en s I se debe usar el
mismo diseño p i .
Ejemplo: Prerequerir que siempre que se incluya la i-ésima psu en s I , se tome una m.a.s. de
2
n i unidades de U i sin atender que otras psu conforman s I .
ii) Independencia:
 s i /s I
pi
 ⊓ p i s i /s I ;
i∈s I
 s i  ∩ U 1 . . . s i . . . U N I ; s j  ∅ si j ∉ s I , es
i∈s I
i∈s I
i∈U I
decir, submuestrear en una psu dada es independiente de submuestrear en otra cualquiera
psu.
2.1 Caso General: Muestreo bietápico sin reemplazamiento
El problema que se plantea es obtener, ante las múltiples posibilidades de opción de diseño
en las distintas etapas, las probabilidades de inclusión;
 k   Ii  k/i si k ∈ U i
 Ii  k/i si k  l ∈ U i
 kl 
 Ii  kl/i si k y l ∈ U i
 Iij  k/i  l/j si k ∈ U i y l ∈ U j i ≠ j
-Estimador y Varianza: (Särndal)
Con cada una de las muestras s i , i  1, . . . , n I , se estima  i para cada i-ésima PSU
seleccionada en primera etapa (unidad primaria) con el -estimador insesgado:
y
yk
∨
 i  ∑ s i  k/ik  ∑ s i ∨y k/i ;
i  1, . . . , n I
y k/i   k/i ,
V i  Var  i
 ∑ ∑ U i Δ kl/i
V i  Var  i
 ∑ ∑ si
Δ kl/i
 kl/i
∨
Δ kl/i
 kl/i − k/i  l /i
 kl/i
∨
∨
y k/i y l/i ,
∨
∨
∨
Δ kl/i y k/i y l/i
i  1, . . . , n I
estimador
insesgado
de
Var  i
/


para i  1, . . . , n I
El -estimador insesgado de  ∑  i será:
UI
  ∑
 i
 Ii
;
1
sI
V 2  Var  
 V psu  V ssu  ∑ ∑ U I Δ Iij
V 2  Var  
 V psu  V ssu  ∑ ∑ s I
i j
 Ii  Ij
∨  i  j
Δ Iij  Ii  Ij
 ∑ UI
Vi
 Ii
− ∑ sI
1
 Ii
1 −
1
 Ii
V i  ∑ s I
Vi
 2Ii


∑ ∑ s I Δ∨Iij iIi jIj  ∑ s I VIii permite estudiar la contribución a la variación en cada
etapa;
Existe una expresión computacional alternativa de la estimación de la variación que es
∗2
V
 ∑ ∑ sI
∨  i  j
Δ Iij  Ii  Ij
que comete un sesgo
− ∑ U I V i , es decir, subestima la
varianza de   . Esta subestimación en muchos casos es poco importante.
2.2 Caso: Muestreo Aleatorio Simple en las dos etapas:
i) Estimador del total con tamaño poblacional conocido:
Supongamos N conocido, que las unidades de la primera etapa son de tamaño desigual y las
unidades se seleccionan usando probabilidades iguales y m.a.s. en ambas etapas;
m.a.s.en la 1ª y 2ª etapa
nI
 k   Ii  k/i

 Nn ii
NI
Utilizando la definición básica de -estimador:
y
 1 ∑ ∑ kk  Nn II ∑ ∑ y k Nn ii  Nn II ∑ N i y i
i∈s I k∈s i
3
i∈s I k∈s i
sI
Utilizando el estimador 1 :  1 ∑
 i
 Ii

sI
 i ∑

Teniendo en cuenta que:
∑
yk
 k/i
si
∑ N i y i
NI
nI
ni
Ni
si
∑
nI
NI
 Ii 

yk
∑
NI
nI
sI
yk

ni
Ni
si
NI
nI
∑∑
sI si
que observamos que coincide con el obtenido a partir de la
sI
experesión básica del -estimador del total.

Con respecto al estimador de la media poblacional:  1 

Var 1  
1−f I 
nI
S ∗2
1b 
nI
∑
1
NI nI
i1
 1
N
S ∗2
1b 
N 2i
N
NI
2
1−f i 
ni
sI
nI
∑
1
n I −1
S ∗2
i ;
S ∗2
i 
∑ y i N i
1 NI
N nI


−  1
N i y i
N
NI
i1
ni
2
∑ y ij −y i
1
n i −1
2
j1
ii) Supongamos N desconocido:
Para estimar el total no se precisa conocer N   2   1 
∑ N i y i
NI
nI
sI
Para estimar la media poblacional se precisa estimar previamente N :
∑ N i  Nº total de individuos en la muestra s I
i∈s I
∑N
i
 Nº medio de individuos por conglomerado en la muestra s I .
i∈s I
nI
NI
∑N
i
i∈s I
estimador del nº total de individuos en la poblaciónN
nI

Por tanto  2 
 2
N

NI
nI
∑
sI
NI
N i y i
∑N i

i∈s I
nI
∑ N i y i .
1
∑N i
i∈s I
i∈s I
Sesgo de

 2 :
NI
S ∗2
m 
1−f I 
nI
1
N
NI
2
1
N I −1
∑ Ni −
N
NI
2
N
NI
2
i1
NI
∗
 S ∗2
m − S my ;
S ∗my 
1
N I −1
∑ Ni −
N i y i −  NNI
i1
Estimador sesgado de la varianza (ECM):

AVar 2  
1−f I 
nI
S ∗2
2b 
nI
1
N
NI
2
nI
S ∗2
2b 
1
n I −1
∑ N 2i 1−fn  S ∗2
i ;
i1
ni
i
nI NI
i
S ∗2
i 
i1
∑
1
n i −1
N 2i
2
N
NI

y i −  2
∑ y ij −y i
2
j1
∑
Ni
Se observa que también es preciso estimar
N
NI

1
NI
NI
i∈s I
nI

∑N
i∈s I
nI
i
.
iii) Conglomerados últimos:
Se entiende por conglomerado último las unidades muestrales de última etapa que
pertenecen a una misma unidad primaria (psu); La teoría del tema de conglomerados
resuelve el problema de estimación.
4
2
Suponiendo n i ≃ n j ∀ i ≠ j, i, j ∈ s I , el diseño pasa a consistir en tomar una m.a. de n I
conglomerados de los N I  (Utilizando las fórmulas vistas para, conglomerados del
mismo tamaño n i )

∑ i

 3 
∑y ij

Para  : Dado que  i y i 
;    ó P.
i∈s I
nI
ni

  3 
j1
ni
∑ y i
1
nI
i∈s I
Si n I se toma sin reposición:

1−f 
Var 3   n I I
1
n I −1
∑ y i −  3
2

i∈s I
Si n I se toma con reposición:

Var 3  
1
NI nI
∑
1−f i 
ni
S ∗2
i
i∈s I
∑ i − 3  2
i∈s I
n I n I −1
Notas:

a) Siempre que n I sea grande y Corr N i y i , N i  0, el  2 es más eficiente que

 3 .

b) Para utilizar  3 tampoco se precisa conocer N.
iv) Obtención del tamaño de muestra n I fijados B y k :
2


1−f 
1−f 
1
B2
Var 3   n I I
y
−

 N 1n I ∑ n i i S ∗2
∑
i  k2
i
1
n I −1
I
i∈s I
Habitualmente se tendrá que suponer f I ≃ 0 y f i ≃ 0;
Con
la
V ∗2 ∑
muestra
1
ni
piloto
se
i∈s I
V ∗1 
estimarán
1
n I −1
∑ y i −  1
2
y
i∈s I
S ∗2
i ;
i∈s I
1
nI
Ecuación:
V ∗1

1
NI nI
V ∗2

B2
k2

V ∗1
1
nI

1
NI
V ∗2

B2
k2
 nI 
V ∗1  N1 V ∗2
I
B2
k2
2.3 Caso: Diseños con pesos.
Se caracterizan por disponer de una información auxiliar medida por una v. X en cada psu
x i  i∈U I .
i) Muestreo pps con reemplazamiento en 1ª etapa y ma.s. en 2ª etapa:
Se dispone de la información de una v. auxiliar, x 1 , . . . , x N I para las unidades psu;
p i  x ix , ∀i ∈ U I .
1ª Etapa: Se toma una m.a. pps de n I unidades primarias con reemplazamiento;
 cong 
1
nI
∑
k
pk
sI
2ª Etapa: Se estiman  k  k∈s I tomando en cada conglomerado una m.a.s. de n k unidades
de las N k ;
nk
 k ∑
j1
Por
tanto
 1pm 
insesgado de .
5
1
nI
∑
k∈s I
1
pk
nk
∑
j1
y kj
nk
Nk
y kj
nk
Nk

1
nI
∑
k∈s I
Nk
pk
y k
estimador
lineal
2
∑
Var  1pm

N k y k
pk
− pm
k∈s I
1
nI
n I −1
ii) Conglomerados últimos:
En general, si en 1ª etapa tomamos una m.a. pps de n I unidades primarias con

reemplazamiento y si  i es un estimador insesgado del parámetro  i en el conglomerado
último de la i-ésima unidad psu, se
puede utilizar:


k
1
 2pm  n I ∑ p k ; estimador insesgado de   , A
k∈s I

k
pk
∑
2
2
− n I  2pm

k∈s I
Var  2pm  n1I
n I −1
Nota: Si una unidad psu se selecciona más de una vez, se submuestreará, de manera
independiente, tantas veces como salga.
3.- Muestreo Polietápico.
3.1 Muestreo sin reemplazamiento:
Supongamos r etapas con r≥ 2, los estimadores propuestos serán:
 mp  ∑
k
 Ik
k∈s I
Var  mp
 ∑ ∑ U I Δ Iij
i j
 Ii  Ij
 ∑ UI
Vi
 Ii
donde el primer término representa la
contribución a la varianza en la primera etapa y el segundo combina la contribución a
la varianza en las siguientes etapas del muestreo.
Var  mp
 V psu  V ssu  ∑ ∑ s I
∨  i  j
Δ Iij  Ii  Ij
 ∑ sI
Vi
 Ii
∗
Una simplificación de la estimación de la varianza será V  ∑ ∑ s I
menudo conducirá a una importante subestimación.
∗∗
Otra alternativa será (1) V

1
1
n I n I −1
∑ sI
 i
p Ii
−  mp
∨  i  j
Δ Iij  Ii  Ij
que, a
2
donde p Ik se determina
considerando  Ik  n I p Ik ; Este estimador puede sub o sobre estimar dependiendo del
∗∗
sobreestima la selección de n I conglomerados sin
diseño muestral. V
reemplazamiento es más eficiente para estimar el total que tomar n I con
reemplazamiento.
3.2 Muestreo Trietápico:
Notación:
i. Los N elementos de U se particionan en N I unidades psu, U 1 , . . . , U N I representados
por U I
Sea N i el tamaño de U i ,  N  ∑ U I N i
ii. Los N i elementos de U i i  1, . . . , N I  se particionan en N IIi unidades secundarias
(ssu) U i1 ,U i2 , . . . , U iN IIi
El conjunto de N IIi unidades secundarias que particionan U i se representa
simbólicamente por U IIi  1, . . . , q, . . . , N IIi 
Considerando N iq el tamaño de U iq  N i  ∑ U IIi N iq
iii. Las unidades muestrales terciarias son los elementos de la población.
Procedimiento:
Etapa 1: Se toma una muestra s I de psu con un diseño p I  .
6
Etapa 2: Para cada i ∈ s I se toma una muestra de s IIi unidades de entre U IIi según un
diseño p IIi  
Etapa 3: Para q ∈ s IIi se toma una muestra de entre U iq según un diseño p iq.
Por tanto s    s iq
i∈s I q∈s IIi
Probabilidades de inclusión: (Notación)
 Iij ;
Δ Iij   Iij −  Ii  Ij ;
 Iii   Ii
 Ii ;
 IIq/i ;
 IIqr/i ;
Δ IIqr/i   IIqr/i −  IIq/i  IIr/i ;
 IIqq/i   IIq/i
 k/iq
 kl/iq ;
Δ kl/iq   kl/iq −  k/iq  l/iq ;
 kk/iq   k/iq
∨
∨
Δ IIqr/i ∨
Δ kl/iq
Δ
Δ Iij   IijIij ; Δ IIqr/i   IIqr/i
; Δ kl/iq   kl/iq
 iq  ∑ U iq y k ;  i  ∑ U IIi  iq ;   ∑ U I  i
Estimaciones:
yk
 iq  ∑ s iq  k/iq
 iq
 IIq/i
 i  ∑ s IIi
 i
 Ii
   ∑ sI
V 3st  
 V PSU  V SSU  V TSU
V 3st  
 ∑ ∑ s I Δ Iij
∨
∨
V i  ∑ ∑ s IIi Δ IIqr/i
∨
 i  j
 Ii  Ij
 iq  ir
 IIq/i  IIr/i
V iq  ∑ ∑ s iq Δ kl/iq
 ∑ sI
 ∑ s IIi
Vi
 Ii
donde:
V iq
 IIq/i
yk
yl
 k/iq  l/iq
3.3 Conglomerados últimos:
i) Si en 1ª etapa tomamos una muestra pps de n I unidades primarias con reemplazamiento y
si  i es un estimador insesgado del parámetro  i en el conglomerado último de la i-ésima
unidad psu:
 2pm 
1
nI
∑
k
pk
; estimador insesgado de 
k∈s I
∑
Var  2pm

k
pk
2
2
− n I  2pm
k∈s I
1
nI
n I −1
Nota: Si una unidad psu se selecciona más de una vez, se submuestreará, de manera
independiente, tantas veces como salga.
ii) Si en 1ª etapa tomamos una m.a.s de n I unidades primarias y si  i es el estimador
insesgado del parámetro  i de la i-ésima unidad psu, entonces
 c ∑
k
 Ik
k∈s I
∑
∗∗
V
Var  c
 N 2I
∑
 k
 k −
sI
nI
k∈s I
1
nI
2
n I −1
(1) sobrestima

ó
∗
V  1−
nI
NI
∗∗
V
subestima
Nota: Se puede mejorar la eficiencia en diseño polietápico del siguiente modo;
7
Estratificar los conglomerados por alguna medida de tamaño para que los
conglomerados de tamaño comparable se agrupen juntos.
Utilizar m.a.s. en las dos etapas en cada uno de los estratos.
Obtención del tamaño de muestra n I fijado B y k :
∑
Var  c
 N 2I
 k −
 k
∑
s
I
2
nI
k∈s I
1
nI
B2
k2

n I −1
∑
 k −
 k
∑
s
I
2
nI
k∈s I
Con la muestra piloto se estimará
y se despeja n I
n I −1
4.- Estimadores de Regresión en Muestreo
Bietápico.
Las posibilidades de diseño son amplísimas en función de:
i) La clase y la extensión de la información de la v. auxiliar.
ii) El diseño utilizado para tomar las unidades psu y ssu.
iii) La forma de la población.
Del análisis del punto i) surgen, al menos, las siguientes alternativas:
A.- Se dispone de información auxiliar ∀i ∈ U I (todas las psu).
B.- Se dispone de información auxiliar x i  ∀i ∈ U (todos los individuos de la
población).
C.- Se dispone de información auxiliar x i  tan sólo para los individuos de las psu
seleccionadas en 1ª etapa.
Ejemplos:
 Supongamos un experimento a nivel nacional sobre hospitales:
Unidades psu: las provincias; Desde un punto de vista administrativo tenemos
mucha información de tipo A.-, caract. demográficas, censo, población trabajadora,
....
Seleccionar una primera muestra de provincias y listar todos los listados de las
provincias; será fácil disponer de información tipo C.- de estos hospitales tomados
en la muestra.
También resulta factible información tipo B.- conocer datos de todos los hospitales
nacionales.
 Consideremos un experimento en una gran ciudad consitente en evaluar el espacio
habitable de los edificios; unidades psu las manzanas y unidades ssu los edificios:
Inf. tipo B.-: El ayuntamiento proporcionará información auxiliar de todos los
edificos de la ciudad.
Inf. tipo A.-: Información del número de habitantes por manzana o área o número
de edificios,....
4.1 Caso A.-:
Se dispone de información auxiliar de cada uno de los cluster, C i  i1, ..., N I .
El objetivo es estimar  y  ∑ y k estimando los totales de una muestra de psu  yi  i1, ..., n I .
k∈U
4.1.1
8
Si
se
puede
suponer
teóricamente
que
el
modelo
para
los
puntos
 yi , C i
i1, ..., N I
es  yi   I C i   i con las siguientes propiedades:
E yi    I C i ; Var yi    2I C i ,
se utilizará el modelo común de razón,
 Ar

I 

 I ∑ Ci ;
 yi
 Ii
∑
i∈s I
∑
;
Ci
 Ii
i∈s I
UI
 yi  ∑
yk
 k/i
k∈s i
En la práctica esta situación se manifiesta cuando el total del conglomerado es proporcional
a la medida auxiliar tomada. Esto sucede habitualmente al tomar como información auxiliar
una medida del tamaño del conglomerado, como por ejemplo area del conglomerado,
número de lementos en el conglomerado, ...
4.1.2 Supongamos que, teóricamente, el modelo para los puntos
 yi , C i
es
i1, ..., N
I
 yi   I C i   i con las siguientes propiedades:
E yi    I C i ; Var yi    2Ii .
Lo primero será estimar  yi en cada conglomerado,  yi ∑
yk
 k/i
;
si

I 
∑
C i  yi
2
 Ii  Ii
∑
C2
i
2
 Ii  Ii
sI
sI
Tema de estimadores indirectos
 Ar ∑  yip ∑


;  yip   I C i
 yi − yip
 Ii
sI
UI
 yi , C i
4.1.3 Supongamos que, teóricamente, el modelo para los puntos
 yi   I C i   i con las siguientes propiedades:
i1, ..., N I
es
E yi    I C i ; Var yi    2Ii .
En este caso  Ar ∑  yip .
UI
4.2
Caso
yk, xk
B.-: Supongamos que el modelo que describe
, x k  k∈U , verifica:
k∈s
EY k    X k ; VarY k    2k

 Br ∑ y k ∑

yk− y k
k


y k   xk
;
s
U
k∈U
∑

,  s
∑
s
4.3
Caso
yk, xk
C.-: Supongamos que
, x k  k∈U i , verifica:
k∈s
i∈s I
 Cr ∑
sI
 yir
 Ii

el
modelo
que
las
observaciones
ykxk
2
k k
xk
2
k k
describe
las
observaciones
EY k    X k ; VarY k    2k

 yir ∑ y k ∑
Ui
si

yk− y k
 k/i
, ∀i ∈ s I
∑
sI
∑y k
Ui
 Ii
∑

yk− y k
k
s
Nota: Desde un punto de vista experimental existen multitud de posibles variaciones de
modelos, algunos de los cuales pueden consultarse en el Tema 8 del texto de Särndal.
9
5.- Ejemplo.
Con objeto de estimar la producción total de trigo de una región, se seleccionan 5 de
los 110 pueblos que la constituyen. La selección se realiza con diseño pps con
reemplazamiento utilizando como información auxiliar el área, en hectáreas, dedicado a la
agricultura, v.a. X. El área total dedicado a agricultura es de  x 140576 hectáreas.
Los pueblos a su vez están divididos en campos y se toma una m.a.s. de aproximadamente
el 10% de éstos. Por último de cada campo seleccionado se toma una m.a.s. de
aproximadamente el 10% de las parcelas que componen cada uno de estos campos.
Atendiendo a la siguiente notación,
X i : Area del pueblo dedicado a la agricultura
N II : Nº de campos en el pueblo
n II : Nº de campos en el pueblo tomados en la muestra
N ij : Nº de parcelas en el campo j del pueblo i
n ij : Nº de parcelas en el campo j del pueblo i tomados en la muestra.
Y k : Area dedicada al trigo en la parcela seleccionada.
Los resultados observados fueron los siguientes:
Pueblo
1
Xi
1410
2
935
3
601
4
1905
5
904
N II n II
31
18
23
36
22
3
2
2
4
2
N ij
n ij
Yk
27
3
138, 166, 190
32
3
142, 185, 215
18
2
110, 133
25
3
160, 164, 210
37
4
100, 162, 85, 124
33
4
107, 140, 163, 116
22
2
105, 98
55
6
200, 140, 173, 160, 101, 128
19
2
120, 135
43
4
149, 113, 161, 131
37
3
110, 124, 90
26
3
190, 105, 166
48
5
136, 170, 100, 156, 140
Solución:
Estimación del número de parcelas total de los 110 pueblos:
N
1
5
N1
p1
. . .  Np 55
Opción 1:
Puesto que el diseño es trietápico, se resolverá utilizando conglomerados últimos buscando
un estimador insegado del parámetro total del área dedicada al trigo en cada pueblo.
Parámetros que se precisa estimar:
Número de parcelas que tiene cada uno de los pueblos seleccionados:
N1 
10
273218
3
∗ 31
........
Estimación insesgada de la producción total en cada uno de los pueblos:
138166190
3
1 
27 
142185215
3
32 
110133
2
18
3
∗ 31
.............
Producciónntotal de trigo en los 110 pueblos, estimación puntual y por I.C.:

I
1
nI
∑
k
pk
1410
904
p 1  140576
,...,p 5  140576

k1
∑
Var 

1
nI
nI
1
5
1
p1
. . .  p 55
2
k
pk
−n I 
2
k1
n I −1
Opción 2:
Estimación de la producción total en cada uno de los pueblos:
1 
138166190142185215110133
8
∗ N1
.............
Producciónntotal de trigo en los 110 pueblos, estimación puntual y por I.C.:

I
1
nI
∑
k
pi
1410
904
p 1  140576
,...,p 5  140576

k1
∑
Var 

1
ni
ni
1
5
1
p1
. . .  p 55
2
k
pi
−n i 
2
k1
n i −1
Ejercicio: Comprobar con que opción se comete menor error
11
Descargar