MUESTREO ALEATORIO SIMPLE

Anuncio
Muestreo aleatorio simple
Estadística Teórica II
MUESTREO ALEATORIO SIMPLE
Santiago de la Fuente Fernández
33
MUESTREO ALEATORIO SIMPLE. DISTRIBUCIÓN EN EL MUESTREO
Muestreo aleatorio simple
1.- Con el objetivo de analizar el rendimiento académico de una promoción de
licenciados universitarios se lleva a cabo un estudio en el que se emplea una m.a.s. de 3
licenciados. La variable que mide el rendimiento puede tomar tres valores según la
calificación final obtenida:
1 – Aprobado
2 – Notable
3 – Sobresaliente
Por otra parte, en esa promoción hubo un total de 20 aprobados, 40 notables y 140
sobresalientes.
a) Hallar las distintas muestras que pueden extraerse y la probabilidad de
obtención que tiene cada una de ellas.
b) Calcular le media de cada muestra, así como la distribución de probabilidad en el
muestreo de la media.
c) Hacer lo mismo que en el apartado anterior con las varianzas.
d) Calcular la media y la varianza muestral y compararlas con la media y la varianza
poblacionales.
e) Calcular la esperanza de la varianza muestral y compararla con la varianza
poblacional.
a)
1
2
1
1
2
3
2
1
2
3
3
1
2
3
(1,1,1) , (1,1,2) , (1,1,3)
(1,2,1) , (1,2,2) , (1,2,3)
(1,3,1) , (1,3,2) , (1,3,3)
1
1
2
3
2
1
2
3
(2,2,1) , (2,2,2) , (2,2,3)
1
2
3
1
2
3
(2,3,1) , (2,3,2) , (2,3,3)
(3,1,1) , (3,1,2) , (3,1,3)
3
1
(2,1,1) , (2,1,2) , (2,1,3)
Santiago de la Fuente Fernández
34
2
1
2
3
3
1
2
3
Muestreo aleatorio simple
(3,2,1) , (3,2,2) , (3,2,3)
(3,3,1) , (3,3,2) , (3,3,3)
Número muestras distintas
1
3
3
6
3
1
3
3
3
1
27
(1,1,1)
(1,1,2) , (1,2,1) , (2,1,1)
(1,1,3) , (1,3,1) , (3,1,1)
(1,2,3) , (1,3,2) , (2,1,3) , (2,3,1) , (3,1,2) , (3,2,1)
(2,2,1) , (2,1,2) , (1,2,2)
(2,2,2)
(2,2,3) , (2,3,2) , (3,2,2)
(3,3,1) , (3,1,3) , (1,3,3)
(3,3,2) , (3,2,3) , (2,3,3)
(3,3,3)
Muestras posibles
Número muestras
(1,1,1)
(1,1,2)
(1,1,3)
(1,2,3)
(2,2,1)
(2,2,2)
(2,2,3)
(3,3,1)
(3,3,2)
(3,3,3)
1
3
3
6
3
1
3
3
3
1
Probabilidad
1 (0,1)3 = 0,001
3. (0,1)2 (0,2) = 0,006
3. (0,1)2 (0,7) = 0,021
6. (0,1) (0,2) (0,7) = 0,084
3. (0,2)2 (0,1) = 0,012
1 (0,2)3 = 0,008
3. (0,2)2 (0,7) = 0,084
3. (0,7)2 (0,1) = 0,147
3. (0,7)2 (0,2) = 0,294
1 (0,7)3 = 0,343
p(1) =
p(2) =
p(3) =
20
200
40
200
140
200
= 0,1
= 0,2
= 0,7
xi
1
4/3
5/3
2
5/3
2
7/3
7/3
8/3
3
b) La distribución de probabilidad en el muestreo para la media:
xi
1
P ( x = xi )
P ( x = 1) = 0,001
4/3
P ( x = 4 / 3) = 0,006
5/3
P ( x = 5 / 3) = 0,021 + 0,012 = 0,033
2
P ( x = 2 ) = 0,084 + 0,008 = 0,092
7/3
P ( x = 7 / 3) = 0,084 + 0,147 = 0,231
8/3
P ( x = 8 / 3) = 0,294
1
P ( x = 3) = 0,343
c) La varianza de cada muestra y la distribución en el muestreo de la varianza
muestral:
Santiago de la Fuente Fernández
35
Muestreo aleatorio simple
Muestras
posibles
(1,1,1)
(1,1,2)
(1,1,3)
(1,2,3)
(2,2,1)
(2,2,2)
(2,2,3)
(3,3,1)
(3,3,2)
(3,3,3)
xi =
∑ xi
∑ x2i
n
1
4/3
5/3
2
5/3
2
7/3
7/3
8/3
3
σ2x i =
n
1
6/3
11/3
14/3
9/3
12/3
17/3
19/3
22/3
27/3
∑ x2i
n − x2
Probabilidad
1. (0,1)3 = 0,001
3. (0,1)2 (0,2) = 0,006
3. (0,1)2 (0,7) = 0,021
6. (0,1) (0,2) (0,7) = 0,084
3. (0,2)2 (0,1) = 0,012
1. (0,2)3 = 0,008
3. (0,2)2 (0,7) = 0,084
3. (0,7)2 (0,1) = 0,147
3. (0,7)2 (0,2) = 0,294
1. (0,7)3 = 0,343
1–1=0
6/3 – (4/3)2 = 2/9
11/3 – (5/3)2 = 8/9
14/3 – (2)2 = 2/3
9/3 – (5/3)2 = 2/9
12/3 – (2)2 = 0
17/3 – (7/3)2 = 2/9
19/3 – (7/3)2 = 8/9
22/3 – (8/3)2 = 2/9
27/3 – (3)2 = 0
La distribución de probabilidad de la varianza muestral:
σ 2x
i
0
2/9
2/3
8/9
(σ
P(σ
P(σ
P(σ
P
P (σ 2x = σ 2x )
i
)
2
x
= 0 = 0,001 + 0,008 + 0,343 = 0,352
2
x
= 2 / 9 = 0,006 + 0,012 + 0,084 + 0,294 = 0,396
2
x
2
x
)
= 2 / 3) =
= 8 / 9) =
0,084
0,021 + 0,147 = 0,168
d) La media y la varianza de la media muestral y compararlas con la media y la varianza
poblacionales:
xi
P (x = x i )
x i . P (x = x i )
x i2
x i2 . P (x = x i )
1
4/3
5/3
2
7/3
8/3
3
0,001
0,006
0,033
0,092
0,231
0,294
0,343
0,001
4/3 . 0,006
5/3 . 0,033
2 . 0,092
7/3 . 0,231
8/3 . 0,294
3 . 0,343
1
16/9
25/9
4
49/9
64/9
9
0,001
16/9 . 0,006
25/9 . 0,033
4 . 0,092
49/9 . 0,231
64/9 . 0,294
9 . 0,343
∑ x i . P (x
∑ x i . P (x = x i ) = 2,6
E (x ) = ∑ x 2i . P (x = x i ) = 6,9067
V (x) = E (x 2 ) − (E (x)) 2 = 6,9067 − (2,6 ) 2
E (x ) =
2
∑ xi2 . P (x
= x i ) = 2,6
⎞
⎟
⎟ muestra
⎟
⎟
= 0,1467 ⎟⎠
∑ x i . P (x = x i ) = 1.0,1 + 2 . 0,2 + 3 .0,7 = 2,6
E (x ) = ∑ x 2i . P (x = x i ) = 12 . 0,1 + 22 . 0,2 + 32 . 0,7
σ 2 = E (x 2 ) − μ 2 = 7,2 − (2,6 ) 2 = 0,44
μ =
2
Santiago de la Fuente Fernández
= x i ) = 6,9067
⎞
⎟
= 7,2 ⎟⎟ población
⎟⎟
⎠
36
Muestreo aleatorio simple
En consecuencia:
μ = E(x)
σ2 ≠ V ( x ) = σ2
x
σ2
Obsérvese que, σ2x =
n
a 0,1467 =
0,44
3
e) Calcular la esperanza de la varianza muestral y compararla con la varianza
poblacional.
σ 2x
P (σ2x = σ2x )
σ 2x . P (σ 2x = σ 2x )
0,352
0,396
0,084
0,168
0 . 0,352
2/9 . 0,352
2/3 . 0,352
8/9 . 0,352
i
i
0
2/9
2/3
8/9
i
i
∑ σ2x i .P (σ2x
E (σ 2x ) =
σ
2
∑ σ2x i .P (σ2x
2
2
= E (x ) − μ =
= σ2x ) = 0,2933
i
= σ 2x ) = 0,2933 (esperanza varianza muestral)
i
7,2 −
(2,6) 2
= 0,44 (varianza poblacional)
Se verifica la relación: E (σ2x ) = 0,2933 =
Santiago de la Fuente Fernández
(3 − 1) (0,44)
(n − 1)
=
3
n
σ2
37
Muestreo aleatorio simple
MUESTREO ALEATORIO SIMPLE. DISRIBUCIÓN DE LA MEDIA MUESTRAL CON VARIANZA
CONOCIDA.
2.- Se sabe que el peso de los jóvenes entre 14 y 18 años sigue una distribución normal
con media 50 kg y desviación típica 25 kg. Para llevar a cabo un estudio del control de
peso se seleccionan aleatoriamente 100 jóvenes cuyas edades se encuentran
comprendidas en el intervalo señalado. Si el peso medio muestral está entre 45 y 70 kg
se considera que están dentro de los límites normales. ¿Cuál es la probabilidad de que el
peso esté fuera de control?
Solución:
v. a. X = “ peso entre 14 y 18 años”
P [(x < 45) ∪ (x > 70)] = P (x < 45) + P (x > 70) =
⎛ x − 50 70 − 50 ⎞
⎛ x − 50 45 − 50 ⎞
⎟ =
⎟⎟ + P ⎜⎜
>
= P ⎜⎜
<
2
,
5
2
,
5
2,5 ⎟⎠
⎠
⎝ 2,5
⎝
= P (z < − 2) + P (z > 8) = P (z > 2) + P (z > 8) = 0,0228 + 0 =
= 0,0228
Santiago de la Fuente Fernández
38
Muestreo aleatorio simple
MUESTREO ALEATORIO SIMPLE. DISRIBUCIÓN DE LA MEDIA MUESTRAL CON VARIANZA
CONOCIDA Y CON VARIANZA DESCONOCIDA.
3.- Los barcos que hacen visitas guiadas por el Sena disponen de 60 asientos por barco
y una capacidad máxima de 4.200 kg por viaje. Los dueños de la empresa de barcos
saben por experiencia que los pesos de los turistas tienen una media de 71 kg y una
dispersión, medida a través de la desviación típica, de 10 kg.
a) ¿Cuál es la probabilidad de que un grupo de 60 turistas, escogidos aleatoriamente
en uno de los viajes, tenga un peso medio superior al total de la carga límite
permitida?
b) ¿Cuál sería el resultado si la varianza poblacional fuera desconocida?. (Suponga
que la desviación típica muestral es de 5 kg).
Solución:
v. a. X = “ peso medio turistas”
a) Peso = 4200/60 = 70 kg
⎛ x − 71 70 − 71 ⎞
⎟ = P ( z > − 0,77) = P ( z < 0,77) =
P ( x > 70 ) = P ⎜⎜
>
1,29 ⎟⎠
⎝ 1,29
= 1 − P ( z > 0,77) = 1 − 0,2206 = 0,7794
b) En el muestreo de una población normal con varianza desconocida, y desviación típica
muestral σx , la variable:
x−μ
= t n −1
σx
n−1
⎛ x − 71 70 − 71 ⎞
n > 30
⎟ = P ( t59 > − 1,53) ⎯⎯
>
P ( x > 70 ) = P ⎜
⎯ ⎯→ P ( z > − 1,53) =
⎜ 5 59
⎟
5
59
⎝
⎠
= P ( z < 1,53) = 1 − P ( z > 1,53) = 1 − 0,063 = 0,937
•
Interpolando: P ( t59 > − 1,53) = P ( t59 < 1,53) = 1 − P ( t59 > 1,53) = 1 − 0,069 = 0,931
P ( t59 > − 1,53) = P ( t59 < 1,53) = 1 − P ( t59 > 1,53) = 1 − 0,069 = 0,931
Santiago de la Fuente Fernández
39
P ( t60 > 1,53) = x
x = 0,05 +
Abscisas
Áreas
1,296 – 1,671
1,53 - 1,671
Muestreo aleatorio simple
Abscisas
Áreas
0,1 - 0,05
0,37
0,05
x – 0,05
0,14
x – 0,05
0,14 . 0,05
= 0,069
0,37
Santiago de la Fuente Fernández
40
Muestreo aleatorio simple
4.- La empresa Grano Sol vende galletas ecológicas en paquetes de 60 unidades. Los dueños
saben que el peso de cada galleta es una variable aleatoria que tienen una media de 71 gr. y una
dispersión, medida a través de la desviación típica, de 10 gr.
a) ¿Cuál es la probabilidad de que en un paquete de 60 galletas escogidas aleatoriamente, el
peso medio de las galletas sea superior a 70 gramos?
b) ¿Cuál sería el resultado si la varianza poblacional fuera desconocida? (Suponga que la
desviación típica muestral es de 5 kg, y una cuasidesviación típica de 5,04).
Solución:
v. a. X = “ peso de las galletas”
a)
⎛ x − 71 70 − 71 ⎞
⎟ = P ( z > − 0,77) = P ( z < 0,77) =
P ( x > 70 ) = P ⎜⎜
>
1,29 ⎟⎠
⎝ 1,29
= 1 − P ( z > 0,77) = 1 − 0,2206 = 0,7794
b) En el muestreo de una población normal con varianza desconocida, y desviación típica
muestral σ x , la variable:
x−μ
= tn −1
σx
n−1
⎛ x − 71 70 − 71 ⎞
n > 30
⎟ = P ( t59 > − 1,53) ⎯⎯
>
P ( x > 70 ) = P ⎜
⎯ ⎯→ P ( z > − 1,53) =
⎜ 5 59
⎟
5
59
⎝
⎠
= P ( z < 1,53) = 1 − P ( z > 1,53) = 1 − 0,063 = 0,937
•
Interpolando: P ( t59 > − 1,53) = P ( t59 < 1,53) = 1 − P ( t59 > 1,53) = 1 − 0,069 = 0,931
P ( t60 > 1,53) = x
x = 0,05 +
Abscisas
Áreas
Abscisas
Áreas
1,296 – 1,671
0,1 - 0,05
0,37
0,05
1,53 - 1,671
x – 0,05
0,14
x – 0,05
0,14 . 0,05
= 0,069
0,37
Santiago de la Fuente Fernández
41
Muestreo aleatorio simple
Adviértase que, si la varianza poblacional σ es desconocida, la media muestral x sigue
una t-Student con (n-1) grados de libertad, entonces:
2
x−μ
x−μ
=
≈ tn −1
σx
sx
n−1
y es una cantidad pivotal para μ
n
recordemos que n . σ2 = (n − 1) . s2
⎛ x − 71
70 − 71 ⎞⎟
P ( x > 70 ) = P ⎜
= P ( t59 > − 1,5369)
>
⎜ 5,04 60
5,04 60 ⎟⎠
⎝
= 1 − P ( t59 > 1,5369) = 1 − x = 1 − 0,06789 = 0,09321
P ( t60 > 1,5369 ) = x
Abscisas
1,2961 – 1,6711
1,5369 - 1,6711
x = 0,05 +
= P ( t59 < 1,5369) =
Áreas
Abscisas
Áreas
0,1 - 0,05
0,375
0,05
x – 0,05
0,1342
x – 0,05
0,1342 . 0,05
= 0,06789
0,375
Santiago de la Fuente Fernández
42
Muestreo aleatorio simple
MUESTREO ALEATORIO SIMPLE. DISRIBUCIÓN DE LA VARIANZA MUESTRAL.
5.- Se sabe por los datos censales que la variabilidad de la altura de alumnos de una
clase medida a través de la varianza es de 15,3. No obstante, para estudiar la
variabilidad en el muestreo de la varianza muestral se decide tomar una m.a.s. de 15
alumnos. ¿Cuál es la probabilidad de que la varianza muestral sea mayor que 15?
Nota: Suponer que la estatura es una variable aleatoria normalmente distribuida.
Solución:
Para el análisis de la varianza muestral se
utiliza el estadístico χn2−1 de Pearson con
(n - 1) grados de libertad.
σ2 ≡ varianza poblacional
σ2x ≡ varianza muestral
s2x ≡ cuasivarianza muestral
(
)
v.a. X =”estatura”: X ∈ N μ; 15,3 ≡ N ( μ; 3,91 )
χn2−1 ≈
n . σ2x
15 . σ2x
n = 15
2
⎯⎯ ⎯ ⎯
⎯→ χ14
≈
15,3
σ2
(
P σ2x > 15
)=
(
)
⎛ 15 . σ2 15 . 15 ⎞
x >
⎟ = P χ2 > 14,7 = 0,4835
P⎜
14
⎜ 15,3
⎟
15
,
3
⎝
⎠
Abscisas
(
)
7,790 – 21,064
2
P χ14
> 14,7 = x
x = 0,10 +
(
)
Abscisas
Áreas
0,90 - 0,10
13,274
0,80
x – 0,10
6,364
x – 0,10
6,364 . 0,80
= 0,4835
13,274
De otra parte, χn2−1 ≈
P s2x > 15
14,7 - 21,064
Áreas
(n − 1) . s2x
σ
2
14 . s2x
n = 15
2
⎯⎯ ⎯ ⎯
⎯→ χ14
≈
15,3
(
)
⎛ 14 . s2
14 . 15 ⎞⎟
2
x
= P⎜
>
= P χ14
> 13,725 = 0,5423
⎜ 15,3
⎟
15
,
3
⎝
⎠
Santiago de la Fuente Fernández
43
Muestreo aleatorio simple
MUESTREO ALEATORIO SIMPLE. DISRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES
CON VARIANZAS CONOCIDAS.
6.- Se desea analizar las diferencias de las calificaciones entre dos grupos de alumnos.
Unos proceden del Grupo b1 y otros del Grupo b2. Para estudiar la distribución en el
muestro de la diferencia de medias se toman m.a.s. independientes de ambas
poblaciones obteniéndose la siguiente tabla:
Tamaño de la población
Tamaño de la muestra
Media de la población
Media de la muestra
Desviación típica de la población
Desviación típica de la muestra
Grupo b1
200
100
4,10
4,2153
1,55
1,5635
Grupo b2
150
75
5,18
5,3247
1,95
1,8238
¿Cuál es la probabilidad de que la diferencia de medias muestrales sea mayor que uno?
Solución:
ƒ v.a. X =”calificación del Grupo b1”
X ∈ N(4,10 , 1,55)
v.a. Y =”calificación del Grupo b2”
Y ∈ N (5,18 , 1,95)
ƒ
Siendo X e Y independientes, la nueva variable (X ± Y) sigue también una distribución
normal N ( x ± y ; σ2x + σ2y )
⎡
⎤
⎣
⎦
Con lo cual, (x − y) ∈ N ⎢( 4,10 − 5,18 ); 0,155 2 + 0,225 2 ⎥ ≡ N ( − 1.08 ; 0,2732)
(
P x − y >1
)
=
P [ (x − y ) > 1] +
P [ (x − y ) < − 1] =
⎡
⎡
1 + 1,08 ⎤
− 1 + 1,08 ⎤
= P (z > 7,61) + P [ z < 0,2928] =
+ P ⎢z <
= P ⎢z >
⎥
0,2732 ⎦
0,2732 ⎥⎦
⎣
⎣
= 0 + [ 1 − P ( z > 0,2928 ) ] = 1 − 0,3859 = 0,6141
o también,
P
(
)
x − y >1 =1−P
(
)
x − y < 1 = 1 − P (− 1 < (x − y) < 1 ) =
Santiago de la Fuente Fernández
44
Muestreo aleatorio simple
⎛ − 1 + 1,08 (x − y) + 1.08 1 + 1,08 ⎞
⎟ = 1 − P ( 0,2928 < z < 7,61 ) = 0,6141
= 1 − P ⎜⎜
<
<
0,2731
0,2732 ⎟⎠
⎝ 0,2732
MUESTREO ALEATORIO SIMPLE. DISRIBUCIÓN DE LA PROPORCIÓN MUESTRAL
7.- Un concesionario vende dos tipos de vehículos, unos de gama alta y otros de gama
media. Los coches de gama alta suponen el 30% del total de los coches vendidos. ¿Cuál
es la probabilidad de que entre los 100 últimos vehículos vendidos más del 35% sean de
gama alta?
Solución:
La variable poblacional
X = 'venta de coches gama
alta' es una variable
binomial B(100; 0,3), que
sigue aproximadamente una
distribución normal tal que
X ∈ N (np ; npq )
p̂ =
⎛
X
Teorema Central Límite
⎯⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯⎯→ p̂ ∈ N ⎜ p ,
⎜
n
⎝
para n = 100,
pq ⎞⎟
n ⎟⎠
⎛
0,3 . 0,7 ⎞⎟
p̂ ∈ N ⎜ 0,3 ;
≡ N (0,3 ; 0,0458 )
⎜
100 ⎟⎠
⎝
⎛ p̂ − 0,3 0,35 − 0,3 ⎞
⎟ = P (z > 1,0917) = 0,1375
>
P (p̂ > 0,35) = P ⎜⎜
0,0458 ⎟⎠
⎝ 0,0458
Interpolando:
P (z > 1,0917) = x
x = 0,1357 +
Abscisas
Áreas
Abscisas
Áreas
0,1379 – 0,1357
1,09 – 1,1
0,0022
0,01
x - 0,1357
1,0917 – 1,1
x - 0,1357
0,0083
0,0022 . 0,0083
= 0,1375
0,01
Santiago de la Fuente Fernández
45
Muestreo aleatorio simple
MUESTREO ALEATORIO SIMPLE. DISRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES
MUESTRALES.
8.- Se sabe que los sábados por la noche un 70% de los conductores superan la tasa de
alcoholemia permitida por la ley. Sin embargo esta cifra se reduce a un 40% los
domingos por la noche. Durante un fin de semana, se quiere realizar un control de
alcoholemia y comparar los resultados de los dos días. Se decide elegir al azar 40
vehículos de los que circulan el sábado por la noche y 35 del domingo. Calcular la
probabilidad de que la proporción muestral de conductores que superan la tasa de
alcoholemia permitida por la ley haya descendido más de un 10% del sábado al domingo.
Solución:
Sean las variables poblacionales:
X = ”tasa de alcoholemia sábado”, con p x = 0,7
Y = ”tasa de alcoholemia domingo”, con p y = 0,4
p̂ x =
X
nx
⎛
Teorema Central Límite
⎯⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯⎯→ p̂ x ∈ N ⎜ p x ,
⎜
⎝
p x q x ⎞⎟
nx ⎟
⎠
p̂ y =
Y
ny
⎛
Teorema Central Límite
⎯⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯⎯→ p̂ y ∈ N ⎜ p y ,
⎜
⎝
p y q y ⎞⎟
ny ⎟
⎠
⎛
[ p̂ x ± p̂ y ] ∈ N ⎜⎜ [ p x ± p y ] ;
⎜
⎝
⎛p x qx
⎜
⎜ nx
⎝
⎞ ⎛p y qy
⎟+⎜
⎟ ⎜ ny
⎠ ⎝
⎞
⎟
⎟
⎠
⎞
⎟
⎟
⎟
⎠
siendo las muestras: n x = 40 , n y = 35
⎛
[ p̂ x − p̂ y ] ∈ N ⎜⎜ [ 0,7 − 0,4] ;
⎝
⎛ 0,7 . 0,3 ⎞ ⎛ 0,4 . 0,6 ⎞
⎜
⎟+⎜
⎟
⎝ 40 ⎠ ⎝ 35 ⎠
⎞
⎟ ≡ N (0, 3 ; 0,11)
⎟
⎠
⎛
0, 1 − 0,3 ⎞
⎟ = P ( z > − 1,82) = 1 − P ( z > 1,82) = 1 − 0,0344 = 0,9656
P ( p̂ x − p̂ y > 0, 1) = P ⎜⎜ z >
0, 11 ⎟⎠
⎝
Santiago de la Fuente Fernández
46
Muestreo aleatorio simple
9.- Según los resultados de un estudio exhaustivo de la población un 80% de las
mujeres entrevistadas afirman utilizar algún producto cosmético todos los días,
mientras que en el caso de los hombres este porcentaje en la actualidad asciende 55%.
Una pequeña firma de cosmética se plantea sacar al mercado una crema hidratante de
uso específico para hombres, pero antes de crear esa nueva línea de negocio, decide
realizar su propia encuesta sobre una pequeña muestra aleatoria: selecciona a 50
mujeres y a 60 hombres y les pregunta sobre sus hábitos cosméticos. Calcule la
probabilidad de que la diferencia entre la proporción de mujeres que utiliza cosméticos
respecto a la proporción de hombres que los utiliza sea inferior al 20%.
Solución:
Sean las variables poblacionales:
X = ”mujeres utilizan algún producto cosmético”, con px = 0,8
Y = ”hombres utilizan algún producto cosmético”, con py = 0,55
p̂ x =
X
nx
p̂ y =
Y
ny
⎛
Teorema Central Límite
⎯⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯⎯→ p̂ x ∈ N ⎜ p x ,
⎜
⎝
⎛
Teorema Central Límite
⎯⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯ ⎯⎯→ p̂ y ∈ N ⎜ p y ,
⎜
⎝
⎛
⎛p x qx
⎜
⎜ nx
⎝
[ p̂ x ± p̂ y ] ∈ N ⎜⎜ [ p x ± p y ] ;
⎜
⎝
⎛
[ p̂x − p̂y ] ≈ N ⎜⎜ [ 0,8 − 0,55] ;
⎞
⎟
⎟
⎠
⎞
⎟
⎟
⎟
⎠
siendo las muestras: nx = 50 , ny = 60
⎛ 0,8 . 0,2 ⎞ ⎛ 0,55 . 0,45 ⎞
⎜
⎟+⎜
⎟
60
⎝ 50 ⎠ ⎝
⎠
⎝
[
⎞ ⎛p y qy
⎟+⎜
⎟ ⎜ ny
⎠ ⎝
p x q x ⎞⎟
nx ⎟
⎠
p y q y ⎞⎟
ny ⎟
⎠
⎞
⎟ ≡ N (0, 25 ; 0, 0856)
⎟
⎠
]
⎛
0, 2 − 0,25 ⎞
⎟ = P (z < − 0,58) = P (z > 0,58) = 0,2810
P ( p̂x − p̂ y ) < 0, 20 = P ⎜⎜ z <
0, 0856 ⎟⎠
⎝
[
]
Como la P ( p̂x − p̂ y ) > 0, 20 = 1 − 0,2810 = 0,719 es bastante probable, se aconsejaría
sacar el producto del mercado.
Santiago de la Fuente Fernández
47
Muestreo aleatorio simple
CÁLCULO DE PROPIEDADES BÁSICAS DE LOS ESTIMADORES (INSESGADEZ y EFICIENCIA)
10.- La variable aleatoria poblacional "renta de las familias" del municipio de Madrid se
distribuye siguiendo un modelo N (μ, σ2 ) . Se extraen muestras aleatorias simples de
tamaño 4. Como estimadores del parámetro μ, se proponen los siguientes:
μ1 =
ˆ
μ2 =
ˆ
x1 + 2x 2 + 3x 3
6
x3 − 4x 2
−3
μ3 = x
ˆ
Se pide:
a) Comprobar si los estimadores son insesgados
b) ¿Cuál es el más eficiente?
c) Si tuviera que escoger entre ellos, ¿cuál escogería?. Razone su respuesta a partir
del Error Cuadrático Medio.
Solución:
a) Un estimador θ̂ es insesgado (o centrado) cuando se verifica E(ˆθ) = θ
[
]
⎡ x1 + 2x 2 + 3x 3⎤
1
E (ˆ
μ 1) = E ⎢
E x1 + 2x 2 + 3x 3 =
⎥ =
6
6
⎣
⎦
1
1
[6μ ] = μ
E ( x 1) + 2 E ( x 2 ) + 3 E ( x 3 ) =
=
6
6
[
]
[
⎡ x1 − 4x 2⎤
1
E (ˆ
μ 2) = E ⎢
E x1 − 4x2
⎥ = −
3
3
−
⎣
⎦
1
[ − 3μ ] = μ
= −
3
]
[
]
1
E ( x 1) − 4 E ( x 2 ) =
3
= −
[
]
⎡ x1 + x2 + x3 + x 4⎤
1
E (ˆ
μ 3) = E ⎢
E x1 + x2 + x3 + x 4 =
⎥ =
4
4
⎣
⎦
1
1
[4μ ] = μ
E ( x 1) + E ( x 2 ) + E ( x 3 ) + E ( x 4 ) =
=
4
4
[
]
Los tres estimadores son insesgados o centrados.
b) El estimador más EFICIENTE es el que tenga menor varianza.
[ ]
μ1
V ˆ
[
]
⎡ x1 + 2x 2 + 3x 3 ⎤
1
= V⎢
V x1 + 2x 2 + 3x 3 =
⎥ =
6
36
⎣
⎦
1
1
14 2
V ( x 1) + 4 V ( x 2 ) + 9 V ( x 3 ) =
14 σ 2 =
=
σ = 0,39 σ 2
36
36
36
[
Santiago de la Fuente Fernández
]
[
]
48
Muestreo aleatorio simple
[ ]
μ2
V ˆ
[
⎡ x1 − 4x2⎤
1
= V⎢
V x1 − 4x2
⎥ =
−3
9
⎣
⎦
1
17 2
=
σ = 1,89 σ 2
17 σ 2 =
9
9
[
[ ]
V ˆ
μ3
]
]
=
[ V ( x 1) + 16 V ( x 2 ) ] =
1
9
[
]
⎡ x1 + x2 + x3 + x 4⎤
1
= V⎢
V x1 + x2 + x3 + x 4 =
⎥ =
4
16
⎣
⎦
1
1
4 2
=
V ( x 1) + V ( x 2 ) + V ( x 3 ) + V ( x 4 ) =
4σ 2 =
σ = 0,25 σ 2
16
16
16
[
]
[
]
El estimador μ̂ 3 es el más eficiente.
c) Escogería el estimador que presentase menor Error Cuadrático Medio (ECM)
ECM (ˆ
θ) = E (ˆ
θ − θ)
2
= V (ˆ
θ) +
⎡
⎤
⎢E (ˆ
θ) − θ ⎥
3⎥
⎢ 1424
⎢⎣ sesgo ⎥⎦
2
[
sesgo b (ˆ
θ) = E (ˆ
θ) − θ
]
ˆ
ˆ
Si E14
(ˆ
θ2
)=
4
3θ ⇒ ECM (θ) = V (θ)
insesgado
Como los tres estimadores son insesgados (centrados), me decido por el que
menor varianza presenta, puesto que coincidirá con el que menor ECM tiene, es
decir, escojo el estimador μ̂ 3
Adviértase que si el estimador θ̂ es insesgado: ECM( ˆθ) = V ( ˆθ)
Santiago de la Fuente Fernández
49
Muestreo aleatorio simple
ESTIMADORES SESGADOS: CÁLCULO SESGO Y ESTIMACIÓN PUNTUAL
11.- La variable aleatoria X representa los gastos mensuales de una empresa, cuya
función de densidad es f (θ, x) = θ x θ − 1 con θ > 0 y 0 < x < 1 . Se realiza una m.a.s. de
tamaño 3, y se proponen tres estimadores:
ˆ
θ1 = x
ˆ
θ2 =
2
x 12 + 2 x 2
2 + 3x 3
6
x 3 − 2x1 + 4x 2
ˆ
θ3 =
6
a) Calcule los sesgos
b) Si la muestra que se obtiene es (0,7 ; 0,1 ; 0,3), calcule las estimaciones
puntuales.
c) ¿Cuáles son las funciones estimadas para las estimaciones anteriores?
Solución:
Un estimador θ̂ es insesgado (centrado) cuando E (ˆθ) = θ .
Un estimador θ̂ es sesgado cuando E (ˆθ) = θ + b{
(ˆ
θ) ⇒ b (ˆ
θ) = E (ˆ
θ) − θ
sesgo
X = ”gastos mensuales de la empresa”
f (θ, x) = θ x θ − 1 con θ > 0 y 0 < x < 1
m.a.s. con n = 3
•
Sesgo del estimador ˆθ 1 = x
[
]
⎡x 1 + x 2 + x 3 ⎤
1
1
ˆ
θ 1 = x ⇒ E (ˆ
θ 1) = E ⎢
E x1 + x2 + x3 =
(3 μ) = μ (media poblacional)
⎥=
3
3
3
⎣
⎦
∞
1
1
1
1
⎡ θ x θ +1 ⎤
⎥ =
⎣⎢ θ + 1 ⎦⎥ 0
donde μ = ∫ − ∞ x f (x, θ) dx = ∫ 0 x f (x, θ) dx = ∫ 0 x θ x θ − 1 dx = ∫ 0 θ x θ dx = ⎢
El sesgo: b (ˆθ1 ) = E (ˆθ1 ) − θ =
•
Sesgo del estimador ˆθ 2 =
θ
θ+1
−θ= −
θ
θ+1
θ2
θ+1
2
x 12 + 2 x 2
2 + 3x 3
6
⎡
⎡x 2 + 2x 2 + 3x 2 ⎤
1
2
3⎥
⎢
1
⎢
2
2
2
E (ˆ
=
θ 2) = E ⎢
⎢ E (x 1 ) + 2 E (x 2 ) + 3 E (x 3 )
⎥
6
6 ⎢ 123
123
123
⎥⎦
⎢⎣
α2
α2
⎣ α2
⎤
⎥
1
(6 α2 ) = α2 (∗)
⎥=
6
⎥
⎦
donde α 2 es el momento de orden 2 respecto al origen.
Santiago de la Fuente Fernández
50
Muestreo aleatorio simple
α 2 = E(x 2 ) =
∫
∞
x2
−∞
1
⎡ θ xθ+2 ⎤
= ⎢
⎥ =
⎣⎢ θ + 2 ⎥⎦ 0
∫
f (x, θ) dx =
1 2
x
0
f (x, θ) dx =
∫
1 2
x
0
θ xθ
−1
dx =
∫
1
0
θ x θ +1 dx =
θ
θ+2
entonces,
⎡
⎡x 2 + 2 x 2 + 3 x 2 ⎤
1
2
3⎥
⎢
1
⎢
2
2
2
E (ˆ
=
θ 2) = E ⎢
⎢ E (x 1 ) + 2 E (x 2 ) + 3 E (x 3 )
⎥
6
6 ⎢ 123
1
2
3
1
2
3
⎥⎦
⎢⎣
α2
α2
⎣ α2
( )
El sesgo: b (ˆθ2 ) = E ˆθ2 − θ =
•
θ
θ+2
Sesgo del estimador ˆθ 3 =
−θ=−
⎤
⎥
⎥ = α2 =
⎥
⎦
θ
θ+2
θ2 + θ
θ+2
x 3 − 2x1 + 4x2
6
[
]
⎡x 3 − 2 x 1 + 4 x 2 ⎤
1
1
1
E (ˆ
θ 3) = E ⎢
E x3 − 2x1 + 4x 2 =
(3 μ) =
μ
⎥=
6
6
6
2
⎣
⎦
μ=
∫
∞
x
−∞
f (x, θ) dx =
∫
1
x
0
f (x, θ) dx =
El sesgo: b (ˆθ3 ) = E (ˆθ3 ) − θ =
1
2
∫
1
x
0
θx
θ−1
dx =
∫
1
0
⎡ θ x θ +1
θ x dx = ⎢
⎢⎣ θ + 1
θ
1
⎤
⎥ =
⎥⎦ 0
θ
θ+1
⎛ θ ⎞
2θ2 + θ
⎟⎟ − θ = −
⎜⎜
2 (θ + 1)
⎝ θ + 1⎠
b) Si la muestra que se obtiene es (0,7 ; 0,1 ; 0,3), calcule las estimaciones puntuales.
0, 7 + 0, 1 + 0, 3
ˆ
θ1 =
= 0, 367
3
0, 7 2 + 2 . 0, 1 2 + 3 . 0, 3 2
ˆ
θ2 =
= 0, 13
6
0, 3 − 2 . 0, 7 + 4 . 0, 1
ˆ
θ3 =
= − 0, 117 a no puede ser, puesto que ˆ
θ> 0
6
c) ¿Cuáles son las funciones estimadas para las estimaciones anteriores?
ˆ
θ 1 ⇒ f (0, 367, x) = 0, 367 x0, 367 − 1 = 0, 367 x − 0, 633
ˆ
θ 2 ⇒ f (0, 13, x) = 0, 13 x0, 13 − 1 = 0, 367 x − 0, 87
Santiago de la Fuente Fernández
51
Muestreo aleatorio simple
CÁLCULO EFICIENCIA RELATIVA Y ERROR CUÁDRATICO MEDIO
12.- Sea una población con media μ de la que se extraen m.a.s. de tamaño n. Considere
los siguientes estimadores de la media:
μ1 = x
ˆ
μ2 =
ˆ
1
n+1
n
∑xi
i =1
a) Estudie la insesgadez, la eficiencia relativa y la consistencia de ambos
estimadores.
b) Elija uno de los dos en término del error cuadrático medio.
Solución:
a)
Insesgadez
Un estimador θ̂ es insesgado (o centrado) cuando se verifica E (ˆθ) = θ
Un estimador θ̂ es sesgado cuando E (ˆθ) = θ + b{
(ˆ
θ) ⇒
b
(ˆ
θ) = E (ˆ
θ) − θ
{
sesgo
sesgo
Un estimador θ̂ es asintóticamente insesgado si su posible sesgo tiende a cero al
~
aumentar el tamaño muestral que se calcula: lim b ( θ ) = 0
n→ ∞
E (ˆ
μ 1 ) = E (x) = E (
n
1 n
1
1
x i) =
E ( ∑ x i) =
∑
n i=1
n
n
i=1
n
∑ E (x i )
=
i=1
1
(n μ) = μ
n
b (ˆ
μ 1 ) = E (ˆ
μ 1) − μ = μ − μ = 0
E (ˆ
μ 2) = E(
n
1 n
1
1
x
)
=
E
(
x i) =
∑
∑
i
n + 1 i=1
n+1
n+1
i=1
n
∑ E (x i )
i=1
=
1
nμ
(n μ) =
n+1
n+1
→ 0 cuando 'n' aumenta
nμ
nμ − nμ − μ
b (ˆ
μ 2 ) = E (ˆ
μ 2) − μ =
− μ=
=
n+1
n+1
6447448
μ
−
14n2+41
3
sesgado
asinto ticamente
•
Eficiencia
Sean θ̂ 1 y θ̂ 2 dos estimadores insesgados de un parámetro desconocido θ .
Decimos que θ̂ 1 es más eficiente que θ̂ 2 si se verifica que Var (ˆθ 1) < Var (ˆθ 2 )
La eficiencia relativa se mide por el ratio:
V (ˆ
μ 1 ) = V (x ) = V (
V (ˆ
μ 2) = V (
Var (ˆ
θ 1)
ˆ
Var (θ 2 )
1 n
1 n
1
σ2
2
x i) =
V
(
x
)
(
n
)
=
σ
=
∑
∑
i
n i=1
n
n 2 i=1
n2
n
1 n
1
1
n
x
)
=
V (x i ) =
(n σ 2) =
σ2
∑
∑
i
2
2
n + 1 i=1
(n + 1) i=1
(n + 1)
(n + 1) 2
Santiago de la Fuente Fernández
52
Muestreo aleatorio simple
eficiencia relativa ≡
Var (ˆ
μ 1)
Var (ˆ
μ 2)
σ
=
nσ
2
2
n
(n + 1)
2
=
(n + 1)
n2
2
> 1 a Var (ˆ
μ 1 ) > Var (ˆ
μ 2)
El estimador μ̂ 2 tiene menor varianza, por lo que es más eficiente que μ̂ 1
•
Consistencia
Un estimador θ̂ consistente es un estimador asintóticamente insesgado cuya varianza
tiende a cero al aumentar el tamaño muestral.
El estimador θ̂ es consistente cuando
⎧ lim E (ˆ
θ) = θ
⎪n→ ∞
⎨
θ) = 0
⎪ lim V (ˆ
⎩n → ∞
μ 1 ) = lim E (x) = μ
⎧ lim E (ˆ
n→ ∞
⎪⎪ n → ∞
μ1 ≡ ⎨
ˆ
σ2
μ 1 ) = lim
=0
⎪ lim V (ˆ
⎪⎩n → ∞
n→ ∞ n
μ2
ˆ
es consistente
⎧
1
⎛
⎞
μ 2 ) = lim ⎜ μ −
μ⎟ = μ
⎪ lim E (ˆ
n+1 ⎠
n→ ∞ ⎝
⎪ n→ ∞
≡ ⎨
⎡
⎤
n
⎪ lim V (ˆ
μ 2 ) = lim ⎢
σ 2⎥ = 0
⎪n → ∞
n → ∞ ⎣⎢ (n + 1) 2
⎦⎥
⎩
es consistente
c) Elegir uno de los dos en término del error cuadrático medio.
El Error Cuadrático Medio (ECM) de un estimador θ̂ viene definido:
ECM (ˆ
θ) = E (ˆ
θ − θ)
2
= V (ˆ
θ) +
⎡
⎤
⎢E (ˆ
θ) − θ ⎥
3⎥
⎢ 1424
⎣⎢ sesgo ⎦⎥
2
sesgo b (ˆ
θ) = E (ˆ
θ) − θ
ˆ
ˆ
Si E14
(ˆ
θ2
)=
4
3θ ⇒ ECM (θ) = V (θ)
insesgado
μ 1 ) = V (ˆ
μ 1) +
ECM (ˆ
[ b (ˆμ 1)] 2 =
ECM (ˆ
μ 2 ) = V (ˆ
μ 2) +
[ b (ˆμ 2 )] 2 =
σ2
σ2
+0=
n
n
n
(n + 1) 2
⎛ 1
⎞
σ2 + ⎜
μ⎟
⎝n+1 ⎠
2
=
nσ 2 + μ 2
(n + 1) 2
El estimador μ̂ 1 será el que presenta menor ECM cuando ECM (ˆ
μ 1 ) ≤ ECM (ˆ
μ 2)
En esta línea,
σ2
μ2
σ2
μ2
nσ 2
nσ 2 + μ 2
nσ 2
≤
=
+
⇒
−
≤
⇒
n
n
(n + 1) 2
(n + 1) 2
(n + 1) 2
(n + 1) 2
(n + 1) 2
Santiago de la Fuente Fernández
53
Muestreo aleatorio simple
2
(n + 1) σ
2
−n σ
n (n + 1)
⇒
⎧
2n + 1
⎪Si
n
⎪⎪
⎨
⎪
2n + 1
⎪Si
n
⎪⎩
≤
≥
μ2
σ2
μ2
σ2
2
2
2
≤
μ
2
(n + 1)
2
2n + 1
2n + 1
σ2 ≤ μ2 ⇒
n
n
⇒
≤
2
(n + 1) − n
n
2
σ2 ≤ μ2 ⇒
μ2
σ2
a ˆ
μ 1 se elige antes que ˆ
μ2
a ˆ
μ 2 se elige antes que ˆ
μ1
Santiago de la Fuente Fernández
54
Muestreo aleatorio simple
CÁLCULO INSESGADEZ E EFICIENCIA
13.- El peso en kilos de los jamones vendidos por una empresa sigue una distribución
normal con varianza 4 y peso medio desconocido. Se conoce que el peso medio de los
jamones vendidos es superior a 5 kg, y se toman m.a.s. de tamaño 4 para estimar θ .
¿Cuál de los dos estimadores sería el mejor respondiendo a la insesgadez y eficiencia?
ˆ
θ1 =
X1 + X2 + X3
ˆ
θ2 =
4
X1 + X2
2
Solución:
-
Un estimador es insesgado (centrado) si E(ˆθ) = θ
Un estimador es sesgado si E(ˆθ) = θ + b (ˆθ) a
b
(ˆ
θ) = E (ˆ
θ) − θ
{
sesgo
La v.a X i =' peso en kg de los jamones' sigue una distribución normal de varianza 4
Para estudiar la insesgadez de los estimadores hallamos sus esperanzas:
[
El
]
⎡X 1 + X 2 + X 3 ⎤
1
3
E (ˆ
E (X 1 ) + E (X 2 ) + E (X 2 ) =
θ
θ 1) = E ⎢
⎥=
4
4
4
⎣
⎦
3
1
sesgo del estimador θ̂ 1 será: b (ˆθ 1) = E (ˆθ 1) − θ = θ − θ = − θ
4
4
•
•
[
⎡X 1 + X 2 ⎤
1
E (ˆ
θ 2) = E ⎢
E (X 1 ) + E (X 2 )
⎥=
2
2
⎣
⎦
]
=
2
θ = θ
2
El estimador θ̂ 2 es insesgado, b (ˆθ 2 ) = 0
Atendiendo al sesgo se elige θ̂ 2
-
Para analizar la eficiencia relativa de los dos estimadores se calculan las
respectivas varianzas
⎡X 1
V (ˆ
θ 1) = V ⎢
⎣
V (X i ) = 4
}
=
⎡X 1
V (ˆ
θ 2) = V ⎢
⎣
⎡
⎢
+ X2 + X3⎤
1 ⎢
⎢ V (X 1 + X 2 + X 3 )
⎥=
4
16 ⎢ 144424443
⎦
⎢las observaciones
⎣⎢son independientes
⎤
⎥
⎥
⎥ =
⎥
⎥
⎦⎥
1
16
[ V (X 1) + V (X 2 ) + V (X 2 ) ]
1
12
3
=
12 =
16
16
4
⎤
⎡
⎥
⎢
⎥
+ X2⎤
1 ⎢
⎢ V (X 1 + X 2 ) ⎥ =
⎥ =
2
4 ⎢ 1442443 ⎥
⎦
⎢ las observaciones ⎥
⎣⎢ son independientes ⎦⎥
1
4
[ V (X 1) + V (X 2 ) ]
V (X i ) = 4
}
=
1
8 = 2
4
Respecto a la varianza se elige el estimador θ̂ 1 por ser el de menor varianza.
Santiago de la Fuente Fernández
55
=
Muestreo aleatorio simple
Tenemos propiedades contrapuestas, de modo que el estimador insesgado θ̂ 2 es el de
mayor varianza. Elegiremos el estimador en base al error cuadrático medio (ECM):
ECM = Varianza + (sesgo) 2
⎧
3
⎪ECM (ˆ
θ 1) =
+
4
⎪
⎪
≡ ⎨
⎪ ECM (ˆ
θ 2) = 2 +
⎪
⎪⎩
⎛ θ ⎞
⎜−
⎟
⎝ 4 ⎠
2
=
θ 2 + 12
16
0 = 2
Se analiza cuando es mayor el ECM del primer estimador θ̂ 1 : ECM(ˆθ 1) > ECM (ˆθ 2 )
θ 2 + 12
> 2
16
⇒
θ 2 > 20
⇒
θ > 20 ≈ 4,47
Si θ es en valor absoluto mayor que 4,47, el error cuadrático medio de θ̂ 1 es mayor, con
lo que se elige el estimador θ̂ 2 .
Como sabemos que el peso medio de los jamones es superior a 5 kg, no queda duda que
el estimador a elegir (con menor error cuadrático medio) es θ̂ 2 .
Santiago de la Fuente Fernández
56
Muestreo aleatorio simple
14.- La distribución del peso de las manzanas de una determinada cosecha sigue una
distribución normal, cuyo peso medio es desconocido y cuya desviación típica es 7
gramos. Se pide:
a) Analizar cuál de los estimadores μ̂ 1 , μ̂ 2 del peso medio es mejor respecto del
sesgo y de la eficiencia, para una muestra aleatoria simple de tamaño cinco.
5
μ1 =
b) Si ˆ
∑Xi
i=1
5
y
μ 2 = X1 + 2X 2 + 3X 3 − 4X 4 − X 5 ,
ˆ
obtener los pesos medios
estimados a partir de la siguiente muestra (125, 135, 130, 137, 142).
Solución.a) El peso de las manzanas sigue una distribución N (μ, 7)
Calculamos las esperanzas de los estimadores para analizar el sesgo de los estimadores
⎡5
E (μ̂ 1) = E ⎢ ∑ X i
⎣⎢i=1
⎤
⎤
1 ⎡5
1
5⎥ =
E ⎢∑ X i ⎥ =
5
5
⎢⎣i=1 ⎦⎥
⎦⎥
5
∑ E [ X i]
E (X i) = μ
}
=
i =1
1
(5 μ) = μ
5
E (μ̂ 2) = E (X 1 + 2 X 2 + 3 X 3 − 4 X 4 − X 5) = E (X 1) + 2 E ( X 2) + 3 E ( X 3) − 4 E ( X 4) − E ( X 5) =
= μ + 2μ + 3μ − 4μ − μ = μ
Los estimadores μ̂ 1 , μ̂ 2 son insesgados (centrados).
b) Para analizar la eficiencia de los estimadores calculamos sus varianzas:
⎤
⎡5
⎤
⎡5
1
1
V (ˆ
V ⎢∑ X i ⎥ =
μ 1) = V ⎢ ∑ X i 5⎥ =
25
25
⎥⎦
⎣⎢i=1 ⎦⎥
⎣⎢i=1
5
∑ V [X i ]
V (X i ) = 7 2
}
=
i=1
1
49
(5 . 49) =
25
5
V (μ̂ 2) = V (X 1 + 2 X 2 + 3 X 3 − 4 X 4 − X 5) = V (X 1) + 4 V ( X 2) + 9 V ( X 3) + 16 V ( X 4) + V ( X 5) =
= (49) + 4 (49) + 9 (49) + 16 (49) + (49) = 31 (49) = 1519
Como los dos estimadores son insesgados y V (ˆ
μ 1 ) < V (ˆ
μ 2 ) se elige como mejor el
estimador μ̂ 1 , que es el peso medio de la muestra de las cinco manzanas.
Santiago de la Fuente Fernández
57
Muestreo aleatorio simple
15.- Supongamos que la distribución de ingresos de una cierta población es una variable
aleatoria con media μ desconocida y varianza σ2 también desconocida. Si queremos
estimar el ingreso medio de la población mediante una m.a.s. de tamaño n, respecto de la
insesgadez y de la eficiencia. ¿Cuál de los dos estimadores elegiríamos?
n
n
∑Xi
μ1 =
ˆ
∑Xi
i=1
μ2 =
ˆ
n−1
i=1
n
Solución:
•
Un estimador es insesgado (centrado) si E(ˆθ) = θ
Un estimador es sesgado si E(ˆθ) = θ + b (ˆθ) a
b
(ˆ
θ) = E (ˆ
θ) − θ
{
sesgo
La v.a Xi ='ingresos de cierta población'' sigue una distribución normal N(μ, σ)
Para analizar el sesgo de los estimadores, hallamos la esperanza:
n
E (ˆ
μ 1) = E (∑ X i n − 1) =
i=1
n
1
1
E (∑ X i ) =
n − 1 i=1
n−1
n
∑ E (X i) =
i=1
El sesgo del estimador μ̂ 1 será: b (ˆ
μ 1 ) = E (ˆ
μ 1) − μ =
n
E (ˆ
μ 2 ) = E (∑ X i n) =
i=1
1
n
(n μ) =
μ
n−1
n−1
n
1
μ −μ=
μ
n−1
n−1
n
1
1 n
1
E (∑ X i ) =
∑ E (X i) = n (n μ) = μ
n i=1
n i=1
El estimador μ̂ 2 , que es la media muestral, es insesgado (centrado).
•
La eficiencia de los estimadores se analiza a través de su varianza:
n
μ 1) = V (∑ X i
V (ˆ
n − 1) =
i =1
n
1
i=1
n2
μ 2 ) = V (∑ X i n) =
V (ˆ
1
(n − 1) 2
n
V (∑ X i ) =
i=1
n
1
i =1
(n − 1) 2
V (∑ X i ) =
1
n
n
1
i=1
n2
∑ V (X i) =
n
1
i =1
(n − 1) 2
∑ V (X i ) =
(n σ 2 ) =
(n σ 2 ) =
nσ 2
(n − 1) 2
σ2
n
El estimador más eficiente será el de menor varianza. Comparando las varianzas de los
estimadores:
V (ˆ
μ 2) =
σ2
nσ 2
<
= V (ˆ
μ 1)
n
(n − 1) 2
puesto que (n − 1) 2 < n 2
El estimador μ̂ 2 , que es la media muestral, es el mejor tanto al sesgo como a la
eficiencia.
COMPRENSIÓN DE LA VEROSIMILITUD
Santiago de la Fuente Fernández
58
Muestreo aleatorio simple
CÁLCULO DE LOS ESTIMADORES MÁXIMO VERSOSÍMILES. PROPIEDADES
16.- Una urna contiene bolas blancas y negras. Sea p la probabilidad de extraer una
bola blanca cuando se realiza una extracción al azar. Asociado a este experimento
aleatorio tenemos la variable aleatoria X que puede tomar los valores:
X = 1 si la bola extraída es blanca
X = 0 si la bola extraída es negra
La distribución de probabilidad será una B(1; p): P(X = x) = p x (1 − p) 1− x
Se selecciona una muestra aleatoria con reemplazamiento de tamaño 3 (x 1, x 2, x 3 ) ,
siendo x i la variable aleatoria a la extracción i-ésima, y suponemos que ha resultado la
siguiente relación (B, N, B). Como el parámetro p es desconocido pretendemos saber,
entre los valores, p = 0,65 y p = 0,73 qué valor hace más probable la aparición de dicha
extracción.
Solución.⎧ P(B) = p
⎩P(N) = 1 − p
Si la muestra (B, N, B) es independiente, siendo ⎨
P(B, N, B) = P(B ∩ N ∩ B) = P(B) .P(N) .P(B) = p .(1 − p).p = p 2. (1 − p)
entonces
⎧p = 0,65 : P(B, N, B) = 0,65 2 . 0,35 = 0, 1479
⎪⎪
⎨
⎪ p = 0,73 : P(B, N, B) = 0,73 2 . 0,27 = 0, 1439
⎪⎩
Resulta más probable (p = 0,65), siendo más verosímil.
FUNCIÓN DE VEROSIMILITUD DE LA MUESTRA.- Sea (X 1, L , X n ) una muestra
aleatoria de una población X con función de masa (o función de densidad f θ ) donde
θ = (θ 1, L , θ n ).
El estimador de máxima verosimilitud de θ es el formado por los
valores (ˆθ 1, L , ˆθ n ) que maximizan lo que llamaremos función de verosimilitud de la
muestra (x 1, L , x n ) obtenida:
⎧⎪ P (x 1 , θ) L P (x n , θ) caso discreto
L (θ) = L ( x 1, L , x n ; θ ) = ⎨
⎪⎩f θ (x 1 ) L f θ (x n ) caso continuo
Si consideramos la m.a.s. (x 1, x 2 , x 3 ) , siendo las variables aleatorias x i independientes,
tomando los valores 0, 1, con distribución B(1, p), la distribución de probabilidad
asociada será:
Santiago de la Fuente Fernández
59
Muestreo aleatorio simple
P ( x 1 , p) =
P ( x 2 , p) =
P ( x 3 , p) =
⎫
⎪
x2
1−x2⎪
P ( X = x 2) = p
(1 − p)
⎬ x i = 1 , 0 sea bola blanca o negra
⎪
x
1− x3
⎪
P ( X = x 3 ) = p 3 (1 − p)
⎭
P ( X = x 1) = p
x1
(1 − p)
1− x1
La función de verosimilitud será:
L (p) =
3
∏
i =1
x
1− x1
x
1−x2
x
1− x3
P (x i , p) = p 1 (1 − p)
. p 2 (1 − p)
. p 3 (1 − p)
=
x +x2 +x3
3 − ( x 1 + x 2 + x 3)
= p 1
(1 − p)
En la muestra (B, N, B) el valor que toma la función de verosimilitud será:
L (p) = p 1 + 0 + 1 (1 − p) 3 − ( 1 + 0 + 1) =
Santiago de la Fuente Fernández
p 2. (1 − p)
60
Muestreo aleatorio simple
17.- Un atleta olímpico de salto de altura se enfrenta a un listón de 2,3 metros. Su
entrenador desea estudiar el comportamiento del saltador. Sabe que el número de
saltos fallidos por hora es una variable aleatoria distribuida como una Poisson de
parámetro λ.
a) Calcular el estimador máximo verosímil del parámetro λ.
b) Analizar sus propiedades.
Solución.a)
FUNCIÓN DE VEROSIMILITUD DE LA MUESTRA (EMV).- Sea (x 1, L , x n ) una
muestra aleatoria de una población X con función de masa Pθ (o función de densidad fθ )
donde θ = (θ 1, L , θ n ). El estimador de máxima verosimilitud de θ es el formado por los
valores (ˆθ 1, L , ˆθ n ) que maximizan lo que llamaremos función de verosimilitud de la
muestra (x 1, L , x n ) obtenida:
⎧⎪ P (x 1 , θ) L P (x n , θ) caso discreto
L (θ) = L(X; θ) = L ( x 1, L , x n ; θ ) = ⎨
⎪⎩f θ (x 1 ) L f θ (x n ) caso continuo
En muchas ocasiones, la forma más cómoda de encontrar el estimador de máxima
verosimilitud es considerar [ ln L (θ)] en vez de L (θ) , ya que es más fácil de manejar y
presenta los mismos máximos y mínimos, y despejamos θ = (θ 1, L , θ n ) de la ecuación:
ϑ ln L (θ)
= 0
ϑθ
Sea la v.a. X = 'número de saltos fallidos por hora'
En la distribución de Poisson: P (X = x) =
λx − λ
e
x!
⎧ E (X) = λ
⎨
⎩ V (X) = λ
En una muestra aleatoria simple de tamaño n, la función de verosimilitud L (X, λ) :
n
L (λ ) = L (X , λ ) =
n
∏ P (x i, λ)
x
=
i=1
∑xi
x
λ 1 −λ
λ n −λ
λ i=1
e L
e
e− n λ
= n
x 1!
x n!
∏ x i!
i=1
⎡
⎤
n
⎢ ∑xi
⎥
xi
∑
n
=
=
i
1
i
1
⎥
⎢λ
λ
−nλ
−nλ
i
=
1
L (X , λ) = n
e
⇒ ln L (X , λ ) = ln ⎢ n
e
) − ln (∏ x i !) + ln (e − n λ ) =
⎥ = ln (λ
⎢
⎥
i=1
∏ x i!
⎢∏ x i!
⎥
=
i
1
i=1
⎣⎢
⎦⎥
n
n
∑xi
n
= ∑ x i Ln λ −
i=1
Santiago de la Fuente Fernández
n
∑ Ln (x i !)
− nλ
i=1
61
Muestreo aleatorio simple
n
n
ln L (X , λ) =
∑
∑ x i Ln λ −
i =1
i =1
Ln (x i ! ) − n λ
n
ϑ ln L (X , λ)
ϑλ
=
n
∑xi
i =1
1
− n = 0
λ
⇒
∑xi
ˆ
λ =
i =1
n
= x
Lo que nos dice que el Estimador de Máxima Verosimilitud (EMV) del parámetro λ
vendría dado por la media muestral: EMV (λ) = x
b) Analizar las propiedades
•
Insesgadez
El estimador sería insesgado (centrado) si E (ˆ
λ) = λ
⎤
⎡ n
⎢ ∑xi⎥
n
1
1
E ( ∑ x i) =
E (ˆ
λ) = E ⎢ i=1 ⎥ =
n
n
⎢ n ⎥
i=1
⎥
⎢
⎦
⎣
•
n
∑ E (x i ) =
i=1
1
(n λ) = λ
n
Eficiencia
Para que un estimador sea eficiente tiene que ser centrado y de varianza mínima.
La varianza mínima se analiza en virtud de la acotación de Cramer-Rao:
λ) ≥
V (ˆ
Ahora bien, f (x , λ) =
1
⎡ ϑ ln f(x , λ ) ⎤
n E⎢
⎥
ϑλ
⎣
⎦
2
acotación de Cramer - Rao
λx − λ
e
x!
⎡ λx − λ ⎤
ln f (x , λ) = ln ⎢
e ⎥ = x ln λ − ln (x !) − λ
⎥⎦
⎢⎣ x !
ϑ ln f (x , λ)
x
x−λ
=
− 1 =
ϑλ
λ
λ
⎡ ϑ ln f (x , λ) ⎤
E⎢
⎥
ϑλ
⎣
⎦
2
⎡x − λ ⎤
= E⎢
⎥
⎣ λ ⎦
En consecuencia,
2
V (ˆ
λ) ≥
=
1
λ
2
E (x − λ) 2 =
1
λ
2
E (x − x) 2 =
1
λ
2
V (x) =
λ
λ
2
=
1
λ
1
λ
=
1
n
n
λ
El resultado nos dice que el menor valor de la varianza del estimador sería λ n .
ˆ
λ = x
(calculado por el EMV). Sabemos V (x) =
empleado es eficiente.
Santiago de la Fuente Fernández
λ
n
, lo que muestra que el estimador
62
Muestreo aleatorio simple
n
V (x) =
•
∑xi
V ( i=1
n
)=
1
n
n
V (x i )
2 ∑
=
i=1
1
n
2
(n λ) =
λ
n
Consistencia
Un estimador λ̂ consistente es un estimador asintóticamente insesgado cuya varianza
tiende a cero al aumentar el tamaño muestral.
El estimador λ̂ es consistente cuando
⎧ lim E (ˆ
λ) = λ
⎪n → ∞
⎨
λ) = 0
⎪ lim V (ˆ
⎩n → ∞
lim E (ˆ
λ) = lim λ = λ
n→ ∞
n→ ∞
λ
=0
n→ ∞ n
lim V (ˆ
λ) = lim
n→ ∞
El estimador λ̂ es consistente
Santiago de la Fuente Fernández
63
Muestreo aleatorio simple
18.- En una gran piscifactoría hay una proporción desconocida de peces de una especie
A. Para obtener información sobre esta proporción, vamos a ir sacando peces al azar.
a)
Si la proporción de peces de la especie A es p., ¿cuál es la probabilidad de que el
primer pez de la especie A sea el décimo que extraemos?.
b) Tres personas realizan, independientemente unas de otras, el proceso de sacar
peces al azar hasta encontrarse con el primero de tipo A:
- La primera persona obtiene el primer pez tipo A en la décima extracción.
- La segunda persona obtiene el primer pez tipo A en la decimoquinta extracción.
- La tercera persona obtiene el primer pez tipo A en la decimoctava extracción.
Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de
la proporción p.
Solución.El objetivo fundamental del ejercicio es estimar, por máxima verosimilitud, el
parámetro p = "proporción de peces de la especie A".
a) P(primer pez tipo A en la décima extracción) = (1 − p) 9 p
b) La función de verosimilitud L(p) = P(Resultados muestrales obtenidos)
L(p) = P(primer pez tipo A en la décima extracción y primer pez tipo A en la
decimoquinta extracción y primer pez tipo A en la decimoctava extracción)
(
L(p) = (1 − p) 9 p
) ( (1 − p) 14 p ) ( (1 − p) 17 p ) = (1 − p) 40 p 3
log [ L(p)] = log (1 − p) 40 p 3
(
) = log (1 − p)
log [ L(p)] − 40 3
=
+ =0
dp
1−p p
a
Santiago de la Fuente Fernández
p̂ =
40
+ log p 3 = 40 log (1 − p) + 3 log p
3
43
64
Muestreo aleatorio simple
19.- Las personas de un país se clasifican según dos características: color de los ojos
(claros u oscuros) y sexo (hombre o mujer). Las dos características son independientes.
a) Obtenemos una muestra al azar de la población con los siguientes resultados:
- 200 mujeres con ojos claros
- 150 hombres con ojos claros
- 350 mujeres con ojos oscuros
- 300 hombres con ojos oscuros
Obtener la estimación de máxima verosimilitud de p = P(hombres) y q = P(ojos
oscuros)
b) Si tomamos 8 personas al azar de ese país, ¿cuál es la probabilidad de encontrar
alguna mujer de ojos oscuros?. Y si la muestra que tomamos es de 200 personas,
¿cuál es la probabilidad de que haya más de 60 mujeres de ojos oscuros?
Solución.a) Las probabilidades de los cuatro posibles resultados muestrales son:
- P(mujer con ojos claros) = (1 − p) q
- P(hombre con ojos claros) = p q
- P(mujer con ojos oscuros) = (1 − p) (1 − q)
- P(hombre con ojos oscuros) = p (1 − q)
La función de verosimilitud L(p, q) = P(resultados muestrales obtenidos)
L(p, q) = ( (1 − p) q ) 200 ( p q ) 150 ( (1 − p) (1 − q) ) 350 ( (p (1 − q) ) 300 = p 450 (1 − p) 550 q 350 (1 − q) 650
(
)
log L(p, q) = log p 450 (1 − p) 550 q 350 (1 − q) 650 = 450 log p + 550 log (1 − p) + 350 log q + 650 log (1 − q)
ϑ log L(p, q) 450 550
=
−
=0
ϑp
p
1−p
a
p̂ = 0,45
ϑ log L(p, q) 350 650
=
−
=0
ϑq
q
1− q
a
q̂ = 0,35
b) Conocemos que P(mujer con ojos oscuros) = (1 − p) (1 − q) = 0,24
La variable aleatoria X = "número de mujeres con ojos oscuros, entre 8" sigue una
distribución binomial B (n = 8 ; p = 0,24)
⎛ 8⎞
P(X ≥ 1) = 1 − P(X = 0) = 1 − ⎜⎜ ⎟⎟ (0,24) 0 (0,76) 8 = 0,89
⎝ 0⎠
Santiago de la Fuente Fernández
65
Muestreo aleatorio simple
La variable Y = "número de mujeres con ojos oscuros, entre 200" sigue una
distribución binomial B (n = 20 ; p = 0,24) , que por ser el tamaño de la muestra grande
(n = 200) y p no próximo a cero (p = 0,24) aproximamos por la distribución normal
B (n = 20 ; p = 0,24) ≈ N (μ = n p = 48 ; σ =
np q =
200 (0,24) (0,76) = 6,04)
⎛ Y − 48 60 − 48 ⎞
⎟ = P(z > 1,99) = 0,0233
P(Y > 60) = P⎜⎜
>
6,04 ⎟⎠
⎝ 6,04
Santiago de la Fuente Fernández
66
Muestreo aleatorio simple
20.- Calcular el estimador máximo verosímil del parámetro 'a' de las siguientes
funciones:
a) f(x; a) = a 2 e − ax siendo x ≥ 0 en muestras aleatorias simples de tamaño n.
b) f(x; a) = a e − ax para x ≥ 0 , a > 0 en muestras aleatorias simples de tamaño 2.
Solución.a)
f(x; a) = a 2 e − ax donde x ≥ 0 en m.a.s. de tamaño n
La función de verosimilitud
L = L (x 1, x 2 , L , x n ; a) = (a 2 e − a x1 ) . (a 2 e − a x2 ) L (a 2 e − a xn ) = a 2 n e
aplicando logaritmos neperianos: log L = log (a 2 n e
−a
n
−a
∑xi
i=1
n
∑xi
i=1
n
) = 2 n log a − a ∑ x i
i=1
derivando respecto de 'a' e igualando a cero:
n
d (log L) 2 n
2n
2
=
− ∑ x i = 0 ⇒ â =
=
n
da
a i=1
x
∑ xi
â =
2
x
i=1
b) Sea f(x; a) = a e − ax para x ≥ 0 , a > 0 en m.a.s. de tamaño 2
La función de verosimilitud L = L (x 1, x 2 ; a) = (a e − a x1 ) . (a e − a x2 ) = a 2 e − a (x1 + x2 )
aplicando logaritmos neperianos: log L = log (a 2 e − a (x1 + x2 )) = 2 log a − a (x1 + x2 )
derivando respecto de 'a' e igualando a cero:
d (log L) 2
2
1
= − (x1 + x2 ) = 0 ⇒ â =
=
da
a
x1 + x2
x
Santiago de la Fuente Fernández
67
Muestreo aleatorio simple
21.- Sea la distribución N (μ ; σ) , con media μ conocida y varianza desconocida.
Calcular la estimación máximo-verosimíl de la varianza en muestras aleatorias simples
de tamaño n.
Solución.La función de verosimilitud es:
⎡
⎢
L (X; μ, σ 2 ) = ⎢
⎢
⎣⎢
−
1
2 π σ2
e
(x1 − μ) 2 ⎤ ⎡
2 σ2
⎥
⎥
⎥
⎦⎥
n
∑ (xi − μ)
=
− i=1
1
e
n
n
2 2
2
(2 π) (σ )
⎢
⎢
⎢
⎣⎢
1
2 π σ2
−
e
⎡
⎢
⎥
⎥ L ⎢
⎢
⎥
⎢⎣
⎦⎥
(x 2 − μ ) 2 ⎤
2 σ2
1
2 π σ2
−
e
(x n − μ ) 2 ⎤
2 σ2
⎥
⎥ =
⎥
⎥⎦
2
2 σ2
tomando logaritmos neperianos, se tiene:
n
⎡
2⎤
∑ (xi − μ)
n
⎢
⎥
i=1
(xi − μ)2
∑
−
⎢
⎥
2
n
n
1
2 σ
2
e
log L (X; μ, σ 2 ) = log ⎢
⎥ = − log (2 π) − log (σ ) − i =1
n
n
2
2
2 σ2
⎢
⎥
2 2
2
⎢ (2 π) (σ )
⎥
⎢⎣
⎥⎦
[
]
y derivando respecto a σ 2 e igualando a cero:
[
2
]= −
d log L (X; μ, σ )
dσ
2
n
2
∑ (xi − μ)
n
2σ
2
+ i=1
2σ4
=0
n
como σ 2 > 0 , el estimador máximo verosímil de σ 2 será:
2
∑ (xi − μ)
σ 2 = i =1
ˆ
n
Conviene observar que el estimador no es la varianza muestral, dado que las
desviaciones de los valores muestrales lo son con respecto a la media poblacional μ y no
respecto a la media muestral x .
Santiago de la Fuente Fernández
68
Muestreo aleatorio simple
22.- Sea la distribución N (μ ; σ) , con la media y varianza desconocidas. Calcular los
estimadores máximo-verosímiles de μ y σ 2 .
Solución.La función de verosimilitud es:
⎡
⎢
L (X; μ, σ 2 ) = ⎢
⎢
⎣⎢
−
1
2 π σ2
(x1 − μ) 2 ⎤ ⎡
2 σ2
e
⎥
⎥
⎥
⎦⎥
n
=
−
1
∑ (xi − μ)
i =1
e
n
n
2 2
2
(2 π) (σ )
⎢
⎢
⎢
⎣⎢
1
2 π σ2
−
⎡
⎢
⎥
⎥ L ⎢
⎢
⎥
⎢⎣
⎦⎥
(x 2 − μ ) 2 ⎤
e
2 σ2
1
2 π σ2
−
e
(x n − μ ) 2 ⎤
2 σ2
⎥
⎥ =
⎥
⎥⎦
2
2 σ2
tomando logaritmos neperianos, se tiene:
n
⎡
2⎤
∑ (xi − μ)
n
⎥
⎢
i=1
(xi − μ)2
∑
−
⎥
⎢
2
1
n
n
2 σ
2
log L (X; μ, σ 2 ) = log ⎢
e
⎥ = − log (2 π) − log (σ ) − i =1
n
n
2
2
2 σ2
⎥
⎢
2 2
2
⎥
⎢ (2 π) (σ )
⎥⎦
⎢⎣
[
]
y derivando respecto a μ y σ 2 , e igualando a cero:
[
2
]
n
∑ (xi − μ)
ϑ log L (X; μ, σ )
= i=1
ϑμ
σ2
[
]= −
ϑ log L (X; μ, σ 2 )
ϑσ
2
=0
n
2
∑ (xi − μ)
n
2σ
2
+ i=1
2σ4
=0
n
resolviendo el sistema resulta:
μ=x y
ˆ
2
∑ (xi − x)
σ 2 = i =1
ˆ
n
= σ 2x
Los estimadores máximo-verosímiles de μ y σ 2 son la media y la varianza muestrales.
Santiago de la Fuente Fernández
69
CÁLCULO DE ESTIMADOR POR EL MÉTODO DE LOS MOMENTOS
Muestreo aleatorio simple
23.- Sea una población definida por:
1− θ
2
θ+λ
P (ξ = 0) =
2
1− λ
P (ξ = 1) =
2
P (ξ = −1) =
⎫
⎪
⎪
⎪ 0< θ<1
⎬
⎪ 0< λ <1
⎪
⎪
⎭
Estimar los parámetros θ y λ por el método de los momentos, estudiando si son
insesgados.
Solución.MÉTODO DE LOS MOMENTOS.- El procedimiento consiste en igualar momentos
poblacionales respecto al origen (α r ) a los correspondientes momentos muestrales
respecto al origen (a r ) , formando así tantas ecuaciones como parámetros
poblacionales se pretenden estimar:
n
⎧
⎪
∑xi
⎪ α = E (X) = μ ⇒ α = a = i=1
= x
ˆ1
1
⎪ 1
n
⎪
n
⎪
∑ x i2
⎪⎪
⎨ α 2 = E (X 2 ) ⇒ ˆ
α 2 = a 2 = i=1
n
⎪
⎪L LL L L L L L LL L L L L L
⎪
n
⎪
x ri
∑
⎪
⎪ α = E (X r ) ⇒ α
ˆ r = a r = i=1
⎪⎩ r
n
Puesto que hay que estimar dos parámetros hay que calcular los dos primeros
momentos.
poblaciona les
644444444444444444momentos
444447
4444444444444444444444
8
θ−λ
⎛1 − θ ⎞
⎛θ + λ⎞
⎛1 − λ ⎞
α 1 = μ = E(ξ) = ∑ x i P(ξ = x i ) = (−1) ⎜
⎟ + (0) ⎜
⎟ + (1) ⎜
⎟ =
2
⎝ 2 ⎠
⎝ 2 ⎠
⎝ 2 ⎠
i
α 2 = E(ξ 2 ) =
∑ x i2
i
2− θ−λ
⎛1 − θ ⎞
⎛θ+ λ⎞
⎛1 − λ ⎞
P(ξ = x i ) = (−1) 2 ⎜
⎟ + (0) 2 ⎜
⎟ + (1) 2 ⎜
⎟ =
2
⎝ 2 ⎠
⎝ 2 ⎠
⎝ 2 ⎠
6444momentos
44447muestrales
44444448
∑xi
∑ x i2
a1 = x =
i
n
a2 =
i
n
Santiago de la Fuente Fernández
70
Muestreo aleatorio simple
α 1 = a1 ⇒
α 2 = a2 ⇒
•
θ−λ
= x
2
⇒
θ − λ = 2x
2− θ−λ
= a2 ⇒ − θ − λ = 2a2 − 2
2
⎫
⎪
⎪ θ − λ = 2x
⎬
⎪ − θ − λ = 2a2 − 2
⎪
⎭
⎧⎪ ˆ
λ = 1 − a2 − x
⎨ˆ
⎪⎩ θ = 1 − a 2 + x
Insesgadez
Un estimador θ̂ es insesgado (o centrado) cuando se verifica E (ˆθ) = θ
⎛2 − θ − λ ⎞
⎛θ− λ⎞
θ) = E ( 1 − a 2 + x) = 1 − E (a 2 ) + E (x) = 1 − α 2 + μ = 1 − ⎜
E (ˆ
⎟+ ⎜
⎟ = θ
2
⎝
⎠
⎝ 2 ⎠
⎛2 − θ − λ ⎞
⎛θ− λ⎞
λ ) = E ( 1 − a 2 − x) = 1 − E (a 2 ) − E (x) = 1 − α 2 − μ = 1 − ⎜
E (ˆ
⎟− ⎜
⎟ = λ
2
⎝
⎠
⎝ 2 ⎠
Los estimadores θ y λ son insesgados.
Santiago de la Fuente Fernández
71
Muestreo aleatorio simple
CÁLCULO DE ESTADÍSTICOS. FUNCIÓN DE DENSIDAD
24.- Una muestra aleatoria (X1 , L , Xn ) de la población tiene como función de
θ −1
⎧
densidad f θ (x) = ⎪⎨θ x
⎪⎩
0
si x ∈ ( 0, 1 )
en el resto
θ>0
a) Hallar un estadístico suficiente
b) Estimador de máxima verosimilitud de θ
c) Estimador de θ por el método de los momentos
Solución.a)
Un estimador θ̂ es suficiente cuando no da lugar a una pérdida de información. Es
decir, cuando la información basada en θ̂ es tan buena como la que hiciera uso de toda
la muestra.
Para identificar estadísticos suficientes se utiliza el teorema de factorización, que
dice que dada una muestra aleatoria (x 1 , L , x n ) de una población X con función de
masa Pθ (o función de densidad fθ ) un estadístico θ̂ es suficiente para θ si y sólo sí:
[
[
]
]
⎧ P (x , L , x ) = g θ̂ (x , L , x ) , θ . h (x , L , x )
θ
1
n
1
n
1
n
⎪⎪
⎨
⎪ f (x , L , x ) = g θ̂ (x , L , x ) , θ . h (x , L , x )
1
n
1
n
1
n
⎪⎩ θ
caso discreto
caso continuo
Para encontrar un estadístico suficiente θ̂ hay que factorizar la función de
verosimilitud de la forma: L (θ) = g (θ̂ , θ) . h (x 1 , L , x n)
θ −1
θ −1
θ − 1 ) = θ n (x L x ) θ − 1
L (θ) = f θ (x 1) f θ (x 2) L f θ (x n) = (θ x
) (θ x
) L (θ x n
1
n
1
2
Por tanto, θ̂ = x 1 , L , x n es un estadístico suficiente.
b) L (θ) = θ n (x 1 L x n ) θ − 1
n
θ −1
=
ln L (θ) = ln ⎛⎜ θ n (x 1 L x n ) θ − 1 ⎞⎟ = ln θ n + ln ∏ x
i
⎝
⎠
i=1
n
ln L (θ) = n ln θ + (θ − 1) ∑ ln (x i)
i=1
⇒
ln θ n +
n
θ −1
∑ ln ( x i
)
i =1
n
n
ϑ ln L (θ)
=
+ ∑ x i = 0 a θ̂ = −
θ
ϑθ
i=1
n
n
∑ ln (x i)
i=1
c) Se plantea la ecuación E (X) = x
Santiago de la Fuente Fernández
72
Muestreo aleatorio simple
x = E (X) =
x (θ + 1) = θ
1
∫0
x f θ (x) dx =
⇒
ˆ
θ =
1
∫0
x θ x θ − 1 dx =
1
∫0
1
⎡x θ + 1 ⎤
θ
θ x θ dx = θ ⎢
⎥ =
θ+1
⎢⎣ θ + 1 ⎥⎦ 0
x
1− x
Santiago de la Fuente Fernández
73
Muestreo aleatorio simple
25.- Una muestra aleatoria (X 1 , L , X n ) de la población tiene como función de
⎧ − x+θ
densidad f θ (x) = ⎪⎨e
⎪⎩ 0
si x > 0
en el resto
a) Hallar un estimador por el método de los momentos de θ
b) Estudiar si el estimador encontrado en el apartado anterior es insesgado para
estimar el parámetro θ
Solución.a) Se plantea la ecuación: E [X] = x
int egración por partes
x = E [X] =
b)
∞
∫θ
64447444
8
x f θ (x) dx =
∞
∫θ
x e − x + θ dx
=θ+1
⇒
ˆ
θ= x −1
Un estimador es insesgado o centrado cuando su valor probable coincide con el
valor
del parámetro a estimar. Es decir, E (ˆθ) = θ
E (ˆ
θ) = E ( x − 1 ) = E ( x ) − 1 = ( θ + 1 ) − 1 = θ
⎧
−x+θ
−x+θ
−x+θ
−x+θ
⎪∫x
dx = x
− e −x+θ =
{ e
{ (−
{ = − xe
14243
1e4243) − ∫ −
1e4243 dx
⎪ u
u
du
dv
v
v
⎪
int egración ⎪
⎛1 + x ⎞
⎟⎟
= − (1 + x) e − x + θ = − e − θ ⎜⎜
⎨
por partes ⎪
⎝ ex ⎠
⎪
∞
⎪ ∞ x e − x + θ dx = − e − θ ⎛⎜ 1 + x ⎞⎟ = 1 + θ
⎜ x ⎟
⎪ ∫θ
⎝ e ⎠θ
⎩
Santiago de la Fuente Fernández
74
Muestreo aleatorio simple
26.- Una muestra aleatoria (X 1 , L , X n ) de la población tiene como función de
−θx
⎧ 2
densidad f θ (x) = ⎪⎨θ x e
⎪⎩
0
si x > 0
en el resto
Hallar el estimador de máxima verosimilitud de θ
Solución.La función de verosimilitud L (θ) :
L (θ) = f θ (x 1) f θ (x 2) L f θ (x n) = (θ 2 x 1 e
− θx1
) (θ 2 x 2 e
− θx 2
) L (θ 2 x n e
− θx n
)
n
= θ 2 n (x 1 L x n) e
−(θx 1 + θx 2 + L + θx n )
= θ 2 n (x 1 L x n) e
−θ∑ xi
i =1
n
⎡
⎤
−θ ∑ xi ⎥
⎢
⎥
ln L (θ) = ln ⎢⎢θ 2 n (x 1 L x n) e i = 1
⎥
⎢
⎥
⎥⎦
⎣⎢
n
n
n
n
ln L (θ) = (2 n) ln θ + ln ∏ x i − θ ∑ x i ⇒
ln L (θ) = (2 n) ln θ + ∑ ln x i − θ ∑ x i
i=1
i=1
i=1
i=1
n
−θ ∑ xi
⇒
L (θ) = θ 2 n (x 1 L x n) e i = 1
n
ϑ ln L (θ)
2n
=
− ∑ xi = 0
ϑθ
θ
i=1
Santiago de la Fuente Fernández
⇒
θ̂ =
2n
n
∑ xi
i=1
75
Muestreo aleatorio simple
27.- El coseno X del ángulo con el que se emiten los electrones en un proceso
radioactivo es una variable aleatoria con función de densidad
−1 ≤ x≤ 1
⎧( 1 + θ x ) 2
f θ (x) = ⎨
0
en
el resto
⎩
− 1 ≤ θ≤ 1
Consideremos una muestra aleatoria (X 1 , L , X n ) de esta variable aleatoria
a) Obtener el estimador θ por el método de los momentos
b) Calcular la varianza de este estimador y demostrar que es consistente
Solución.Se plantea la ecuación E [ X] = x
a)
x = E [X] =
∫
1
−1
1
x
⎡x 2
1+ θx
θ
θx3⎤
dx = ⎢
=
+
⎥
2
2
6
3
⎥⎦ −1
⎢⎣
b) V (ˆθ) = V (3 x) = 9 V (x) = 9
V (X)
9
=
V (X)
n
n
V (X) = E (X ) − [E (X)]
2
2
de donde, V (ˆθ) =
2
=
∫
1
−1
x
1+ θx
⎡θ⎤
dx − ⎢ ⎥
2
⎣3⎦
⇒
2
ˆ
θ = 3x
1
2
⎡x 3
3 − θ2
θx 4⎤
⎡θ⎤
− ⎢ ⎥
=
= ⎢
+
⎥
8 ⎥⎦
9
⎣3⎦
⎣⎢ 6
−1
9
9 ⎡3 − θ 2 ⎤ 3 − θ 2
V (X) =
⎥=
⎢
n
n ⎣⎢ 9 ⎦⎥
n
Para probar que θ̂ es consistente para estimar θ es suficiente probar
lim E (ˆ
θ) = lim E (3 x) = lim 3 E (x) = 3 E (X) = 3
n→ ∞
n→ ∞
n→ ∞
lim V (ˆ
θ) = lim V (3 x) = lim
n→ ∞
n→ ∞
n→ ∞
⎧ lim E (ˆ
θ) = θ
⎪n→ ∞
⎨
θ) = 0
⎪ lim V (ˆ
⎩n → ∞
θ
=θ
3
3 − θ2
=0
n
Por tanto, queda probado que θ̂ es consistente para estimar θ
Santiago de la Fuente Fernández
76
Descargar