Objetivos 1. Intervalos de Confianza - OCW

Anuncio
M. Iniesta
Universidad de Murcia
INFERENCIA ESTADÍSTICA
Tema 3.2:
Intervalos de conanza
Objetivos
Construir intervalos de conanza para los parámetros más importantes.
Aplicar convenientemente los IC atendiendo a cada situación experimental.
Comparar dos medias o dos proporciones muestrales y analizar posibles diferencias
signicativas.
1. Intervalos de Conanza
Con el objetivo de estimar un parámetro poblacional, un intervalo de conanza es un
rango de valores (calculado a partir de una muestra) en el cual se encuentra el verdadero
valor del parámetro con una probabilidad determinada. A la semiamplitud de dicho
intervalo se le llamará
error de estimación.
La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo
construido se denomina
nivel de conanza
1 − α.
por α.
y se denota
equivocarnos se llama nivel de signicación y se simboliza
La probabilidad de
Denición 1.1 Sea (X1 , ..., Xn ) una m.a.s. de tamaño n, procedente de X ∼ f (x, ϑ)
con ϑ desconocido. Sean ϑb1 , ϑb2 una pareja de estimadores, tal que la probabilidad de que
el intervalo IC = (ϑb1 , ϑb2 ) contenga el verdadero valor de ϑ es de (1 − α), jada de
antemano, entonces a IC se le llama intervalo a nivel de conanza (1 − α)100 % para
el parámetro ϑ.
Veremos que los casos más frecuentes serán los intervalos para medias, proporciones
y diferencias de éstas, así como para varianzas, desviaciones típicas y cocientes de éstas.
Aún así, a continuación damos un esquema de construcción de intervalos de conanza
para cualquier parámetro. Aunque el esquema es simple su aplicación no es trivial en
muchos casos, aparte de los usuales antes mencionados. Veremos que el punto esencial en
dicho esquema es la búsqueda del
Estadístico Pivote que debe reunir ciertos requisitos.
Este punto está absolutamente resuelto en los ejemplos que usaremos.
1.1.
Sea
Método de Construcción
(X1 , ..., Xn )
una m.a.s. de tamaño
n,
X ∼ f (x, ϑ)
parámetro ϑ son:
procedente de
cido. Las etapas para construir un intervalo para el
con
ϑ
descono-
Página: 1
M. Iniesta
Universidad de Murcia
Método para construir un intervalo de conanza
1. Construir
w = g(X1 , . . . , Xn , ϑ),
que recibe el nombre de esta-
dístico pivote, tal que:
a)
b)
c)
Sea monótona en
ϑ.
Tenga distribución conocida.
Su distribución no dependa de ningún parámetro desconocido.
2. Encontrar
a, b ,
tales que
P (a ≤ w ≤ b) = 1 − α
Estos valores
a
y
b
deben ser tales que el intervalo que denen
sea el más corto posible.
3. Invertir la función
w para encontrar dos estimadores ϑb1 y ϑb2 tales
que:
P (a ≤ w ≤ b) = P (ϑb1 ≤ ϑ ≤ ϑb2 ) = 1 − α
Ejemplo 1.2 Sea X ∼ N (µ, σ) con σ conocida y µ desconocida.
Entonces, en primer lugar, denimos el estadístico pivote como:
w=
X̄ − µ
√σ
n
Sabiendo que w ∼ N (0, 1) se tiene
P
−z1− α2 ≤
X̄ − µ
√σ
n
!
=1−α⇔
≤ z1− α2
σ
σ
P −z1− α2 √ ≤ X̄ − µ ≤ z1− α2 √
=1−α⇔
n
n



σ
σ 


P X̄ − z1− α2 √ ≤ µ ≤ X̄ + z1− α2 √  = 1 − α

n
n
|
{z
}
|
{z
}
µ
b1
µ
b2
Nota 1.3 z1− α2 es la abscisa de la distribución normal que deja a su izquierda un área
de 1 − α2 .
Del mismo modo tn−1,1− α2 será la abscisa de la distribución t de Student con n − 1
grados de libertad que deja a su izquierda un área de 1 − α2 .
Ejemplo 1.4 Sea X ∼ N (µ, σ) con µ y σ desconocidas. Se tiene que:
σ
X̄ ∼ N µ, √
n
Z=
X̄ − µ
√σ
n
∼ N (0, 1)
Página: 2
M. Iniesta
Universidad de Murcia
Por otra parte, se cumple lo siguiente:
2
S =
n
X
(Xi − X̄)2
n−1
i=1
Como la variable t de
(n − 1)S 2
∼ χ2n−1
σ2
Student
Z
se obtiene mediante la transformación q
siguiente estadístico cumple con los requisitos
t= q
X̄−µ
√
σ n
(n−1)S 2
=
(n−1)σ 2
X̄ − µ
χ2n
n
∼ tn el
∼ tn−1
√S
n
Es decir, el estadístico pivote es t, y por lo tanto:
P
−tn−1,1− α2 ≤
X̄ − µ
√S
n
!
≤ tn−1,1− α2
=1−α⇔
S
S
P −tn−1,1− α2 √ ≤ X̄ − µ ≤ tn−1,1− α2 √
⇔
n
n



S
S 


P X̄ − tn−1,1− α2 √ ≤ µ ≤ X̄ + tn−1,1− α2 √  = 1 − α

n
n
|
{z
}
|
{z
}
µ
b1
µ
b2
Ejemplo 1.5 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X̄ = 180 063 calcular un intervalo de conanza al 95 % para el parámetro desconocido µ.
σ
00 1
0
0
IC = X̄ ± Z1− α2 √
= 18 063 ± 1 96 √
n
16
Nota 1.6 Cuando las muestras no son normales es posible encontrar intervalos aproximados usando muestras de tamaño grande. En estas situaciones los estadísticos pivotes
seguirán distribuciones aproximadas.
Ejemplo 1.7 Sea X ∼ B(1, p) y {X1 , . . . , Xn } una m.a.s. procedente de X . Como
Pn
pb =
y
V (b
p) = V (f r(A)) =
i=1
n
p(1 − p)
n
resulta el intervalo aproximado pb ± z1− α2
Xi
= X̄ = f r(A)
estimada
√
pb(1−b
p)
√
n
por
pb(1 − pb)
V[
(b
p) =
n
para p con


p
p

pb(1 − pb)
pb(1 − pb) 


√
√
P pb − z1− α2
≤ p ≤ pb + z1− α2
≈1−α


n
n
|
{z
}
|
{z
}
pb1
pb2
Página: 3
M. Iniesta
Universidad de Murcia
2. Determinación del tamaño de muestra
Vamos a considerar cómo se puede jar el tamaño de la muestra en los casos de
estimación por intervalos cuando deseamos acotar el error de estimación, es decir, la
semiamplitud del intervalo, que denotaremos por
Por ejemplo, cuando estimamos
queremos
µ con σ
e.
conocida y jado el nivel de conanza
1 − α,
σ
z1−α/2 √ < e
n
lo que conseguimos haciendo
σ
n > (z1−α/2 )2
e
En el caso de no conocer la varianza podemos aproximarla por una estimación o una
cota de la misma
Ejemplo 2.1 Supongamos que deseamos conocer el tamaño de muestra para que una
proporción estimada diste de la proporción real en menos de 0.05, con probabilidad 0.95.
Como la varianza de pb es
queremos que sea
p(1 − p)
podemos acotar ésta haciendo p(1 − p) ≤ 0.25, así si
n
z1−α/2
p(1 − p)
√
<e
n
basta que sea
n > (z1−α/2
p(1 − p) 2
)
e
pero como p es desconocido, si
n > (z1−α/2
0.25 2
)
e
en particular también se verica la condición anterior. Es decir, en el caso del ejemplo
sería:
n > (1.96
0.25 2
) = 96.04
0.05
o lo que es igual
n ≥ 97
3. Resumen de Intervalos más frecuentes (una sola
muestra)
En la siguiente tabla se recoge la expresión de los intervalos de conanza de los
parámetros más conocidos. La forma de obtener estos ha sido usando un apropiado
estadístico de contraste, que también aparece en la misma tabla junto con su distribución
de probabilidad. Cada situación habrá que enmarcarla en una de las que aparece a
continuación.
Página: 4
M. Iniesta
Universidad de Murcia
Parámetro
Población
Estadístico
µ
Normal con
σ
conocida
µ
Normal con
σ
desconocida
µ
No normal con
σ
conocida (n
µ
No normal con
σ
desconocida (n
p
Bernoulli (n
≥ 30)
≥ 30)
≥ 30)
x−µ
√
σ/ n
x−µ
√
S/ n
x−µ
√
σ/ n
x−µ
√
S/ n
pb − p
q
Distribución
Intervalo de conanza
N (0, 1)
σ
x ± z1−α/2 √
n
tn−1
N (0, 1)
N (0, 1)
N (0, 1)
p(1−p)
n
≥ 30)
λ
Poisson (n
σ2
Normal con
µ
desconocida
x−λ
p
λ/n
(n − 1)S 2
σ2
N (0, 1)
χ2n−1
S
x ± tn−1,1−α/2 √
n
σ
x ± z1−α/2 √
n
S
x ± z1−α/2 √
n
r
pb(1 − pb)
pb ± z1−α/2
n
r
x
x ± z1−α/2
n
2
(n − 1)S (n − 1)S 2
,
χ2n−1,1−α/2 χ2n−1,α/2
4. Caso de dos muestras
En ocasiones es necesario contrastar la homogeneidad de dos muestras para pronosticar si proceden de la misma población o no.
Es decir, se trata de resolver alguna de las siguientes cuestiones:
¾Son dos muestras normales procedentes de la misma población normal?, o bien,
¾provienen de distribuciones normales de misma media y/o misma varianza?
¾Son dos muestras de Bernoulli procedentes de una población con la misma probabilidad de éxito?.
En principio este objetivo lo llevaremos a cabo con intervalos de conanza y más
tarde lo resolveremos mediante test de hipótesis.
¾Cómo podemos interpretar los resultados de un intervalo de conanza para desvelar
una cuestión como la anterior?. Centrémonos en la diferencia de medias, de momento.
Aunque las muestras provengan de la misma población es razonable que al observar
dos muestras de ella se obtengan medias muestrales distintas, estas diferencias se atribuyen al azar. Sin embargo al calcular el intervalo de conanza para la diferencia de dos
medias, éste debe contener el valor cero. Por el contrario, si el intervalo de conanza
la diferencia de medias
muestrales es signicativa y sería lo mismo que concluir que las medias teóricas son
para la diferencia de medias no contiene al cero decimos que
diferentes.
Este mismo argumento podemos elaborar para la diferencia de varianzas, si bien en
este caso el parámetro que se contrasta es el cociente de varianzas y admitiremos que no
hay diferencias signicativas entre ellas si el correspondiente intervalo contiene el valor
1. De ocurrir lo contrario, es decir, si el intervalo no contiene el uno, se concluirá que
las varianzas poblacionales son diferentes puesto que las varianzas muestrales acusan
diferencias signicativas.
Página: 5
µ1 − µ2
p1 − p2
µ1 − µ2
µ1 − µ2
x1 − x2 − (µ1 − µ2 )
q 2
S1
S22
n1 + n2
Normales indep.,
σ1 6= σ2 desconocidas
µ1 − µ2
Bernoulli, indep.,
(n1 ≥ 30, n2 ≥ 30)
D = X1 − X2
Normales apareadas,
n1 > 30, n2 > 30
pb − pb2 − (p1 − p2 )
q1
p1 (1−p1 )
2)
+ p2 (1−p
n1
n1
SD
√
n
x1 − x2 − (µ1 − µ2 )
q 2
S22
S1
n1 + n2
D − µD
x1 − x2 − (µ1 − µ2 )
r
q
(n1 −1)S12 +(n2 −1)S22
1
1
+
n1
n2
n1+n −2
Normales indep.,
σ1 = σ2 desconocidas
No Normales indep.,
σ1 , σ2 desconocidas
x1 − x2 − (µ1 − µ2 )
q 2
σ22
σ1
n1 + n2
Normales indep.,
σ1 y σ2 conocidas
µ1 − µ2
2
S12 /σ12
S22 /σ22
Normales indep.,
µ1 y µ2 desconocidas
Estadístico
σ12
σ22
Parámetros Poblaciones
c2
n1 −1
+
(1−c)2
n2 −1
N (0, 1)
tn−1
aprox. N (0, 1)
S12 /n1
S12 /n1 +S22 /n2
=
c=
1
m
tm
tn1 +n2 −2
N (0, 1)
Fn1 −1,n2 −1
Distribución
,
S12 /S22
pb1 − pb2 ± z1−α/2
r
SD
D ± tn−1,1−α/2 √
n
x1 − x2 ± z1−α/2
S12 S22
+
n1
n2
S12 S22
+
n1
n2
1
n1
+
1
n2
s
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
pb1 (1 − pb1 ) pb2 (1 − pb2 )
+
n1
n2
s
x1 − x2 ± tm,1−α/2
s
x1 − x2 ± tn1 +n2 −2,1−α/2
q
Fn1 −1,n2 −1,1−α/2 Fn1 −1,n2 −1,α/2
s
σ12 σ22
+
x1 − x2 ± z1−α/2
n1 n2
S12 /S22
Intervalo de
conanza
Descargar