1 Introducción

Anuncio
INTERVALOS DE CONFIANZA
Julián de la Horra
Departamento de Matemáticas U.A.M.
1
Introducción
En este capı́tulo, vamos a abordar la estimación mediante Intervalos de Confianza, que es otro de los tres grandes conjuntos de técnicas que se utilizan
en la Inferencia Estadı́stica. La situación general que vamos a considerar es
la misma que en el capı́tulo anterior:
Disponemos de una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X
de una población. Pensamos que esta caracterı́stica puede ser adecuadamente
modelizada mediante un modelo de probabilidad con función de masa Pθ (x)
(en el caso discreto) o con función de densidad fθ (x) (en el caso continuo).
En cualquiera de los casos, lo único que nos falta por conocer es el valor del
parámetro θ ∈ Θ, que es desconocido.
Lo que tratamos de hacer en este capı́tulo es encontrar intervalos que
sirvan para estimar este parámetro desconocido, fijando el nivel de confianza
que queremos que tenga dicha estimación. En primer lugar, se plantearán
dos ejemplos sencillos que servirán como motivación.
Ejemplo 1.- En los ejercicios de cálculo de probabilidades, siempre se
suele hablar de monedas equilibradas pero, naturalmente, no todas lo son.
Nos gustarı́a conocer aproximadamente (estimar) la probabilidad de cara de
una determinada moneda, y llamamos p = P (Cara).
Necesitamos datos, para lo cual lanzamos la moneda, por ejemplo, 100
veces, y anotamos los resultados. Supongamos que obtenemos 55 caras y 45
cruces.
Desde un punto de vista formal, las caras y las cruces pueden ser codificadas mediante unos y ceros, de modo que tenemos una muestra aleatoria
(X1 , ..., X100 ) de
(
X=
1 (si sale cara) con probabilidad p
0 (si sale cruz) con probabilidad 1 − p
y, por tanto, X puede ser modelizada mediante un modelo de Bernoulli con
parámetro p desoconocido.
Podemos estimar la probabilidad de cara, p, mediante el estimador de
máxima verosimilitud, que en este caso es:
p̂ = x̄ =
55
Número de caras obtenidas
=
= 0, 55
Número de lanzamientos
100
1
Ahora bien, cuando decimos que estimamos que p es 0,55, no estamos
afirmando que p valga exactamente 0,55; lo que realmente queremos decir es
que p valdrá, aproximadamente, 0,55. Esto de aproximadamente lo podemos
concretar en diferentes intervalos: (0,54 ; 0,56), (0,50 ; 0,60), ...
Para decidir con qué intervalo nos quedamos, necesitamos una metodologı́a
general que nos permita resolver este tipo de problemas de un modo sistemático y lo más objetivo posible.
Ejemplo 2.- Estamos interesados en conocer aproximadamente (estimar)
el nivel medio de colesterol, µ, de las personas de una población. No se puede
abordar el estudio en toda la población porque el número total de individuos
es muy grande.
Necesitamos datos para poder dar una estimación de µ. Mediremos el
nivel de colesterol de, por ejemplo, 100 individuos elegidos al azar. Supongamos que el nivel medio de colesterol que obtenemos en la muestra es de 190
unidades.
Desde un punto de vista formal, lo que tenemos es una muestra aleatoria (X1 , ..., X100 ) de la caracterı́stica X = “Nivel de colesterol”, que puede
ser modelizada mediante una distribución N (µ; σ), con parámetros µ y σ
desconocidos.
Podemos estimar el nivel medio de colesterol, µ, mediante el estimador
de máxima verosimilitud, que en este caso es:
µ̂ = x̄ = 190
Ahora bien, cuando decimos que estimamos que µ es 190, no estamos
afirmando que µ valga exactamente 190; lo que realmente queremos decir es
que µ valdrá, aproximadamente, 190. Esto de aproximadamente lo podemos
concretar en diferentes intervalos: (185 ; 195), (180 ; 200), ...
Para decidir con qué intervalo nos quedamos, necesitamos una metodologı́a
general que nos permita resolver este tipo de problemas de un modo sistemático y lo más objetivo posible.
2
Intervalos de confianza
En primer lugar, vamos a definir lo que entenderemos por un intervalo de
confianza para estimar un parámetro:
Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica
X de una población con función de masa Pθ (x) (caso discreto), o con función
de densidad fθ (x) (caso continuo), donde θ = (θ1 , ..., θk ) es desconocido.
2
Un intervalo de confianza para estimar θi , con un nivel de confianza 1−α,
es una función que a cada posible muestra (x1 , . . . , xn ) le hace corresponder
un intervalo (T1 , T2 ) = (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn )) tal que:
P {(x1 , . . . , xn ) : θi ∈ (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn ))} = 1 − α
Observaciones:
1. El significado del nivel de confianza es el siguiente:
Supongamos que un intervalo de confianza es construido con un nivel
de confianza 1 − α=0,95. Esto significa que la probabilidad de que el
intervalo contenga al verdadero (y desconocido) valor de θi es 0,95. Es
decir, el 95% de las veces, el intervalo construı́do funcionarı́a bien, en
el sentido de que serı́a una buena estimación del parámetro θi .
Por lo tanto, el nivel de confianza mide la probabilidad de buen funcionamiento de un intervalo y, por este motivo, el nivel de confianza
siempre se elige próximo a 1.
2. Los valores tradicionalmente elegidos para 1 − α son: 0,90, 0,95 y 0,99.
El más habitual de todos es 1 − α = 0,95.
Si el nivel de confianza es demasiado próximo a 1, su probabilidad
de buen funcionamiento será altı́sima, pero a costa de que la longitud
del intervalo será muy grande, convirtiéndolo ası́ en algo inútil. Por
este motivo, suele tomarse 1 − α = 0,95, que representa un valor de
compromiso.
3
Distribuciones asociadas a la Normal
Las distribuciones que vamos a definir en esta sección son distribuciones que
aparecen de modo natural en el muestreo de poblaciones Normales y tienen
un papel fundamental en los intervalos de confianza y en los contrastes de
hipótesis que vamos a utilizar cuando trabajemos con muestras de poblaciones Normales.
Definición.- Sean X1 , . . . , Xn variables aleatorias independientes con distribución N (0; 1). La distribución χ2 de Pearson con n grados de libertad
(abreviadamente χ2n ) es la distribución de la variable aleatoria:
n
X
Xi2
esquemáticamente:
i=1
n
X
i=1
3
!
[N (0; 1)]
2
La distribución χ2n sólo toma valores positivos.
Definición.- Sean Y, X1 , . . . , Xn variables aleatorias independientes con
distribución N (0; 1). La distribución t de Student con n grados de libertad
(abreviadamente tn ) es la distribución de la variable aleatoria:
Y
q P
n
1
n
2
i=1 Xi


N (0; 1) 
esquemáticamente: q
1 2
χ
n n
La distribución tn es simétrica con respecto al cero.
Definición.- Sean X1 , . . . , Xm , Y1 , . . . , Yn variables aleatorias independientes con distribución N (0; 1). La distribución F de Fisher-Snedecor con m y
n grados de libertad (abreviadamente Fm;n ) es la distribución de la variable
aleatoria:
!
1 2
1 Pm
2
χ
i=1 Xi
m
m m
esquemáticamente: 1 2
1 Pn
2
χ
i=1 Yi
n
n n
La distribución Fm;n sólo toma valores positivos.
4
Método de la cantidad pivotal
En esta sección, abordamos la cuestión de cómo construir intervalos de confianza de un modo sistemático y lo más objetivo posible. El método habitualmente utilizado es el método de la cantidad pivotal. En primer lugar,
definimos lo que se entiende por una cantidad pivotal:
Definición.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracterı́stica
X de una población con función de masa Pθ (x) (caso discreto), o con función
de densidad fθ (x) (caso continuo), donde θ = (θ1 , ..., θk ) es desconocido.
Una cantidad pivotal para estimar el parámetro θi es una función
C(X1 , . . . , Xn ; θi )
tal que su distribución es fija (no depende de ningún parámetro desconocido).
De manera esquemática, los pasos que hay que dar para obtener un intervalo de confianza mediante el método de la cantidad pivotal son los siguientes:
1. Fijamos un nivel de confianza 1 − α (próximo a 1).
2. Construimos una cantidad pivotal C(X1 , . . . , Xn ; θi ) para estimar θi .
4
3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos
lados la misma cantidad de probabilidad α/2. Esta construcción es
posible gracias a que la distribución de la cantidad pivotal es fija.
4. Despejamos θi del intervalo anterior, obteniendo ası́ el intervalo de confianza buscado. El intervalo de confianza obtenido tiene sentido como
estimador porque sólo depende de los valores muestrales (no depende
de ningún parámetro desconocido). Su nivel de confianza es 1 − α gracias a que el contenido de probabilidad del intervalo del paso anterior
era 1 − α.
Obviamente, la descripción que se acaba de dar del método es muy abstracta. Por este motivo, es muy conveniente aplicar el método a algún caso
concreto que ayude a entender lo que hacemos en general.
Caso 1.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X ∼ N (µ; σ), donde la media µ es desconocida, pero supondremos
(por sencillez) que σ es conocida. Queremos un intervalo de confianza para
estimar µ. Aplicamos el método de la cantidad pivotal:
1. Fijamos un nivel de confianza 1 − α (próximo a 1).
2. Dado que queremos estimar µ, empezamos considerando su estimador
de máxima verosimilitud que, en este caso, sabemos que es µ̂ = X̄:
√
X̄ ∼ N (µ; σ/ n)
⇒
Por tanto:
C(X1 , ..., Xn ; µ) =
X̄ − µ
√ ∼ N (0; 1)
σ/ n
X̄ − µ
√ ∼ N (0; 1)
σ/ n
es una cantidad pivotal para estimar µ.
3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos
lados la misma cantidad de probabilidad α/2:
(
P −zα/2
)
X̄ − µ
√ < zα/2 = 1 − α
<
σ/ n
5
4. Finalmente, despejamos µ del intervalo anterior:
σ
µ < X̄ + zα/2 √
n
σ
µ > X̄ − zα/2 √
n
El intervalo de confianza que hemos obtenido es:
σ
σ
IC1−α (µ) = X̄ − zα/2 √ ; X̄ + zα/2 √
n
n
!
σ
= X̄ ± zα/2 √
n
!
Observemos que el intervalo de confianza está centrado en X̄, lo cual
parece bastante natural. La cantidad que sumamos y restamos a la media
muestral para obtener el intervalo de confianza recibe el nombre de error en
la estimación:
σ
Error en la estimación = zα/2 √
n
Es interesante poner de manifiesto un par de propiedades del intervalo de
confianza que acabamos de obtener:
1. Cuando el tamaño muestral, n, aumenta, el error en la estimación disminuye y, en consecuencia, la longitud del intervalo disminuye.
2. Cuando el nivel de confianza, 1 − α, aumenta, el error en la estimación
aumenta y, en consecuencia, la longitud del intervalo aumenta.
Estas dos propiedades eran intuitivamente esperables. La ventaja de la
metodologı́a de los intervalos de confianza es que se cuantifica automáticamente
la influencia de n y de 1 − α.
Caso 2.- Consideramos nuevamente una muestra aleatoria (X1 , ..., Xn )
de una caracterı́stica X ∼ N (µ; σ), pero ahora consideramos la situación más
habitual en la práctica, donde tanto µ como σ son desconocidos. Seguimos
interesados en obtener un intervalo de confianza para estimar µ. Volvemos a
aplicar el método de la cantidad pivotal:
1. Fijamos un nivel de confianza 1 − α (próximo a 1).
2. Dado que queremos estimar µ, empezamos otra vez considerando su
estimador de máxima verosimilitud que, en este caso, sabemos que
sigue siendo µ̂ = X̄:
√
X̄ ∼ N (µ; σ/ n)
⇒
6
X̄ − µ
√ ∼ N (0; 1)
σ/ n
Pero, en este caso, nos encontramos con el problema de que
X̄ − µ
√
σ/ n
no puede ser una cantidad pivotal para estimar µ, ya que depende de
σ que ahora es desconocida. Este problema se resuelve sustituyendo
σ por una estimación: la cuasi-desviación tı́pica muestral, S. De este
modo, tenemos que:
C(X1 , ..., Xn ; µ) =
X̄ − µ
√ ∼ tn−1
S/ n
es una cantidad pivotal para estimar µ.
Obsérvese que la nueva cantidad pivotal sigue una distribución tn−1 en
vez de seguir una distribución N (0; 1).
3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos
lados la misma cantidad de probabilidad α/2:
)
(
P −tn−1;α/2
X̄ − µ
√ < tn−1;α/2 = 1 − α
<
S/ n
4. Finalmente, despejamos µ del intervalo anterior:
S
µ < X̄ + tn−1;α/2 √
n
S
µ > X̄ − tn−1;α/2 √
n
El intervalo de confianza que hemos obtenido es:
S
S
IC1−α (µ) = X̄ − tn−1;α/2 √ ; X̄ + tn−1;α/2 √
n
n
!
S
= X̄ ± tn−1;α/2 √
n
Observemos que, nuevamente, el intervalo de confianza está centrado en
X̄, lo cual sigue siendo muy natural. La cantidad que sumamos y restamos
a la media muestral para obtener el intervalo de confianza sigue recibiendo
el nombre de error en la estimación, y ahora es de la forma:
S
Error en la estimación = tn−1;α/2 √
n
7
!
Este intervalo sigue teniendo el mismo tipo de propiedades que tenı́a el
obtenido en el Caso 1.
Aplicando de manera sistemática este método de la cantidad pivotal,
irı́amos obteniendo los intervalos de confianza que se utilizan en las situaciones más habituales:
Una muestra aleatoria de una caracterı́stica con distribución Normal,
Bernoulli, Poisson,...
Dos muestras aleatorias independientes de caracterı́sticas con distribución
Normal, Bernoulli,...
La mayorı́a de los libros dedicados a la Estadı́stica Aplicada incluyen un
listado de los intervalos de confianza más frecuentemente utilizados.
5
Mı́nimo tamaño muestral
En esta última sección, abordamos una cuestión práctica muy interesante:
¿Cuántos datos serán necesarios para estimar un parámetro (con un nivel
de confianza 1 − α), de modo que el error en la estimación quede por debajo
de una cierta cantidad, E, previamente fijada?
Vamos a ver la respuesta a esta pregunta en los casos analizados en la
sección anterior:
Caso 1.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X ∼ N (µ; σ), donde σ es conocida. Queremos obtener un intervalo
de confianza para estimar µ, con un nivel de confianza 1 − α, y queremos
saber cuántos datos serı́an necesarios para estimar µ, de modo que el error
en la estimación quede por debajo de una cierta cantidad, E, previamente
fijada. El procedimiento es sencillo:
σ
Error en la estimación = zα/2 √ < E
n
Despejamos n y obtenemos:
n>
⇒
(zα/2 σ)2
E2
Caso 2.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracterı́stica X ∼ N (µ; σ), donde tanto µ como σ son desconocidos. Queremos
obtener un intervalo de confianza para estimar µ, con un nivel de confianza
1 − α, y queremos saber cuántos datos serı́an necesarios para estimar µ, de
8
modo que el error en la estimación quede por debajo de una cierta cantidad,
E, previamente fijada. Procedemos de manera similar:
S
S
Error en la estimación = tn−1;α/2 √ ' zα/2 √ < E
n
n
(zα/2 S)2
Despejamos n y obtenemos:
n>
E2
En este caso, hay que hacer un par de observaciones sobre la manera de
proceder:
(a) Aunque no sabemos el valor de n (ya que es precisamente lo que
estamos intentando determinar), lo que sı́ sabemos es que (en general) será
un valor grande (por encima de 30). En estas condiciones:
tn−1;α/2 ' zα/2
(b) Como no sabemos el valor que tendrá S en una muestra futura, se
suele tomar el valor que obtengamos en una pequeña muestra piloto.
En general, ésta serı́a la forma de proceder en cualquier otro caso.
9
Descargar