Intervalo de confianza para la media

Anuncio
Muestreo e intervalos de confianza
Intervalo de confianza para la media (varianza desconocida)
Intervalo de confinza para la varianza
Grados en Biología y Biología sanitaria
M. Marvá. Departamento de Física y Matemáticas. UAH
En general, la varianza es un parámetro poblacional desconocido pero
necesario para calcular el intervalo de confianza para la media:
Si no lo conocemos ¿podemos estimarlo?
Candidato natural: calcular la varianza de la muestra
Dada una muestra X1 , · · · , Xn , calcular la media muestral X̄ y
Pn
(Xi − X̄)
Var(X1 , · · · , Xn ) = i=1
n
Se puede demostrar que
E[X̄] = µX . Es un buen estimador puntual.
n−1 2
E[Var(X1 , · · · , Xn )] =
σX . Sistermaticamente infravalora
n
el verdadero valor de la varianza poblacional
Estimadores
Un estimador es insesgado cuando su valor esperado coincide
con el valor de parámetro que pretende estimar
En caso contrario, se dice sesgado
Ejemplo: lo que dice el resultado (de la diapo.) anterior es
La media muestral es un estimador insesgado de la media
poblacional
La varianza de la muestra es un estimador insesgado de la
varianza poblacional
con R, X̄ es un estimador sesgdo pero Var es sesgado
Es estimador insesgado de la varianza
Dada una muestra de la variable X, de tamaño n, formada por los
valores
X1 , . . . , Xn
definimos la cuasivarianza muestral (a veces se llama varianza
muestral) mediante:
n
X
s2 =
(Xi − X̄)2
i=1
n−1
.
Y la cuasidesviación típica muestral (o desviación típica muestral)
es la raíz cuadrada s de la cuasivarianza muestral.
E[s2 ] = σX2
Intervalo de confianza para la media, muestras grandes
Sea X una v.a. cualquiera. Si tomamos muestras de tamaño n > 30,
entonces
s
√
X̄ ∼ N µX ,
n
tiene una distribución normal estándar. Usando este resultado, un
intervalo de confianza al nivel nc = (1 − α) para la media µX es:
s
s
X̄ − zα/2 √ , X̄ + zα/2 √
n
n
que también se escribe como
s
µX = X̄ ± zα/2 √ .
n
Ejemplo: Se ha medido la presión sanguínea (en mmHg) a 40
habitantes de Framingham. Determina el intervalo de confianza para
la media con un nivel de confianza del 0.95%
197.5 122.0 160.0 121.0 116.0 126.0 144.5 123.0
107.0 130.0 126.0 121.5 100.0 106.0 124.0 143.0
159.0 168.0 101.5 131.0 132.5 129.0 146.0 117.5
163.0 127.0 145.0 102.0 181.5 118.5 122.0 112.5
119.0 150.0 123.5 118.0 150.0 114.0 120.0 168.0
Usando, por ejemplo, R: X̄ = 132.15, s = 22.57, z0.025 = 1.96
22.57
22.57
132.15 − 1.96 √ , 132.15 + 1.96 √
= (125.1546, 139.1454)
40
40
Recapitulando:
Si conocemos σ y X es normal
σX
X̄ ∼ N µX , √
n
Si no conocemos σ, para cualquier v.a. X y muestras de n > 30
s
X̄ ∼ N µX , √
n
Si no conocemos σ y las muestras son pequeñas (n < 30), ¿qué
podemos hacer?
Distribución t de Student:
Sea X una variable aleatoria de tipo N(µX , σX ), y sea X̄ la media
muestral de X para muestras de tamaño n. Entonces, la distribución de
la variable aleatoria
X̄ − µX
√ ,
Tk =
s/ n
es la distribución t de Student con k = n − 1 grados de libertad.
Student obtuvo la función de densidad de probabilidad de Tk que, para
para k = n − 1 grados de libertad es:
1
f (x) = √
k · β( 12 , 2k )
x2
1+
k
Veamos su gráfica, y que lim Tk = N(0, 1)
k→∞
− k+1
2
Valores críticos tk;α/2 de distribución t de Student
Sean 0 ≤ p ≤ 1 y k ∈ N. El valor crítico de la distribución t de
Student con k grados de libertad asociado a p es el valor tk;p tal que:
P(Tk ≤ tk;p ) = 1 − p.
tk;p deja una probabilidad p en su cola derecha (1 − p en la cola izda)
t0.95 = −1.8125
10 grados libertad
t0.05 = 1.8125
I.C. para la media: muestras normales, pequeñas, σ 2 desconocida
Sea X una v.a. normal, cuya varianza σX2 se conoce. Si consideramos
muestras de tamaño n, el intervalo de confianza al nivel de confianza
nc = (1 − α) para la media µX es:
s
s
X̄ − Tk,α/2 √ , X̄ + Tk,α/2 √
n
n
El valor Tα/2 · √sn es la semianchura del intervalo (mide la precisión).
El error estándar de la muestra es √sn
Ejemplo: Se ha medido las lipoproteinas de baja densisdad (LDL)
(en mg/dL) a 20 habitantes de Framingham. Determina el intervalo de
confianza para la media con un nivel de confianza del 90%
suponiendo que la concentración de LDL se distribuye de forma
normal
190 157 172 130 266 193 185 170 183 152
212 97 200 162 158 132 203 111 164 244
Usando, por ejemplo, R: X̄ = 174.05, s = 41.06, t19,0.05 = 1.73
41.06
41.06
174.05 − 1.73 √ , 174.05 + 1.73 √
= (158.1737, 189.9263)
20
20
Inferencia sobre la varianza
Muchas poblaciones de interés siguen una distribución normal y para
caracterizarla es necesario conocer (¡estimar!) tanto la media como la
varianza. Ahora nos ocuparemos de la varianza.
Sea X una variable aleatoria de tipo N(µ, σ) (que representa a la
población), y sea X1 , X2 , . . . , Xn una muestra aleatoria de X (las Xi son
n copias independientes de X). Entonces:
n
X
s2 =
(Xi − X̄)2
i=1
n−1
.
El objetivo es relacionar s2 con una normal N(0, 1)para pder
construir un intervalo de confianza para σ 2
Una función de densidad de probabilidad para hacer inferencia
sobre la varianza
s2
σ2
n
X
(Xi − X̄)2
=
i=1
σ2
· (n − 1)
Pn
1
=
(n − 1) i=1
=
n
X
(Xi − X̄)2
=
1
(n − 1)
i=1
(Xi − X̄)2
σ2
σ2
Pn
1
=
(n − 1) i=1
Xi − X̄
σ
Pn
1
1
2
Z12 + Z22 + · · · + Zn2
i=1 Zi =
(n − 1)
n−1
2
Variable aleatoria Chi cuadrado, χ2
Si la variable aleatoria Y es la suma de los cuadrados de una familia de
n copias independientes de la distribución normal estándar, entonces
diremos que Y es de tipo χ2k , con k = n − 1 grados de libertad
La función de densidad de probabilidad de χ2k para k grados de
libertad es:

1

x(k/2)−1 e−x/2 si x ≥ 0
k/2
f (x; k) = 2 Γ(k/2)

0
si x < 0
La media de χ2k es µχ2 = k, y su desviación típica es σχ2 =
k
k
Veamos su gráfica, que no es simétrica.
√
2k
Estadístico para la distribución muestral de σ 2 , poblaciones normales.
Si X es una variable aleatoria de tipo N(µ, σ)), y se utilizan muestras
aleatorias de tamaño n, entonces:
(n − 1)
s2
∼ χ2k , con k = n − 1.
σ2
(1)
Sean 0 ≤ p ≤ 1 y k ∈ N. El valor crítico χ2k;α/2 de distribución χ2k
con k grados de libertad asociado a p es el valor tk;p tal que:
P(χ2k ≤ χ2k;p ) = 1 − p.
χ2k;p deja una probabilidad p en su cola derecha (1 − p en la cola izda)
χ210;0.95 = 1.635383
6 grados de libertad
χ210;0.05 = 12.59159
Intervalo de confianza para σ 2 , poblaciones normales de tamañ o n
Con los valores críticos de χ2n−1 se construte el intervalo de confianza:
fijado nc = 1 − α,
P χ2n−1;1−α/2 < χ2n−1 < χ2n−1;α/2 = 1 − α
s2
∼ χ2n−1 sustituyendo en la expresión anterior
σ2
s2
2
2
P χn−1;1−α/2 < (n − 1) 2 < χn−1;α/2 = 1 − α
σ
Sabemos que (n − 1)
Al reorganizar términos (pág 234 del libro) se tiene
!
2
(n − 1)s2
(n
−
1)s
P
< σ2 < 2
=1−α
χ2n−1;α/2
χn−1;1−α/2
Intervalo de confianza para σ 2 , poblaciones normales
Sea X una v.a. de tipo N(µ, σ). Si consideramos muestras de tamaño
n, el intervalo de confianza al nivel nc = (1 − α) para la media σ es:
!
(n − 1)s2 (n − 1)s2
P
,
χ2n−1;α/2 χ2n−1;1−α/2
Ejemplo: Se ha medido las lipoproteinas de baja densisdad (LDL)
(en mg/dL) a 20 habitantes de Framingham. Determina el intervalo de
confianza para la varianza al nivel de confianza del 90% suponiendo
que la concentración de LDL se distribuye de forma normal
190 157 172 130 266 193 185 170 183 152
212 97 200 162 158 132 203 111 164 244
Usando, por ejemplo, R: s = 41.06, χ219,0.95 = 10.12, χ219,0.05 = 30.14
19 · 41.062 19 · 41.062
,
30.14
10.12
= (25.88, 77.12)
Para tenerel intervalo para σ, extraer las raices cuadradas de los
extremos del intervalo de confianza
Descargar