Muestreo e intervalos de confianza Intervalo de confianza para la media: población normal, varianza conocida Grados en Biología y Biología sanitaria M. Marvá. Departamento de Física y Matemáticas. UAH La inferencia estadística: Trata de predecir una característica poblacional a partir de una muestra La probabilidad permite asignar una fiabilidad a la predicción Ejemplo: afirmaciones como la media poblacional vale µ y además conocemos el margen de error para esa medida conocemos la probabilidad de que la afirmación se sea cierta Atención a Diseño experimental ¿Cómo se obtienen las muestras? Distribución muestral ¿Comó son todas las muestras posibles? Ejemplo: Teorema central del límite con R (fichero en la web) El teorema central del límite, versión 2.0 Sea X una v.a. normal, X ∼ N(µX , σX ). Suponer que tomamos una muestra X1 , X2 , · · · , Xn de tamaño n (son copias independientes idénticas de X). Entonces, la media muestral X̄ := verifica X1 + X2 + · · · + Xn n σX X̄ ∼ N µX , √ n independientemente del tamaño n de la muestra La media muestral es un estimador de la media poblacional Valores críticos para la distribución normal estándar Sea 0 ≤ p ≤ 1 un valor de probabilidad cualquiera. El valor crítico de Z correspondiente a p es el valor zp que cumple: F(zp ) = P(Z ≤ zp ) = 1 − p z0.05 = 1.6449 Objetivo: Dada una característica X ∼ N(µX , σX ) hacer predicciones tipo El valor µX está entre a y b con una probabilidad 0.9 P(a < µX < b) = 0.9 1 Damos un rango de valores y no un valor concreto: margen de error 2 No es categórico: asignamos un margen de (in)centidumbre Ejercicio Si Z ∼ N(0, 1), determina un intervalo para la v.a. Z tal que 1 tenga probabilidad 0.9 2 que sea lo más pequeño posible Valores críticos para la distribución normal estándar Si Z ∼ N(0, 1), el intervalo más pequeño tal que P(a < Z < b) = 0.9 es aquel en el que a = z0.95 b = z0.05 Observa que, por simetría, z0.95 = −z0.05 Por un lado, el menor intervalo con probabilidad 0.9 para Z ∼ N(0, 1) P(−z0.95 < Z < z0.95 ) = 0.9 Por otro lado, si X ∼ N(µX , σX ), para muestras de tamaño n σX X̄ − µX √ = Z ∼ N(0, 1) X̄ ∼ N µX , √ ⇔ n σX / n Sustituimos (2) en (1) y tenemos X̄ − µX √ < z0.95 = 0.9 P −z0.95 < σX / n Reorganizando términos en (3) σX σX P X̄ − z0.95 √ < µX < X̄ + z0.95 √ = 0.9 n n La probabilidad de que la media poblacional esté en ese es 0.9 (1) (2) (3) Población normal, varianza conocida Sea X una v.a. normal, cuya varianza σX2 se conoce. Si consideramos muestras de tamaño n, el intervalo de confianza al nivel de confianza nc = (1 − α) para la media µX es: σX σX X̄ − zα/2 √ , X̄ + zα/2 √ n n σX El valor zα/2 · √ es la semianchura del intervalo (mide la precisión). n σX El error estándar de la muestra es √ . n Ejemplo: Se toma una m.a.s. de 40 individuos de una población normal con varianza igual a 9. Calcula el intervalo e confianza para la media poblacional al nivel de confianza 0.99 σX σX P X̄ − zα/2 √ , X̄ + zα/2 √ =1−α n n Algunas observaciones importantes Si aumenta sólo el tamaño de la muestra, mejora el error (precisión) pero no la probabilidad de acertar Si aumenta sólo el nivel de confianza (1 − α), mejora la probabilidad de acertar pero no el error (precisión) Experimentar con el fichero GeoGebra correspondiente Aún más importante La construcción del intervalo de confianza es posible porque conocemos la distribución del estimador media muestral ¿Y si la población de estudio no sigue una distribución normal? ¿Y si no conocemos la varianza de la población de estudio?