William S. Gosset Born: 13 June 1876 in Canterbury, England Died: 16 Oct 1937 in Beaconsfield, England http://www-groups.dcs.st-and.ac.uk/~history/Mathematicians/Gosset.html Leer Cuadro 9-1, página 276 de Aron, A. Aron, E. (2001) Estadística para Psicología. Segunda Edición. Prentice Hall. 1 8.2 Tomando decisiones acerca de la media de una población Hipótesis Escriba las hipótesis nula y alternativa que usaría para probar las siguientes aseveraciones. Las hipótesis deben ser expresadas en términos de , la media de la población de interés. a) La media de la edad de los pacientes en un hospital es de más de 60 años. b) La media del contenido de cafeína de una taza regular de café es de menos de 110 mg. c) El número promedio de pacientes que ingresan a la Posta Central diariamente difiere de 20. 2 Distribución muestral de X , la media muestral Si tomamos una muestra aleatoria simple de tamaño n de una población con media y desviación estándar , y ... ...si la población original distribuye normal, X Z= ~ N 0,1 X ~ N , n n ...si la población original no es necesariamente normal, pero el tamaño muestral es suficientemente grande, X ~ ???,n 30 (TCL) Z= X es aprox.N 0,1 n 3 Test Z para la media de una población Queremos docimar una hipótesis acerca de la media poblacional nula es H 0 : 0 , donde 0 es un valor hipotético de . . La hipótesis Asumimos que los datos provienen de una muestra aleatoria de tamaño n, de una población con distribución Normal con desviación estándar conocida . El supuesto de normalidad no es crucial si el tamaño de la muestra es grande. Nuestra decisión acerca de estandarizada x , la cual es: estará basada en el valor de la media muestral Z x 0 n Este “score” o puntaje z es el test estadístico, y su distribución bajo H 0 es aproximadamente N ( 0,1) . Notar que el test estadístico es el mismo, y no depende de la hipótesis alternativa Calculamos el valor-p del test, el cuál depende de la hipótesis alternativa: Test Unilateral, cola superior Si H1 : 0 , entonces el valor-p es el área a la derecha del test estadístico observado bajo H 0 . Test Unilateral, cola inferior Si H1 : 0 , entonces el valor-p es el área a la izquierda del test estadístico observado bajo H 0 . Test Bilateral Si H1 : 0 , entonces el valor-p es el área afuera de las dos colas del test estadístico observado bajo H 0 . N(0,1) N(0,1) p-value Z OBS Z N(0,1) p-value 2 p-value Z Z OBS p-value 2 -ZOBS +ZOBS Z Decisión: Si el valor-p es menor o igual al nivel de significación se rechaza H 0 . 4 ¿Monóxido de carbono? Sea = media de monóxido de carbono en los paquetes de cigarrillos. En el pasado esa media ha sido 15 mg, con una desviación estándar de 4,8 mg y queremos saber si la media actual es menor que la media antigua de 15 mg. Alpine BensonHedges BullDurham CamelLights Carlton Chesterfield GoldenLights Kent Kool LandM LarkLights Marlboro Merit MultiFilter NewportLights Now OldGold PallMallLights Raleigh SalemUltra Tareyton True ViceroyRichLights VirginiaSlim WinstonLights *Fuente de datos: Federal Trade http://www.ftc.gov/bcp/menu-tobac.htm 40% 30% Porcentaje MARCA Monóxido de Carbono (mg) 13.6 16.6 23.5 10.2 5.4 15.0 9.0 12.3 16.3 15.4 13.0 14.4 10.0 10.2 9.5 1.5 18.5 12.6 17.5 4.9 15.9 8.5 10.6 13.9 14.9 20% 10% 0 5 10 15 20 25 Contenido de Monóxido de Carbono (mg) Estadísticos descriptivos N Contenido de Monóxido de Carbono (mg) N válido (según lista) Media 25 12.528 Desv. típ. 4.7397 25 Commission 5 2 Varianza de la población ( ) desconocida El cálculo del error estándar de la media muestral incluye a , pero casi nunca vamos a conocer la variabilidad en la población en estudio. Cuando se desconoce el del universo, el error estándar del promedio debe calcularse a partir de la desviación estándar de la muestra: s x s n En este caso ya no es lícito trabajar con la distribución normal y la variable normal estándar, z= x x x n 1 sino que se trabajará con la variable t de Student: x x t s s n x Esta variable t sigue una distribución t de Student con (n-1) grados de libertad. Ejemplo: Si en la sala hay 24 sillas para 24 estudiantes, ¿cuantas sillas puede elegir el primer estudiante que entra en la sala? ¿el siguiente? .... ¿el penúltimo? ¿el último? 2 Propiedades de la distribución t de Student N(0,1) t(15) t(3) Los valores de t dependen del número de grados de libertad, los que se determinan a partir del número usado en el denominador para el cálculo de la desviación estándar (s) es decir (n-1). La función de densidad de la distribución t de Student tiene forma de campana simétrica, similar a la distribución normal N(0,1). Es un poco más “chata” y tiene “colas más pesadas” que la N(0,1). Cuando el tamaño de la muestra aumenta, la distribución t de Student se aproxima a la N(0,1). 3 Uso de la Tabla t: a) Encuentre el percentil 99 de la distribución t con 4 gl: t.99(4) b) Encuentre el percentil 10 de la distribución t con 30 gl: t.10(30) c) Encuentre el percentil 95 de la distribución t con gl Se observa, por ejemplo, que el percentil 97,5 que en la curva normal corresponde a un valor de z = 1,96, en la distribución de t para 24 grados de libertad corresponde a un t de 2,064. Para n infinito la distribución t de Student es igual a la normal, pero en la práctica cuando el número de observaciones es superior a 30, los valores de z y t ya son tan parecidos que se puede utilizar como aproximación, la distribución normal. 4 t(df) Area 0 t Tabla: Percentiles de la distribución t de Student gl t 0.60 t 0.70 t 0.80 t 0.90 t 0.95 t 0.975 t 0.99 t 0.995 1 2 3 4 5 0.325 0.289 0.277 0.271 0.267 0.727 0.617 0.584 0.569 0.559 1.376 1.061 0.978 0.941 0.920 3.078 1.885 1.638 1.533 1.476 6.314 2.920 2.353 2.132 2.015 12.706 4.303 3.182 2.776 2.571 31.821 6.965 4.541 3.747 3.365 63.657 9.925 5.841 4.604 4.032 6 7 8 9 10 0.265 0.263 0.262 0.261 0.260 0.553 0.549 0.546 0.543 0.542 0.906 0.896 0.889 0.883 0.879 1.440 1.415 1.397 1.383 1.372 1.943 1.895 1.860 1.833 1.812 2.447 2.365 2.306 2.262 2.228 3.143 2.998 2.896 2.821 2.764 3.657 3.925 3.841 3.604 3.169 11 12 13 14 15 0.260 0.259 0.259 0.258 0.258 0.540 0.539 0.538 0.537 0.536 0.876 0.873 0.870 0.868 0.866 1.363 1.356 1.350 1.345 1.341 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2.160 2.145 2.131 2.718 2.681 2.650 2.624 2.602 3.106 3.055 3.012 2.977 2.947 16 17 18 19 20 0.258 0.257 0.257 0.257 0.257 0.535 0.534 0.534 0.533 0.533 0.865 0.863 0.862 0.861 0.860 1.337 1.333 1.330 1.328 1.325 1.746 1.740 1.734 1.729 1.725 2.120 2.110 2.101 2.093 2.086 2.583 2.567 2.552 2.539 2.528 2.921 2.898 2.878 2.861 2.845 21 22 23 24 25 0.257 0.256 0.256 0.256 0.256 0.532 0.532 0.532 0.531 0.531 0.859 0.858 0.858 0.857 0.856 1.323 1.321 1.319 1.318 1.316 1.721 1.717 1.714 1.711 1.708 2.080 2.074 2.069 2.064 2.060 2.518 2.508 2.500 2.492 2.485 2.831 2.819 2.807 2.797 2.787 26 27 28 29 30 0.256 0.256 0.256 0.256 0.256 0.531 0.531 0.530 0.530 0.530 0.856 0.855 0.855 0.854 0.854 1.315 1.314 1.313 1.311 1.310 1.706 1.703 1.701 1.699 1.697 2.056 2.052 2.048 2.045 2.042 2.479 2.473 2.467 2.462 2.457 2.779 2.771 2.763 2.756 2.750 40 60 120 0.255 0.254 0.254 0.253 - t 0.40 0.529 0.527 0.526 0.524 - t 0.30 0.851 0.848 0.845 0.842 - t 0.20 1.303 1.296 1.289 1.282 - t 0.10 1.684 1.671 1.658 1.645 - t 0.05 2.021 2.000 1.980 1.960 - t 0.025 2.423 2.390 2.358 2.326 - t 0.01 2.704 2.660 2.617 2.576 - t 0.005 gl 5 Test t simple para la media de una población Estamos interesados en docimar la hipótesis acerca de la media de una población . La hipótesis nula es H0 : 0 donde 0 es un valor hipotético para . La hipótesis alternativa da la dirección del test. Se asume que los datos provienen de una muestra aleatoria de tamaño n de una población con distribución Normal con desviación estándar desconocida . El supuesto de normalidad no es crucial si el tamaño de la muestra es grande. Nuestra decisión acerca de , será en base al valor de la media muestral x 0 estandarizada x , el cual es . s n Este es el test estadístico y su distribución bajo H 0 , es una distribución t con n-1 grados de libertad. t El valor-p del test, depende de la hipótesis alternativa: Unilateral, cola superior Si H1 : 0, entonces el valor-p es el área a la derecha del test estadístico observado bajo H 0 Unilateral, cola inferior Si H1 : 0, entonces el valor-p es el área a la izquierda del test estadístico observado bajo H 0 t(n-1) t(n-1) p-value TOBS T Bilateral Si H1 : 0, entonces el valor-p es el área en las dos colas, fuera del test estadístico observado bajo H 0 t(n-1) p-value 2 p-value TOBS T p-value 2 -TOBS +TOBS T Decisión: Si el valor-p es menor que el nivel de significancia entonces rechazamos H 0 . 6 Tiempos de estudio Un profesor universitario lee un artículo que discute sobre el tiempo que dedican los alumnos para estudiar cada semana. El artículo dice que los alumnos estudian en promedio 7,06 horas por semana. El profesor cree que los alumnos estudian más de 7,06 horas por semana en promedio. El profesor elige una m.a.s. de 15 estudiantes de su universidad y encuentra que el promedio muestral de estudio es x 8,43 horas y la desviación estándar es s 4,32 . Asuma que el tiempo de estudio semanal sigue una distribución normal. a) b) c) d) Establezca la hipótesis a docimar Calcule el test estadístico Encuentre el valor p del test. Los resultados, ¿son estadísticamente significativos al 5%? e) Escriba su conclusión al profesor. 7 H : 7,06 0 Test: H1 : 7,06 0,05 Test estadístico: x 0 8,43 7,06 1,37 t 1,23 s 4,32 / 15 1,1154 n Valor p = área a la derecha de 1,23 en la tabla t con 14 g.l. 0,2 > valor p > 0,1 Por lo tanto el valor p > 0,05 por lo que no podemos rechazar Ho Conclusión: Con un nivel de significación del 5%, no tenemos suficiente evidencia para concluir que los alumnos estudian, en promedio, más de 7,06 horas por semana. 8 Datos del mar Laengelmavesi, Finlandia Se tiene una muestra de peces que fueron pescados en el mar Laengelmavesi de Finlandia. Se está investigando el peso de los peces en kilos. Se quiere docimar la hipótesis de que el peso es menor que 16 kilos. Informe sus resultados. = promedio de peso de los “percas” (perch) en kilos Test estadístico observado: x 0 15,839 16 t 0,883 s 1,3618 . n 56 -0,883 nos dice que la media muestral esta a 0,883 errores estándar debajo de la media hipotética de 16. 9 Calculo del valor p: Usando la Tabla t: Ya que el test t observado de -0,883 cae entre el percentil 10 y el 20, en la distribución t con 40 grados de libertad, el valor p estará entre 0,10 y 0,20. t(55) t(40) Area=Va lor p p -1,303 -0,883 -0,.851 0 t 0,10 t o b s t0,20 0,10 valor p 0,20 Usando el computador: t = -0,885 y 55 grados de libertad, se obtiene un valor p de 0,19. Por lo tanto con un nivel de significancia del 10% no podemos rechazar H 0 . Necesitaríamos un valor mayor que 0,19 para rechazar H 0 . 10 Concluímos que el peso promedio de las “percas” en este mar, no es significativamente menor que 16 kilos ( 0,1). 11 Test t simple para la media de una población Estamos interesados en docimar la hipótesis acerca de la media de una población . La hipótesis nula es H : donde es un valor hipotético para . La hipótesis alternativa da la dirección del test. 0 0 0 Se asume que los datos provienen de una muestra aleatoria de tamaño n de una población con distribución Normal con desviación estándar desconocida . El supuesto de normalidad no es crucial si el tamaño de la muestra es grande. Nuestra decisión acerca de , será en base al valor de la media muestral x 0 t estandarizada x , el cual es . s n Este es el test estadístico y su distribución bajo H 0 , es una distribución t con n-1 grados de libertad. El valor-p del test, depende de la hipótesis alternativa: Unilateral, cola superior Si H1 : 0, entonces el valor-p es el área a la derecha del test estadístico observado bajo H 0 Unilateral, cola inferior Si H1 : 0, entonces el valor-p es el área a la izquierda del test estadístico observado bajo H 0 t(n-1) t(n-1) p-value TOBS T Bilateral Si H1 : 0, entonces el valor-p es el área en las dos colas, fuera del test estadístico observado bajo H 0 t(n-1) p-value 2 p-value TOBS T p-value 2 -TOBS +TOBS T Decisión: Si el valor-p es menor que el nivel de significancia entonces rechazamos H 0 . 12