Diseño Estadístico y Herramientas para la Calidad Pruebas de Hipótesis Expositor: Dr. Juan José Flores Romero [email protected] http://lsc.fie.umich.mx/~juan M. en Calidad Total y Competitividad Pruebas de Hipótesis Hipótesis Analizar datos de una muestra y verificar si confirman una especulación (hiótesis) acerca de parámetros. z z Afirmación acerca de una o más poblaciones. Ejemplos: z z z Hipótesis de la población z z z z z z z Media Proporción Varianza Diferencia de medias Diferencia de proporciones Razón de varianzas Media de diferencias z z z Un periódico atrae más lectores que otro Empleados con cierta capacitación son más eficientes que con otra capacitación La varianza de un proceso tiene un valor dado El ingreso promedio familiar en cierta área tiene cierto valor I 60% de los empleados han terminado la preparatoria Pruebas de Hipótesis 1. 2. 3. 4. 5. 6. 7. Formulación de la Hipótesis Identificación del estadístico de prueba y su distribución Nivel de significancia Formulación de la regla de decisión Colección de datos y cálculos Decisión estadística Decisión administrativa Identificación del Estadístico de Prueba y su Distribución z z La decisión de rechazar o no rechazar la hipótesis nula depende de la magnitud del estadístico de prueba Estadísticos de prueba: z z z z z para medias t para medias varianza desconocida z para proporciones etc. Formulación de la Hipótesis z Hipótesis Nula H0 z z z z Hipótesis a probar Nula = no hay diferencia Ej. 60% de los empleados tienen prepa Hipótesis Alternativa H1 z z Alternativa disponible cuando la hipótesis nula se rechaza Ej. No es el 60%, es mayor del 60%, es menor del 60% Nivel de Significancia z Acciones posibles: z z z Rechazar H0 No rechazar H0 (noten que no dice aceptar) Resultados posibles: 1. 2. 3. 4. Rechazar H0 cuando es falsa Rechazar H0 cuando es verdadera No rechazar H0 cuando es falsa No rechazar H0 cuando es verdadera Nivel de Significancia Nivel de Significancia z H0 Verdadera H0 Falsa No rechazar H0 Rechazar H0 1 OK 3 Error Tipo I α z 2 Error tipo II β 4 OK Nivel de Significancia z z z z z Cuando se ha calculado el estadístico de prueba, se determina la probabilidad de obtener un valor tan o más extremo que el nuestro cuando H0 es cierta Si la probabilidad es menor o igual que α, rechazamos H0, a favor de H1 (el valor del estadístico es significativo) Si la probabilidad es mayor que α, no podemos rechazar H0 (el valor del estadístico no es significativo) Valores comunes de α: 0.05 y 0.01 Seleccionamos el valor de α de acuerdo a las consecuencias de un error tipo I Se desea minimizar la probabilidad de cometer ambos errores Para un tamaño de muestra dado: z z z z ⇓α ⇒ ⇑β ⇓β ⇒ ⇑α La única forma de decrementar ambos es incrementar el tamaño de la muestra α es el nivel de significancia Formulación de la Regla de Decisión z Si, cuando H0 se cumple, la probabilidad de obtener un valor del estadístico tan o más extremo que el obtenido es menor o igual que α, se rechaza la hipótesis. Si no, no se rechaza. z Si el valor calculado del estadístico cae en la región de rechazo, se rechaza H0. Si cae en la región de aceptación, no se rechaza H0. Si el valor calculado es igual al valor crítico, se rechaza H0. Colección de Datos y Cómputo z z z La calidad de una decisión final depende de la calidad de los datos en los que se basa. La muestra debe ser aleatoria y representativa. Los cálculos del estadístico de prueba se llevan a cabo como se estudió en la parte de Estadística Desciptiva. PH de la Media, Distribución Normal, Varianza Conocida z Ej. Una compañía carga una tarifa constante por envíos, basados en un estudio (viejo) que dice que la media de los paquetes es de 17.5 onzas y la d.e. es de 3.6 (considera que todos los paquetes pesaran 17.5). El gerente cree que la media ya no es la misma. El tamaño de la compañía hace que un estudio de la población completa sea imposible. Se decide tomar una muestra de 100 paquetes. Decisiones Estadística y Administativa z z z Evaluar el estadístico de prueba La decisión estadística consiste en rechazar o no rechazar H0, basados en esta evaluación. Si rechazamos H0, la decisión administrativa deberá ser compatible con H1, o bien, puede ser algo como colectar más datos. Formulación de la Hipótesis z z La media de los pesos de los paquetes es la misma. H0: μ = 17.5 H1: μ ≠ 17.5 Estadístico de Prueba z El estadístico de prueba z= x − μ0 σ Nivel de Significancia z z n z z tiene la distribución normal estándar z z Regla de Decisión a) b) Si los datos arrojan un valor de la media tan grande que su probabilidad de ocurrencia cuando H0 es verdadera es menor o igual a α/2, se rechaza H0 Si los datos arrojan un valor del estadístico tan pequeño que su probabilidad de ocurrencia cuando H0 es verdadera es menor o igual a α/2, se rechaza H0 α = 0.05 α establece los límites entre la región de aceptación y la de rechazo Los valores de z que tienen α/2 del área bajo la curva normal estándar la izquierda y derecha. α/2 = 0.05/2 = 0.025 z1 = -1.96, z2 = 1.96 Colección de Datos y Cómputo z z z 100 paquetes fueron pesados Suponga que la media fue de 18.4 oz. z = (18.4-17.5)/(3.6/√100) = 2.5 Decisiones Estadística y Administrativa z Como 2.5>1.96, rechazamos la hipótesis z El peso promedio de los paquetes ha cambiado. La compañía debe considerar un incremento en los cargos de envío. Relación entre PH y Estimación z Al construir el intervalo de confianza de 100(1-α)% para μ, z z si μ0 se encuentra en ese intervalo, no podemos rechazar la hipótesis si μ0 no se encuentra en ese intervalo, se rechaza la hipótesis. x ± 1.96 z Valores p z z z Un valor p es la probabilidad de obtener un valor del estadístico de prueba tan grande o mayor (pequeño-menor) que el obtenido, dado que H0 es verdadera. Es el valor mínimo de significancia al cual H0 sea rechazada. Es la magnitud de la sorpresa que le causaría el rechazo a un creyente de H0. σ n = 18.4 ± 1.96 3.6 = 18.4 ± 0.7 = [17.7,19.1] 100 Como el intervalo no contiene μ0=17.5, se rechaza la hipótesis Segundo Ejemplo z El departamento de control de calidad de una compañía procesadora de alimentos especifica que la media del peso neto por paquete de cereal no debe ser menor que 20 oz. La experiencia indica que los pesos están distribuidos normalmente con una desviación estándar de 19.5 oz. ¿Existe evidencia suficiente para indicar que el peso medio real de los paquetes ha decrementado? Formulación de la Hipótesis z La media de los pesos de los paquetes es la mayor que 20. Estadístico de Prueba z El estadístico de prueba z= z H0: μ ≥ 20 H1: μ < 20 z Nivel de Significancia z z z z α = 0.05 α establece los límites entre la región de aceptación y la de rechazo Esta es una prueba asimétrica, llamada prueba de na cola. El valor de z que tiene α del área bajo la curva normal estándar a la izquierda es: z = -1.645 x − μ0 σ n tiene la distribución normal estándar Regla de Decisión a) Si los datos arrojan un valor de la media tan grande que su probabilidad de ocurrencia cuando H0 es verdadera es mayor o igual a α, se rechaza H0. Colección de Datos y Cómputo z z z 15 paquetes fueron pesados Suponga que la media fue de 19.5 oz. z = (19.5-20)/(31.5/√15) = -1.29 Cálculo de Valores p z z z z z p el es menor valor de significancia α, para el cual H0 puede ser rechazada. Para el ejemplo anterior, z=-1.29. ¿Cuál es el área bajo la curva normal estándar en la región (-∞, -1.29)? Usando la hoja de XL que desarrollamos en el tema de probabilidad, tenemos que p=0.0985. Si p>α, rechazamos H0 Decisiones Estadística y Administrativa z Como -1.29>-1.645, no podemos rechazar la hipótesis. z No existe evidencia estadística que indique que el peso promedio de los paquetes ha disminuido. PH de la Media, Distribución Normal, Varianza Desconocida z Una compañía manufacturera de llantas dice que la vida promedio de cierto tipo de llanta es mayor que 25,000 millas. Una muestra aleatoria de 15 llantas es probada. La media y d.e. Son de 27,000 y 5,000 milla, respectivamente. ¿Podemos concluir que el producto es tan bueno como se presume? Formulación de la Hipótesis z z La media de la vida de las llantas no llega a 25,000 millas. H0: μ ≤ 25,000 Estadístico de Prueba z t= H1: μ > 25,000 z Nivel de Significancia z z z z α = 0.05 α establece los límites entre la región de aceptación y la de rechazo Prueba de una cola. El valor de t que tiene α del área bajo la curva t a la derecha, considerando 14 grados de libertad es: t = 1.7613 Como la d.e. de la población es desconocida, el estadístico de prueba utilizado es: x − μ0 s n el cual tiene la distribución t Regla de Decisión a) Si los datos arrojan un valor de la media tan grande que su probabilidad de ocurrencia cuando H0 es verdadera es menor o igual a α, se rechaza H0 Colección de Datos y Cómputo z z z 15 llantas fueron probadas μ = 27,000, s = 5,000 t = (27,000-25,000)/(5,000/√15) = 1.55 Pares de Observaciones z Decisiones Estadística y Administrativa z Como 1.55<1.7613, no podemos rechazar la hipótesis. z Como no pudimos rechazar la hipótesis nula, los datos no aportan evidencia que indique que la vida de las llantas sea mayor. Cualquier decisión administrativa que contraponga H0, no podrá garantizarse, en base a los datos. Formulación de la Hipótesis Una compañía decide probar que método de capacitación es mejor, el A o el B. Para ello, decide aplicar ambos métodos a parejas de empleados y, al final del curso, medir su desempeño. La siguiente tabla muestra los resultados: Pareja Método A Método B Diferencia 1 90 85 5 2 95 88 7 3 87 87 0 4 85 86 -1 5 90 82 8 6 94 82 12 7 85 70 15 8 88 72 16 9 92 80 12 z El método B es mejor que el A. z H0: μd ≤ 0 H1: μd > 0 Estadístico de Prueba z Como la d.e. de la población es desconocida, el estadístico de prueba utilizado es: t= z z d − μd 0 sd el cual tiene la distribución t μd0 se considera 0. Regla de Decisión a) Si los datos arrojan un valor de la media tan grande que su probabilidad de ocurrencia cuando H0 es verdadera es menor o igual a α, se rechaza H0 Nivel de Significancia z z z z α = 0.05 α establece los límites entre la región de aceptación y la de rechazo Prueba de una cola. El valor de t que tiene α del área bajo la curva t a la derecha, considerando 8 grados de libertad es: t = 1.8595 Colección de Datos y Cómputo z z z z z De los datos colectados se tiene: ⎯d = 8.2 sd = 6.12 s⎯d = 6.12/√9 = 2.04 t=(8.2 - 0) / 2.04 = 4.02 Decisiones Estadística y Administrativa z Como 4.02>1.85, rechazamos la hipótesis. z Como rechazamos la hipótesis nula, concluimos, en base a la evidencia que los datos aportan, que el método A es superior al método B. Como 4.02>3.3554, p<0.005 z