PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes Septiembre 2007 1 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 CONTENIDO 1. Experimentos de comparaciones simples 2. Fórmulas para calcular los estadísticos de prueba 3. Ejemplos de pruebas de hipótesis de dos poblaciones 4. Ejercicios adicionales 2 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Pruebas de hipótesis de dos poblaciones En esta sección se analizan ciertos experimentos que se usan para comparar condiciones (a menudo llamadas tratamientos). A menudo, se denominan experimentos de comparación simples. Ejemplo 2.1: La resistencia adhesiva a la tensión del cemento es una característica importante del producto. Se desea probar la resistencia de una fórmula modificada, a la que se han agregado emulsiones de polímeros de látex durante el mezclado, contra la resistencia de la argamasa hecha con la fórmula no modificada. Se hacen 10 observaciones de la resistencia de la fórmula modificada y otras 10 de la fórmula no modificada. Los datos aparecen en la Tabla 1. Tabla 1 Cemento j Cemento modificado original J Y1j Y2j 1 16.85 17.50 2 16.40 17.63 3 17.21 18.25 4 16.35 18.00 5 16.52 17.86 6 17.04 17.75 7 16.96 18.22 8 17.15 17.90 9 16.59 17.96 10 16.57 18.15 Las dos fórmulas pueden considerarse como dos tratamientos, o dos niveles de las formulaciones de factor. 3 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 A primera vista, estos datos dan la impresión de que la resistencia del cemento original es mayor que la del modificado, se refuerza al comparar los valores medios de la resistencia a la tensión, es decir, Y1 16.76 kgf/cm2 del cemento modificado contra Y2 17.92 kgf/cm2 del cemento original. Una técnica de inferencia estadística llamada prueba de hipótesis (algunos prefieren denominarla pruebas de significación), puede servir para ayudar al experimentador al comparar estas dos fórmulas. Inferencias sobre la diferencia de medias, diseños aleatorizados Ahora se analizan los datos de este experimento de comparación simple, usando procedimientos de prueba de hipótesis y de intervalos de confianza, para comparar las medias de los dos tratamientos. Prueba de Hipótesis Una hipótesis estadística es una afirmación acerca de los parámetros de una población. Por ejemplo, en el problema del cemento puede pensarse que el nivel medio de la resistencia a la tensión de ambas formulas es similar. Esto lo podemos expresar, formalmente, de la siguiente manera: H0 : μ1 μ2 H1 : μ1 μ2 En donde 1 es el valor medio de la resistencia a la tensión del cemento modificado, mientras que 2 es el valor medio de la resistencia a la tensión del cemento original. La afirmación H0 se conoce como hipótesis nula, mientras que H1 se conoce como hipótesis alterna. La hipótesis alterna 4 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 propuesta en este ejemplo es una hipótesis alterna bilateral, ya que puede ser verdadera sí 1 < 2 o bien sí 1, > 2. Para probar una hipótesis hay que diseñar un procedimiento para tomar una muestra aleatoria y calcular un estadístico de prueba apropiada con objeto de rechazar o no la hipótesis nula H0. Parte de este procedimiento consiste en especificar el conjunto de valores del estadístico de prueba que conduzcan al rechazo de H0. Este conjunto de valores se denomina región crítica o región de rechazo de la prueba. Al efectuar pruebas de hipótesis pueden cometerse dos tipos de error. Ocurre un error de tipo I cuando la hipótesis nula es rechazada siendo verdadera. Si la hipótesis nula no es rechazada cuando es falsa se comete un error de tipo II. Las probabilidades de cometer estos errores reciben un símbolo especial. = P(error tipo I) = P(rechazar H0H0 es verdadera) = P(error tipo II) = P(no rechazar H0H0 es falsa) En ocasiones, es más conveniente trabajar con la potencia de la prueba, donde Potencia = 1 - P(rechazar H0 H0 es falsa) El procedimiento general de la prueba de hipótesis consiste en especificar un valor para , la probabilidad de error tipo I, llamado a menudo, nivel de significación de la prueba, para después diseñar un procedimiento que asegure un valor pequeño para la probabilidad de error tipo II. 5 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Supongamos que puede aceptarse que poseen el mismo valor las variancias en ambas fórmulas de cemento. Una estadística de prueba apropiada para usarse en la comparación del nivel medio de los dos tratamientos en un diseño completamente aleatorizado es: to Y1 Y2 1 1 Sp n1 n2 Donde Y1 y Y2 son las medias muéstrales, n1 y n2 el tamaño de las muestras, Sp2 es una estimación de la variancia común 12 = 22 = 2 calculado mediante: Sp 2 n1 1S12 n2 1S22 n1 n2 2 S12 y S22 son las dos variancias muéstrales individuales. Hay que comparar t0 con respecto a la distribución t con n1 + n2 - 2 grados de libertad, para decidir si se rechaza H0: 1 = 2. Se debe rechazar H0 y concluir que el nivel medio de la resistencia a la tensión para las dos fórmulas de mortero de cemento Pórtland difieren si to > to/2, n1 + n2 –2, donde to/2, n1 + n2 –2 es el punto porcentual /2 superior de la distribución t con n1 + n2 -2 grados de libertad. Este procedimiento se justifica de la siguiente manera: Si se realiza el muestreo de dos poblaciones normales independientes, la distribución de Y1 Y2 es N{1 - 2, 2(1/n1+ 1/n2)}. 6 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 En este caso, si 2 es conocida, y sí, además, H0: 1 = 2 resulta verdadera, la distribución de: Zo Y1 Y 2 1 1 σ n1 n2 Será NID(0,1 ). Sin embargo, al reemplazar por Sp en la Ecuación anterior se cambia la distribución Zo de la normal estándar a t con n1 + n2 -2 grados de libertad. Ahora bien, si H0 es verdadera, t0 en la Ecuación de la prueba de to tiene una distribución tn1 + n2 -2 y, en consecuencia, se espera que el 100(1 -) por ciento de los valores de t0 se encuentren entre t/2, n1 + n2- 2 y t/2, n1 + n2- 2. Una muestra que produzca un valor de to fuera de estos límites es inusual si la hipótesis nula es verdadera, y constituye una evidencia de que Ho debe ser rechazada. Nótese que es la probabilidad del error tipo I para la prueba. En algunos problemas el experimentador puede estar interesado en rechazar Ho sólo si una media es mayor que la otra. En este caso se especifica la hipótesis alterna unilateral Ho: 1 > 2 y se rechaza Ho sólo sí to > t, n1 + n2- 2. Si se desea rechazar Ho cuando 1 es menor que 2 solo si menor que 1, la hipótesis alterna será H1: 1 < 2 debe rechazar sí H sí to < -t,n1 + n2 -2. 7 y el experimentador PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES Del ejemplo, con los datos de la tabla 2.1, se tiene: 1 16.85 17.50 2 16.40 17.63 3 17.21 18.25 4 16.35 18.00 5 16.52 17.86 6 17.04 17.75 7 16.96 18.22 8 17.15 17.90 9 16.59 17.96 10 16.57 18.15 Media D.E. Var. 16.764 17.922 0.316 0.248 0.100 0.061 Cemento modificado: Y1 16.76kfg/cm 2 S1 2 0.100 S1 0.316 n 10 Cemento original:: Y 2 17.92kf g / cm2 S12 0.061 S1 0.247 n 10 Y Sp 2 n1 1S12 n2 1S22 n1 n2 2 9(0.100) 9(0.061) 0.081 10 10 2 Sp 0.284 8 P. Reyes/Sept. 2007 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Nótese que no es razonable concluir que las variancias poblacionales son iguales por el hecho de que las variancias muéstrales sean similares. La estadística de prueba es: Y1 Y 2 1 1 Sp n1 n2 16.76 17.92 to 0.284 1 10 1 10 9.13 Ahora bien, el punto porcentual superior de 2.5 de la distribución t con n 1 + n2 – 2 = 10 + 10 – 2 = 18 grados de libertad, es t.025,18 = 2.101. Como to= 9.13 > t025,18 = 2.101, debe rechazarse Ho y concluir que existe diferencia en el nivel medio de la resistencia a la tensión de las dos clases de mortero. 9 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 2. Fórmulas para calcular los estadísticos utilizados en las pruebas de Hipótesis de 2 poblaciones. Fórmulas para Intervalos de confianza para parámetros de dos poblaciones a) Intervalo de confianza para la diferencia entre dos medias poblacionales (1-2) con muestras grandes (n >= 30 ) y cuando ya se cuenta con historial, o sea que es conocida: IC para ( 1 2 ) ( X 1 X 2 ) Z / 2 12 n1 22 n2 Si las poblacionales no se conoce entonces se usan las S de las muestras en su lugar: IC para ( 1 2 ) ( X 1 X 2 ) Z / 2 S12 S 22 n1 n2 b) Intervalo de confianza para estimar la diferencia entre dos medias poblacionales (1-2) con muestras pequeñas (n < 30; gl n1 n2 2 ). Con varianzas iguales (1=2) desconocidas: S p2 S p2 S12 (n1 1) S 22 (n2 1) S IC para( 1 2 ) ( X 1 X 2 ) t / 2, gl n1 n2 2 n1 n2 2 p c) Intervalo de confianza para estimar la diferencia entre dos medias poblacionales (1-2) con muestras pequeñas (n < 30; grados de libertad = gl. Con varianzas desiguales (1 2): desconocidas: ( S12 / n1 S 22 / n2 ) 2 gl 2 ( S1 / n1 ) 2 /(n1 1) ( S 22 / n2 ) 2 /(n2 1) IC para ( 1 2 ) ( X 1 X 2 ) t ' / 2, gl S12 S 22 n1 n2 d) Intervalo de confianza para la diferencia de medias con observaciones pareadas (gl = n-1): 10 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES d d n i ; Sd d 2 i nd 2 n 1 ; IC para d d t / 2, gl P. Reyes/Sept. 2007 Sd n e) Intervalo de confianza para estimar la diferencia de proporciones poblacionales (1- 2): S p1 p 2 p1 (1 p1 ) p2 (1 p2 ) ; IC para( 1 2 ) ( p1 p2 ) Z / 2 S p1 p 2 n1 n2 Fórmulas para calcular los estadísticos utilizados en las pruebas de Hipótesis de 2 pob. f) Estadístico Zc para probar la diferencia entre 2 medias poblacionales con muestras grandes (n >= 30): Zc ( X 1 X 2 ) ( 1 2 ) S12 S 22 n1 n2 Lo normal es que. Ho : 1 2 0 o 1 2 g) Estadístico Fc para probar la igualdad de varianzas Fc S12 S 22 Seleccionar que S1 sea la mayor. 11 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 h) Estadístico tc para probar la diferencia de medias de 2 poblaciones con muestras pequeñas (n < 30) y donde se asume que las 1 y 2 son iguales pero desconocidas: S p2 S12 (n1 1) S 22 (n2 1) ( X X 2 ) ( 1 2 ) ; tc 1 n1 n2 2 S p2 S p2 n1 n2 i) Estadístico tc para probar la diferencia entre 2 medias poblacionales con muestras pequeñas (n < 30) y se asume que las 1 y 2 son desiguales y desconocidas: t 'c ( X 1 X 2 ) ( 1 2 ) S12 S 22 n1 n2 j) Estadístico tc para probar la igualdad de dos medias poblacionales para observaciones pareadas: d d n i ; Sd d 2 i nd 2 n 1 d ( 1 2 ) ; tc Sd n k) Estadísico Zc para probar la diferencia de dos proporciones poblacionales: S p1 p 2 p1 (1 p1 ) p 2 (1 p 2 ) ( p p 2 ) ( 1 2 ) ; Zc 1 n1 n2 S p1 p 2 12 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 A continuación se presentan ejemplos de cada caso: a) Estadístico Zc para probar la diferencia entre 2 medias poblacionales con muestras grandes (n >= 30): Zc ( X 1 X 2 ) ( 1 2 ) S12 S 22 n1 n2 Lo normal es que. Ho : 1 2 0 o 1 2 Estadístico de tablas Zalfa o Zalfa/2 en Excel =DISTR.NORM.ESTAND.INV(alfa o alfa/2) Estadístico de tablas Zalfa o Zalfa/2 en Minitab >Calc >Probability distributions> Normal: Inverse Cummulative prob; Mean = 0; Std. Dev. = 0; Input constant = Alfa o alfa/2 Intervalo de confianza para la diferencia entre dos medias poblacionales (1-2) con muestras grandes (n >= 30 ) y cuando ya se cuenta con historial, o sea que es conocida: IC para ( 1 2 ) ( X 1 X 2 ) Z / 2 12 n1 22 n2 Si las poblacionales no se conoce entonces se usan las S de las muestras en su lugar: 13 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES IC para ( 1 2 ) ( X 1 X 2 ) Z / 2 P. Reyes/Sept. 2007 S12 S 22 n1 n2 El valor p de probabilidad correspondiente al estadístico Zc se determina como sigue: P value en Excel =DISTR.NORM.ESTAND(Zc) P value en Minitab >Calc >Probability distributions> Normal: Cummulative prob; Mean = 0; Std. Dev. = 0; Input constant = Zc Prueba Minitab >Stat >Basic statistics > 2- Sample t Summarized data Sample size Mean Standar deviation First 60 587 145 Second 50 512 125 º! Assume equal variances Options: Confidence level 98% Test difference 0.0 Alternate Not equal OK 14 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Criterios de rechazo de Ho: Si Zc cae en la zona de rechazo El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2 (dos colas). b) Estadístico Fc para probar la igualdad de varianzas S12 Fc 2 S2 Seleccionar que S1 sea la mayor. Estadístico de tablas Falfa/2 en Excel = DISTR.F.INV(Alfa/2, gl. n1-1, gl. n2-1) El valor p de probabilidad correspondiente a Fc en Minitab se determina como sigue: P value en Excel =DISTR.F(Fc, gl. n1-1, gl. n2-2) P value en Minitab >Calc >Probability distributions> F: Cummulative prob; Numerator degrees of freedom = n1- 1; denominator degrees of freedom = n2-1; Input constant = Fc 15 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Prueba Minitab >Stat >Basic statistics > 2- Variances Summarized data Sample size Variance First 60 21025 Second 50 15625 Number of trial 500 Number of events 225 Options: Confidence level 98% OK Resultados Test for Equal Variances 98% Bonferroni confidence intervals for standard deviations Sample N Lower StDev Upper 1 60 116.937 145 188.881 2 50 98.928 125 167.622 F-Test (normal distribution) Test statistic = 1.35, p-value = 0.287 16 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Criterios de rechazo de Ho: Si Fc cae en la zona de rechazo El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2 (dos colas). c) Estadístico tc para probar la diferencia de medias de 2 poblaciones con muestras pequeñas (n < 30) y donde se asume que las 1 y 2 son iguales pero desconocidas: S p2 S12 (n1 1) S 22 (n2 1) ( X X 2 ) ( 1 2 ) ; tc 1 n1 n2 2 S p2 S p2 n1 n2 Estadístico de tablas Talfa o Talfa/2 en Excel =DISTR.T.INV(2*alfa o alfa, grados de libertad n1+n2-2) Estadístico de tablas Talfa o Talfa/2 en Minitab >Calc >Probability distributions> : Inverse Cummulative prob; Degrees of freedom = n1+n2-2; Input constant = Alfa o alfa/2 Intervalo de confianza para estimar la diferencia entre dos medias poblacionales (1-2) con muestras pequeñas (n < 30; gl n1 n2 2 ). Con varianzas iguales (1=2) desconocidas: 17 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES S p2 P. Reyes/Sept. 2007 S12 (n1 1) S 22 (n2 1) n1 n2 2 IC para( 1 2 ) ( X 1 X 2 ) t / 2, gl S p2 n1 S p2 n2 El valor p de probabilidad correspondiente al estadístico Tc se determina como sigue: P value en Excel =DISTR.T(Tc, grados de libertad = n1 + n2 - 2, 1 o 2 colas) P value en Minitab >Calc >Probability distributions> T: Cummulative prob; Degrees of freedom = n1 + n2 - 2; Input constant = Tc Criterios de rechazo de Ho: Si Tc cae en la zona de rechazo El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2 (dos colas). 18 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Prueba Minitab >Stat >Basic statistics > 2- Sample t Summarized data Sample size Mean Standar deviation First 60 587 145 Second 50 512 125 º! Assume equal variances Options: Confidence level 98% Test difference 0.0 Alternate Not equal OK Resultados Two-Sample T-Test and CI SE Sample N Mean StDev Mean 1 60 587 145 19 2 50 512 125 18 Difference = mu (1) - mu (2) Estimate for difference: 75.0000 19 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES 98% CI for difference: P. Reyes/Sept. 2007 (13.3739, 136.6261) Si en el IC no se encuentra el 0 se rechaza la Hipótesis nula. T-Test of difference = 0 (vs not =): T-Value = 2.87 P-Value = 0.005 DF = 108 Both use Pooled StDev = 136.2901 d) Estadístico tc para probar la diferencia entre 2 medias poblacionales con muestras pequeñas (n < 30) y se asume que las 1 y 2 son desiguales y desconocidas: t 'c ( X 1 X 2 ) ( 1 2 ) S12 S 22 n1 n2 Estadístico de tablas Talfa o Talfa/2 en Excel =DISTR.T.INV(2*alfa o alfa, grados de libertad calculados) Estadístico de tablas Talfa o Talfa/2 en Minitab >Calc >Probability distributions> : Inverse Cummulative prob; Degrees of freedom =calculados; Input constant = Alfa o alfa/2 gl (S12 / n1 S22 / n2 ) 2 (S12 / n1 ) 2 /(n1 1) (S22 / n2 ) 2 /(n2 1) Intervalo de confianza para estimar la diferencia entre dos medias poblacionales (1-2) con muestras pequeñas (n < 30; grados de libertad = gl. Con varianzas desiguales (1 2): desconocidas: 20 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES IC para( 1 2 ) ( X 1 X 2 ) t ' / 2, gl P. Reyes/Sept. 2007 S12 S 22 n1 n2 El valor p de probabilidad correspondiente al estadístico Tc se determina como sigue: P value en Excel =DISTR.T(Tc, grados de libertad =calculados, 1 o 2 colas) P value en Minitab >Calc >Probability distributions> T: Cummulative prob; Degrees of freedom = calculados; Input constant = Tc Criterios de rechazo de Ho: Si Tc cae en la zona de rechazo El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2 (dos colas). e) Estadístico tc para probar la igualdad de dos medias poblacionales para observaciones pareadas: d d n i ; Sd d 2 i nd 2 n 1 d ( 1 2 ) ; tc Sd n Estadístico de tablas Talfa o Talfa/2 en Excel =DISTR.T.INV(2*alfa o alfa, grados de libertad = n-1) 21 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Estadístico de tablas Talfa o Talfa/2 en Minitab >Calc >Probability distributions> : Inverse Cummulative prob; Degrees of freedom = n – 1; Input constant = Alfa o alfa/2 Intervalo de confianza para la diferencia de medias con observaciones pareadas (gl = n-1): d d n i ; Sd d 2 i nd 2 n 1 ; IC para d d t / 2, gl Sd n El valor p de probabilidad correspondiente al estadístico Tc se determina como sigue: P value en Excel =DISTR.T(Tc, grados de libertad = n – 1, 2 colas) P value en Minitab >Calc >Probability distributions> T: Cummulative prob; Degrees of freedom = n - 1; Input constant = Tc 22 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Prueba en Minitab >Stat >Basic statistics > Paired t Summarized data (differences) Sample size 81 Mean 36.5 Standar deviation 29.1 Options: Confidence level Test difference 99% 0.0 Alternate Not equal OK Resultados Paired T-Test and CI Difference N Mean StDev SE Mean 81 36.5000 29.1000 3.2333 99% CI for mean difference: (27.9682, 45.0318) T-Test of mean difference = 0 (vs not = 0): T-Value = 11.29 P-Value = 0.000 23 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Criterios de rechazo de Ho: Si Tc cae en la zona de rechazo El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2 (dos colas). f) Estadísico Zc para probar la diferencia de dos proporciones poblacionales: S p1 p 2 p1 (1 p1 ) p 2 (1 p 2 ) ( p p 2 ) ( 1 2 ) ; Zc 1 n1 n2 S p1 p 2 Estadístico de tablas Zalfa o Zalfa/2 en Excel =DISTR.NORM.ESTAND.INV(alfa o alfa/2) Estadístico de tablas Zalfa o Zalfa/2 en Minitab >Calc >Probability distributions> Normal: Inverse Cummulative prob; Mean = 0; Std. Dev. = 0; Input constant = Alfa o alfa/2 Intervalo de confianza para estimar la diferencia de proporciones poblacionales (1- 2): S p1 p 2 p1 (1 p1 ) p2 (1 p2 ) ; IC para( 1 2 ) ( p1 p2 ) Z / 2 S p1 p 2 n1 n2 24 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 El valor p de probabilidad correspondiente al estadístico Zc se determina como sigue: P value en Excel =DISTR.NORM.ESTAND(Zc) P value en Minitab >Calc >Probability distributions> Normal: Cummulative prob; Mean = 0; Std. Dev. = 0; Input constant = Zc Prueba Minitab >Stat >Basic statistics > 2- Proportion Summarized data First Trials Events 120 83 Second 150 109 Confidence level 95% Test differenca 0.0 Alternative Not equal º! Use pooled estimate of p for test OK Resultados Test and CI for Two Proportions 25 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES Sample X N Sample p 1 83 120 0.691667 2 109 150 0.726667 P. Reyes/Sept. 2007 Difference = p (1) - p (2) Estimate for difference: 95% CI for difference: -0.035 (-0.144150, 0.0741499) Test for difference = 0 (vs not = 0): Z = -0.63 P-Value = 0.528 Si Zc cae en la zona de rechazo El valor Cero de la Hipótesis no se encuentra en el Intervalo de confianza El valor P es menor que el valor de alfa (prueba de una cola) o de alfa/2 (dos colas). 26 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES 3. P. Reyes/Sept. 2007 Ejemplos de pruebas de hipótesis de dos poblaciones Prueba Z de 2 colas Problema 1 Se toman muestras de tamaño n2=50 y n1=60, revelan medias y desviaciones estándar X2=512, s2 =125, X1=587, s1=145 respectivamente. A un nivel del 2% pruebe la hipótesis de que las medias de ambas poblaciones son iguales. Solución a) Prueba de igualdad de varianzas Solución 1) Ho: σ12 = σ22 Ho: σ12 ≠ σ22 2) Fc = 145*145 / 125*125 = 1.3456 3) F0.02/2,59,49 = distr.f.inv(0.01, 59, 49) = 1.92 4) Dado que Fc= 1.34 es menor que Ft= 1.92 la Ho no se rechaza a un nivel de alfa del 2%. Indicando que las varianzas son iguales: 5) El valor P correspondiente a Fc es: =distr.f(1.34, 59,49) = 0.1467 27 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Prueba Minitab >Stat >Basic statistics > 2- Variances Summarized data Sample size Variance First 60 21025 Second 50 15625 Number of trial 500 Number of events 225 Options: Confidence level 98% OK RESULTADOS Y CONCLUSIONES…… Las varianzas son iguales b) Prueba de la igualdad de medias 1) Ho: μ1 = μ2 Ho: μ1 ≠ μ2 2) S= √ (125)2 / 50 + (145) 2 / 60 = √ 312.5 + 350.42 = 25.75 Zc= (512 -587) – 0 / 25.75 = -75 / 25.75 = -2.91 3) α= 2% 0.02/2 = 0.01 Z de tablas para 0.01 = -2.32 28 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 4) Dado que Zc= -2.91 es menor a Zt=-2.32 la Ho se rechaza a un nivel alfa del 2%. Las medias de las poblaciones no son iguales 5) Valor P correspondiente a Zc es 0.0018 con =distr.norm.estand(-2.91) Prueba Minitab >Stat >Basic statistics > 2- Sample t Summarized data Sample size Mean Standar deviation First 60 587 145 Second 50 512 125 º! Assume equal variances Options: Confidence level 98% Test difference 0.0 Alternate Not equal OK RESULTADOS Y CONCLUSIONES…… Problema 2 Se toman muestras de tamaño n2=64 y n1=81, revelan medias y desviaciones estándar X2=65.2 s2=21.2 X1=58.6, s1=25.3 respectivamente. A un nivel del 5% pruebe la hipótesis de que las varianzas y después de que las medias de ambas poblaciones son iguales. 29 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Solución a) Prueba de igualdad de varianzas 1) Ho: σ12 = σ22 Ho: σ12 ≠ σ22 2) Fc = 25.3*25.3/ 21.2*21.2 = 1.424 3) F0.05/2,80,63 = distr.f.inv(0.025, 80, 63) = 1.61 4) Dado que Fc= 1.424 es menor que Ft= 1.61 la Ho no se rechaza a un nivel de alfa del 5%. Indicando que las varianzas son iguales: El valor P correspondiente a Fc para media cola es: =distr.f(1.424, 80, 63) = 0.072 Prueba con Minitab: RESULTADOS Y CONCLUSIONES…… b) Prueba de igualdad de medias 1) Ho: μ1 = μ2 Ho: μ1 ≠ μ2 2) S= √ (21.2)2 / 64 + (25.3) 2 / 81 = √ 7.02 + 7.90 = 3.86 Zc= (65.2 -58.6) – 0 / 3.86 = 1.71 3) α= 5% 0.05/2=0.025 Z de tablas para 0.025 = 1.95 30 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 4) Dado Zc= 1.71 menor a Zt=1.95 la Ho no se rechaza a un nivel de confianza del 5%. Indicando que las medias poblacionales no son diferentes 5) Valor P de la prueba para Zc = 1.71 =distr.norm.estand(-1.71) = 0.0436 Este valor es mayor que alfa/ 2 = 0.025 por tanto se rechaza Ho. Prueba con Minitab: RESULTADOS Y CONCLUSIONES…… Problema 3 Determinar a un 90% de nivel de confianza si hay diferencia entre las varianzas y las medias de los tiempos que se tarda en arreglar una cocina y una recámara: A) Prueba de igualdad de dos varianzas Cocina Recamara 25.2 18.0 17.4 22.9 22.8 26.4 21.9 24.8 19.7 26.9 23.0 17.8 19.7 24.6 23.0 21.0 B) Prueba de igualdad de dos medias 19.7 16.9 21.8 23.6 31 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Prueba con Minitab: RESULTADOS Y CONCLUSIONES…… Problema 4 Probar si hay diferencia entre los métodos actual y nuevo para la realización de una tarea, a un 95% de nivel de confianza: Los datos de los tiempos de respuesta para ambos métodos se muestran a continuación: Actual Nuevo 300 276 280 222 344 310 385 338 372 200 360 302 288 317 321 260 376 320 290 312 301 334 283 265 A) Probar la igualdad de las varianzas B) Probar la igualdad de las medias Prueba con Minitab: RESULTADOS Y CONCLUSIONES…… 32 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Prueba Z de dos colas para proporciones Problema 5 Muestras de tamaño n1=120 y n2=150 produjeron proporciones de p1=0.69 y p2=0.73. Pruebe la igualdad de las proporciones de las poblaciones a un nivel del 5%. 1) Ho: π1 = π2 Ho: π1 ≠ π2 2) s= √(0.69)(1-0.69) / 120 + (0.73)(1-0.73)/150 = √0.00178 + 0.00131= 0.056 Zc= 0.69 – 0.73 / 0.056 = -0.714 3) 0.05/2 = 0.025 Z de tablas para 0.025= -1.95 4) Dado que Zc=- 0.714 es mayor que Zt=-1.95 la Ho no se rechaza a un nivel de confianza del 5%. 5) El valor P correspondiente a la Zc es 0.2376 con =distr.norm.estand(Zc = -0.714 Prueba Minitab >Stat >Basic statistics > 2- Proportion Summarized data Trials Events First 120 83 Second 150 109 Confidence level 95% Test differenca 0.0 º! Use pooled estimate of p for test OK 33 Alternative Not equal PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 RESULTADOS Y CONCLUSIONES…… Problema 6 Yahoo hizo una encuesta para determinar el porcentaje de personas que usaban Internet en el trabajo: En México se encontró que el 40% de los adultos usa Internet de una muestra de 240. En Monterrey el 32% de los adultos usaba Internet de una muestra de 250. ¿Es mayor la proporción que usa Internet en México que en Monterrey para un 95% de nivel de confianza? 34 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 4. Ejercicios adicionales: 1. Se toman 200 muestras de dos segmentos normales de clientes identificando su preferencia en los productos de la empresa, los datos obtenidos son: Media 1 = 6.40, Sigma 1 = 2.19, Media 2 = 6.80, Sigma 2 = 2.42. Probar a un 95% de nivel de confianza si no hay diferencia en las medias. 2. Los resultados para dos diferentes equipos se muestran a continuación: A 60.0 56.0 68.8 77.0 74.4 72.0 57.6 64.2 75.2 58.0 60.2 56.6 B 55.2 44.4 62.0 67.6 40.0 60.4 63.4 52.0 64.0 62.4 66.8 53.0 Probar a un 95% de nivel de confianza si: a) Si no hay diferencia en las varianzas de los segmentos. b) Si no hay diferencia en las medias de los segmentos. 3. Los tiempos de llamadas a dos servicios de Call centres en minutos son los siguientes: A 2.95 3.16 3.12 3.45 3.2 3.22 3.5 3.22 2.98 3.75 3.38 3.45 3.48 3.9 B 3.22 3.3 3.34 3.28 3.29 3.25 3.3 3.27 3.38 3.34 3.35 3.19 3.35 3.05 Probar a un 80% de nivel de confianza si hay diferencia: 35 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 a) Entre las varianzas de los dos Call Centers. b) Entre las medias de los dos Call Centers. 4. A dos grupos de inspectores se les pidió que indicaran el porcentaje de rechazo en dos líneas de producción: Línea A: Lotes inspeccionados 50 Lotes rechazados 21 Línea B: Lotes inspeccionados 65 Lotes rechazados 26 Probar a un Nivel de Confianza del 98% se hay diferencia de calidad en las dos líneas productivas. 5. Determinar a un nivel de confianza del 90% si hay diferencia entre las medias de dos poblaciones. Cocina 25.2 17.4 22.8 21.9 19.7 23.0 19.7 23.0 19.7 16.9 21.8 23.6 Recamara 18.0 22.9 26.4 24.8 26.9 17.8 24.6 21.0 6. Se toman muestras aleatorias de 15 mujeres sindicalizadas y 20 no sindicalizadas con los siguientes: salarios por hora: 22.4 18.9 Sind. 16.7 14.1 16.2 20.0 16.1 16.3 19.1 16.5 18.5 19.8 17.0 14.3 17.2 No sind. 17.6 14.4 16.6 15.0 17.7 15.0 17.6 13.3 11.2 15.9 19.2 11.9 16.7 145.2 15.3 17.0 15.1 14.3 13.9 14.5 36 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 7. Los tiempos de terminación del programa y estadísticos del estudio de prueba del programa se muestran a continuación: Tecnología actual: 300 280 376 290 301 312 334 385 372 360 288 321 310 338 200 302 317 260 283 Nuevo programa: 276 222 320 344 265 8. Los tiempos de terminación para la tarea con un método mejorado y actual son, para el mismo empleado:Pareadas Método 1 6.0 5.0 7.0 6.2 6.0 6.4 Método 2 5.4 5.2 6.5 5.9 6.0 5.8 9. Un comprador califica un producto antes y después de ver un comercial: pareadas Antes 5 4 7 3 5 8 5 6 Después 6 6 7 4 3 9 7 6 10. A dos grupos de personas se les pidió que indicaran el porcentaje de recordatorio de dos comerciales: Comercial Lo vieron Lo recordaron A 150 63 B 200 60 37 PRUEBAS DE HIPÓTESIS DE DOS POBLACIONES P. Reyes/Sept. 2007 Probar a un 5% si son iguales los dos grupos 11. Yahoo hizo una encuesta para determinar el porcentaje de personas que usaban Internet en el trabajo: En México se encontró que el 40% de los adultos usa Internet de una muestra de 240. En Monterrey el 32% de los adultos usaba Internet de una muestra de 250. ¿Es mayor la proporción que usa Internet en México que en Monterrey? 12. Los tiempos de respuesta en días de dos procesos de atención al cliente se muestran a continuación: Proceso A 2.95 3.16 3.12 3.45 3.2 3.22 3.5 3.22 2.98 3.75 3.38 3.45 3.48 3.9 3.7 3.26 3.36 3.34 3.33 3.25 3.18 3.2 3.28 3.35 3.12 3.22 3.3 Proceso B 3.34 3.28 3.29 3.25 3.3 3.27 3.38 3.34 3.35 3.19 3.35 3.05 3.36 3.258 3.3 3.28 3.3 3.3 3.2 3.16 3.33 Probar a un 95% de confianza si hay diferencia entre las varianzas de las dos muestras. 38