INFERENCIAS CON STATISTIX Intervalos de confianza • • • • Para la media de una población normal Para la proporción en una población Para la diferencia de medias de dos normales independientes Para la diferencia de proporciones Contrastes de hipótesis • • • • • • Para la media de una población normal Para una proporción Para la diferencia de medias de dos normales independientes Para la diferencia de dos proporciones Para la diferencia de medias de dos normales apareadas Test de asociación Profa. M. Carmen Carollo Limeres 1 INTERVALOS DE CONFIANZA CON STATISTIX 1) INTERVALO PARA LA MEDIA DE UNA POBLACIÓN NORMAL Caso I) A través de estadística descriptiva Statistics /Summary Statistics/ Descriptive Statistics. Activar: Conf Int Permite elegir el nivel de confianza Ejemplo: Intervalo de confianza para la agresividad media (en el archivo Alcohol.sx) Salida del Statistix Descriptive Statistics Variable Lo 95% CI Up 95% CI AGGRESS 1.0426 1.2330 Minimum Maximum 0.5900 1.7300 Caso II) Como resultado dentro de un contraste de hipótesis II. A) Caso de tener todas las observaciones en Statistix: Statistics /One, Two, Multi-Sample Tests/One_Sample T test. Es necesario fijar una hipótesis nula (puede ser cualquiera) Por defecto construye un intervalo de confianza del 95% Ejemplo: Intervalo de confianza para la agresividad media (en el archivo Alcoho.sxl) Salida del Statistix Hypothesis Test - One Mean Null Hypothesis mu = 1.5 Alternative Hyp mu <> 1.5 T -7.76 P 0.0000 95% C.I. Lower Bound 1.0426 95% C.I. Upper Bound 1.2330 2 II. B) Caso de disponer sólo de medidas resumen: Statistics /One, Two, Multi-Sample Tests/Hypothesis tests/One Mean. Es necesario fijar una hipótesis nula (puede ser cualquiera). Permite elegir el nivel de confianza 2) INTERVALO PARA LA PROPORCIÓN DE UNA POBLACIÓN Sólo se puede obtener como resultado dentro de un procedimiento de contraste de hipótesis: Statistics /One, Two, Multi-Sample Tests/Hypothesis tests/One Proportion. Es necesario fijar una hipótesis nula (puede ser cualquiera). Permite elegir el nivel de confianza Ejemplo: Intervalo de confianza para la proporción de bebedores (en el archivo Alcohol.sx) Salida del Statistix Method 95% Confidence Interval Simple Asymptotic (0.32676 , 0.67324) 3) INTERVALO PARA LA DIFERENCIA DE MEDIAS DE DOS NORMALES INDEPENDIENTES Sólo se pueden obtener como resultado dentro de un procedimiento de contraste de hipótesis. A) Caso de tener todas las observaciones en Statistix: Statistics /One, Two, Multi-Sample Tests/Two-sample T test Permite elegir el nivel de confianza Ejemplo: Comparar el peso medio en hombres y mujeres (archivo urgencias.completo.sx) 3 Salida del Statistix T-Tests for Mean Difference Null Hypothesis: difference = 0 Alternative Hyp: difference <> 0 95% CI for Difference Method Variances DF T P Lower Pooled Equal 74 8,36 0,0000 12.025 Satterthwait Unequal 66,7 8,26 0,0000 11.972 Homogeneity of Variances DF Folded F Test 35,39 Upper 19.554 19.607 F P 1.59 0,0811 La salida muestra el test de homogeneidad de varianzas H 0 : σ H2 = σ M2 . El valor del estadístico del contraste es F= 1.59 al que le corresponde un p-valor= 0.0811 que es >0.05 y por lo tanto no rechazamos H 0 : σ H2 = σ M2 . Al admitir que las varianzas son iguales, el intervalo de confianza para µ H − µ M es (12.025 19.554). B) Caso de disponer sólo de medidas resumen: Statistics /One, Two, Multi-Sample Tests/Hypothesis tests/Two Means Ejemplo: Algunos autores afirman que los pacientes con depresión tienen una función cortical por debajo de lo normal, debido a un riego sanguíneo por debajo de lo normal. Se ha medido X= flujo sanguíneo en 20 pacientes con depresión (D) y en 22 individuos normales (N). Los resultados fueron los siguientes: nD =20 , xD = 47 , sD =7.8 nN =22 , xN = 53.8 , sN =6.1 Salida del Statistix T-Tests for Mean Difference Null Hypothesis: difference = 0 Alternative Hyp: difference < 0 Method Variances DF T P Pooled Equal 40 -3,16 0,0015 Satterthwai Unequal 35,9 -3,13 0,0018 95% CI for Difference Lower Upper -11.146 -2.4543 -11.213 -2.3874 Homogeneity of Variances DF F P Folded F Test 19,21 1.64 0,1376 ACEPTAMOS IGUALDAD DE VARIANZAS 4 4) INTERVALO PARA LA DIFERENCIA DE DOS PROPORCIONES Sólo se pueden obtener como resultado dentro de un procedimiento de contraste de hipótesis. Statistics /One, Two, Multi-Sample Tests/Hypothesis tests/Two Proportions Es necesario fijar una hipótesis nula (puede ser cualquiera). Permite elegir el nivel de confianza Ejemplo: Se quiere comprobar la efectividad de una cierta vacuna. Para ello, se le administra la vacuna a 100 animales de experimentación y se compara con un grupo “testigo” de otros 100 animales sin vacunar. Se contagia a los 200 animales con la enfermedad y como consecuencia, murieron 8 de los vacunados y 20 de los no vacunados. ¿Podemos concluir que la vacuna es eficaz? Salida del Statistix Hypothesis Test - Two Proportions Sample Size Successes Proportion Sample 1 100 8 0,08000 Sample 2 100 20 0,20000 Difference -0,12000 Null Hypothesis: P1 = P2 Alternative Hyp: P1 < P2 95% Confidence Interval of Difference -0,21473 < P1-P2 < -0,02527 5 CONTRASTES DE HIPÓTESIS CON STATISTICS 1) CONTRASTE PARA LA MEDIA DE UNA POBLACIÓN NORMAL A) Caso de tener todas las observaciones en Statistix: Ejemplo: Estudio de la variable agresividad en el archivo Alcohol.sx. ¿Podemos admitir que la agresividad media es 1.5? Statistics/ One, two, Multi_sample tests / One_sample test Salida del Statistix One-Sample T Test Null Hypothesis: mu = 1.5 Alternative Hyp: mu <> 1.5 Variable Mean AGGRESS 1.1378 SE 0.0467 95% Conf Interval Lower Upper 1.0426 1.2330 T DF -7.76 31 RECHAZAMOS LA HIPÓTESIS NULA Ejemplo: Estudio de la variable agresividad en el archivo Alcohol.sx. ¿Podemos admitir que la agresividad media es < 1.5? 6 P 0.0000 Salida del Statistix One-Sample T Test Null Hypothesis: mu = 1.5 Alternative Hyp: mu < 1.5 Variable AGGRESS Mean 1.1378 SE 0.0467 95% Conf Interval Lower Upper 1.0426 1.2330 T DF -7.76 31 P 0.000 RECHAZAMOS LA HIPÓTESIS NULA B) Caso de disponer sólo de medidas resumen (tamaño, media y desviación típica) Statistics / One, two, Multi_sample tests / Hipótesis test /One mean Ejemplo: En 28 pacientes se ha medido el nivel de GOT y los resultados fueron los siguientes: = x 24.75 = , s 4.25 Contrastar la hipótesis de si GOT es, en promedio, 25. Salida del Statistix Hypothesis Test - One Mean Null Hypothesis mu = 25 Alternative Hyp mu <> 25 N 28 Mean 24.750 SD 4.2500 SE 0.8032 DF 27 T -0.31 P 0.7580 ACEPTAMOS LA HIPÓTESIS NULA 95% C.I. Lower Bound 23.102 95% C.I. Upper Bound 26.398 7 2) CONTRASTE PARA UNA PROPORCIÓN Statistics / One, two, Multi_sample tests / Hipótesis test / One proportion Ejemplo: Un medicamento conocido cura el 80% de los casos de una enfermedad. Un nuevo medicamento resulta eficaz en 85 pacientes de 100 que se han tratado con dicho medicamento ¿Basta este resultado muestral para asegurar la superioridad del nuevo medicamento? Salida del Statistix Hypothesis Test - One Proportion Sample Size Successes Proportion 100 85 0,85000 Null Hypothesis: P = 0.8 Alternative Hyp: P > 0.8 Difference 0,05000 Standard Error 0,03571 Z (uncorrected) 1,25 P 0,1056 Z (corrected) 1,12 P 0,1303 ACEPTAMOS LA HIPÓTESIS NULA. NO HAY EVIDENCIAS DE QUE SEA MEJOR Method 95% Confidence Interval Simple Asymptotic (0.78002, 0.91998) Simple Asymptotic with CC (0.77502, 0.92498) Wilson Score (0.76716, 0.90694) Wilson Score with CC (0.76147, 0.91085) Notes on C.I.: 1) CC means continuity correction. 2) Wilson Score method with CC is the preferred method, particularly for small samples or for proportions close to 0 or 1. 8 3) CONTRASTE PARA LAS MEDIAS DE DOS NORMALES INDEPENDIENTES Caso I) Caso de tener todas las observaciones en Statistix Ejemplo: Comparación de agresividad media en sobrios y ebrios. Archivo Alcohol.sx Statistics / One, two, Multi_sample tests / Two_sample test Salida del Statistix Two-Sample T Tests for AGGRESS by DRINK DRINK N Mean SD SE Sober 16 1.0581 0.1980 0.0495 Drinking 16 1.2175 0.3021 0.0755 Difference -0.1594 0.2554 0.0903 T-Tests for Mean Difference Null Hypothesis: difference = 0 Alternative Hyp: difference <> 0 Method Variances DF T P Pooled Equal 30 -1,77 0,0877 Satterthwaite Unequal 25,9 -1,77 0,0894 95% CI for differ Lower Upper -0.3438 0.0250 -0.3450 0.0263 ACEPTAMOS LA HIP. NULA. NO HAY RAZÓN PARA ADMITIR QUE LAS MEDIAS SON DISTINTAS Homogeneity of Variances Folded F Test DF F 15,15 2.33 P 0,0563 ACEPTAMOS IGUALDAD DE VARIANZAS. ¿La agresividad media es menor en los sobrios? Realizamos un contraste unilateral por la izquierda 9 Salida del Statistix Two-Sample T Tests for AGGRESS by DRINK DRINK N Mean SD SE Sober 16 1.0581 0.1980 0.0495 Drinking 16 1.2175 0.3021 0.0755 Difference -0.1594 0.2554 0.0903 T-Tests for Mean Difference Null Hypothesis: difference = 0 Alternative Hyp: difference < 0 Method Variances DF T P Pooled Equal 30 -1,77 0,0439 Satterthwa Unequal 25,9 -1,77 0,0447 95% CI for differ Lower Upper -0.3438 0.0250 -0.3450 0.0263 RECHAZAMOS NULA. ACEPTAMOS QUE LA AGRESIVIDAD MEDIA ES MENOR EN LOS SOBRIOS Homogeneity of Variances DF F P Folded F Test 15,15 2.33 0,0563 ACEPTAMOS IGUALDAD DE VARIANZAS Caso II) Caso de disponer sólo de medidas resumen (tamaños, medias y desviaciones típicas) Statistics /One, Two, Multi-Sample Tests/Hypothesis tests/Two Means Ejemplo: Algunos autores afirman que los pacientes con depresión tienen una función cortical por debajo de lo normal, debido a un riego sanguíneo por debajo de lo normal. Se ha medido X= flujo sanguíneo en 20 pacientes con depresión (D) y en 22 individuos normales (N). Los resultados fueron los siguientes: nD =20 , xD = 47 , sD =7.8 nN =22 , xN = 53.8 , sN =6.1 Salida del Statistix Hypothesis Test - Two Means N Sample 1 Sample 2 Difference Mean SD SE 20 47.000 7.8000 1.7441 22 53.800 6.1000 1.3005 -6.8000 6.9595 2.1502 10 T-Tests for Mean Difference Null Hypothesis: difference = 0 Alternative Hyp: difference < 0 95% CI for Difference Method Variances DF T P Lower Upper Pooled Equal 40 -3,16 0,0015 -11.146 -2.4543 Satterthwai Unequal 35,9 -3,13 0,0018 -11.213 -2.3874 RECHAZAMOS LA NULA. ACEPTAMOS QUE LA MEDIA ES MENOR EN LOS DEPRESIVOS Homogeneity of Variances DF Folded F Test 19,21 F P 1.64 0,1376 ACEPTAMOS IGUALDAD DE VARIANZAS 4) CONTRASTE PARA DOS PROPORCIONES Statistics / One, two, Multi_sample tests / Hipótesis test / / Two Proportions Ejemplo: Se quiere comprobar la efectividad de una cierta vacuna. Para ello, se le administra la vacuna a 100 animales de experimentación y se compara con un grupo “testigo” de otros 100 animales sin vacunar. Se contagia a los 200 animales con la enfermedad y como consecuencia, murieron 8 de los vacunados y 20 de los no vacunados. ¿Podemos concluir que la vacuna es eficaz? Salida del Statistix Hypothesis Test - Two Proportions Sample Size Successes Proportion Sample 1 100 8 0,08000 Sample 2 100 20 0,20000 Difference -0,12000 Null Hypothesis: P1 = P2 Alternative Hyp: P1 < P2 SE (difference) 0,04907 Z (uncorrected) -2,45 P 0,0072 ACEPTAMOS QUE ES SIGNIFICATIVAMENTE EFICAZ Z (corrected) -2,24 P 0,0125 Fisher's Exact 0,0118 95% Confidence Interval of Difference -0,21473 < P1-P2 < -0,02527 11 5) CONTRASTE PARA COMPARAR LAS MEDIAS DE DOS NORMALES APAREADAS Statistics / One, two, Multi_sample tests / Paired T Test Ejemplo: Se quiere estudiar el efecto del ejercicio físico en la reducción del colesterol en suero. A 11 participantes se les mide el nivel de colesterol “antes” y “después” de someterse a un programa de ejercicios. Los resultados fueron los siguientes: Antes Desp. d 182 232 191 200 148 249 276 213 198 210 194 220 138 220 219 161 -16 22 -3 -20 10 29 57 52 241 210 31 480 313 167 262 226 36 ¿El ejercicio físico es efectivo para reducir el colesterol? Es necesario considerar dos variables: "Colesterol antes" y " Colesterol después" Salida del Statistix Null Hypothesis: difference = 0 Alternative Hyp: difference > 0 Mean 33.182 Std Error 15.397 Mean - H0 33.182 Lower 95% CI -1.1250 Upper 95% CI 67.489 T 2.16 DF 10 P 0.0283 RECHAZAMOS LA NULA. ACEPTAMOS QUE EL EJERCICIO REDUCE EL COLESTEROL 12 5) TEST DE ASOCIACIÓN Statistics / Association Test / Chi-Square Test Caso I) Caso de tener todas las observaciones en Statistix Ejemplo: Vamos a estudiar la posible asociación entre estar sobrio o no y el tipo de spicosis Salida del Statistix Chi-Square Test for Heterogeneity or Independence for 1 = DRINK P_TYPE P_TYPE Non-ASP ASP +-----------+-----------+ Sober Observed | 8 | 8 | 16 Expected | 8,00 | 8,00 | Cell Chi-Sq | 0,00 | 0,00 | +-----------+-----------+ Drinking Obs | 8 | 8 | 16 Expected | 8,00 | 8,00 | Cell Chi-Sq | 0,00 | 0,00 | +-----------+-----------+ 16 16 32 DRINK Overall Chi-Square 0,00 P-value 1,0000 Degrees of Freedom 1 13 Caso II) Caso de tener una tabla de contingencia Ejemplo: La tabla siguiente muestra el resultado de clasificar una muestra de 141 individuos con arreglo a las características localización y naturaleza del tumor cerebral. ¿El lugar que ocupa el tumor influye en la gravedad del mismo? Naturaleza Benigno Maligno Otros Localización Lóbulo frontal 23 9 6 Lóbulo temporal 21 4 3 Otras áreas 34 24 17 A) Introducción de los datos en el caso general: Forma 1 • • Crear 3 variables : Benigno, Maligno, Otro. Asociar a cada variable los valores que aparecen en la correspondiente columna. Case benigno maligno otro +-----------+-----------+-----------+ 1 Observed | 23 | 9 | 6 | 38 Expected | 21,02 | 9,97 | 7,01 | Cell Chi-Sq | 0,19 | 0,09 | 0,14 | +-----------+-----------+-----------+ 2 Observed | 21 | 4 | 3 | 28 Expected | 15,49 | 7,35 | 5,16 | Cell Chi-Sq | 1,96 | 1,53 | 0,91 | +-----------+-----------+-----------+ 3 Observed | 34 | 24 | 17 | 75 Expected | 41,49 | 19,68 | 13,83 | Cell Chi-Sq | 1,35 | 0,95 | 0,73 | +-----------+-----------+-----------+ 78 37 26 141 Overall Chi-Square 7,84 Degrees of Freedom 4 14 P-value 0,0975 Forma 2 • • Crear 3 variables : Localización, Tipo y Frecuencia Asociar a cada combinación de tipo y localización la correspondiente frecuencia. B) Introducción de los datos en el caso de tablas 2x2: 15