Diplomado en Salud Pública 2. Metodología en Salud Pública INFERENCIA PARAMÉTRICA: RELACIÓN ENTRE VARIABLES CUALITATIVAS Y CUANTITATIVAS Autor: Clara Laguna 8.1 INTRODUCCIÓN Cuando hablamos de la estimación de una media (intervalos de confianza) en el tema 5, ya introdujimos la distribución t de Student. En este capítulo vamos a volver a tratar diferentes situaciones sobre esta distribución. Destacar que todos los test que vamos a ver a continuación para comparar medias son test paramétricos que cumplen unos requisitos de aplicación. La distribución t de Student1 es muy parecida a la distribución normal, pero se aplica cuando no se conoce la desviación estándar poblacional y el estimador utilizado se calcula en la propia muestra (s, s2). Como casi nunca se dispone de σ o σ2, el uso de la t de Student es muy frecuente. A medida que la muestra es mayor (n>100), es casi equivalente utilizar la t de Student o la distribución normal (figura 8.1). Para un número alto de grados de libertad, se puede aproximar a la N(0,1). Figura 8.1 Como la distribución t de Student tiene en cuenta el tamaño de la muestra, hay una t distinta para cada tamaño muestral, es decir, para cada número de grados de libertad. 1 La distribución t-Student se construye como un cociente entre una normal y la raíz de una ji cuadrado independientes. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 1 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Los grados de libertad en una variable cuantitativa son: En una muestra: g.l.= (n-1) Cuando hay dos muestras: g.l.= (n-1) + (m-1)= (n+m-2) = N-2, siendo N la suma de los individuos de los dos grupos. 8.2 TEST DE LA T DE STUDENT PARA COMPARAR DOS MUESTRAS INDEPENDIENTES Aunque podemos utilizar la t de Student para contrastar la media de una muestra y la media poblacional de la que ha sido extraída (problema más simple referido a una sola muestra), el uso más habitual de esta distribución es el de comparar las medias de una variable cuantitativa continua entre dos grupos independientes. En este tipo de problemas habrá siempre dos variables: Una cuantitativa (variable dependiente que se compara) Otra cualitativa dicotómica (variable independiente) Se trata de comprobar si la variable cuantitativa depende de la variable dicotómica, es decir, calcularemos las medias de la variable continua para los dos grupos de la variable cualitativa y crearemos el contraste para determinar si existen diferencias significativas o no entre las medias de dos muestras independientes. Para entender de manera más sencilla el test vamos a desarrollar el siguiente ejemplo. Ejemplo 8.1: Supongamos que se desea comparar el efecto de dos dietas. Es decir queremos saber si el cambio de peso (kg. adelgazados) de distintas personas obesas, que han seguido o bien la dieta 1 o bien la dieta 2, depende de la dieta seguida por cada uno. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 2 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Figura 8.2 Si nos fijamos en los datos de la figura 8.2, tenemos dos variables: Variable cuantitativa: pérdida o reducción de peso Variable cualitativa dicotómica: la dieta (dos grupos: dieta 1 y dieta 2) Nuestro objetivo es comparar la media de los kilogramos adelgazados por parte de los sujetos que siguieron la dieta 1 con la media de los kilogramos adelgazados por los que siguieron la dieta 2. El planteamiento es el siguiente: se toma como hipótesis nula que la media de kilogramos adelgazados con ambas dietas es la misma. Así, si denominamos µ a la media de kilogramos adelgazados en cada grupo tendremos: H0: μdieta1 = μdieta2 (Ambas dietas tienen igual efecto) H1: μdieta1 ≠ μdieta2 (Ambas dietas tienen distinto efecto) A partir de estas hipótesis hay que comprobar si la diferencia que existe entre las dos medias es debida a que realmente es más efectiva una dieta que la otra o bien, si las diferencias observadas se podrían explicar simplemente por azar. Para resolver el problema aplicamos la expresión de la t de Student para comparar dos medias: x1 x2 EEDM 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas t n m2 3 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública donde EEDM es el “error estándar de la diferencia de medias”. Podéis ver que la t de Student se obtiene dividiendo el efecto (diferencia en el peso adelgazado en uno y otro grupo) entre un error (en este caso, error estándar de la diferencia de medias) que expresa la variabilidad aleatoria esperada. Como en la mayoría de los test estadísticos, todo el secreto está en dividir la diferencia observada por un término de error que estima la variabilidad biológica aleatoria. Si la diferencia observada es mucho mayor que la variabilidad biológica aleatoria esperada, entonces el conciente t tendrá un valor grande y diremos que hay diferencias significativas. Si la diferencia observada es pequeña en relación a la variabilidad biológica esperada, entonces la t tendrá un valor pequeño y no podremos decir que existen diferencias significativas. Volviendo a nuestro ejemplo, la t=0,30. t 28 x1 x2 18.57 17.54 0.30 EEDM 3.4 Como hay 30 individuos en total y se comparan dos grupos, nuestra t tiene 28 grados de libertad (g.l. = 30-2 = 28). El valor de t no es significativo, ya que el valor tabulado para un error α=0,05 es superior t28,α/2=0.025=2.0484 al encontrado (figura 8.3). Luego no se rechaza la hipótesis nula y se concluye que no hay diferencias significativas entre el peso medio perdido con las dos dietas. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 4 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Figura 8.3 Distribución t de Student Como regla general, si el valor de t que hemos encontrado es superior al tabulado se rechaza la hipótesis nula y se podrá afirmar que hay diferencias significativas entre ambas medias. En este ejemplo la t vale 0,3, es decir, el efecto observado (diferencia entre las dos dietas) es sólo el 30% de la variabilidad biológica esperada. Casi sin necesidad de mirar las tablas ya se puede decir que la diferencia entre las dietas es insignificante, mucho menor que lo esperado por el azar. Sólo nos falta saber qué es eso del error estándar de la diferencia de medias (EEDM). ¿De dónde ha salido la cantidad 3,4 que aparece en el denominador y que estima la variabilidad aleatoria esperada en este ejemplo? La varianza de la pérdida de peso en el grupo de los que han seguido la dieta 1 es de 85,8 y en los que han seguido la dieta 2 es de 71,1. Ahora tenemos que usar una varianza común llamada varianza ponderada sp2. Para calcularla se hace una media ponderada entre las dos varianzas. Se pondera cada varianza por los grados de libertad (ni-1) de su grupo: s 2p (n 1) s12 (m 1) s22 (19 1)85.8 (11 1)71.1 80.55 (n 1) (m 1) (19 1) (11 1) 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 5 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública La desviación estándar ponderada (sp) será: s p s 2p 80.55 8.97 Una vez que sabemos cuál es la desviación estándar ponderada, ya podemos calcular el EEDM, mediante la siguiente expresión: EEDM s p 1 1 1 1 8.97 3.4 n m 19 11 8.2.1 Condiciones de aplicación del test t para dos medias Antes de aplicar el test que acabamos de ver, debemos comprobar si se cumplen las condiciones de aplicación. Las condiciones de aplicación del test t para comparar dos medias son: A) NORMALIDAD La variable cuantitativa o dependiente ha de seguir aproximadamente una distribución normal dentro de cada grupo. Habitualmente se suele emplear el siguiente criterio: cuando tanto n como m son mayores o iguales a 30 se puede presumir que la aproximación a la normal será buena2. Se debe comprobar por tanto la normalidad de la variable dependiente si la muestra no es muy grande. Para comprobar si la variable cuantitativa se aproxima a la normal hay que verificar que en cada grupo se cumplen los 3 requisitos siguientes: Comprobar que el máximo y el mínimo queden dentro del intervalo definido por: Media + 3 desviaciones estándar Que la asimetría (en valor absoluto) sea menor que dos veces su error estándar: |Asimetría| < 2 errores estándar de asimetría Que la curtosis (en valor absoluto) sea menor que dos veces su error estándar: |Curtosis| < 2 errores estándar de curtosis Si se cumplen estos tres requisitos, podemos asumir que la distribución es normal. Si no se cumple la condición de normalidad, puede intentarse que mejore la aproximación a la normalidad mediante una transformación de los datos de la variable cuantitativa en sus logaritmos. 2 Recordad el teorema central del límite estudiado en el tema 3. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 6 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública En la práctica, habitualmente, realizaremos un test de normalidad. Existen diversos test para comprobar si los valores de una variable siguen o no la distribución normal. Cuando resultan significativos (p<0,05) se rechaza la hipótesis de normalidad, tendremos evidencia de que los datos no siguen una distribución normal. Los test de normalidad más utilizados y que podemos obtener con SPSS son el test de Kolmogorov-Smirnov o el test de Shapiro-Wilks (utilizado si n ≤ 50). Si finalmente la variable no se aproxima a la normalidad, se deben aplicar pruebas no paramétricas3: U de Mann-Whitney (datos independientes) o el test de Wilcoxon (datos emparejados). B) HOMOGENEIDAD DE VARIANZAS (HOMOCEDASTICIDAD) Además de seguir una distribución normal hay que comprobar que las varianzas de ambos grupos sean iguales, es decir, homogéneas. Mediante la prueba F de Snedecor para la homogeneidad de varianzas podremos comprobar que no hay diferencias significativas entre las varianzas. Para ello calculamos las varianzas de cada grupo y obtenemos el cociente: F varianza mayor varianza menor A continuación se calculan los grados de libertad del numerador y denominador que son (n-1) y (m-1) respectivamente, y se busca en las tablas de la F el valor tabulado para p=0,05. Cuanto más diferentes sean las varianzas, mayor valor tendrá F y superará el valor crítico de las tablas. Si la F calculada es superior al valor tabulado, pensaremos que las varianzas no son homogéneas entre sí. En nuestro ejemplo: F= 85.8 / 71.1=1.2 (con 18 y 10 grados de libertad) En la tabla de la F de Snedecor con 18 y 10 g.l., el valor tabulado para ser significativo al 5% está en torno a 2.8, superior al valor encontrado, luego puede asumirse que no hay diferencias significativas entre las varianzas. En la práctica con SPSS utilizaremos el test de Levene para comprobar si las varianzas son homogéneas. Su hipótesis nula es que las varianzas son iguales. Si el valor p correspondiente al test de Levene es inferior a 0,05, asumiremos que las varianzas son significativamente distintas. Cuando las varianzas sean distintas, se puede emplear el t-test pero hay que hacer en él una modificación que afecta al error estándar y a los grados de libertad. Esta t modificada se conoce como aproximación de Welch o test de Welch y nos aparecerá cuando realizamos una t de Student en SPSS. 8.2.2 Intervalo de confianza para la diferencia de medias 3 Veremos las pruebas no paramétricas en el tema 9. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 7 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Con lo visto hasta ahora hemos resuelto el problema de la comparación de dos grupos independientes, pero se ha llegado a una conclusión algo limitada: “no existen diferencias significativas”. Falta algo imprescindible: estimar la magnitud de la diferencia entre ambos grupos. Vimos que esto se resolvía calculando unos límites de confianza a la diferencia de medias. La expresión es parecida al intervalo de confianza para una media pero ahora se utiliza una diferencia de medias y se usa el error estándar de la diferencia de medias: IC1 1 2 ( X 1 X 2 ) t 2 ; N 2 EEDM Volviendo al ejemplo 8.1, calculamos el intervalo de confianza al 95% y obtenemos: IC0,95 ( X 1 X 2 ) t 28,0.05 EEDM (18,58 17,55) 2,048 3,4 1,034 6,96 5,9 a 8,0 Interpretación: “La diferencia de kilogramos adelgazados por parte de los que siguen la dieta 1 fue de un promedio de 1,03 Kg. más que en el grupo que siguió la dieta 2. Con una confianza del 95% podemos decir que este intervalo sería uno de los que contienen la diferencia poblacional de Kg. adelgazados, si repitiésemos la estimación 100 veces”. No hay diferencias significativas4, los que siguen la dieta 1 pueden adelgazar 8 Kg. más o 6 Kg. menos que los que siguen la dieta 2. 8.2.3 Comparación de dos medias (grupos independientes) con SPSS Vamos a desarrollar nuestro ejemplo de las dietas con SPSS. Como hemos visto, antes de hacer el test empezamos por comprobar la normalidad en cada grupo. Seleccionamos Analizar / Estadísticos descriptivos / Explorar, dentro del menú Explorar en la opción Gráficos marcar Gráficos con prueba de normalidad. Pruebas de normali dad a red_peso diet a diet a 1 diet a 2 Kolmogorov -Smirnov Shapiro-Wilk Estadíst ico gl Sig. Estadíst ico gl ,166 19 ,178 ,957 19 ,168 11 ,200* ,950 11 Sig. ,507 ,640 *. Este es un lí mit e inf erior de la signif icac ión v erdadera. a. Correc ción de la signif icac ión de Lillief ors Los tests de normalidad dan un valor de p no significativo (p>0,05) en ambos grupos (en este caso, por el tamaño muestral que tenemos en cada grupo es más correcto 4 Recordad la relación entre contrastes de hipótesis e intervalos de confianza: El valor p será significativo, sólo cuando el I.C. no incluya el 0. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 8 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública utilizar el test de Shapiro-Wilks). No hay evidencias para rechazar la hipótesis nula de normalidad de la variable reducción del peso en ambas muestras. La prueba de Levene para la igualdad de varianzas la obtenemos al hacer el t test. Para comparar las medias de una variable cuantitativa continua entre dos grupos independientes, seleccionamos Analizar / Comparar medias / Prueba T para muestras independientes El procedimiento calculará las medias de la variable continua para los dos grupos seleccionados de la variable cualitativa y creará el contraste para determinar si existen diferencias significativas o no entre las medias de dos muestras independientes. En la primera tabla obtenemos un resumen de estadísticos descriptivos de los dos grupos. Estadísticos de grupo red_pes o diet a diet a 1 diet a 2 N 19 11 Media 18, 58 17, 55 Des v iac ión tí p. 9, 264 8, 430 Error t íp. de la media 2, 125 2, 542 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 9 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública En el segundo cuadro de resultados nos aparece la prueba t para muestras independientes: Como el 0 está incluido en el I.C., NO rechazamos la H0 Significación estadística para varianzas Iguales (p>0,05) Prueba de muestras independientes Prueba de Levene para la igualdad de v arianzas F red_peso Se han asumido v arianzas iguales No se han asumido v arianzas iguales Test de Levene de Igualdad de Varianzas (Si p>0.05, varianzas iguales) ,111 Sig. ,742 Prueba T para la igualdad de medias t gl Sig. (bilateral) Dif erencia de medias Error típ. de la diferencia 95% Interv alo de confianza para la dif erencia Inferior Superior ,304 28 ,763 1,033 3,400 -5,932 7,999 ,312 22,704 ,758 1,033 3,313 -5,825 7,892 Valor t para varianzas distintas (test de Welch) Diferencia de medias entre los dos grupos. Numerador del t test EEDM Denominador del t test Interpretación: El test de Levene para analizar la igualdad de varianzas entre los dos grupos, concluye que no existen diferencias significativas entre la variabilidad de dichos grupos (p=0,742 > 0,05). De las dos soluciones para el test de medias que nos proporciona el programa, nos quedamos con la primera: t=0,304, significación p=0,763 > 0,05. Luego no se rechaza la hipótesis nula y por tanto no hay diferencias significativas entre el peso perdido con las dos dietas. La interpretación del intervalo de confianza al 95% para la diferencia de las medias la hemos visto anteriormente. Este último aspecto de la salida de SPSS es el que ofrece la información más rica y útil para presentar los resultados de una investigación. Muchas veces se puede presentar de modo gráfico, mediante barras de error para mostrar los límites de confianza de la diferencia entre la media de los dos grupos. Pero además la presentación de un I.C. informa de en qué sentido va la diferencia, cuál es su magnitud y también indirectamente nos está revelando si el estudio tiene suficiente potencia o no. Cuanto más ancho sea el intervalo, menos potencia tendrá. 8.3 TEST DE LA T DE STUDENT PARA DATOS EMPAREJADOS En el apartado anterior hemos visto cómo comparar las medias de dos grupos independientes. Ahora vamos a estudiar la situación en la que cada observación de un grupo está relacionada con una observación del otro. Se trata de un diseño emparejado. Dos muestras son relacionadas cuando: 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 10 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Se realizan mediciones repetidas en un mismo individuo. Se comparan entre sí, de dos en dos, parejas naturales de individuos, por ej. gemelos (emparejamiento natural). Se busca un control para cada paciente de tal modo que tenga las mismas características de edad, sexo,...que el paciente. En epidemiología son muy frecuentes los estudios de casos y controles emparejados, que requieren este tipo de análisis. No es lo mismo comparar los datos entre dos individuos distintos (muestras independientes) que los datos del mismo individuo en distintos momentos. Cuando la variabilidad biológica que hay que tener en cuenta no es entre individuos sino dentro de un mismo individuo observado en distintas ocasiones, el tratamiento estadístico es distinto porque entonces la variabilidad aleatoria es menor. En la práctica, distinguiremos este tipo de datos emparejados porque en la base de datos habrá una columna para cada medición (antes-después) o una columna para cada una de las dos observaciones que forman la pareja (antes/después). Ejemplo 8.2: Se realiza un estudio sobre la forma física de un grupo de 30 individuos, antes y después de un programa de entrenamiento deportivo. Nos interesa saber si cada individuo durante unas sesiones de entrenamiento ha mejorado su forma física. Para ello, evaluamos la frecuencia cardiaca de cada sujeto antes y después del programa de entrenamiento. ID FREC_PRE FREC_POS DIF 1 2 3 4 5 6 7 8 9 10 … 50 45 47.5 57.5 60 60 65 65 67.5 70 ... 53 50 55 55 61 59 51.5 55 75 74.5 ... 3 5 7.5 -2.5 1 -1 -13.5 -10 7.5 4.5 ... MEDIA = -9.1 DESV. EST. = 11.1 Los datos que aparecen en la tabla anterior son: ID: Nº de orden del individuo dentro de la muestra FREC_PRE: frecuencia cardiaca ANTES del entrenamiento FREC_POS: frecuencia cardiaca DESPUÉS del entrenamiento 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 11 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública La variable DIF (diferencias entre la frecuencia cardiaca antes y después del entrenamiento para cada individuo) la hemos calculado para saber si tras el entrenamiento se ha reducido la frecuencia cardiaca media. El contraste que vamos a realizar es el siguiente: H0: μantes = μdespués (media (DIF) = 0) H1: μantes ≠ μdespués (media (DIF) ≠ 0) Al igual que en el caso de la t de Student para grupos independientes, debemos comprobar si la variable DIF sigue una distribución normal. Utilizando la opción que los tests de normalidad que nos ofrece SPSS, vemos que ambos tests dan un valor de p no significativo (p>0,05) (como n<50 es más correcto utilizar el test de Shapiro-Wilks). No hay evidencias para rechazar la hipótesis nula de normalidad. Para resolver el problema aplicamos la expresión de la t de Student para muestras relacionadas: t N 1 media ( DIF ) DIF S DIF EEMDIF N donde EEMDIF es el “error estándar de la media de la diferencia”. En nuestro ejemplo, utilizando el valor de la desviación estándar (11,1) y sabiendo que la muestra consta de 30 individuos, tenemos que: EEMDIF S DIF N 11 .1 30 2 .0 En una t de Student para datos emparejados los grados de libertad son N-1, siendo siempre N el total de individuos estudiados. Grados de libertad: (N-1) = (30-1) =29 Calculamos la t para datos emparejados: t29 9,1 2,0 4,5 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 12 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Si comparamos el valor encontrado para t con el valor tabulado de la t de Student (figura 8.3), tenemos que un valor de 4,5 para 29 grados de libertad (t29; 0.025= 2.045 es significativo al 5%. ) Por tanto, puede concluirse que ha existido un descenso significativo de la frecuencia cardiaca después del período de entrenamiento. Como siempre, acompañamos el test con el intervalo de confianza para la diferencia de medias: IC1 media ( DIF ) t / 2, N 1 EEMDIF IC95% 9.1 4.1 (13.2,5.0) La interpretación sería que existen evidencias para afirmar que el programa de entrenamiento se ha acompañado de un descenso en la frecuencia cardiaca. El descenso medio estimado fue de 9 latidos por minuto después del programa de entrenamiento. Con una confianza del 95%, este descenso estará entre 5 y 13 puntos. 8.3.1 Test para medidas relacionadas con SPSS En este caso, seleccionamos Analizar / Comparar medias / Prueba T para muestras relacionadas. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 13 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Obtenemos los siguientes resultados: En la primera tabla obtenemos un resumen de estadísticos descriptivos de las dos variables relacionadas. Estadísticos de muestras relaci onadas Par 1 FREC _PR E FREC _POST Media 79, 533 70, 400 Des v iac ión tí p. 19, 1473 12, 9518 N 30 30 Error t íp. de la media 3, 4958 2, 3647 La segunda tabla contiene el coeficiente de correlación de Pearson entre ambas variables junto con la significación que le corresponde bajo la hipótesis de independencia (como vimos en Regresión Lineal). Correlaciones de muestras relacionadas N Par 1 FREC_PRE y FREC_POST Correlación 30 Sig. ,828 ,000 En la última tabla es donde aparecen los resultados interesantes del t test. Estos resultados se basan en una variable que crea internamente SPSS y que equivale a la que hemos creado nosotros y hemos llamado DIF. Prueba de muestras relacionadas Diferencias relacionadas Media Par 1 FREC_PRE FREC_POST 9,1333 Desv iación típ. 11,1254 EEMDIF Denominador del t test Error típ. de la media 2,0312 95% Interv alo de confianza para la diferencia Inf erior Superior 4,9790 13,2876 Como el 0 no está incluido en el I.C., Rechazamos la H0 t 4,496 gl Sig. (bilateral) 29 ,000 Significación estadística (p<0,05) 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 14 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Interpretación: Puede estimarse con una confianza del 95% que la verdadera diferencia entre las medias se encuentra entre 4,97 y 13,28 pulsaciones (a favor de la frecuencia cardiaca antes del entrenamiento). Obtenemos una valor t=4,496 con un p-valor=0,000, luego podemos rechazar nuestra H0. Existen evidencias (con una confianza del 95%) para afirmar que el programa de entrenamiento se ha acompañado de un descenso en la frecuencia cardiaca. El descenso medio estimado fue de 9 latidos por minuto después del programa de entrenamiento. Podemos resumir en estas cuatro alternativas los métodos de los que disponemos para hacer comparaciones de dos medias: Figura 8.4 Los tests no paramétricos los veremos en el último tema. 8.4 COMPARACIÓN DE MÁS DE DOS MEDIAS: ANOVA Cuando hay más de dos grupos, no es correcto usar la t de Student, pues esto supondría hacer varios tests por parejas, incrementándose globalmente la tasa de error. En estos casos, se debe utilizar el análisis de la varianza de una vía5. Del inglés ANalysis Of VAriance ha quedado la abreviatura ANOVA. Su nombre está basado en el método que se utiliza y puede desorientar, pero el ANOVA no compara varianzas, sino medias y es el test indicado cuando se desean comparar las medias de tres o más grupos independientes. La t de Student para dos medias independientes es sólo un caso particular del análisis de la varianza. Si se recurriese al ANOVA para comparar sólo dos grupos, se obtendrían exactamente los mismos resultados que con la t de Student. 5 Caso más simple del ANOVA 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 15 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública La situación que vamos a tratar es similar a la del t-test para muestras independientes: La variable a contrastar (dependiente) es cuantitativa. La variable de agrupación es cualitativa con más de dos categorías. El ANOVA es un método paramétrico y exige el cumplimiento de unos supuestos, de manera que cuando no se cumplan las condiciones de aplicación se dispone de una técnica no paramétrica que es el test de Kruskal-Wallis. El ANOVA contrasta la hipótesis nula de que todas las poblaciones de las que proceden los grupos tienen medias idénticas. La hipótesis alternativa es simplemente que los grupos son distintos entre sí. H0: 1 2 ... K H1: al menos una de las medias es distinta Un ANOVA produce un valor p que contesta a la pregunta: si la hipótesis nula fuese cierta, ¿cuál sería la probabilidad de que las medias de muestras tomadas al azar difiriesen tanto o más que lo observado? Para ello tenemos que calcular un cociente entre: efecto debido a la pertenencia a los grupos dispersión debida al azar (error aleatorio) Al igual que en otros tests, este cociente da como resultado un valor, en este caso se llama F6. Este valor F es el que, comparándolo con el de las tablas correspondientes (distribución F), se transforma en un valor p. Dicho valor p se interpreta como la probabilidad de hallar unas medias de los grupos tan diferentes entre sí como las observadas (o más aún), si procediesen de poblaciones que tienen exactamente la misma media (hipótesis nula). Como su nombre indica, este test se basa en un análisis o partición de los componentes de la varianza. Recordemos que una varianza es el cociente que resulta de dividir una suma de cuadrados (SC) entre sus grados de libertad. x varianza x 2 i n 1 SC g.l. Cuando se combinan datos de diversos grupos, la suma de cuadrados SC tiene dos componentes (figura 8.5): 6 F de Snedecor (o de Fisher, que fue quien lo describió). 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 16 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Suma de cuadrados entre grupos (SC_grupo o SC_inter) Suma de cuadrados dentro de los grupos (SC_residual o SC_intra) Cuanto más diferentes sean los grupos entre sí, mayor proporción de la SC total vendrá de la diferencia de las medias de los distintos grupos entre sí. Los modelos ANOVA se basan en la idea de que la variabilidad total de los datos es la suma de dos componentes: la variabilidad debida a las diferencias entre los distintos sujetos y la debida a las diferencias entre las medidas para cada sujeto. Figura 8.5 Descomposición de la suma de cuadrados totales Si la H0 fuese cierta, la SC total vendría casi toda de la SC_intra porque cada valor estaría tan cercano a la media total como a la media de su grupo. Cuando la H0 es falsa, cada valor estará mucho más cerca de la media de su grupo que de la media total, la SC total será mucho mayor que la SC_intra. Veamos un ejemplo del contraste ANOVA. Ejemplo 8.3: Se realiza una investigación para averiguar cómo distintos tipos de intervención sobre la dieta influyen en el cambio de los niveles de colesterol después de 6 meses de intervención en voluntarios que no presentan hipercolesterolemia. Se han asignado 5 voluntarios al grupo control, 5 a una dieta moderada y 4 a una dieta estricta. Los resultados del cambio de colesterol LDL (mg/dl) se recogen en la siguiente tabla: 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 17 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública La media total de los 14 sujetos fue de -6 mg/dl. Nuestra hipótesis nula es que el cambio es independiente de la intervención; es decir, el pertenecer a un grupo u otro no influye en el cambio del colesterol LDL. H0: el pertenecer a un grupo u otro no influye en el cambio del colesterol H1: hay diferencias entre las medias de los tres grupos Como vemos, en nuestra muestra, hay pequeñas diferencias entre las medias de los tres grupos: Grupo control: ligero incremento en sus niveles medios (+3 mg/dl) Dieta moderada: han reducido sus niveles (-10.2 mg/dl) Dieta estricta: los han reducido todavía más (-12 mg/dl) La H0 mantiene que la media total xT 6 es una buena explicación de lo que ocurre en cada individuo. La H1 mantiene que las medias de los grupos son mejores que la media total para resumir lo que ocurre en cada individuo. Las medias de los grupos son diferentes entre sí, nunca serán exactamente iguales. Veamos en nuestro ejemplo los pasos que hay que seguir para hacer los cálculos de un ANOVA: A. Descomposición de la suma de cuadrados: Suma de cuadrados totales (SCT): SCT ( xi xT ) x 2 2 i ( xi ) 2 N 1812 7056 1.308 14 Suma de cuadrados ENTRE grupos (SCG): SCG ni (Media grupo_ i Media total) 2 SCG 5(3 6) 2 5(10.2 6) 2 4(12 6) 2 637,2 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 18 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Suma de cuadrados residuales (SCR): SCR = SCT-SCG SCR = 1308 – 637,2 = 670,8 B. Descomposición de los grados de libertad: G.L. totales: G.L. entre grupos: G.L. residuales: g.l.t.= N-1 g.l.g.= k-1 g.l.r.= N-k = 14-1 = 13 = 3-1 = 2 = 14-3 = 11 C. Descomposición de las varianzas: SCG 637,2 318,6 g.l.g 2 SCR 670,8 Varianza residual 61 g.l.r 11 Varianzas entre grupos D. Cálculo del cociente F: Es un cociente entre varianzas: varianza inter grupos dividida entre varianza residual (intra grupos). Tiene en el numerador los g.l. de la varianza entre grupos y en el denominador los g.l. de la varianza residual. F2,11 Varianza _ entre _ grupos 318.6 5.2 Varianza _ residual 61 E. Comparación de la F obtenida con la que aparece en las tablas: Siempre que el valor F encontrado sea superior al tabulado, diremos que hay significación estadística. Como F2,11 = 5.2 > F2,11;0.05 = 3.982 la prueba es estadísticamente significativa con una p<0.05. Con SPSS, obtendríamos la siguiente tabla: 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 19 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública F. Interpretación: Se rechaza la hipótesis nula de igualdad de medias. No puede decirse que en los 3 grupos se haya producido el mismo cambio medio en el colesterol LDL. Si el cambio medio de los 3 grupos, a nivel poblacional, fuese el mismo, encontraríamos las diferencias que hay en la muestra o unas todavía mayores en menos del 5% de las muestras que se podrían obtener en esa población. 8.4.1 Condiciones de aplicación del ANOVA Para que los resultados del ANOVA puedan considerarse válidos hay que comprobar que se cumplen unas condiciones de aplicación. Estas condiciones son: A) TIPOS DE VARIABLES La variable dependiente debe ser cuantitativa. La variable dependiente es la variable que se quiere comparar. En nuestro ejemplo sería el colesterol LDL. La variable independiente es el factor o variable de agrupación y debe ser cualitativa. La variable independiente es el factor que clasifica las observaciones en distintos grupos. En nuestro ejemplo sería la dieta. B) NORMALIDAD Aunque suele decirse que el requisito es que la variable dependiente siga una distribución normal, lo realmente importante es que la distribución de los residuales (diferencia entre cada valor y la media de su grupo) se aproxime bien a una normal. En SPSS se crea la variable que llamaremos residual y se comprueba su normalidad mediante el test de Kolmogorov-Smirnov o Shapiro-Wilks. En el ejemplo 8.3, podemos asumir que los residuos siguen una distribución normal: Pruebas de normali dad a resid Kolmogorov -Smirnov Shapiro-Wilk Estadíst ico gl Sig. Estadíst ico gl ,109 14 ,200* ,962 14 Sig. ,758 *. Este es un lí mit e inf erior de la signif icación v erdadera. a. Corrección de la signif icación de Lillief ors C) HOMOGENEIDAD DE VARIANZAS U HOMOCEDASTICIDAD Las varianzas de cada grupo deben ser iguales 12 22 ... K2 . Es decir, las dispersiones de los datos no deben diferir entre los grupos a comparar. Esto se comprueba en SPSS con el test de Levene En el ejemplo 8.3, según la prueba de Levene podemos asumir igualdad de varianzas en los tres grupos. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 20 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública De todos modos, el ANOVA es una técnica “robusta” porque sus resultados se alteran muy poco si se producen transgresiones de sus supuestos de aplicación. Además, cuanto mayor sea el tamaño de la muestra, menos importante es asegurar que no haya desviación de la normalidad o de la homocedasticidad. En cualquier caso, cuando las transgresiones sean extremas, se debe recurrir a métodos no paramétricos (test de Kruskal-Wallis). En conclusión, comenzaríamos con la comprobación de las condiciones de aplicación y después calcularíamos el cociente F. Si F calculado < F tabulado, no se puede rechazar la hipótesis nula de igualdad de medias, y no se tienen evidencias para afirmar que los grupos procedan de poblaciones con medias distintas. En esta situación, ahí acaba el ANOVA. Si F calculado > F tabulado, se debe rechazar la hipótesis nula y concluir que existen diferencias entre las medias de los grupos. Para buscar específicamente dónde están esas diferencias deben realizarse contrastes o comparaciones particulares entre los grupos. 8.4.2 Contrastes: Comparaciones a priori y a posteriori Cuando el ANOVA resulta estadísticamente significativo llegamos a la conclusión de que las medias de los distintos grupos son diferentes entre sí, es decir, al menos hay una media que es diferente de alguna otra. En realidad, esta conclusión es incompleta, porque no nos dice dónde están esas diferencias. En el ejemplo 8.3, nos podríamos preguntar si los individuos del grupo control tienen un cambio significativamente peor que los individuos de los dos grupos de intervención con dieta (moderada y estricta). O bien, si los de la dieta estricta han disminuido más su colesterol que los de la dieta moderada. ¿Cómo buscamos esas diferencias? Se pueden utilizar dos métodos: Comparaciones a priori: Se planifican antes de iniciar el análisis de los datos. Suele tratarse de realizar sólo algunas comparaciones, las que resulten más interesantes para alcanzar el objetivo de la investigación. En el ejemplo podríamos haber planteado otras H0: 1ª El descenso del colesterol en el grupo de control es menor que el de los dos grupos que siguieron la dieta; 2ª El descenso del colesterol en el grupo que siguió dieta estricta es mayor que en el que siguió dieta moderada. 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 21 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Comparaciones a posteriori (post hoc): Son todas las posibles comparaciones de medias que pueden hacerse por parejas (2 a 2) y se utilizan cuando no se ha planificado la investigación. Para estas comparaciones múltiples existen varios procedimientos, ya que no hay un acuerdo universal sobre cuál se debe utilizar. Los más clásicos y conocidos (que podemos obtener con SPSS como muestra la figura 8.7) son el de Bonferroni y el de Scheffé. Figura 8.7 En nuestro ejemplo, al hacer todas las comparaciones mediante el método de Bonferroni en SPSS, sólo resulta significativa la del grupo control frente al grupo de dieta estricta. Comparaciones múlti ples Variable dependient e: cambio en los niv eles de colest erol Bonf erroni (I) grupo control moderada estricta (J) grupo moderada estricta control estricta control moderada Dif erencia de medias (I-J) Error típico 13,200 4,939 15,000* 5,238 -13,200 4,939 1,800 5,238 -15,000* 5,238 -1,800 5,238 Sig. ,065 ,046 ,065 1,000 ,046 1,000 Interv alo de conf ianza al 95% Límite Límite inf erior superior -,73 27,13 ,23 29,77 -27,13 ,73 -12,97 16,57 -29,77 -,23 -16,57 12,97 *. La dif erencia de medias es signif icativ a al niv el .05. Resumen: pasos a seguir en el ANOVA de una vía 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 22 - 23 Diplomado en Salud Pública 2. Metodología en Salud Pública Figura 8.8 Comparación de k medias 08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas 23 - 23