8. Comparación de medias

Anuncio
Diplomado en Salud Pública
2. Metodología en Salud Pública
INFERENCIA PARAMÉTRICA: RELACIÓN
ENTRE VARIABLES CUALITATIVAS Y
CUANTITATIVAS
Autor: Clara Laguna
8.1 INTRODUCCIÓN
Cuando hablamos de la estimación de una media (intervalos de confianza) en el tema
5, ya introdujimos la distribución t de Student. En este capítulo vamos a volver a tratar
diferentes situaciones sobre esta distribución.
Destacar que todos los test que vamos a ver a continuación para comparar medias
son test paramétricos que cumplen unos requisitos de aplicación.
La distribución t de Student1 es muy parecida a la distribución normal, pero se
aplica cuando no se conoce la desviación estándar poblacional y el estimador utilizado
se calcula en la propia muestra (s, s2). Como casi nunca se dispone de σ o σ2, el uso
de la t de Student es muy frecuente.
A medida que la muestra es mayor (n>100), es casi equivalente utilizar la t de Student
o la distribución normal (figura 8.1). Para un número alto de grados de libertad, se
puede aproximar a la N(0,1).
Figura 8.1
Como la distribución t de Student tiene en cuenta el tamaño de la muestra, hay una t
distinta para cada tamaño muestral, es decir, para cada número de grados de libertad.
1
La distribución t-Student se construye como un cociente entre una normal y la raíz de una ji cuadrado
independientes.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
1 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
Los grados de libertad en una variable cuantitativa son:

En una muestra: g.l.= (n-1)

Cuando hay dos muestras: g.l.= (n-1) + (m-1)= (n+m-2) = N-2, siendo N la
suma de los individuos de los dos grupos.
8.2 TEST DE LA T DE STUDENT PARA COMPARAR DOS MUESTRAS
INDEPENDIENTES
Aunque podemos utilizar la t de Student para contrastar la media de una muestra y la
media poblacional de la que ha sido extraída (problema más simple referido a una sola
muestra), el uso más habitual de esta distribución es el de comparar las medias de
una variable cuantitativa continua entre dos grupos independientes.
En este tipo de problemas habrá siempre dos variables:


Una cuantitativa (variable dependiente que se compara)
Otra cualitativa dicotómica (variable independiente)
Se trata de comprobar si la variable cuantitativa depende de la variable dicotómica, es
decir, calcularemos las medias de la variable continua para los dos grupos de la
variable cualitativa y crearemos el contraste para determinar si existen diferencias
significativas o no entre las medias de dos muestras independientes.
Para entender de manera más sencilla el test vamos a desarrollar el siguiente ejemplo.
Ejemplo 8.1:
Supongamos que se desea comparar el efecto de dos dietas. Es decir queremos saber
si el cambio de peso (kg. adelgazados) de distintas personas obesas, que han seguido
o bien la dieta 1 o bien la dieta 2, depende de la dieta seguida por cada uno.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
2 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 8.2
Si nos fijamos en los datos de la figura 8.2, tenemos dos variables:


Variable cuantitativa: pérdida o reducción de peso
Variable cualitativa dicotómica: la dieta (dos grupos: dieta 1 y dieta 2)
Nuestro objetivo es comparar la media de los kilogramos adelgazados por parte de los
sujetos que siguieron la dieta 1 con la media de los kilogramos adelgazados por los
que siguieron la dieta 2.
El planteamiento es el siguiente: se toma como hipótesis nula que la media de
kilogramos adelgazados con ambas dietas es la misma.
Así, si denominamos µ a la media de kilogramos adelgazados en cada grupo
tendremos:
H0: μdieta1 = μdieta2 (Ambas dietas tienen igual efecto)
H1: μdieta1 ≠ μdieta2 (Ambas dietas tienen distinto efecto)
A partir de estas hipótesis hay que comprobar si la diferencia que existe entre las dos
medias es debida a que realmente es más efectiva una dieta que la otra o bien, si las
diferencias observadas se podrían explicar simplemente por azar.
Para resolver el problema aplicamos la expresión de la t de Student para comparar
dos medias:
x1  x2
EEDM
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
t n m2 
3 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
donde EEDM es el “error estándar de la diferencia de medias”.
Podéis ver que la t de Student se obtiene dividiendo el efecto (diferencia en el peso
adelgazado en uno y otro grupo) entre un error (en este caso, error estándar de la
diferencia de medias) que expresa la variabilidad aleatoria esperada.
Como en la mayoría de los test estadísticos, todo el secreto está en dividir la diferencia
observada por un término de error que estima la variabilidad biológica aleatoria.

Si la diferencia observada es mucho mayor que la variabilidad biológica
aleatoria esperada, entonces el conciente t tendrá un valor grande y diremos
que hay diferencias significativas.

Si la diferencia observada es pequeña en relación a la variabilidad
biológica esperada, entonces la t tendrá un valor pequeño y no podremos
decir que existen diferencias significativas.
Volviendo a nuestro ejemplo, la t=0,30.
t 28 
x1  x2 18.57  17.54

 0.30
EEDM
3.4
Como hay 30 individuos en total y se comparan dos grupos, nuestra t tiene 28 grados
de libertad (g.l. = 30-2 = 28).
El valor de t no es significativo, ya que el valor tabulado para un error α=0,05 es
superior t28,α/2=0.025=2.0484 al encontrado (figura 8.3).
Luego no se rechaza la hipótesis nula y se concluye que no hay diferencias
significativas entre el peso medio perdido con las dos dietas.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
4 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 8.3 Distribución t de Student
Como regla general, si el valor de t que hemos encontrado es superior al tabulado
se rechaza la hipótesis nula y se podrá afirmar que hay diferencias significativas
entre ambas medias.
En este ejemplo la t vale 0,3, es decir, el efecto observado (diferencia entre las dos
dietas) es sólo el 30% de la variabilidad biológica esperada. Casi sin necesidad de
mirar las tablas ya se puede decir que la diferencia entre las dietas es insignificante,
mucho menor que lo esperado por el azar.
Sólo nos falta saber qué es eso del error estándar de la diferencia de medias
(EEDM). ¿De dónde ha salido la cantidad 3,4 que aparece en el denominador y que
estima la variabilidad aleatoria esperada en este ejemplo?
La varianza de la pérdida de peso en el grupo de los que han seguido la dieta 1 es de
85,8 y en los que han seguido la dieta 2 es de 71,1. Ahora tenemos que usar una
varianza común llamada varianza ponderada sp2. Para calcularla se hace una media
ponderada entre las dos varianzas. Se pondera cada varianza por los grados de
libertad (ni-1) de su grupo:
s 2p 
(n  1) s12  (m  1) s22 (19  1)85.8  (11  1)71.1

 80.55
(n  1)  (m  1)
(19  1)  (11  1)
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
5 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
La desviación estándar ponderada (sp) será:
s p  s 2p  80.55  8.97
Una vez que sabemos cuál es la desviación estándar ponderada, ya podemos calcular
el EEDM, mediante la siguiente expresión:
EEDM  s p
1 1
1
1

 8.97

 3.4
n m
19 11
8.2.1 Condiciones de aplicación del test t para dos medias
Antes de aplicar el test que acabamos de ver, debemos comprobar si se cumplen las
condiciones de aplicación.
Las condiciones de aplicación del test t para comparar dos medias son:
A) NORMALIDAD
La variable cuantitativa o dependiente ha de seguir aproximadamente una
distribución normal dentro de cada grupo. Habitualmente se suele emplear el
siguiente criterio: cuando tanto n como m son mayores o iguales a 30 se puede
presumir que la aproximación a la normal será buena2.
Se debe comprobar por tanto la normalidad de la variable dependiente si la
muestra no es muy grande.
Para comprobar si la variable cuantitativa se aproxima a la normal hay que verificar
que en cada grupo se cumplen los 3 requisitos siguientes:

Comprobar que el máximo y el mínimo queden dentro del intervalo definido por:
Media + 3 desviaciones estándar

Que la asimetría (en valor absoluto) sea menor que dos veces su error
estándar: |Asimetría| < 2 errores estándar de asimetría

Que la curtosis (en valor absoluto) sea menor que dos veces su error estándar:
|Curtosis| < 2 errores estándar de curtosis
Si se cumplen estos tres requisitos, podemos asumir que la distribución es normal. Si
no se cumple la condición de normalidad, puede intentarse que mejore la
aproximación a la normalidad mediante una transformación de los datos de la variable
cuantitativa en sus logaritmos.
2
Recordad el teorema central del límite estudiado en el tema 3.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
6 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
En la práctica, habitualmente, realizaremos un test de normalidad. Existen diversos
test para comprobar si los valores de una variable siguen o no la distribución normal.
Cuando resultan significativos (p<0,05) se rechaza la hipótesis de normalidad,
tendremos evidencia de que los datos no siguen una distribución normal.
Los test de normalidad más utilizados y que podemos obtener con SPSS son el test
de Kolmogorov-Smirnov o el test de Shapiro-Wilks (utilizado si n ≤ 50).
Si finalmente la variable no se aproxima a la normalidad, se deben aplicar pruebas
no paramétricas3: U de Mann-Whitney (datos independientes) o el test de Wilcoxon
(datos emparejados).
B) HOMOGENEIDAD DE VARIANZAS (HOMOCEDASTICIDAD)
Además de seguir una distribución normal hay que comprobar que las varianzas de
ambos grupos sean iguales, es decir, homogéneas.
Mediante la prueba F de Snedecor para la homogeneidad de varianzas podremos
comprobar que no hay diferencias significativas entre las varianzas. Para ello
calculamos las varianzas de cada grupo y obtenemos el cociente:
F
varianza mayor
varianza menor
A continuación se calculan los grados de libertad del numerador y denominador que
son (n-1) y (m-1) respectivamente, y se busca en las tablas de la F el valor tabulado
para p=0,05. Cuanto más diferentes sean las varianzas, mayor valor tendrá F y
superará el valor crítico de las tablas. Si la F calculada es superior al valor tabulado,
pensaremos que las varianzas no son homogéneas entre sí.
En nuestro ejemplo: F= 85.8 / 71.1=1.2 (con 18 y 10 grados de libertad)
En la tabla de la F de Snedecor con 18 y 10 g.l., el valor tabulado para ser significativo
al 5% está en torno a 2.8, superior al valor encontrado, luego puede asumirse que no
hay diferencias significativas entre las varianzas.
En la práctica con SPSS utilizaremos el test de Levene para comprobar si las
varianzas son homogéneas. Su hipótesis nula es que las varianzas son iguales. Si el
valor p correspondiente al test de Levene es inferior a 0,05, asumiremos que las
varianzas son significativamente distintas.
Cuando las varianzas sean distintas, se puede emplear el t-test pero hay que hacer
en él una modificación que afecta al error estándar y a los grados de libertad. Esta t
modificada se conoce como aproximación de Welch o test de Welch y nos aparecerá
cuando realizamos una t de Student en SPSS.
8.2.2 Intervalo de confianza para la diferencia de medias
3
Veremos las pruebas no paramétricas en el tema 9.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
7 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
Con lo visto hasta ahora hemos resuelto el problema de la comparación de dos grupos
independientes, pero se ha llegado a una conclusión algo limitada: “no existen
diferencias significativas”. Falta algo imprescindible: estimar la magnitud de la
diferencia entre ambos grupos. Vimos que esto se resolvía calculando unos límites de
confianza a la diferencia de medias.
La expresión es parecida al intervalo de confianza para una media pero ahora se
utiliza una diferencia de medias y se usa el error estándar de la diferencia de medias:
IC1 1   2   ( X 1  X 2 )  t
2
; N 2
 EEDM
Volviendo al ejemplo 8.1, calculamos el intervalo de confianza al 95% y obtenemos:
IC0,95  ( X 1  X 2 )  t 28,0.05  EEDM 
(18,58  17,55)  2,048  3,4  1,034  6,96  5,9 a 8,0
Interpretación: “La diferencia de kilogramos adelgazados por parte de los que siguen la
dieta 1 fue de un promedio de 1,03 Kg. más que en el grupo que siguió la dieta 2. Con
una confianza del 95% podemos decir que este intervalo sería uno de los que
contienen la diferencia poblacional de Kg. adelgazados, si repitiésemos la estimación
100 veces”. No hay diferencias significativas4, los que siguen la dieta 1 pueden
adelgazar 8 Kg. más o 6 Kg. menos que los que siguen la dieta 2.
8.2.3 Comparación de dos medias (grupos independientes) con SPSS
Vamos a desarrollar nuestro ejemplo de las dietas con SPSS.
Como hemos visto, antes de hacer el test empezamos por comprobar la normalidad
en cada grupo.
Seleccionamos Analizar / Estadísticos descriptivos / Explorar, dentro del menú
Explorar en la opción Gráficos marcar Gráficos con prueba de normalidad.
Pruebas de normali dad
a
red_peso
diet a
diet a 1
diet a 2
Kolmogorov -Smirnov
Shapiro-Wilk
Estadíst ico
gl
Sig.
Estadíst ico
gl
,166
19
,178
,957
19
,168
11
,200*
,950
11
Sig.
,507
,640
*. Este es un lí mit e inf erior de la signif icac ión v erdadera.
a. Correc ción de la signif icac ión de Lillief ors
Los tests de normalidad dan un valor de p no significativo (p>0,05) en ambos grupos
(en este caso, por el tamaño muestral que tenemos en cada grupo es más correcto
4
Recordad la relación entre contrastes de hipótesis e intervalos de confianza: El valor p será significativo,
sólo cuando el I.C. no incluya el 0.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
8 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
utilizar el test de Shapiro-Wilks). No hay evidencias para rechazar la hipótesis nula
de normalidad de la variable reducción del peso en ambas muestras.
La prueba de Levene para la igualdad de varianzas la obtenemos al hacer el t test.
Para comparar las medias de una variable cuantitativa continua entre dos grupos
independientes, seleccionamos Analizar / Comparar medias / Prueba T para
muestras independientes
El procedimiento calculará las medias de la variable continua para los dos grupos
seleccionados de la variable cualitativa y creará el contraste para determinar si
existen diferencias significativas o no entre las medias de dos muestras
independientes.
En la primera tabla obtenemos un resumen de estadísticos descriptivos de los dos
grupos.
Estadísticos de grupo
red_pes o
diet a
diet a 1
diet a 2
N
19
11
Media
18, 58
17, 55
Des v iac ión
tí p.
9, 264
8, 430
Error t íp. de
la media
2, 125
2, 542
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
9 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
En el segundo cuadro de resultados nos aparece la prueba t para muestras
independientes:
Como el 0 está
incluido en el I.C., NO
rechazamos la H0
Significación estadística
para varianzas Iguales
(p>0,05)
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
v arianzas
F
red_peso
Se han asumido
v arianzas iguales
No se han asumido
v arianzas iguales
Test de Levene de
Igualdad de Varianzas
(Si p>0.05, varianzas
iguales)
,111
Sig.
,742
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Dif erencia
de medias
Error típ. de
la diferencia
95% Interv alo de
confianza para la
dif erencia
Inferior
Superior
,304
28
,763
1,033
3,400
-5,932
7,999
,312
22,704
,758
1,033
3,313
-5,825
7,892
Valor t para
varianzas distintas
(test de Welch)
Diferencia de medias
entre los dos grupos.
Numerador del t test
EEDM
Denominador
del t test
Interpretación:
El test de Levene para analizar la igualdad de varianzas entre los dos grupos,
concluye que no existen diferencias significativas entre la variabilidad de dichos grupos
(p=0,742 > 0,05).
De las dos soluciones para el test de medias que nos proporciona el programa, nos
quedamos con la primera: t=0,304, significación p=0,763 > 0,05. Luego no se rechaza
la hipótesis nula y por tanto no hay diferencias significativas entre el peso
perdido con las dos dietas.
La interpretación del intervalo de confianza al 95% para la diferencia de las medias
la hemos visto anteriormente. Este último aspecto de la salida de SPSS es el que
ofrece la información más rica y útil para presentar los resultados de una investigación.
Muchas veces se puede presentar de modo gráfico, mediante barras de error para
mostrar los límites de confianza de la diferencia entre la media de los dos grupos. Pero
además la presentación de un I.C. informa de en qué sentido va la diferencia, cuál es
su magnitud y también indirectamente nos está revelando si el estudio tiene suficiente
potencia o no. Cuanto más ancho sea el intervalo, menos potencia tendrá.
8.3 TEST DE LA T DE STUDENT PARA DATOS EMPAREJADOS
En el apartado anterior hemos visto cómo comparar las medias de dos grupos
independientes. Ahora vamos a estudiar la situación en la que cada observación de
un grupo está relacionada con una observación del otro. Se trata de un diseño
emparejado.
Dos muestras son relacionadas cuando:
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
10 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública



Se realizan mediciones repetidas en un mismo individuo.
Se comparan entre sí, de dos en dos, parejas naturales de individuos, por ej.
gemelos (emparejamiento natural).
Se busca un control para cada paciente de tal modo que tenga las mismas
características de edad, sexo,...que el paciente.
En epidemiología son muy frecuentes los estudios de casos y controles
emparejados, que requieren este tipo de análisis.
No es lo mismo comparar los datos entre dos individuos distintos (muestras
independientes) que los datos del mismo individuo en distintos momentos. Cuando la
variabilidad biológica que hay que tener en cuenta no es entre individuos sino dentro
de un mismo individuo observado en distintas ocasiones, el tratamiento estadístico es
distinto porque entonces la variabilidad aleatoria es menor.
En la práctica, distinguiremos este tipo de datos emparejados porque en la base de
datos habrá una columna para cada medición (antes-después) o una columna para
cada una de las dos observaciones que forman la pareja (antes/después).
Ejemplo 8.2:
Se realiza un estudio sobre la forma física de un grupo de 30 individuos, antes y
después de un programa de entrenamiento deportivo. Nos interesa saber si cada
individuo durante unas sesiones de entrenamiento ha mejorado su forma física. Para
ello, evaluamos la frecuencia cardiaca de cada sujeto antes y después del programa
de entrenamiento.
ID
FREC_PRE
FREC_POS
DIF
1
2
3
4
5
6
7
8
9
10
…
50
45
47.5
57.5
60
60
65
65
67.5
70
...
53
50
55
55
61
59
51.5
55
75
74.5
...
3
5
7.5
-2.5
1
-1
-13.5
-10
7.5
4.5
...
MEDIA = -9.1
DESV. EST. = 11.1
Los datos que aparecen en la tabla anterior son:
ID: Nº de orden del individuo dentro de la muestra
FREC_PRE: frecuencia cardiaca ANTES del entrenamiento
FREC_POS: frecuencia cardiaca DESPUÉS del entrenamiento
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
11 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
La variable DIF (diferencias entre la frecuencia cardiaca antes y después del
entrenamiento para cada individuo) la hemos calculado para saber si tras el
entrenamiento se ha reducido la frecuencia cardiaca media.
El contraste que vamos a realizar es el siguiente:
H0: μantes = μdespués (media (DIF) = 0)
H1: μantes ≠ μdespués (media (DIF) ≠ 0)
Al igual que en el caso de la t de Student para grupos independientes, debemos
comprobar si la variable DIF sigue una distribución normal.
Utilizando la opción que los tests de normalidad que nos ofrece SPSS, vemos que
ambos tests dan un valor de p no significativo (p>0,05) (como n<50 es más correcto
utilizar el test de Shapiro-Wilks). No hay evidencias para rechazar la hipótesis nula
de normalidad.
Para resolver el problema aplicamos la expresión de la t de Student para muestras
relacionadas:
t N 1 
media ( DIF )
DIF

S DIF
EEMDIF
N
donde EEMDIF es el “error estándar de la media de la diferencia”.
En nuestro ejemplo, utilizando el valor de la desviación estándar (11,1) y sabiendo que
la muestra consta de 30 individuos, tenemos que:
EEMDIF  S DIF
N
 11 .1
30
 2 .0
En una t de Student para datos emparejados los grados de libertad son N-1, siendo
siempre N el total de individuos estudiados.
Grados de libertad: (N-1) = (30-1) =29
Calculamos la t para datos emparejados:
t29   9,1
2,0
 4,5
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
12 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
Si comparamos el valor encontrado para t con el valor tabulado de la t de Student
(figura 8.3), tenemos que un valor de 4,5 para 29 grados de libertad (t29; 0.025= 2.045
es significativo al 5%.
)
Por tanto, puede concluirse que ha existido un descenso significativo de la
frecuencia cardiaca después del período de entrenamiento.
Como siempre, acompañamos el test con el intervalo de confianza para la
diferencia de medias:
IC1  media ( DIF )  t / 2, N 1  EEMDIF
IC95%  9.1  4.1  (13.2,5.0)
La interpretación sería que existen evidencias para afirmar que el programa de
entrenamiento se ha acompañado de un descenso en la frecuencia cardiaca. El
descenso medio estimado fue de 9 latidos por minuto después del programa de
entrenamiento. Con una confianza del 95%, este descenso estará entre 5 y 13
puntos.
8.3.1 Test para medidas relacionadas con SPSS
En este caso, seleccionamos Analizar / Comparar medias / Prueba T para muestras
relacionadas.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
13 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
Obtenemos los siguientes resultados:
En la primera tabla obtenemos un resumen de estadísticos descriptivos de las dos
variables relacionadas.
Estadísticos de muestras relaci onadas
Par 1
FREC _PR E
FREC _POST
Media
79, 533
70, 400
Des v iac ión
tí p.
19, 1473
12, 9518
N
30
30
Error t íp. de
la media
3, 4958
2, 3647
La segunda tabla contiene el coeficiente de correlación de Pearson entre ambas
variables junto con la significación que le corresponde bajo la hipótesis de
independencia (como vimos en Regresión Lineal).
Correlaciones de muestras relacionadas
N
Par 1
FREC_PRE y
FREC_POST
Correlación
30
Sig.
,828
,000
En la última tabla es donde aparecen los resultados interesantes del t test. Estos
resultados se basan en una variable que crea internamente SPSS y que equivale a la
que hemos creado nosotros y hemos llamado DIF.
Prueba de muestras relacionadas
Diferencias relacionadas
Media
Par 1
FREC_PRE FREC_POST
9,1333
Desv iación
típ.
11,1254
EEMDIF
Denominador
del t test
Error típ. de
la media
2,0312
95% Interv alo de
confianza para la
diferencia
Inf erior
Superior
4,9790
13,2876
Como el 0 no está
incluido en el I.C.,
Rechazamos la H0
t
4,496
gl
Sig. (bilateral)
29
,000
Significación
estadística
(p<0,05)
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
14 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
Interpretación:
Puede estimarse con una confianza del 95% que la verdadera diferencia entre las
medias se encuentra entre 4,97 y 13,28 pulsaciones (a favor de la frecuencia cardiaca
antes del entrenamiento).
Obtenemos una valor t=4,496 con un p-valor=0,000, luego podemos rechazar nuestra
H0. Existen evidencias (con una confianza del 95%) para afirmar que el programa de
entrenamiento se ha acompañado de un descenso en la frecuencia cardiaca. El
descenso medio estimado fue de 9 latidos por minuto después del programa de
entrenamiento.
 Podemos resumir en estas cuatro alternativas los métodos de los que
disponemos para hacer comparaciones de dos medias:
Figura 8.4
Los tests no paramétricos los veremos en el último tema.
8.4 COMPARACIÓN DE MÁS DE DOS MEDIAS: ANOVA
Cuando hay más de dos grupos, no es correcto usar la t de Student, pues esto
supondría hacer varios tests por parejas, incrementándose globalmente la tasa de
error. En estos casos, se debe utilizar el análisis de la varianza de una vía5.
Del inglés ANalysis Of VAriance ha quedado la abreviatura ANOVA. Su nombre está
basado en el método que se utiliza y puede desorientar, pero el ANOVA no compara
varianzas, sino medias y es el test indicado cuando se desean comparar las medias
de tres o más grupos independientes.
La t de Student para dos medias independientes es sólo un caso particular del análisis
de la varianza. Si se recurriese al ANOVA para comparar sólo dos grupos, se
obtendrían exactamente los mismos resultados que con la t de Student.
5
Caso más simple del ANOVA
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
15 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
La situación que vamos a tratar es similar a la del t-test para muestras
independientes:


La variable a contrastar (dependiente) es cuantitativa.
La variable de agrupación es cualitativa con más de dos categorías.
El ANOVA es un método paramétrico y exige el cumplimiento de unos supuestos, de
manera que cuando no se cumplan las condiciones de aplicación se dispone de una
técnica no paramétrica que es el test de Kruskal-Wallis.
El ANOVA contrasta la hipótesis nula de que todas las poblaciones de las que
proceden los grupos tienen medias idénticas. La hipótesis alternativa es
simplemente que los grupos son distintos entre sí.
H0: 1   2  ...   K
H1: al menos una de las medias es distinta
Un ANOVA produce un valor p que contesta a la pregunta: si la hipótesis nula fuese
cierta, ¿cuál sería la probabilidad de que las medias de muestras tomadas al azar
difiriesen tanto o más que lo observado?
Para ello tenemos que calcular un cociente entre:
efecto debido a la pertenencia a los grupos
dispersión debida al azar (error aleatorio)
Al igual que en otros tests, este cociente da como resultado un valor, en este caso se
llama F6. Este valor F es el que, comparándolo con el de las tablas correspondientes
(distribución F), se transforma en un valor p.
Dicho valor p se interpreta como la probabilidad de hallar unas medias de los grupos
tan diferentes entre sí como las observadas (o más aún), si procediesen de
poblaciones que tienen exactamente la misma media (hipótesis nula).
Como su nombre indica, este test se basa en un análisis o partición de los
componentes de la varianza. Recordemos que una varianza es el cociente que resulta
de dividir una suma de cuadrados (SC) entre sus grados de libertad.
 x
varianza 
 x
2
i
n  1

SC
g.l.
Cuando se combinan datos de diversos grupos, la suma de cuadrados SC tiene dos
componentes (figura 8.5):
6
F de Snedecor (o de Fisher, que fue quien lo describió).
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
16 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública


Suma de cuadrados entre grupos (SC_grupo o SC_inter)
Suma de cuadrados dentro de los grupos (SC_residual o SC_intra)
Cuanto más diferentes sean los grupos entre sí, mayor proporción de la SC total
vendrá de la diferencia de las medias de los distintos grupos entre sí.
Los modelos ANOVA se basan en la idea de que la variabilidad total de los datos es
la suma de dos componentes: la variabilidad debida a las diferencias entre los
distintos sujetos y la debida a las diferencias entre las medidas para cada sujeto.
Figura 8.5 Descomposición de la suma de cuadrados totales

Si la H0 fuese cierta, la SC total vendría casi toda de la SC_intra porque cada
valor estaría tan cercano a la media total como a la media de su grupo.

Cuando la H0 es falsa, cada valor estará mucho más cerca de la media de su
grupo que de la media total, la SC total será mucho mayor que la SC_intra.
Veamos un ejemplo del contraste ANOVA.
Ejemplo 8.3:
Se realiza una investigación para averiguar cómo distintos tipos de intervención sobre
la dieta influyen en el cambio de los niveles de colesterol después de 6 meses de
intervención en voluntarios que no presentan hipercolesterolemia.
Se han asignado 5 voluntarios al grupo control, 5 a una dieta moderada y 4 a una dieta
estricta.
Los resultados del cambio de colesterol LDL (mg/dl) se recogen en la siguiente tabla:
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
17 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
La media total de los 14 sujetos fue de -6 mg/dl.
Nuestra hipótesis nula es que el cambio es independiente de la intervención; es decir,
el pertenecer a un grupo u otro no influye en el cambio del colesterol LDL.
H0: el pertenecer a un grupo u otro no influye en el cambio del colesterol
H1: hay diferencias entre las medias de los tres grupos
Como vemos, en nuestra muestra, hay pequeñas diferencias entre las medias de los
tres grupos:
Grupo control: ligero incremento en sus niveles medios (+3 mg/dl)
Dieta moderada: han reducido sus niveles (-10.2 mg/dl)
Dieta estricta: los han reducido todavía más (-12 mg/dl)
La H0 mantiene que la media total xT  6 es una buena explicación de lo que ocurre
en cada individuo.
La H1 mantiene que las medias de los grupos son mejores que la media total para
resumir lo que ocurre en cada individuo. Las medias de los grupos son diferentes entre
sí, nunca serán exactamente iguales.
Veamos en nuestro ejemplo los pasos que hay que seguir para hacer los cálculos de
un ANOVA:
A. Descomposición de la suma de cuadrados:

Suma de cuadrados totales (SCT):
SCT   ( xi  xT )   x 
2

2
i
( xi ) 2
N
 1812 
7056
 1.308
14
Suma de cuadrados ENTRE grupos (SCG):
SCG   ni (Media grupo_ i  Media total) 2
SCG  5(3  6) 2  5(10.2  6) 2  4(12  6) 2  637,2
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
18 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública

Suma de cuadrados residuales (SCR): SCR = SCT-SCG
SCR = 1308 – 637,2 = 670,8
B. Descomposición de los grados de libertad:



G.L. totales:
G.L. entre grupos:
G.L. residuales:
g.l.t.= N-1
g.l.g.= k-1
g.l.r.= N-k
= 14-1 = 13
= 3-1 = 2
= 14-3 = 11
C. Descomposición de las varianzas:
SCG 637,2

 318,6
g.l.g
2
SCR 670,8
Varianza residual 

 61
g.l.r
11
Varianzas entre grupos 
D. Cálculo del cociente F:
Es un cociente entre varianzas: varianza inter grupos dividida entre varianza
residual (intra grupos). Tiene en el numerador los g.l. de la varianza entre
grupos y en el denominador los g.l. de la varianza residual.
F2,11 
Varianza _ entre _ grupos 318.6

 5.2
Varianza _ residual
61
E. Comparación de la F obtenida con la que aparece en las tablas:
Siempre que el valor F encontrado sea superior al tabulado, diremos que hay
significación estadística.
Como F2,11 = 5.2 > F2,11;0.05 = 3.982 la prueba es estadísticamente
significativa con una p<0.05.
Con SPSS, obtendríamos la siguiente tabla:
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
19 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
F. Interpretación: Se rechaza la hipótesis nula de igualdad de medias. No puede
decirse que en los 3 grupos se haya producido el mismo cambio medio en el
colesterol LDL. Si el cambio medio de los 3 grupos, a nivel poblacional, fuese
el mismo, encontraríamos las diferencias que hay en la muestra o unas
todavía mayores en menos del 5% de las muestras que se podrían obtener en
esa población.
8.4.1 Condiciones de aplicación del ANOVA
Para que los resultados del ANOVA puedan considerarse válidos hay que comprobar
que se cumplen unas condiciones de aplicación. Estas condiciones son:
A) TIPOS DE VARIABLES

La variable dependiente debe ser cuantitativa. La variable dependiente es la
variable que se quiere comparar. En nuestro ejemplo sería el colesterol LDL.

La variable independiente es el factor o variable de agrupación y debe ser
cualitativa. La variable independiente es el factor que clasifica las
observaciones en distintos grupos. En nuestro ejemplo sería la dieta.
B) NORMALIDAD
Aunque suele decirse que el requisito es que la variable dependiente siga una
distribución normal, lo realmente importante es que la distribución de los residuales
(diferencia entre cada valor y la media de su grupo) se aproxime bien a una
normal.
En SPSS se crea la variable que llamaremos residual y se comprueba su normalidad
mediante el test de Kolmogorov-Smirnov o Shapiro-Wilks.
En el ejemplo 8.3, podemos asumir que los residuos siguen una distribución normal:
Pruebas de normali dad
a
resid
Kolmogorov -Smirnov
Shapiro-Wilk
Estadíst ico
gl
Sig.
Estadíst ico
gl
,109
14
,200*
,962
14
Sig.
,758
*. Este es un lí mit e inf erior de la signif icación v erdadera.
a. Corrección de la signif icación de Lillief ors
C) HOMOGENEIDAD DE VARIANZAS U HOMOCEDASTICIDAD
Las varianzas de cada grupo deben ser iguales  12   22  ...   K2 . Es decir, las
dispersiones de los datos no deben diferir entre los grupos a comparar.
Esto se comprueba en SPSS con el test de Levene
En el ejemplo 8.3, según la prueba de Levene podemos asumir igualdad de varianzas
en los tres grupos.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
20 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
De todos modos, el ANOVA es una técnica “robusta” porque sus resultados se
alteran muy poco si se producen transgresiones de sus supuestos de
aplicación. Además, cuanto mayor sea el tamaño de la muestra, menos importante
es asegurar que no haya desviación de la normalidad o de la homocedasticidad. En
cualquier caso, cuando las transgresiones sean extremas, se debe recurrir a
métodos no paramétricos (test de Kruskal-Wallis).
En conclusión, comenzaríamos con la comprobación de las condiciones de
aplicación y después calcularíamos el cociente F.

Si F calculado < F tabulado, no se puede rechazar la hipótesis nula de
igualdad de medias, y no se tienen evidencias para afirmar que los grupos
procedan de poblaciones con medias distintas. En esta situación, ahí acaba el
ANOVA.

Si F calculado > F tabulado, se debe rechazar la hipótesis nula y concluir
que existen diferencias entre las medias de los grupos. Para buscar
específicamente dónde están esas diferencias deben realizarse contrastes o
comparaciones particulares entre los grupos.
8.4.2 Contrastes: Comparaciones a priori y a posteriori
Cuando el ANOVA resulta estadísticamente significativo llegamos a la conclusión de
que las medias de los distintos grupos son diferentes entre sí, es decir, al menos hay
una media que es diferente de alguna otra. En realidad, esta conclusión es incompleta,
porque no nos dice dónde están esas diferencias.
En el ejemplo 8.3, nos podríamos preguntar si los individuos del grupo control tienen
un cambio significativamente peor que los individuos de los dos grupos de intervención
con dieta (moderada y estricta). O bien, si los de la dieta estricta han disminuido más
su colesterol que los de la dieta moderada.
¿Cómo buscamos esas diferencias? Se pueden utilizar dos métodos:

Comparaciones a priori: Se planifican antes de iniciar el análisis de los datos.
Suele tratarse de realizar sólo algunas comparaciones, las que resulten más
interesantes para alcanzar el objetivo de la investigación.
En el ejemplo podríamos haber planteado otras H0: 1ª El descenso del
colesterol en el grupo de control es menor que el de los dos grupos que
siguieron la dieta; 2ª El descenso del colesterol en el grupo que siguió dieta
estricta es mayor que en el que siguió dieta moderada.
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
21 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública

Comparaciones a posteriori (post hoc): Son todas las posibles
comparaciones de medias que pueden hacerse por parejas (2 a 2) y se utilizan
cuando no se ha planificado la investigación. Para estas comparaciones
múltiples existen varios procedimientos, ya que no hay un acuerdo universal
sobre cuál se debe utilizar.
Los más clásicos y conocidos (que podemos obtener con SPSS como muestra
la figura 8.7) son el de Bonferroni y el de Scheffé.
Figura 8.7
En nuestro ejemplo, al hacer todas las comparaciones mediante el método de
Bonferroni en SPSS, sólo resulta significativa la del grupo control frente al grupo
de dieta estricta.
Comparaciones múlti ples
Variable dependient e: cambio en los niv eles de colest erol
Bonf erroni
(I) grupo
control
moderada
estricta
(J) grupo
moderada
estricta
control
estricta
control
moderada
Dif erencia de
medias (I-J)
Error típico
13,200
4,939
15,000*
5,238
-13,200
4,939
1,800
5,238
-15,000*
5,238
-1,800
5,238
Sig.
,065
,046
,065
1,000
,046
1,000
Interv alo de conf ianza al
95%
Límite
Límite inf erior
superior
-,73
27,13
,23
29,77
-27,13
,73
-12,97
16,57
-29,77
-,23
-16,57
12,97
*. La dif erencia de medias es signif icativ a al niv el .05.
Resumen: pasos a seguir en el ANOVA de una vía
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
22 - 23
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 8.8 Comparación de k medias
08. Inferencia paramétrica: relación entre variables cualitativas y cuantitativas
23 - 23
Descargar