7. Comparación de proporciones

Anuncio
Diplomado en Salud Pública
2. Metodología en Salud Pública
INFERENCIA PARÁMETRICA: RELACIÓN
ENTRE DOS VARIABLES CUALITATIVAS
Autor: Clara Laguna
7.1 INTRODUCCIÓN
Los datos categóricos o variables cualitativas son muy frecuentes en el ámbito de
la investigación biomédica. Nos encontramos con frecuencia con datos o variables de
tipo cualitativo, mediante las cuales un grupo de individuos se clasifican en dos o más
categorías mutuamente excluyentes.
Ejemplos de este tipo de variables pueden ser el sexo, el nivel socio-cultural, etc. En
este caso tendríamos, a lo sumo, las observaciones agrupadas en forma de
frecuencia, dependiendo de las modalidades que presente cada paciente en cada una
de las variables.
El objetivo de este tema es el estudio de este tipo de cuestiones en relación con las
variables cualitativas (y también variables aleatorias discretas o continuas agrupadas
en intervalo).
Para describir y resumir la información contenida en unos datos categóricos, es decir,
en una variable cualitativa, se usan proporciones o porcentajes.
Por ejemplo, si se ha recogido el estado civil de una muestra de individuos, lo más
adecuado para describir la variable sería presentar el porcentaje de solteros, casados,
viudos, etc. Para su tratamiento estadístico debemos convertirlos en proporciones. Si
leemos que el 68% de los estudiantes de una facultad son mujeres, tendríamos que:
P mujeres = 0,68 y P hombres = 0,32
Usaremos pruebas de contrastes de hipótesis para la comparación de proporciones, si
lo que queremos es comparar entre dos muestras la proporción de sucesos o de
cualquier dato categórico.
Para la comparación de proporciones entre dos o más muestras pueden utilizarse
diversos procedimientos, aunque aquí nos centraremos en los dos primeros. Los tests
de contraste de hipótesis más utilizados habitualmente son:




Test de ji-cuadrado1 (X2) de Pearson.
Test exacto de Fisher.
Test de ji-cuadrado (X2) de McNemar para datos emparejados.
Test de ji-cuadrado (X2) de tendencia lineal (variables ordinales).
En inglés, “chi-squared”, por eso puede encontrarse también la expresión “chi-cuadrado” en castellano,
incluidos los resultados de SPSS. El nombre correcto en español de la letra X es ji.
1
07. Inferencia paramétrica: relación entre dos variables cualitativas
1 - 10
Diplomado en Salud Pública
2. Metodología en Salud Pública
Estos son los contrastes asociados con el estadístico ji-cuadrado. En general este
tipo de tests consisten en tomar una muestra y observar si hay diferencia significativa
entre las frecuencias observadas y las especificadas por la ley teórica del modelo que
se contrasta, también denominadas “frecuencias esperadas”.
Figura 7.1 Contrastes basados en ji-cuadrado
7.2 TEST DE JI CUADRADO DE PEARSON
La ji-cuadrado de Pearson es una prueba estadística de contraste de hipótesis
extensamente utilizada. Tiene muchas aplicaciones en inferencia estadística.
Se aplica para analizar datos que están presentados en forma de número de
observaciones en cada categoría: número de éxitos que ha tenido una intervención,
porcentaje de pacientes que presenta una característica,...
En definitiva, sirve para analizar variables cualitativas o categóricas y para comparar
proporciones o porcentajes en grupos independientes.
La prueba ji-cuadrado tiene una limitación: requiere un número suficiente de
observaciones para que sea realmente informativa.
En el caso de la ji-cuadrado siempre entenderemos la Hipótesis alternativa como
bilateral.
7.2.1 Ji Cuadrado para una sola proporción (proporción observada frente
a la esperada)
La ji cuadrado tiene como primera utilidad hacer una comparación, dentro de una
sola variable categórica, para comprobar si la distribución observada se corresponde
con una distribución teóricamente esperada.
Para entenderlo veamos el siguiente ejemplo.
07. Inferencia paramétrica: relación entre dos variables cualitativas
2 - 10
Diplomado en Salud Pública
2. Metodología en Salud Pública
Ejemplo 7.1:
Supongamos que realizamos una encuesta a 20 universitarios donde el 45% (9) son
mujeres y el 55% (11) son hombres. En este caso, existe una sola variable (sexo) que
es cualitativa y dicotómica.
Queremos comprobar si esta distribución es consistente con que en la Universidad
(“población” de la que procede la muestra), el 50% de los alumnos son hombres y el
50% mujeres (hipótesis nula) 2.
H0: la muestra procede de una población donde el 50% son hombres y el 50%
mujeres (  esperada   observada )
H1:
 esperada   observada
Para aplicar la ji-cuadrado de Pearson en este ejemplo, se realiza una comparación
entre lo observado y lo esperado.
Lo ESPERADO sería que el 50% fuesen hombres (10) pero lo son el 55% (11), luego
hay una diferencia entre lo observado y lo esperado de 11-10=1.
Para las mujeres también existe una diferencia (9-10= -1) entre lo observado (9) y lo
esperado (10).
Vamos a sumar esas diferencias entre observado y esperado, elevándolas al cuadrado
antes de sumarlas (de ahí el nombre de ji cuadrado). Además se debe dividir cada
cantidad por lo esperado en cada casilla.
 o  e 2  (9  10) 2 (11  10) 2


 0,1  0,1  0,2

10
10
 e 
 2   
Así, tenemos que la expresión para ji-cuadrado es la siguiente3:
 observado  esperado 2
   
esperado

2





Como os podéis imaginar cuando lo observado y lo esperado se diferencian
muy poco, estaremos cerca de H0. El numerador de estos cocientes será
muy pequeño, por tanto el valor de ji-cuadrado valdrá poco.

A mayor valor de ji-cuadrado, mayor evidencia habrá para rechazar H0, y
por tanto, más fácil será hallar significación estadística (valor p más bajo).
Como las hipótesis se plantean siempre a nivel de población, se usa π en vez de p.
La estimación de la variabilidad aleatoria (“error”) es precisamente lo esperado (denominador de la X2).
El numerador es lo que quedaría sin explicar si la H0 fuese cierta.
07. Inferencia paramétrica: relación entre dos variables cualitativas
3 - 10
2
3
Diplomado en Salud Pública
2. Metodología en Salud Pública
Volviendo al ejemplo 7.1, a este valor ji-cuadrado =0,2 le corresponde un p-valor4
=0,6547. Por tanto, el contraste no es significativo y podemos concluir que no hay
evidencias para rechazar la hipótesis nula de igualdad de proporciones. No se puede
rechazar que la muestra proceda de una población donde un 50% son mujeres y el
otro 50% son hombres.
Si no disponemos de un programa estadístico podemos saber si un valor chi-cuadrado
es significativo mirando en las tablas de la ji-cuadrado.
Figura 7.2 Distribución de ji-cuadrado
Lo primero que tenemos que calcular son los grados de libertad. Como la variable
tiene dos categorías (k=2) y los grados de libertad son k-1, tendremos 1 grado de
libertad.
En nuestro ejemplo, miramos en la tabla de la ji-cuadrado si un valor de 0,2 es
significativo para 1 grado de libertad (figura 7.2):
X2 = 0.2 < X2 1; 0.05 =3,84
Como el valor que hemos hallado es 0,2 y la ji cuadrado con un grado de libertad no
es significativo hasta que no llega a valer 3,84 (p=0,05), se puede afirmar que la
prueba ji cuadrado ha resultado no significativa (p > 0,05).
Vemos que conforme aumenta el valor de la ji-cuadrado, disminuye el valor de p.
4
X2
3,84
5,02
p
0,05
0,025
El p-valor lo podemos obtener directamente con un software estadístico (lo veremos con SPSS).
07. Inferencia paramétrica: relación entre dos variables cualitativas
4 - 10
Diplomado en Salud Pública
2. Metodología en Salud Pública
Condiciones de aplicación:


Este test se debe aplicar cuando es una variable cualitativa nominal.
El único requisito que se debe cumplir es que ninguno de los valores
esperados sea menor que 5.
7.2.2 Ji Cuadrado para comparar proporciones
Este es el uso más habitual de la ji cuadrado de Pearson.
Esta prueba permite contrastar la H0 de independencia entre dos variables
categóricas.
A partir de una tabla de contingencia (tabla bidimensional) comparamos las
frecuencias observadas con las frecuencias esperadas (las frecuencias que
teóricamente debería haber en cada casilla si las dos variables fuesen
independientes).
Obtenidas las frecuencias esperadas para cada casilla, la ji cuadrado tiene la misma
expresión que antes, pero ahora cuenta con cuatro términos, uno por cada casilla.
 observado  esperado 2
   
esperado

2






ji-cuadrado =0 cuando las variables sean completamente
independientes (las frecuencias observadas y esperadas serán iguales).
ji-cuadrado será tanto mayor cuanto mayor sea la discrepancia
existente entre las frecuencias observadas y las esperadas
(discrepancia mayor cuanto mayor sea la relación entre las variables).
- Si los datos son compatibles con la hipótesis de independencia, la probabilidad
asociada al estadístico ji-cuadrado será alta (p>0.05).
- Si esa probabilidad p<0.05, los datos son incompatibles con la H0 de independencia y
se concluye que las variables estudiadas están relacionadas.
Condiciones de aplicación:



Ambas variables deben ser cualitativas en escala nominal.
El requisito de aplicación deber ser que ninguno de los valores esperados sea
menor que 5.
No se debe aplicar cuando la variable dependiente (la que se coloca en las
columnas de la tabla de contingencia) es ordinal.
No se aplicaría por ejemplo, si se desea comparar la proporción de ocurrencia
de cáncer de pulmón entre tres grupos de fumadores clasificados según el nº
de cigarrillos (<5, 5-19 y >20)
07. Inferencia paramétrica: relación entre dos variables cualitativas
5 - 10
Diplomado en Salud Pública
2. Metodología en Salud Pública
Veamos los pasos que debemos seguir para realizar este test con el siguiente
ejemplo.
Ejemplo 7.2:
Se realiza un estudio sobre el cáncer de piel en ancianos y su relación con el hábito de
fumar. Suponemos que hubo 15 casos de cáncer en un total de 35 fumadores y 10
casos de cáncer entre un total de 50 no fumadores.
Si planteamos la Hipótesis nula de nuestro estudio sería que la proporción de cáncer
de piel en ancianos será la misma en los dos grupos, fumadores y no fumadores. Es
decir, que la incidencia de cáncer es la misma en los expuestos al tabaco que en los
no expuestos.
La Hipótesis alternativa sería que las proporciones de los que desarrollan cáncer son
distintas entre fumadores y no fumadores.
H0:
 fumadores   no fumadores
H1:
 fumadores   no fumadores
Los valores observados quedan reflejados en la siguiente tabla 2x2:
Calculamos los valores esperados partiendo de la tabla anterior pero sólo con los
valores totales de las filas y las columnas (a estos valores totales se les llama en
estadística “marginales”). Se multiplica el total de la fila por el total de la columna y se
divide por el total de observaciones.
ESPERADOS
CÁNCER
FUMA
NO FUMA
(35x25) / 85=10,3 (50x25) / 85=14,7
TOTAL
25
NO CÁNCER
24,7
35,3
60
TOTAL
35
50
85
Como la proporción total de cáncer = 25/85 =29.4%, el número de cánceres
esperados entre los fumadores será igual a 0.294 x 35 =10,3.
Obtenido este esperado y considerando fijos los valores marginales, ya no queda
libertad para cambiar más datos (esto es lo que se entiende como tener 1 solo grado
de libertad).
07. Inferencia paramétrica: relación entre dos variables cualitativas
6 - 10
Diplomado en Salud Pública
2. Metodología en Salud Pública
De manera que, pueden calcularse los otros 3 esperados mediante restas con el total
de la respectiva fila o columna:
25-10,3 =14,7 no fumadores con cáncer
35-10,3 =24,7 fumadores sin cáncer
60-24,7 =35,3 no fumadores sin cáncer
Calculamos el valor de la ji cuadrado:
(15  10,3) 2 (10  14,7) 2 (20  24,7) 2 (40  35,3) 2
 



 5,16
10,3
14,7
24,7
35,3
2
Los grados de libertad, se calculan de forma general de la siguiente forma:
g.l.= (columnas-1) (filas-1)
En nuestro caso, g.l.= (2-1) (2-1)=1
Consultamos en la tabla5 de la Ji Cuadrado si un valor de 5,16 es significativo para 1
grado de libertad (figura 7.2):
X2
2,71
3,84
5,02
6,63
p
0,10
0,05
0,025
0,01
Figura 7.2
Conclusión:
Como el valor calculado ji-cuadrado =5,16 está entre ji-cuadrado 1; 0.025= 5,02 y jicuadrado 1; 0.01=6,63, podemos afirmar que la diferencia es estadísticamente
significativa, tenemos evidencias para rechazar la H0 ya que le corresponde un
valor p < 0,05.
Podemos decir que existe una asociación estadísticamente significativa entre ser
fumador y la incidencia de cáncer de piel en ancianos (se puede afirmar que existen
evidencias de un mayor riesgo de cáncer de piel entre fumadores).
7.2.3 Test exacto de Fisher
No vamos a entrar en el desarrollo del test exacto de Fisher ya que tiene las mismas
utilidades que la ji cuadrado en tablas de contingencia.
Aplicaremos el test exacto de Fisher en vez de la ji cuadrado cuando uno de los
valores esperados es menor que 5.
5
Una alternativa es usar Excel, que con la expresión =DISTR.CHI (valor de chi; grados de libertad) nos
devuelve el valor p.
07. Inferencia paramétrica: relación entre dos variables cualitativas
7 - 10
Diplomado en Salud Pública
2. Metodología en Salud Pública
Realmente, el test exacto de Fisher no tiene requisitos de aplicación. Por tanto, al ser
un método más exacto, siempre se puede utilizar para comparar proporciones (incluso
cuando todos los valores esperados sean iguales o superiores a 5).
Cuando se pida a SPSS una ji cuadrado para una tabla 2x2, siempre calculará el test
exacto de Fisher, que es válido siempre en este tipo de tablas. Además, SPSS nos
señalará siempre cuántas casillas tienen una frecuencia esperada inferior a 5.
En las tablas que tengan más de cuatro casillas, al menos el 80% de los valores
esperados deben ser superiores o iguales a 5.
Cálculo de la ji cuadrado con SPSS para tablas 2x2:
Se selecciona Analizar / Estadísticos descriptivos / Tablas de contingencia y
dentro del botón Estadísticos seleccionamos Chi-cuadrado.
Figura 7.4
07. Inferencia paramétrica: relación entre dos variables cualitativas
8 - 10
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 7.5
Utilizaremos el estadístico chi cuadrado si queremos determinar si el tratamiento al
que son sometidos los pacientes tras diagnosticarles un tumor, está relacionado con
el sexo.
07. Inferencia paramétrica: relación entre dos variables cualitativas
9 - 10
Diplomado en Salud Pública
2. Metodología en Salud Pública
Interpretación:
Dentro de la tabla de contingencia aparecen los valores observados para cada
combinación. Como veis aparecen también los marginales (suma por filas,
columnas y total).
En la segunda tabla, la primera ji cuadrado que aparece es la de Pearson (0,040).
Como ya hemos comentado SPSS ofrece también el test exacto de Fisher.
Todas las pruebas de significación estadística con ji cuadrado son aproximadas, es
decir, se aproximan tanto mejor a la exactitud cuanto mayor es el tamaño de la
muestra. En cambio, el test de Fisher es exacto, por eso los valores p aparecen en
una columna distinta para el test de Fisher.
El programa también nos da el mínimo de los valores esperados (22,41).Si algún
valor esperado en una tabla 2x2 es inferior a 5 no sirve la ji cuadrado, en ese caso
utilizaríamos el test exacto de Fisher.
Conclusión: al usar la ji cuadrado (p=0,842 > 0,05) no rechazaremos H0, luego no
existe relación significativa entre el tratamiento al que son sometidos los pacientes
y el sexo.
07. Inferencia paramétrica: relación entre dos variables cualitativas
10 - 10
Descargar