Página 1 de 5 CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA Descripción entre variables cualitativas Como ya sabemos la metodología estadística depende del tipo de variable(s) que estemos analizando. A menudo nos va a interesar describir la relación o asociación entre dos o más variables cualitativas. En este capítulo vamos a estudiar cómo describir y analizar dos variables cualitativas. Recuerde que las variables cualitativas son variables cuyas observaciones son cualidades o categorías. Algunas variables son cualitativas por natulareza, tal como sexo, religión u ocupación, otras se convierten en categóricas después de que, a partir de una variable cuantitativa, clasificamos las respuestas en categorías. Por ejemplo, medimos el peso de recién nacidos en kilos y luego los clasificamos como "bajo peso" a los que nacen con menos de 2,5 kilos, "normal" a los que nacen entre 2,5 y 4,5 kilos y "sobrepeso" a los que nacen con más de 4,5 kilos. Definición: Una tabla de contingencia es una tabla donde los individuos de una muestra se clasifican en función de dos variables cualitativas. Nota: las tablas de contingencia se conocen también como: tablas de doble entrada, tablas de asociación o tablas de f x c, donde f es el número de filas y c el número de columnas en la tabla. El término tabla de contingencia se refiere a que las tablas construidas se usan para contrastar una asociación o relación entre dos variables. Usaremos tablas de contingencia para describir dos variable cualitativas. Veremos que la asociasión entre dos variables se puede describir mejor calculando apropiadamente los porcentajes y usando gráficos de barras. ¿Existirá relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños de enseñanza básica, el que fue clasificado como "malo", "regular", "bueno". El rendimiento académico fue clasificado como “bajo el promedio”, “promedio” o “sobre el promedio”. Estado Nutricional Malo Regular Bueno 130 95 30 255 Promedio 90 450 35 575 Sobre 70 30 70 170 290 575 135 1000 Bajo Rendimiento Académico TOTAL TOTAL Página 2 de 5 ¿Qué información podemos obtener de la tabla? 1. La distribución marginal de cada variable: La distribución marginal del Estado Nutricional es: Porcentaje Estado Nutricional Malo Regular Bueno 29,0% 57,5% 13,5% Total 100% Ejemplo Calcule la distribución marginal del rendimiento académico. Rendimiento Académico Sobre Bajo Promedio Porcentaje ____% ____% ____% Total 100% ¿Qué porcentaje de los niños de enseñanza básica tienen: a) un rendimiento académico sobre el promedio? b) en el promedio? c) bajo el promedio? Definiciones: La distribución marginal de la variable fila se encuentra calculando los porcentajes de cada fila en el gran total (tamaño de la muestra). La distribución marginal de la variable columna se encuentra calculando el porcentaje de cada columna en el gran total. ¿Qué otra información podemos obtener de la tabla? La asociación entre dos variables cualitativas se presenta calculando algunos de los porcentajes en la forma de distribución condicional. 2. La distribución condicional de una variable dada otra variable: Estado Nutricional Rendimiento Académico Malo Regular Bueno Bajo 44,8 16,5 22,2 Promedio 31,1 78,3 25,9 Sobre 24,1 5,2 51,9 100% 100% 100% TOTAL Página 3 de 5 Definiciones: La distribución condicional de la variable fila, dada la variable columna, se encuentra expresando los números como porcentajes del total de la columna. La distribución condicional de la variable columna, dada la variable fila, se encuentra expresando los números como porcentajes del total de la fila. Si una variable es considerada como variable explicatoria y la otra como variable respuesta, entonces debemos analizar la distribución condicional de la variable respuesta, dada la variable explicatoria. Ejemplo Degustando cervezas El Famoso Pub elabora y distribuye cervezas de tres tipos: suave, regular y negra. Para investigar la relación entre género y preferencia de cerveza selecciona una muestra de 450 bebedores de cerveza. Después de probar los tres tipos de cerveza se les preguntó su preferencia y se resumió la información en la siguiente tabla: Preferencia cerveza Suave Regular Negra Sexo Hombre 60 120 60 Mujer 90 90 30 a) Describa brevemente qué representa el valor 30 en la tabla. b) Dé la distribución condicional de la preferencia de cerveza dado el sexo. Preferencia cerveza Suave Regular Negra Sexo Hombre Mujer c) Basado en sus cálculos en (b) debería el "Famoso Pub" iniciar una campaña con todas sus cervezas o debería diferenciar la promoción entre hombres y mujeres. Página 4 de 5 Ejemplo Perfil cardiovascular En el año 2005 un grupo de investigadores de la U. de Talca, realizan una encuesta sobre perfil cardiovascular en la ciudad de Talca1. Se tiene una muestra de personas entre 18 y 74 años. Una de las preguntas de interés fue investigar si: ¿Existe asociación entre el hábito de fumar y la edad? En SPSS Analizar > Estadísticos Descriptivos > Tablas de Contingencia. Tabla de contingencia Fuma * Categorías de edad Recuento Fuma Total No Si 18-24 35 30 65 Categorías de edad 25-44 45-64 181 191 192 131 373 322 65-74 63 15 78 Total 470 368 838 Tabla de contingencia Fuma * Categorías de edad Fuma No Si Total 1 Recuento % de Categorías de edad Recuento % de Categorías de edad Recuento % de Categorías de edad 18-24 35 53.8% 30 46.2% 65 100.0% Categorías de edad 25-44 45-64 181 191 48.5% 59.3% 192 131 51.5% 40.7% 373 322 100.0% 100.0% 65-74 63 80.8% 15 19.2% 78 100.0% Total 470 56.1% 368 43.9% 838 100.0% Encuesta realizada por el Programa de Investigación de Factores de Riesgo de Enfermedades Cardiovasculares http://pifrecv.utalca.cl/ Página 5 de 5 Gráfico de barras Fuma No Si 200 Recuento 150 100 50 0 18-24 25-44 45-64 65-74 Categorías de edad Test de hipótesis: H 0 : No existe asociación H1 : Existe asociación Con el programa SPSS podemos calcular el valor-p para el test de asociación, que aparece bajo el título de “Significancia”. El valor-p es menor que 0,001, indicando que existe una asociación estadísticamente significativa entre fumar y la edad, al 5%. Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Valor 29.449a 31.270 20.762 3 3 Sig. asintótica (bilateral) .000 .000 1 .000 gl 838 a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 28.54.