CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA

Anuncio
Página 1 de 5
CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA
Descripción entre variables cualitativas
Como ya sabemos la metodología estadística depende del tipo de variable(s) que estemos
analizando. A menudo nos va a interesar describir la relación o asociación entre dos o más
variables cualitativas. En este capítulo vamos a estudiar cómo describir y analizar dos variables
cualitativas.
Recuerde que las variables cualitativas son variables cuyas observaciones son cualidades o
categorías. Algunas variables son cualitativas por natulareza, tal como sexo, religión u ocupación,
otras se convierten en categóricas después de que, a partir de una variable cuantitativa,
clasificamos las respuestas en categorías. Por ejemplo, medimos el peso de recién nacidos en
kilos y luego los clasificamos como "bajo peso" a los que nacen con menos de 2,5 kilos, "normal"
a los que nacen entre 2,5 y 4,5 kilos y "sobrepeso" a los que nacen con más de 4,5 kilos.
Definición:
Una tabla de contingencia es una tabla donde los individuos de una muestra se clasifican en
función de dos variables cualitativas.
Nota: las tablas de contingencia se conocen también como: tablas de doble entrada, tablas de
asociación o tablas de f x c, donde f es el número de filas y c el número de columnas en la tabla.
El término tabla de contingencia se refiere a que las tablas construidas se usan para contrastar
una asociación o relación entre dos variables. Usaremos tablas de contingencia para describir dos
variable cualitativas. Veremos que la asociasión entre dos variables se puede describir mejor
calculando apropiadamente los porcentajes y usando gráficos de barras.
¿Existirá relación entre el estado nutricional y el rendimiento académico de estudiantes de
enseñanza básica? Se midió el estado nutricional de 1000 niños de enseñanza básica, el que fue
clasificado como "malo", "regular", "bueno". El rendimiento académico fue clasificado como “bajo
el promedio”, “promedio” o “sobre el promedio”.
Estado Nutricional
Malo
Regular
Bueno
130
95
30
255
Promedio
90
450
35
575
Sobre
70
30
70
170
290
575
135
1000
Bajo
Rendimiento
Académico
TOTAL
TOTAL
Página 2 de 5
¿Qué información podemos obtener de la tabla?
1. La distribución marginal de cada variable:
La distribución marginal del Estado Nutricional es:
Porcentaje
Estado Nutricional
Malo
Regular
Bueno
29,0%
57,5%
13,5%
Total
100%
Ejemplo
Calcule la distribución marginal del rendimiento académico.
Rendimiento Académico
Sobre
Bajo
Promedio
Porcentaje
____%
____%
____%
Total
100%
¿Qué porcentaje de los niños de enseñanza básica tienen:
a) un rendimiento académico sobre el promedio?
b) en el promedio?
c) bajo el promedio?
Definiciones:
La distribución marginal de la variable fila se encuentra calculando los porcentajes de cada
fila en el gran total (tamaño de la muestra).
La distribución marginal de la variable columna se encuentra calculando el porcentaje de
cada columna en el gran total.
¿Qué otra información podemos obtener de la tabla?
La asociación entre dos variables cualitativas se presenta calculando algunos de los porcentajes
en la forma de distribución condicional.
2. La distribución condicional de una variable dada otra variable:
Estado Nutricional
Rendimiento
Académico
Malo
Regular
Bueno
Bajo
44,8
16,5
22,2
Promedio
31,1
78,3
25,9
Sobre
24,1
5,2
51,9
100%
100%
100%
TOTAL
Página 3 de 5
Definiciones:
La distribución condicional de la variable fila, dada la variable columna, se encuentra
expresando los números como porcentajes del total de la columna.
La distribución condicional de la variable columna, dada la variable fila, se encuentra
expresando los números como porcentajes del total de la fila.
Si una variable es considerada como variable explicatoria y la otra como variable respuesta,
entonces debemos analizar la distribución condicional de la variable respuesta, dada la variable
explicatoria.
Ejemplo
Degustando cervezas
El Famoso Pub elabora y distribuye cervezas de tres tipos: suave, regular y negra. Para investigar
la relación entre género y preferencia de cerveza selecciona una muestra de 450 bebedores de
cerveza. Después de probar los tres tipos de cerveza se les preguntó su preferencia y se resumió
la información en la siguiente tabla:
Preferencia cerveza
Suave
Regular
Negra
Sexo
Hombre
60
120
60
Mujer
90
90
30
a) Describa brevemente qué representa el valor 30 en la tabla.
b) Dé la distribución condicional de la preferencia de cerveza dado el sexo.
Preferencia cerveza
Suave
Regular
Negra
Sexo
Hombre
Mujer
c) Basado en sus cálculos en (b) debería el "Famoso Pub" iniciar una campaña con todas sus
cervezas o debería diferenciar la promoción entre hombres y mujeres.
Página 4 de 5
Ejemplo
Perfil cardiovascular
En el año 2005 un grupo de investigadores de la U. de Talca, realizan una encuesta sobre perfil
cardiovascular en la ciudad de Talca1. Se tiene una muestra de personas entre 18 y 74 años. Una
de las preguntas de interés fue investigar si: ¿Existe asociación entre el hábito de fumar y la
edad?
En SPSS
Analizar > Estadísticos Descriptivos > Tablas de Contingencia.
Tabla de contingencia Fuma * Categorías de edad
Recuento
Fuma
Total
No
Si
18-24
35
30
65
Categorías de edad
25-44
45-64
181
191
192
131
373
322
65-74
63
15
78
Total
470
368
838
Tabla de contingencia Fuma * Categorías de edad
Fuma
No
Si
Total
1
Recuento
% de Categorías de edad
Recuento
% de Categorías de edad
Recuento
% de Categorías de edad
18-24
35
53.8%
30
46.2%
65
100.0%
Categorías de edad
25-44
45-64
181
191
48.5%
59.3%
192
131
51.5%
40.7%
373
322
100.0%
100.0%
65-74
63
80.8%
15
19.2%
78
100.0%
Total
470
56.1%
368
43.9%
838
100.0%
Encuesta realizada por el Programa de Investigación de Factores de Riesgo de Enfermedades Cardiovasculares
http://pifrecv.utalca.cl/
Página 5 de 5
Gráfico de barras
Fuma
No
Si
200
Recuento
150
100
50
0
18-24
25-44
45-64
65-74
Categorías de edad
Test de hipótesis:
H 0 : No existe asociación
H1 : Existe asociación
Con el programa SPSS podemos calcular el valor-p para el test de asociación, que aparece bajo el
título de “Significancia”. El valor-p es menor que 0,001, indicando que existe una asociación
estadísticamente significativa entre fumar y la edad, al 5%.
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Razón de verosimilitudes
Asociación lineal por
lineal
N de casos válidos
Valor
29.449a
31.270
20.762
3
3
Sig. asintótica
(bilateral)
.000
.000
1
.000
gl
838
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 28.54.
Descargar