INFERENCIA CON RECUENTOS

Anuncio
.
INFERENCIA CON RECUENTOS
PEDRO M. VALERO MORA
Inferencia con Recuentos-Pedro M. Valero Mora 2009
1 de 35
.
PARTE I
ANÁLISIS CON 1 VARIABLE
Inferencia con Recuentos-Pedro M. Valero Mora 2009
2 de 35
1.1. ¿De dónde vienen las frecuencias?.
1.1.¿DE DÓNDE VIENEN LAS FRECUENCIAS?
Los recuentos son datos muy habituales
• A veces los datos se componen de características cualitativas
– El Género de una persona (Hombre, Mujer)
– El Signo del zodiaco (los doce signos)
– El partido al que vota (todas las posibilidades)
• Este tipo de datos se suelen analizar contando el número de casos
en cada una de las categorías
– En el informe PISA podemos contar el número de estudiantes que
están en colegio privado/público.
– En el informe PISA podemos contar el número de estudiantes en
cada comunidad.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
3 de 35
1.2. ¿Qué clase de análisis podemos hacer?.
1.2.¿QUÉ CLASE DE ANÁLISIS PODEMOS HACER?
Los datos de frecuencias se presta a análisis especiales
• Porcentajes/proporciones de una variable
En este estudio (De Veaux et. al, 2005) se recogió
el signo del zodiaco de 256 directivos de empresas
que están entre las más grandes del mundo
.
Tabla 1: Signo del zodiaco de directivos de empresas entre las más grandes del mundo
Signo
Inferencia con Recuentos-Pedro M. Valero Mora 2009
Frecuencia
Porcentaje
4 de 35
1.2. ¿Qué clase de análisis podemos hacer?.
Tabla 1: Signo del zodiaco de directivos de empresas entre las más grandes del mundo
Aries
23
9
Tauro
20
8
Geminis
18
7
Cancer
23
9
Leo
20
8
Virgo
19
7
Libra
18
7
Scorpio
21
8
Sagitario
19
7
Capricornio
22
9
Acuario
24
8
Piscis
29
11
Inferencia con Recuentos-Pedro M. Valero Mora 2009
5 de 35
1.2. ¿Qué clase de análisis podemos hacer?.
• Tabla de contingencia de dos variables categóricas
En un estudio se preguntó a una muestra de sujetos
casados o divorciados sobre si habían tenido relaciones extramaritales. En esta tabla se muestran
Inferencia con Recuentos-Pedro M. Valero Mora 2009
6 de 35
1.2. ¿Qué clase de análisis podemos hacer?.
los resultados divididos entre hombres y mujeres.
Tabla 2: Relaciones extra y género
Género
Extramatrimonial
Frecuencia
Hombre
Si
60
Hombre
No
300
Mujer
Si
61
Mujer
No
615
Los mismos datos muy a menudo se presentan de la
siguiente manera
Tabla 3: Relaciones extramatrimoniales y género
Género
Relaciones
Hombre
Mujer
Si
60
61
No
300
615
Inferencia con Recuentos-Pedro M. Valero Mora 2009
7 de 35
1.3. Analizando una variable.
1.3.ANALIZANDO UNA VARIABLE
El zodiaco y el éxito
• En el ejemplo del zodiaco, lo interesante es ver si hay algun signo
que destaca. ¿Cómo podemos ver eso?
– Empezamos calculando cual es la frecuencia media. Esto es igual
a 256/12=21.333.
– Aquellos signos que tengan más de 21.333 directivos es que
estarían relacionados con el éxito, mientras que los que tienen
menos no tendrían tanto éxito. Por ejemplo, Acuario o Piscis
estarían por encima y Géminis y Libra por debajo.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
8 de 35
1.3. Analizando una variable.
• No obstante, estos resultados pueden ser debidos a la casualidad (al
azar). Una forma de valorar esto es calcular las diferencias entre la
frecuencia media (llamada esperada) y la observada y luego sumar:
Tabla 4: Signo del zodiaco de directivos de empresas entre las más grandes del mundo
Signo
Frecuencia
Residual
Aries
23
1.7
Tauro
20
-1.3
Geminis
18
-3.3
Cancer
23
1.7
Leo
20
-1.3
Virgo
19
-2.3
Libra
18
-3.3
Scorpio
21
-0.3
Sagitario
19
-2.3
Capricornio
22
0.6
Acuario
24
2.7
Piscis
29
7.7
– Como las sumas de diferencias respecto a la media son cero
Inferencia con Recuentos-Pedro M. Valero Mora 2009
9 de 35
1.3. Analizando una variable.
elevamos al cuadrado:
Suma =
∑ ( Observada – Esperada )
2
– La suma anterior tiene el problema de que su límite es muy
amplio. Por ello, se utiliza la siguiente variante:
2
( Observada – Esperada )
χ = ∑ ------------------------------------------------------------------Esperada
2
– Si utilizamos la formula anterior, entonces los valores que
obtenemos son los siguientes:
Tabla 5: Signo del zodiaco de directivos de empresas entre las más grandes del mundo
Signo
Frecuencia
Inferencia con Recuentos-Pedro M. Valero Mora 2009
Residual
Residual2
Residual2/
Esp
10 de 35
1.3. Analizando una variable.
Tabla 5: Signo del zodiaco de directivos de empresas entre las más grandes del mundo
Aries
23
1.7
2.8
0.13
Tauro
20
-1.3
1.8
0.08
Geminis
18
-3.3
11.1
0.52
Cancer
23
1.7
2.8
0.13
Leo
20
-1.3
1.8
0.08
Virgo
19
-2.3
5.4
0.25
Libra
18
-3.3
11.1
0.52
Scorpio
21
-0.3
0.1
0.005
Sagitario
19
-2.3
5.4
0.25
Capricornio
22
0.6
0.4
0.02
Acuario
24
2.7
7.1
0.33
Piscis
29
7.7
58.8
2.75
2
– La suma de la última columna es χ = 5, 904
Inferencia con Recuentos-Pedro M. Valero Mora 2009
11 de 35
1.3. Analizando una variable.
• ¿Cuándo es esa suma grande? Para valorarlo se compara el valor de
2
2
χ con el que nos proporciona una tabla χ con k-1 grados de
libertad. Atención: k en este caso es el número de categorías
utilizada (en este caso 12-1=11).
– También, si utilizamos el ordenador podemos mirar el nivel de
significación.
– La hipótesis nula es que las diferencias de las puntuaciones
observadas con respecto a la esperada no son importantes (son
nulas).
2
– En este caso, χ = 5, 904 ;p = 0, 926 . Esto significa que no
rechazamos la hipótesis nula.
– ¿Qué quiere decir en este caso no rechazar la hipótesis nula? Que
las desviaciones respecto de la frecuencia media (la esperada) no
son tan grandes como para decir que hay signos del zodiaco con
más representación entre los directivos.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
12 de 35
1.3. Analizando una variable.
PARTE II
ANALIZANDO DOS VARIABLES
Inferencia con Recuentos-Pedro M. Valero Mora 2009
13 de 35
2.1. Ejemplo.
2.1.EJEMPLO
• Empezaremos con un ejemplo. En el hundimiento del Titanic se
registró los supervivientes y los fallecidos en función de la clase en
la que viajaban.
Tabla 6: Fallecidos en el Titanic
Vivos
Muertos
Suma
Tripulación 212
673
885
Primera
202
123
325
Segunda
118
167
285
Tercera
178
528
706
Suma
710
1491
2201
Inferencia con Recuentos-Pedro M. Valero Mora 2009
14 de 35
2.1. Ejemplo.
• ¿Qué podemos decir en este caso?
– ¿Fallecieron más los que estaban en la tripulación?
– ¿Era lo peor viajar en tercera?
– ¿Los que estaban en primera lo pasaron mejor?
Inferencia con Recuentos-Pedro M. Valero Mora 2009
15 de 35
2.2. Porcentajes para dos variables.
2.2.PORCENTAJES PARA DOS VARIABLES
• Para analizar este tipo de celdas, en la primera parte del curso
calculábamos porcentajes. Por ejemplo, en este caso, si tuvieramos
interés en ver si la clase tuvo efecto sobre la supervivencia de los que
estaban en el Titanic podríamos calcular lo siguiente:
Tabla 7: Fallecidos en el Titanic porcentajes por fila
Vivos
Muertos
Tripulación 24
76
Primera
62.2
37.8
Segunda
41.4
58.6
Tercera
25.2
74.8
– En esta tabla podemos ver que efectivamente parece que hay
ciertas categorías que fueron más mortales que otras.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
16 de 35
2.2. Porcentajes para dos variables.
• A estos resultados, no obstante, les falta el equivalente de las
pruebas de hipótesis que hemos estado calculando en los temas
anteriores.
– Esta prueba de hipótesis nos permitiría decir hasta qué punto lo
que observamos en la tabla son significativas desde un punto de
vista estadístico.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
17 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
2.3.PRUEBAS DE HIPÓTESIS PARA TABLAS DE CONTINGENCIA
• Si en los datos del Titanic se hubiera obtenido el siguiente
resultados, diríamos que no hubo efecto en la categoría de tripulante
sobre la supervivencia:
Tabla 8: Valores esperados de los fallecidos en el Titanic porcentajes por fila
Vivos
Muertos
Suma
Tripulación 285.5
599.5
885
Primera
104.8
220.2
325
Segunda
91.9
193.1
285
Tercera
227.7
478.3
706
Suma
710
1491
2201
– Si comprobais los totales por fila y por columna vereis que son
los mismos que en la tabla anterior, pero los valores de las celdas
han variado de modo que son proporcionales a los totales por fila
y por columna. Este es el valor esperado y se calcula del siguiente
modo:
Inferencia con Recuentos-Pedro M. Valero Mora 2009
18 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
× SumaColEsperada = SumaFila
------------------------------------------------------Total
– Por ejemplo, para la casilla Tripulación y Vivos se hace:
× 710- = 285.5
Esperada = 885
----------------------2201
Inferencia con Recuentos-Pedro M. Valero Mora 2009
19 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
• Si ahora calculamos el porcentaje de vivos y muertos para la tabla
anterior tenemos lo siguiente:
Tabla 9: Fallecidos en el Titanic porcentajes por fila
Vivos
Muertos
Tripulación 32.3
67.7
Primera
32.3
67.7
Segunda
32.3
67.7
Tercera
32.3
67.7
Total
32.3
67.7
– Vemos que los porcentajes por categoría de pasajero son iguales
a los porcentajes por columna, lo cual significaría que no habría
ninguna diferencia en absoluto entre viajar en una clase o en otra
en cuanto a la supervivencia
Inferencia con Recuentos-Pedro M. Valero Mora 2009
20 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
• No obstante, en realidad sí que hubo efecto de la clase en la que se
viajaba. ¿Cómo podemos ver ese efecto?
– La respuesta está en calcular la diferencia entre el valor esperado
y el valor observado para cada una de las casillas (tal y como
hicimos anteriormente para el ejemplo del zodiaco). Así, con los
datos de la Tabla 6 y la Tabla 8 en un primer paso haríamos
Tabla 10: Puntuaciones observadas menos esperadas para los datos del Titanic
Vivos
Muertos
212-285.5= 673-599.5=
Tripulación
-73.5
73.5
Primera
Segunda
Tercera
202-104.8= 123-220.2=
97.2
-97.2
118-91.9=
26.1
167-193.1=
-26.1
178-227.7= 528-478.3=
-49.7
49.7
– Fijaros en los valores negativos y positivos. Positivo significa que
hubo más de lo esperado (p.e. Vivos en primera y tercera),
negativo que hubo menos (p.e. vivos en tripulación y tercera)
Inferencia con Recuentos-Pedro M. Valero Mora 2009
21 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
• Ahora bien, los valores de la tabla anterior no pueden ser
interpretados bien si no tenemos idea de lo grande o lo pequeño que
pueden llegar a ser. Una forma de ponerlos en una escala más fácil
de entender es dividirlos por la raíz cuadrada del valor esperado
dando lugar a los residuales tipificados
Tabla 11: Residuales tipificados
Vivos
Tripulación
Muertos
-4.3
3
Primera
9.5
-6.6
Segunda
2.7
-1.9
Tercera
-3.3
2.3
– Estos valores pueden ser interpretados como puntuaciones z o
típicas que pueden ser juzgadas (aproximadamente) usando los
valores de la distribución normal
– De este modo, consideraríamos valores por encima de 2 o de 3
altos, mientras que valores por debajo de 2 no lo serían
– En nuestro caso, hay muchos valores altos. Evidentemente, hubo
mucho efecto de la clase sobre la supervivencia
Inferencia con Recuentos-Pedro M. Valero Mora 2009
22 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
– Por ejemplo, estar en primera llama la atención en que supuso
una gran ventaja en cuanto a la supervivencia, mientras que en
segunda el efecto no fue tan grande. Tripulación y tercera fueron
los más dañados
Inferencia con Recuentos-Pedro M. Valero Mora 2009
23 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
• Una forma de valorar globalmente el resultado anterior es utilizando
el mismo estadístico que en la Parte I
2
( Observada – Esperada )
χ = ∑ -----------------------------------------------------------------Esperada
2
– Este valor se puede calcular elevando al cuadrado cada una de las
casillas de lo que aparece en la Tabla 11 y sumando
Tabla 12: Residuales tipificados
Vivos
Muertos
Tripulación
18.5
9
Primera
90.3
43.6
Segunda
7.3
3.6
Tercera
10.9
5.3
2
– El resultado es χ = 188.4 . Para rechazar la hipótesis nula
tenemos que ver si este valor es más grande que los que tenemos
2
en las tablas de χ con k – 1 × j – 1 grados de libertad (k y j son el
número de categorías de cada variable luego 4 – 1 × 2 – 1 = 3 )
Inferencia con Recuentos-Pedro M. Valero Mora 2009
24 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
– Igualmente, la mayoría de los paquetes estadísticos proporcionan
la probabilidad de obtener este valor si la hipótesis nula fuera
verdadera. En este caso tendríamos por ejemplo:
2
χ = 188.4 ;p = 0, 000
– En este caso, rechazaríamos la hipótesis nula, con el sentido de
que existe diferencia entre lo esperado en las celdas y lo
realmente observado
Inferencia con Recuentos-Pedro M. Valero Mora 2009
25 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
ACTIVIDADES
EJERCICIO 2.3.1 Analizando la relación entre Género
y Supervivencia tenemos la siguiente tabla. ¿Para
quién fue peor este accidente, para los hombres o
para las mujeres? ¿Por qué?
Recuento
Survive_
Died
Lived
Total
Inferencia con Recuentos-Pedro M. Valero Mora 2009
Gender_
Fema
Male
126
1364
344
367
470
1731
Total
1490
711
2201
26 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.2 ¿Qué dirías de la relación entre
género y supervivencia a partir de esta tabla?
¿En qué es diferente de la anterior?
Recuento
Gender_
Fema
Male
Total
Inferencia con Recuentos-Pedro M. Valero Mora 2009
Survive_
Died
Lived
126
344
1364
367
1490
711
Total
470
1731
2201
27 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.3 ¿Qué puedes decir de la relación
entre Género y Supervivencia a partir de esta
tabla?
g
_
_
% de Survive_
Gender_
Fema
Male
Total
Inferencia con Recuentos-Pedro M. Valero Mora 2009
Survive_
Died
Lived
8.5%
48.4%
91.5%
51.6%
100.0%
100.0%
Total
21.4%
78.6%
100.0%
28 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.4 ¿Qué podrias decir a partir de esta
tabla?
% de Survive_
Gender_
Fema
Male
Total
Inferencia con Recuentos-Pedro M. Valero Mora 2009
Survive_
Died
Lived
8.5%
48.4%
91.5%
51.6%
100.0%
100.0%
Total
21.4%
78.6%
100.0%
29 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.5 ¿Y a partir de esta?
% de Gender_
Gender_
Fema
Male
Total
Inferencia con Recuentos-Pedro M. Valero Mora 2009
Survive_
Died
Lived
26.8%
73.2%
78.8%
21.2%
67.7%
32.3%
Total
100.0%
100.0%
100.0%
30 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.6 ¿Qué podrias decir de esta relación
a partir de estos resultados?
Tabla de contingencia Gender_ * Survive_
Residuos tipificados
Gender_
Survive_
Died
Lived
-10.8
15.6
5.6
-8.1
Fema
Male
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Corrección por
a
continuidad
Razón de verosimilitudes
Estadístico exacto de
Fisher
Asociación lineal por
lineal
N de casos válidos
1
Sig. asintótica
(bilateral)
.000
454.500
1
.000
434.469
1
.000
Valor
456.874b
456.667
gl
1
Sig. exacta
(bilateral)
Sig. exacta
(unilateral)
.000
.000
.000
2201
a. Calculado sólo para una tabla de 2x2.
b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada
es 151.83.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
31 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.7 Una de las preguntas de la encuesta
general de 1991 US es el grado de felicidad que
percibían en sus vidas. ¿Qué podrías decir de esa
felicidad en función
del género?
g
Nivel de felicidad
Sexo del encuestado
Hombre
Mujer
Total
No
demasiado
feliz
Muy feliz
Bastante feliz
32.5%
59.1%
8.4%
.7
.4
-2.0
30.0%
57.2%
12.9%
-.6
-.3
1.7
31.1%
58.0%
11.0%
% de Sexo del
encuestado
Residuos tipificados
% de Sexo del
encuestado
Residuos tipificados
% de Sexo del
encuestado
Total
100.0%
100.0%
100.0%
Pruebas de chi cuadrado
Chi-cuadrado de Pearson
Razón de verosimilitudes
Asociación lineal por
lineal
N de casos válidos
Valor
7.739a
7.936
4.812
2
2
Sig. asintótica
(bilateral)
.021
.019
1
.028
gl
1504
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 69.44.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
32 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.8 ¿Y de la felicidad en función de la
raza?
Tabla de contingencia Raza del encuestado * Nivel de felicidad
Nivel de felicidad
Raza del
encuestado
Blanca
Negra
Otra
Total
% de Raza del
encuestado
Residuos corregidos
% de Raza del
encuestado
Residuos corregidos
% de Raza del
encuestado
Residuos corregidos
% de Raza del
encuestado
Chi-cuadrado de Pearson
Razón de verosimilitudes
Asociación lineal por
lineal
N de casos válidos
No
demasiado
feliz
Muy feliz
Bastante feliz
32.6%
58.1%
9.3%
2.9
.3
-4.6
22.9%
57.7%
19.4%
-2.7
-.1
4.1
25.5%
55.3%
19.1%
-.8
-.4
1.8
31.1%
58.0%
11.0%
Valor
24.797a
22.446
16.982
4
4
Sig. asintótica
(bilateral)
.000
.000
1
.000
gl
Total
100.0%
100.0%
100.0%
100.0%
1504
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 5.16.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
33 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.9 ¿Y la felicidad en función de la
zona geográfica en la que viven?
Nivel de felicidad
Región de
los Estados
Unidos
Nor-Este
Sur-Este
Oeste
Total
% de Región de los
Estados Unidos
Residuos corregidos
% de Región de los
Estados Unidos
Residuos corregidos
% de Región de los
Estados Unidos
Residuos corregidos
% de Región de los
Estados Unidos
Chi-cuadrado de Pearson
Razón de verosimilitudes
Asociación lineal por
lineal
N de casos válidos
No
demasiado
feliz
Muy feliz
Bastante feliz
27.5%
61.2%
11.3%
-2.7
2.3
.4
36.3%
52.3%
11.4%
2.7
-2.7
.4
31.7%
58.3%
10.0%
.3
.2
-.7
31.1%
58.0%
11.0%
Valor
10.393a
10.385
2.694
4
4
Sig. asintótica
(bilateral)
.034
.034
1
.101
gl
Total
100.0%
100.0%
100.0%
100.0%
1504
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 45.09.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
34 de 35
2.3. Pruebas de hipótesis para tablas de contingencia.
EJERCICIO 2.3.10 ¿Y en función de tener una vida
excitante, rutinaria o aburrida?
Nivel de felicidad
¿Su vida es
excitante o
aburrida?
Excitante
Rutinaria
Aburrida
Total
% de ¿Su vida es
excitante o aburrida?
Residuos corregidos
% de ¿Su vida es
excitante o aburrida?
Residuos corregidos
% de ¿Su vida es
excitante o aburrida?
Residuos corregidos
% de ¿Su vida es
excitante o aburrida?
Chi-cuadrado de Pearson
Razón de verosimilitudes
Asociación lineal por
lineal
N de casos válidos
No
demasiado
feliz
Muy feliz
Bastante feliz
44.9%
50.2%
4.8%
8.9
-4.7
-5.6
19.7%
68.0%
12.3%
-7.4
6.2
1.2
5.0%
30.0%
65.0%
-3.6
-3.7
11.1
30.4%
58.5%
11.1%
Valor
196.023a
148.923
125.487
4
4
Sig. asintótica
(bilateral)
.000
.000
1
.000
gl
Total
100.0%
100.0%
100.0%
100.0%
971
a. 1 casillas (11.1%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 4.45.
Inferencia con Recuentos-Pedro M. Valero Mora 2009
35 de 35
Descargar