. INFERENCIA CON RECUENTOS PEDRO M. VALERO MORA Inferencia con Recuentos-Pedro M. Valero Mora 2009 1 de 35 . PARTE I ANÁLISIS CON 1 VARIABLE Inferencia con Recuentos-Pedro M. Valero Mora 2009 2 de 35 1.1. ¿De dónde vienen las frecuencias?. 1.1.¿DE DÓNDE VIENEN LAS FRECUENCIAS? Los recuentos son datos muy habituales • A veces los datos se componen de características cualitativas – El Género de una persona (Hombre, Mujer) – El Signo del zodiaco (los doce signos) – El partido al que vota (todas las posibilidades) • Este tipo de datos se suelen analizar contando el número de casos en cada una de las categorías – En el informe PISA podemos contar el número de estudiantes que están en colegio privado/público. – En el informe PISA podemos contar el número de estudiantes en cada comunidad. Inferencia con Recuentos-Pedro M. Valero Mora 2009 3 de 35 1.2. ¿Qué clase de análisis podemos hacer?. 1.2.¿QUÉ CLASE DE ANÁLISIS PODEMOS HACER? Los datos de frecuencias se presta a análisis especiales • Porcentajes/proporciones de una variable En este estudio (De Veaux et. al, 2005) se recogió el signo del zodiaco de 256 directivos de empresas que están entre las más grandes del mundo . Tabla 1: Signo del zodiaco de directivos de empresas entre las más grandes del mundo Signo Inferencia con Recuentos-Pedro M. Valero Mora 2009 Frecuencia Porcentaje 4 de 35 1.2. ¿Qué clase de análisis podemos hacer?. Tabla 1: Signo del zodiaco de directivos de empresas entre las más grandes del mundo Aries 23 9 Tauro 20 8 Geminis 18 7 Cancer 23 9 Leo 20 8 Virgo 19 7 Libra 18 7 Scorpio 21 8 Sagitario 19 7 Capricornio 22 9 Acuario 24 8 Piscis 29 11 Inferencia con Recuentos-Pedro M. Valero Mora 2009 5 de 35 1.2. ¿Qué clase de análisis podemos hacer?. • Tabla de contingencia de dos variables categóricas En un estudio se preguntó a una muestra de sujetos casados o divorciados sobre si habían tenido relaciones extramaritales. En esta tabla se muestran Inferencia con Recuentos-Pedro M. Valero Mora 2009 6 de 35 1.2. ¿Qué clase de análisis podemos hacer?. los resultados divididos entre hombres y mujeres. Tabla 2: Relaciones extra y género Género Extramatrimonial Frecuencia Hombre Si 60 Hombre No 300 Mujer Si 61 Mujer No 615 Los mismos datos muy a menudo se presentan de la siguiente manera Tabla 3: Relaciones extramatrimoniales y género Género Relaciones Hombre Mujer Si 60 61 No 300 615 Inferencia con Recuentos-Pedro M. Valero Mora 2009 7 de 35 1.3. Analizando una variable. 1.3.ANALIZANDO UNA VARIABLE El zodiaco y el éxito • En el ejemplo del zodiaco, lo interesante es ver si hay algun signo que destaca. ¿Cómo podemos ver eso? – Empezamos calculando cual es la frecuencia media. Esto es igual a 256/12=21.333. – Aquellos signos que tengan más de 21.333 directivos es que estarían relacionados con el éxito, mientras que los que tienen menos no tendrían tanto éxito. Por ejemplo, Acuario o Piscis estarían por encima y Géminis y Libra por debajo. Inferencia con Recuentos-Pedro M. Valero Mora 2009 8 de 35 1.3. Analizando una variable. • No obstante, estos resultados pueden ser debidos a la casualidad (al azar). Una forma de valorar esto es calcular las diferencias entre la frecuencia media (llamada esperada) y la observada y luego sumar: Tabla 4: Signo del zodiaco de directivos de empresas entre las más grandes del mundo Signo Frecuencia Residual Aries 23 1.7 Tauro 20 -1.3 Geminis 18 -3.3 Cancer 23 1.7 Leo 20 -1.3 Virgo 19 -2.3 Libra 18 -3.3 Scorpio 21 -0.3 Sagitario 19 -2.3 Capricornio 22 0.6 Acuario 24 2.7 Piscis 29 7.7 – Como las sumas de diferencias respecto a la media son cero Inferencia con Recuentos-Pedro M. Valero Mora 2009 9 de 35 1.3. Analizando una variable. elevamos al cuadrado: Suma = ∑ ( Observada – Esperada ) 2 – La suma anterior tiene el problema de que su límite es muy amplio. Por ello, se utiliza la siguiente variante: 2 ( Observada – Esperada ) χ = ∑ ------------------------------------------------------------------Esperada 2 – Si utilizamos la formula anterior, entonces los valores que obtenemos son los siguientes: Tabla 5: Signo del zodiaco de directivos de empresas entre las más grandes del mundo Signo Frecuencia Inferencia con Recuentos-Pedro M. Valero Mora 2009 Residual Residual2 Residual2/ Esp 10 de 35 1.3. Analizando una variable. Tabla 5: Signo del zodiaco de directivos de empresas entre las más grandes del mundo Aries 23 1.7 2.8 0.13 Tauro 20 -1.3 1.8 0.08 Geminis 18 -3.3 11.1 0.52 Cancer 23 1.7 2.8 0.13 Leo 20 -1.3 1.8 0.08 Virgo 19 -2.3 5.4 0.25 Libra 18 -3.3 11.1 0.52 Scorpio 21 -0.3 0.1 0.005 Sagitario 19 -2.3 5.4 0.25 Capricornio 22 0.6 0.4 0.02 Acuario 24 2.7 7.1 0.33 Piscis 29 7.7 58.8 2.75 2 – La suma de la última columna es χ = 5, 904 Inferencia con Recuentos-Pedro M. Valero Mora 2009 11 de 35 1.3. Analizando una variable. • ¿Cuándo es esa suma grande? Para valorarlo se compara el valor de 2 2 χ con el que nos proporciona una tabla χ con k-1 grados de libertad. Atención: k en este caso es el número de categorías utilizada (en este caso 12-1=11). – También, si utilizamos el ordenador podemos mirar el nivel de significación. – La hipótesis nula es que las diferencias de las puntuaciones observadas con respecto a la esperada no son importantes (son nulas). 2 – En este caso, χ = 5, 904 ;p = 0, 926 . Esto significa que no rechazamos la hipótesis nula. – ¿Qué quiere decir en este caso no rechazar la hipótesis nula? Que las desviaciones respecto de la frecuencia media (la esperada) no son tan grandes como para decir que hay signos del zodiaco con más representación entre los directivos. Inferencia con Recuentos-Pedro M. Valero Mora 2009 12 de 35 1.3. Analizando una variable. PARTE II ANALIZANDO DOS VARIABLES Inferencia con Recuentos-Pedro M. Valero Mora 2009 13 de 35 2.1. Ejemplo. 2.1.EJEMPLO • Empezaremos con un ejemplo. En el hundimiento del Titanic se registró los supervivientes y los fallecidos en función de la clase en la que viajaban. Tabla 6: Fallecidos en el Titanic Vivos Muertos Suma Tripulación 212 673 885 Primera 202 123 325 Segunda 118 167 285 Tercera 178 528 706 Suma 710 1491 2201 Inferencia con Recuentos-Pedro M. Valero Mora 2009 14 de 35 2.1. Ejemplo. • ¿Qué podemos decir en este caso? – ¿Fallecieron más los que estaban en la tripulación? – ¿Era lo peor viajar en tercera? – ¿Los que estaban en primera lo pasaron mejor? Inferencia con Recuentos-Pedro M. Valero Mora 2009 15 de 35 2.2. Porcentajes para dos variables. 2.2.PORCENTAJES PARA DOS VARIABLES • Para analizar este tipo de celdas, en la primera parte del curso calculábamos porcentajes. Por ejemplo, en este caso, si tuvieramos interés en ver si la clase tuvo efecto sobre la supervivencia de los que estaban en el Titanic podríamos calcular lo siguiente: Tabla 7: Fallecidos en el Titanic porcentajes por fila Vivos Muertos Tripulación 24 76 Primera 62.2 37.8 Segunda 41.4 58.6 Tercera 25.2 74.8 – En esta tabla podemos ver que efectivamente parece que hay ciertas categorías que fueron más mortales que otras. Inferencia con Recuentos-Pedro M. Valero Mora 2009 16 de 35 2.2. Porcentajes para dos variables. • A estos resultados, no obstante, les falta el equivalente de las pruebas de hipótesis que hemos estado calculando en los temas anteriores. – Esta prueba de hipótesis nos permitiría decir hasta qué punto lo que observamos en la tabla son significativas desde un punto de vista estadístico. Inferencia con Recuentos-Pedro M. Valero Mora 2009 17 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. 2.3.PRUEBAS DE HIPÓTESIS PARA TABLAS DE CONTINGENCIA • Si en los datos del Titanic se hubiera obtenido el siguiente resultados, diríamos que no hubo efecto en la categoría de tripulante sobre la supervivencia: Tabla 8: Valores esperados de los fallecidos en el Titanic porcentajes por fila Vivos Muertos Suma Tripulación 285.5 599.5 885 Primera 104.8 220.2 325 Segunda 91.9 193.1 285 Tercera 227.7 478.3 706 Suma 710 1491 2201 – Si comprobais los totales por fila y por columna vereis que son los mismos que en la tabla anterior, pero los valores de las celdas han variado de modo que son proporcionales a los totales por fila y por columna. Este es el valor esperado y se calcula del siguiente modo: Inferencia con Recuentos-Pedro M. Valero Mora 2009 18 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. × SumaColEsperada = SumaFila ------------------------------------------------------Total – Por ejemplo, para la casilla Tripulación y Vivos se hace: × 710- = 285.5 Esperada = 885 ----------------------2201 Inferencia con Recuentos-Pedro M. Valero Mora 2009 19 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. • Si ahora calculamos el porcentaje de vivos y muertos para la tabla anterior tenemos lo siguiente: Tabla 9: Fallecidos en el Titanic porcentajes por fila Vivos Muertos Tripulación 32.3 67.7 Primera 32.3 67.7 Segunda 32.3 67.7 Tercera 32.3 67.7 Total 32.3 67.7 – Vemos que los porcentajes por categoría de pasajero son iguales a los porcentajes por columna, lo cual significaría que no habría ninguna diferencia en absoluto entre viajar en una clase o en otra en cuanto a la supervivencia Inferencia con Recuentos-Pedro M. Valero Mora 2009 20 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. • No obstante, en realidad sí que hubo efecto de la clase en la que se viajaba. ¿Cómo podemos ver ese efecto? – La respuesta está en calcular la diferencia entre el valor esperado y el valor observado para cada una de las casillas (tal y como hicimos anteriormente para el ejemplo del zodiaco). Así, con los datos de la Tabla 6 y la Tabla 8 en un primer paso haríamos Tabla 10: Puntuaciones observadas menos esperadas para los datos del Titanic Vivos Muertos 212-285.5= 673-599.5= Tripulación -73.5 73.5 Primera Segunda Tercera 202-104.8= 123-220.2= 97.2 -97.2 118-91.9= 26.1 167-193.1= -26.1 178-227.7= 528-478.3= -49.7 49.7 – Fijaros en los valores negativos y positivos. Positivo significa que hubo más de lo esperado (p.e. Vivos en primera y tercera), negativo que hubo menos (p.e. vivos en tripulación y tercera) Inferencia con Recuentos-Pedro M. Valero Mora 2009 21 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. • Ahora bien, los valores de la tabla anterior no pueden ser interpretados bien si no tenemos idea de lo grande o lo pequeño que pueden llegar a ser. Una forma de ponerlos en una escala más fácil de entender es dividirlos por la raíz cuadrada del valor esperado dando lugar a los residuales tipificados Tabla 11: Residuales tipificados Vivos Tripulación Muertos -4.3 3 Primera 9.5 -6.6 Segunda 2.7 -1.9 Tercera -3.3 2.3 – Estos valores pueden ser interpretados como puntuaciones z o típicas que pueden ser juzgadas (aproximadamente) usando los valores de la distribución normal – De este modo, consideraríamos valores por encima de 2 o de 3 altos, mientras que valores por debajo de 2 no lo serían – En nuestro caso, hay muchos valores altos. Evidentemente, hubo mucho efecto de la clase sobre la supervivencia Inferencia con Recuentos-Pedro M. Valero Mora 2009 22 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. – Por ejemplo, estar en primera llama la atención en que supuso una gran ventaja en cuanto a la supervivencia, mientras que en segunda el efecto no fue tan grande. Tripulación y tercera fueron los más dañados Inferencia con Recuentos-Pedro M. Valero Mora 2009 23 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. • Una forma de valorar globalmente el resultado anterior es utilizando el mismo estadístico que en la Parte I 2 ( Observada – Esperada ) χ = ∑ -----------------------------------------------------------------Esperada 2 – Este valor se puede calcular elevando al cuadrado cada una de las casillas de lo que aparece en la Tabla 11 y sumando Tabla 12: Residuales tipificados Vivos Muertos Tripulación 18.5 9 Primera 90.3 43.6 Segunda 7.3 3.6 Tercera 10.9 5.3 2 – El resultado es χ = 188.4 . Para rechazar la hipótesis nula tenemos que ver si este valor es más grande que los que tenemos 2 en las tablas de χ con k – 1 × j – 1 grados de libertad (k y j son el número de categorías de cada variable luego 4 – 1 × 2 – 1 = 3 ) Inferencia con Recuentos-Pedro M. Valero Mora 2009 24 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. – Igualmente, la mayoría de los paquetes estadísticos proporcionan la probabilidad de obtener este valor si la hipótesis nula fuera verdadera. En este caso tendríamos por ejemplo: 2 χ = 188.4 ;p = 0, 000 – En este caso, rechazaríamos la hipótesis nula, con el sentido de que existe diferencia entre lo esperado en las celdas y lo realmente observado Inferencia con Recuentos-Pedro M. Valero Mora 2009 25 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. ACTIVIDADES EJERCICIO 2.3.1 Analizando la relación entre Género y Supervivencia tenemos la siguiente tabla. ¿Para quién fue peor este accidente, para los hombres o para las mujeres? ¿Por qué? Recuento Survive_ Died Lived Total Inferencia con Recuentos-Pedro M. Valero Mora 2009 Gender_ Fema Male 126 1364 344 367 470 1731 Total 1490 711 2201 26 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.2 ¿Qué dirías de la relación entre género y supervivencia a partir de esta tabla? ¿En qué es diferente de la anterior? Recuento Gender_ Fema Male Total Inferencia con Recuentos-Pedro M. Valero Mora 2009 Survive_ Died Lived 126 344 1364 367 1490 711 Total 470 1731 2201 27 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.3 ¿Qué puedes decir de la relación entre Género y Supervivencia a partir de esta tabla? g _ _ % de Survive_ Gender_ Fema Male Total Inferencia con Recuentos-Pedro M. Valero Mora 2009 Survive_ Died Lived 8.5% 48.4% 91.5% 51.6% 100.0% 100.0% Total 21.4% 78.6% 100.0% 28 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.4 ¿Qué podrias decir a partir de esta tabla? % de Survive_ Gender_ Fema Male Total Inferencia con Recuentos-Pedro M. Valero Mora 2009 Survive_ Died Lived 8.5% 48.4% 91.5% 51.6% 100.0% 100.0% Total 21.4% 78.6% 100.0% 29 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.5 ¿Y a partir de esta? % de Gender_ Gender_ Fema Male Total Inferencia con Recuentos-Pedro M. Valero Mora 2009 Survive_ Died Lived 26.8% 73.2% 78.8% 21.2% 67.7% 32.3% Total 100.0% 100.0% 100.0% 30 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.6 ¿Qué podrias decir de esta relación a partir de estos resultados? Tabla de contingencia Gender_ * Survive_ Residuos tipificados Gender_ Survive_ Died Lived -10.8 15.6 5.6 -8.1 Fema Male Pruebas de chi-cuadrado Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitudes Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos 1 Sig. asintótica (bilateral) .000 454.500 1 .000 434.469 1 .000 Valor 456.874b 456.667 gl 1 Sig. exacta (bilateral) Sig. exacta (unilateral) .000 .000 .000 2201 a. Calculado sólo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 151.83. Inferencia con Recuentos-Pedro M. Valero Mora 2009 31 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.7 Una de las preguntas de la encuesta general de 1991 US es el grado de felicidad que percibían en sus vidas. ¿Qué podrías decir de esa felicidad en función del género? g Nivel de felicidad Sexo del encuestado Hombre Mujer Total No demasiado feliz Muy feliz Bastante feliz 32.5% 59.1% 8.4% .7 .4 -2.0 30.0% 57.2% 12.9% -.6 -.3 1.7 31.1% 58.0% 11.0% % de Sexo del encuestado Residuos tipificados % de Sexo del encuestado Residuos tipificados % de Sexo del encuestado Total 100.0% 100.0% 100.0% Pruebas de chi cuadrado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Valor 7.739a 7.936 4.812 2 2 Sig. asintótica (bilateral) .021 .019 1 .028 gl 1504 a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 69.44. Inferencia con Recuentos-Pedro M. Valero Mora 2009 32 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.8 ¿Y de la felicidad en función de la raza? Tabla de contingencia Raza del encuestado * Nivel de felicidad Nivel de felicidad Raza del encuestado Blanca Negra Otra Total % de Raza del encuestado Residuos corregidos % de Raza del encuestado Residuos corregidos % de Raza del encuestado Residuos corregidos % de Raza del encuestado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos No demasiado feliz Muy feliz Bastante feliz 32.6% 58.1% 9.3% 2.9 .3 -4.6 22.9% 57.7% 19.4% -2.7 -.1 4.1 25.5% 55.3% 19.1% -.8 -.4 1.8 31.1% 58.0% 11.0% Valor 24.797a 22.446 16.982 4 4 Sig. asintótica (bilateral) .000 .000 1 .000 gl Total 100.0% 100.0% 100.0% 100.0% 1504 a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 5.16. Inferencia con Recuentos-Pedro M. Valero Mora 2009 33 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.9 ¿Y la felicidad en función de la zona geográfica en la que viven? Nivel de felicidad Región de los Estados Unidos Nor-Este Sur-Este Oeste Total % de Región de los Estados Unidos Residuos corregidos % de Región de los Estados Unidos Residuos corregidos % de Región de los Estados Unidos Residuos corregidos % de Región de los Estados Unidos Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos No demasiado feliz Muy feliz Bastante feliz 27.5% 61.2% 11.3% -2.7 2.3 .4 36.3% 52.3% 11.4% 2.7 -2.7 .4 31.7% 58.3% 10.0% .3 .2 -.7 31.1% 58.0% 11.0% Valor 10.393a 10.385 2.694 4 4 Sig. asintótica (bilateral) .034 .034 1 .101 gl Total 100.0% 100.0% 100.0% 100.0% 1504 a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 45.09. Inferencia con Recuentos-Pedro M. Valero Mora 2009 34 de 35 2.3. Pruebas de hipótesis para tablas de contingencia. EJERCICIO 2.3.10 ¿Y en función de tener una vida excitante, rutinaria o aburrida? Nivel de felicidad ¿Su vida es excitante o aburrida? Excitante Rutinaria Aburrida Total % de ¿Su vida es excitante o aburrida? Residuos corregidos % de ¿Su vida es excitante o aburrida? Residuos corregidos % de ¿Su vida es excitante o aburrida? Residuos corregidos % de ¿Su vida es excitante o aburrida? Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos No demasiado feliz Muy feliz Bastante feliz 44.9% 50.2% 4.8% 8.9 -4.7 -5.6 19.7% 68.0% 12.3% -7.4 6.2 1.2 5.0% 30.0% 65.0% -3.6 -3.7 11.1 30.4% 58.5% 11.1% Valor 196.023a 148.923 125.487 4 4 Sig. asintótica (bilateral) .000 .000 1 .000 gl Total 100.0% 100.0% 100.0% 100.0% 971 a. 1 casillas (11.1%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 4.45. Inferencia con Recuentos-Pedro M. Valero Mora 2009 35 de 35