UIVERSIDAD DE LOS ADES FACULTAD DE CIECIAS FORESTALES Y AMBIETALES ESCUELA DE GEOGRAFÍA ESTADISTICA 21 Prof. Argenis Mora Unidad II: La distribucion ji cuadrada (χ2). Características y Aplicaciones sobre variables cualitativas. Pruebas de hipótesis de bondad de ajustes y Análisis de Tablas de contingencia. I.- CARACTERISTICAS DE LA DISTRIBUCIÓ JI-CUADRADA En estadística, la distribución ji-cuadrado, también denominada ji-cuadrado de Pearson, es una distribución de probabilidad continua con un parámetro k que representa los grados de libertad de la variable aleatoria que se describe a continuación: donde Zi son variables de distribución normal, de media cero y varianza uno. Esta distribución se expresa habitualmente Donde el subíndice k de , es le número de sumandos, se denomina grados de libertad de la distribución. Se suele usar la denominada prueba ji-cuadrado como test de independencia y como test de bondad de ajuste. La Distribución ji-cuadrado, tiene por función de densidad Donde el parámetro k de , se denomina grados de libertad de la distribución. La Distribución ji-cuadrado no tiene sentido para valores negativos de la ji-cuadrada, como se puede ver en la figura 1. Téngase en cuenta que para k = 1 y 2 la función de densidad para un valor ji-cuadrado = 0, se hace infinito: Página 1 Para el resto de los valores de k, para un ji cuadrado = 0, la densidad de probabilidad vale 0.3 0.1 0.2 k=2 k=4 k=8 k=16 k=32 0.0 Densidad de Probabilidad 0.4 0.5 0. 0 10 20 30 χ 40 50 2 FIGURA 1. Distribución Jí-Cuadrada para diferentes valores de k o grados de libertad. Página 2 II.- USO DE LA TABLA DE CUATILES En la tabla de distribución ji-cuadrado (Al final de esta guía) se pueden encontrar algunos cuantiles o valores tabulados de la distribución para diferentes grados de libertad (k). Para calcular la probabilidad de que una variable distribuida como una jí-cuadrado con k grados de libertad sea mayor o igual a un cierto valor se procede de la siguiente forma: Se busca en la tabla la fila que corresponde a los grados de libertad de la distribución y dentro de esa fila se localiza (de manera exacta o aproximada) el valor jí cuadrada. Luego se lee la probabilidad buscada mirando el encabezamiento de la columna correspondiente. Por ejemplo, si X se distribuye como una χ2 con 5 grados de libertad entonces: p( X ≥ 9,24) = 0,10 Como ejercicio de uso de la tabla encontrar: a) p( X ≥ 6,26) si X se distribuye como una χ2 con 15 grados de libertad. III.- APLICACIÓ DE LA JI- CUADRADA E PRUEBAS DE BODAD DE AJUSTE En cualquier área del conocimiento, es muy común encontrar situaciones donde los datos recogidos son observaciones de variables categóricas cuyos niveles o categorías son empleados en la discriminación o identificación de las unidades muestrales en estudio. En esta sección se pretende introducir el análisis de datos categóricos, el cual sólo se restringirá a la presentación del análisis de tablas de contingencia. Una variable categórica es una característica para la cual la escala de medida consiste de un conjunto de categorías. En esta situación, los datos se presentan como frecuencias de observaciones que ocurren en la misma categoría. Análisis de Tablas de contingencia con un criterio de clasificación Para explicar mejor este tipo de análisis, recordemos el ejemplo del número de accidentes registrados en una ciudad en particular. En ella, se registraron un total de 50 accidentes y fueron clasificados por UN CRITERIO de clasificación, es decir, TIPOS DE ACCIDENTES cuyas categorías son: Arrollamiento, Colisión y Objeto fijo; es decir, en tres categorías. En el siguiente cuadro se resumen los datos a través de las frecuencias observadas. Página 3 Tipos de Accidentes FO (frecuencia observada) Arrollamiento (A) 12 Colisión (C) 15 Objeto Fijo (OF) 23 Total Observados 50 En el caso de que se dispusiera de alguna hipótesis sobre la distribución de la variable categórica Tipo de accidentes, estos resultados podrían utilizarse para someterla a prueba. Por ejemplo, si se especifica que la proporción de accidentes es igual entre cada categoría, se tendrían las siguientes: Tipos de Accidentes Proporción Esperada en cada categoría Arrollamiento (A) 0,333 Colisión (C) 0,333 Objeto Fijo (OF) 0,333 Total 1,00 podría ser de interés probar si las frecuencias observadas son estadísticamente iguales a las frecuencias esperadas por esta hipótesis establecidas por las proporciones. Este tipo de análisis se conoce como prueba de bondad de ajuste. La prueba de bondad de ajuste radica en la comparación de las frecuencias observadas con aquellas frecuencias esperadas (porla hipótesis nula) mediante un estadístico conveniente. Cuando se realiza una prueba de bondad de ajuste, se establece como hipótesis nula que las frecuencias observadas (FO1 , FO2 ,...., FOc) son iguales a las frecuencias esperadas (FE1, FE2,..., FEc). Para la construcción del estadístico se estiman las frecuencias esperadas cuando la Hipótesis Nula es cierta. En el ejemplo de los tipos de accidentes, se considera como Página 4 hipótesis nula que la proporción de accidentes registrados son iguales entre Arrollamiento, Colisión y Objeto fijo. Lo cual supone: Ho : P1 = P2 = P3 = 0,333, es decir Ho: Los tipos de accidentes registraron igual proporción de ocurrencia. En porcentaje se leería en un 33,3 % igual para cada categoría de accidente. Por tanto, las frecuencias esperadas (FE) se calcularían multiplicando la proporción planteada en la hipótesis nula (en este ejemplo, P = 0,333) por el número total de frecuencias observadas (en este ejemplo, FO total = 50). Tipos de Accidentes FO FE (frecuencia observada) (Frecuencia Esperada) Arrollamiento (A) 12 16,7 Colisión (C) 15 16,7 Objeto Fijo (OF) 23 16,7 FE =P*FO total FE = 0,333*50 = 16,7 Nótese que la suma de las frecuencias esperadas debe ser igual al total de frecuencias observadas: 16,7 + 16,7 + 16,7 = 50,1 ≈ 50. Por tanto, se esperaría bajo la hipótesis nula que el número de accidentes sea de 16,7 en cada categoría. La Prueba estadística usada en esta situación se basa en la distribución ji cuadrada y se describe a continuación χc ( FO i − FE i ) 2 =∑ = FE i i =1 C 2 ( FOc − FE c ) 2 ( FO1 − FE 1 ) 2 ( FO 2 − FE 2 ) 2 ( FO 3 − FE 3 ) 2 + + + .... + FE 1 FE 2 FE 3 FE c Nótese que si tenemos una tabla o cuadro con “c” categorías debemos obtener “c” diferencias al cuadrado de FO con FE. En nuestro ejemplo, tendríamos tres sumatorias como se muestra a continuación. Página 5 ( FO i − FE i ) 2 = FE i i =1 C χc = ∑ 2 ( 12 − 16 ,7 ) 2 ( 15 − 16 ,7 ) 2 ( 23 − 16 ,7 ) 2 22 ,09 2 ,89 39 ,69 + + = 3 ,87 + + = 16 ,7 16 ,7 16 ,7 16 ,7 16 ,7 16 ,7 Bajo Ho, χc2 se distribuye como una variable ji-cuadrado con k grados de libertad. Así sí realizamos la prueba de hipótesis al 10 % de significancia, debemos comparar el valor χ2 calculado con un valor χ2 tabulado con k = c – 1 grados de libertad; es decir, tenemos tres categorías (c = 1), por tanto los grados de libertad serán k = 3-1 = 2 grados de libertad. En la tabla buscamos ese valor en la columna de probabilidad de cola derecha de 0,1 y así notamos que el valor tabulado es 4.61; la decisión se toma de la siguiente manera: Sí χ2 calculado es mayor que el valor tabulado entonces se rechaza Ho. En nuestro 0.5 ejemplo 0.3 0.2 Región Aceptación de Ho 0.0 0.1 Densidad de Probabilidad 0.4 Región rechazo de Ho 0 2 3.87 4 4.61 χ 6 8 10 2 Aquí se verifica que el valor calculado es menor al valor 4.61 de la tabla por lo que se acepta la hipótesis nula en la cual estadísticamente podemos afirmar que la proporción de accidentes fue igual entre categorías. Página 6 IV.- PRUEBA χ PARA TABLAS DE COTIGECIAS DE F FILAS POR C COLUMAS (DOS VÍAS DE CLASIFICACIÓ) 2 Ahora ampliaremos el análisis de tablas en las cuales se tenga DOS CRITERIOS de clasificación cruzados entre sí. En la siguiente tabla se presenta ahora las frecuencias observadas o registradas del total de 50 accidentes pero esta vez clasificados en dos variables categóricas: TIPO DE ACCIDENTES junto con ESTADO DEL CONDUCTOR; Los datos se presentan a continuación: Estado del Conductor Tipos de Accidentes Ebrio Sobrio Sub-totales Arrollamiento (A) 2 10 12 Colisión (C) 8 7 15 Objeto Fijo (OF) 17 6 23 27 23 Gran total= 50 Sub-totales La tabla anterior se denomina tabla de contingencia o de doble entrada. En esta situación se tienen las “F” categorías de una variable cualitativa “cruzada” con las “C” categorías de otra variable cualitativa. Aquí se tienen 3 categorías para TIPO DE ACCIDENTES y 2 para ESTADO DEL CONDUCTOR lo que representa una tabla del tipo 3 filas por 2 columnas, como consecuencia se tienen un total de 6 frecuencias observadas ubicados en “celdas”. La hipótesis nula que se plantea es que NO existe relación entre las categorías de una variable (Filas) con las categorías de la otra variable (columnas), es decir, son independientes; y como hipótesis alternativa que SÍ existe relación entre ellas (Son dependientes). En términos simbólicos se describirían las hipótesis así: Ho: FOij = FEij , Las frecuencias observadas son independientes de las dos variables categóricas Página 7 Ha: FOij ≠ FEij , Las frecuencias observadas son dependientes de las dos variables categóricas La prueba ji-cuadrada se calcula a partir de las frecuencias observadas en el estudio y las frecuencias que se esperaría sí las variables son independientes: F χc = ∑ 2 i =1 C ∑ ( FOij − FE ij ) 2 FE ij j =1 Esta doble sumatoria implica que dentro de cada celda o en cada fila i junto con la columna j se debe restar la frecuencia observada con la frecuencia esperada y elevarla al cuadrado, para luego ser dividida por dicha frecuencia esperada. El valor esperado o frecuencia esperada en cada celda se obtiene a través de: FE ij = ni * n j T Donde ni es el subtotal para la fila i (frecuencia observada para la fila entera) y nj es el subtotal para la columna j (frecuencia observada para la columna entera), y T es el total de frecuencias observadas. Para nuestro ejemplo queremos encontrar el valor o frecuencia esperada en la celda correspondiente a la fila 1 (Arrollamiento) y columna 1 (Ebrio), tendremos FE 11 = 12 * 27 = 6 ,5 50 FE 12 = 12 * 23 = 5 ,5 50 Luego para la celda 1,2 y así sucesivamente para cada una de las celdas correspondientes, un total de Frecuencias esperadas (6 celdas). FE 21 = 15 * 27 = 8 ,1 50 FE 22 = 15 * 23 = 6 ,9 50 FE 31 = 23 * 27 = 12 ,4 50 Página 8 FE 32 = 23 * 23 = 10 ,6 50 A continuación se tiene de nuevo la tabal de contingencia pero esta vez en cada celda juntos las frecuencias observadas y entre paréntesis la frecuencia esperada Estado del Conductor Tipos de Accidentes Ebrio Sobrio Sub-totales Arrollamiento (A) 2 (6,5) 10(5,5) 12 Colisión (C) 8 (8,1) 7 (6,9) 15 Objeto Fijo (OF) 17 (12,4) 6 (10,6) 23 27 23 Gran total= 50 Sub-totales Nótese que la suma de las frecuencias esperadas deben sumar el número total de frecuencias observadas: 6,5 + 5,5 + 8,1 + 6,9 + 12,4 + 10,6 ≈ 50. Así mismo, si las diferencias entre las frecuencias observadas y las esperadas son pequeñas uno esperaría que el valor del estadístico ji cuadrado será también pequeño. El cálculo del estadístico vendrá dado por: χ 2 c ( 2 − 96 , 5 ) 2 ( 10 − 5 , 5 ) 2 ( 8 − 8 ,1 ) 2 + + + = 6 ,5 5 ,5 8 ,1 ( 7 − 6 ,9 ) 2 ( 17 − 12 , 4 ) 2 ( 6 − 10 ,6 ) 2 + + 6 ,9 12 , 4 10 ,6 χc = 10,41 2 Para probar la significancia en esta prueba, el valor del ji cuadrado calculado se compara con un valor tabulado con k = (c-1)*(f-1) grados de libertad, donde c y f corresponden al Página 9 número de columnas y filas, respectivamente. En nuestro ejemplo se tiene (3-1)*(2-1) = 2 grados de libertad y con un nivel de significancia del 0,05 el valor tabulado es 5,99. Como χ 2 calculado es mayor al χ 2 tabulado, se concluye que el número de accidentes registrados depende del tipo de accidente y la condición del conductor. Por cierto, la proporción de accidentes cuyos conductores involucrados estaban ebrios y el tipo de accidente es con un objeto fijo fue: P31 = 17 = 0 ,34 , 50 es decir, un 34 % del registro de los accidentes fue dado por esta condición. Página 10 TABLA 1. Valores tabulados o cuantiles de la distribución Ji cuadrada para áreas de probabilidades de cola derecha. Probabilidades de cola derecha grados libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 0.995 0.00 0.01 0.07 0.21 0.41 0.68 0.99 1.34 1.73 2.16 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 8.03 8.64 9.26 9.89 10.52 11.16 11.81 12.46 13.12 13.79 17.19 20.71 24.31 27.99 35.53 43.28 51.17 59.20 67.33 0.99 0.00 0.02 0.11 0.30 0.55 0.87 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.90 9.54 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95 18.51 22.16 25.90 29.71 37.48 45.44 53.54 61.75 70.06 0.975 0.00 0.05 0.22 0.48 0.83 1.24 1.69 2.18 2.70 3.25 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79 20.57 24.43 28.37 32.36 40.48 48.76 57.15 65.65 74.22 0.95 0.00 0.10 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 22.47 26.51 30.61 34.76 43.19 51.74 60.39 69.13 77.93 0.9 0.02 0.21 0.58 1.06 1.61 2.20 2.83 3.49 4.17 4.87 5.58 6.30 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60 24.80 29.05 33.35 37.69 46.46 55.33 64.28 73.29 82.36 0.1 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26 46.06 51.81 57.51 63.17 74.40 85.53 96.58 107.57 118.50 0.05 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 49.80 55.76 61.66 67.50 79.08 90.53 101.88 113.15 124.34 0.025 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 53.20 59.34 65.41 71.42 83.30 95.02 106.63 118.14 129.56 0.01 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 57.34 63.69 69.96 76.15 88.38 100.43 112.33 124.12 135.81 0.005 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.64 50.99 52.34 53.67 60.27 66.77 73.17 79.49 91.95 104.21 116.32 128.30 140.17 Página 11