Universidad Panamericana Estadística II Prof. Andrés Sandoval H Estadística II 5. PRUEBAS DE CHI CUADRADA 5.1. Características de la distribución En los capítulos anteriores, se ha trabajado mayormente con datos que eran de la escala de intervalo o de razón, como pesos, ingresos o edades. En estas pruebas hemos tenido el supuesto de que los datos provienen de distribuciones normales. En este tema veremos cómo se desarrollan pruebas de hipótesis para datos de escala ordinal o nominal, en las que no se necesita hacer ningún supuesto acerca de la forma de la distribución de la población de la que provienen los datos. Este tipo de pruebas se conocen con el nombre de pruebas no paramétricas o pruebas de distribución libre. Esto quiere decir que se realizan a partir de datos nominales u ordinales y que las pruebas están libres de supuestos acerca de la forma de la distribución de la población. 5.2. Pruebas de bondad y ajuste (de homogeneidad) La prueba de bondad y ajuste es una de las pruebas no paramétricas más utilizadas. Esta prueba se puede usar para datos de cualquier nivel. Este tipo de pruebas se utilizan para ver que tan bien se ajusta un conjunto de datos observados a un conjunto de datos esperados. En el primer ejemplo corresponde a frecuencias igualmente esperadas o de frecuencias homogéneas. Ejercicio El Sr. Juventino Rosas tiene una empresa dedicada a hacer tarjetas coleccionables con temas deportivos y quiere iniciar una nueva serie de tarjetas de jugadores de la liga mexicana de fútbol. Un problema es qué jugadores elegir para ponerlos en las nuevas ediciones de tarjetas. El fin de semana pasado puso un stand en las afueras del Estadio Azteca y tuvo las siguientes ventas: 1 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Jugador Quiquín Fonseca Cuauhtémoc Blanco El Bofo Bautista Oswaldo Sánchez Rafael Márquez El Chelo Delgado TOTAL Tarjetas vendidas Número esperado 13 33 14 7 36 17 20 20 20 20 20 20 120 120 Con base en esta información, ¿se puede concluir que se vende el mismo número de tarjetas de cada jugador? Si no hay una diferencia significativa entre las frecuencias observadas y las frecuencias esperadas, se supondría que las frecuencias observadas fueran iguales o aproximadamente iguales. Es decir, se esperaría vender el mismo número de tarjetas del Quiquín o del Chelo. En este caso cualquier diferencia observada entre el conjunto de frecuencias observadas y esperadas, podría atribuirse al muestreo o a la casualidad. Como hay 120 tarjetas en la muestra, esperaríamos que a cada jugador le correspondieran 20 tarjetas. Sin embargo un examen del conjunto de frecuencias observadas indica que las tarjetas de Oswaldo Sánchez se vendieron muy poco, mientras que las de Rafa Márquez se vendieron mucho. ¿Se debe esta diferencia de ventas a la casualidad, o podríamos concluir que hay preferencia por las tarjetas de algún jugador? Paso 1 H0: fo = fe H1: fo ≠ fe Paso 2 α = 0.05 Paso 3 La estadística de prueba adecuada es ji cuadrada que se designa por χ2 2 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Con k –1 grados de libertad, donde: k = número de categorías fo = frecuencia observada en una categoría determinada fe = frecuencia esperada en una categoría determinada Para realizar el cálculo de χ2 se siguen los siguientes tres (sub) pasos: Columna 1: Determinar las diferencias entre fo y fe. La suma de estas diferencias es cero. Columna 2: Elevar al cuadrado cada una de las diferencias observadas entre fo y fe. Esto es (fo - fe)2 Columna 3: Dividir los resultados de la columna 2 entre la frecuencia esperada y sumar estos valores. La suma es el valor de χ2. (3) Jugador Tarjetas vendidas Número esperado (1) (2) (fo - fe) (fo - fe)2 (fo - fe)2 fe Quiquín Fonseca Cuauhtémoc Blanco El Bofo Bautista Oswaldo Sánchez Rafael Márquez El Chelo Delgado 13 33 14 7 36 17 20 20 20 20 20 20 -7 13 -6 -13 16 -3 49 169 36 169 256 9 2.45 8.45 1.8 8.45 12.8 0.45 TOTAL 120 120 0 χ2 = 34.4 Paso 4 Al igual que la distribución t, la distribución χ2 es en realidad una familia de distribuciones, cada distribución de la familia cambia de acuerdo al número de grados de libertad. 3 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Como ya dijimos, el número de grados de libertad en este tipo de problemas, se calcula por k –1. Dado que hay 6 categorías o jugadores k –1 = 6 – 1 = 5 grados de libertad. Luego entonces, buscando en las tablas de χ2, encontramos que el valor crítico para 5 grados de libertad con α = 0.05 es 11.070. Que se encuentra localizando 5 grados de libertad en el margen izquierdo y moviéndose horizontalmente hasta la columna marcada con 0.05. De esta manera, la regla de decisión es: No rechazar H0 si el valor que se encuentre para χ2 es menor que 11.070. Si el valor calculado es igual o mayor al valor crítico, se rechaza H0 y se acepta H1 Paso 5 Dado que el valor que se encontró para χ2 fue de 34.40, se rechaza la hipótesis nula y se acepta la hipótesis de investigación. En otras palabras, la diferencia entre las frecuencias observadas y esperadas no se debe a la casualidad, sino que estas diferencias son lo suficientemente grandes para considerarlas significativas. Así concluimos que es muy improbable que todas las tarjetas se vendan en la misma cantidad. 5.3. Pruebas de bondad y ajuste: frecuencias desigualmente esperadas (de independencia) En los ejercicios anteriores se esperaba que la frecuencia de todas las variables fuera igual, como el caso de las tarjetas deportivas, dónde se esperaba que se vendieran igual número de tarjetas de cada jugador. La prueba de ji cuadrada también se puede usar cuando las frecuencias esperadas no son iguales. El siguiente ejemplo ilustra el caso de las frecuencias desiguales y también proporciona un uso práctico de esta herramienta estadística, encontrar si una experiencia local difiera de una experiencia nacional. Ejercicio Un estudio nacional sobre el número de veces que fue hospitalizado un enfermo de la tercera edad durante un lapso de dos años reveló que 40% ingresó sólo una vez, 20% dos veces, 14% tres, 10% cuatro, 8% cinco, 6% seis y 2% siete. 4 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Un estudio del municipio de Tlalnepantla quiere comparar la experiencia del esta demarcación con las cifras nacionales. De este modo se toma una muestra de 400 enfermos de la tercera edad y se determina cuántas veces fueron hospitalizados, las frecuencias observadas se presentan en la siguiente tabla: Número de hospitalizaciones 1 2 3 4 5 6 7 Número de enfermos de la tercera edad (fo) 165 79 50 44 32 20 10 400 Obviamente el número de frecuencias locales no se puede compara con los porcentajes nacionales, sería como comparar peras con manzanas; pero los porcentajes nacionales se pueden convertir en frecuencias esperadas. Como ya se mencionó, a nivel nacional 40% de los enfermos de la tercera edad que necesitaron hospitalización en dos años, la necesitaron sólo una vez, así que si no hubiera diferencia entre las cifras de Tlalnepantla y las nacionales, entonces 40% de los cuatrocientos muestreados habrían sido hospitalizados sólo una vez durante este período, 20% de los 400 muestreados habrían sido hospitalizados dos veces y así sucesivamente. Es decir, se esperaría que la frecuencia de hospitalizaciones en Tlalnepantla coincidiera con la frecuencia observada a nivel nacional. En la siguiente tabla se muestran las frecuencias observadas y las esperadas. Número de hospitalizaciones 1 2 3 4 5 6 7 Número observado de hospitalizaciones (fo) 165 79 50 44 32 20 10 400 Número esperado de hospitalizaciones (fe) 160 = 40% X 400 80 = 20% X 400 56 = 14% X 400 40 = 10% X 400 32 = 8% X 400 24 = 6% X 400 8 = 2% X 400 400 Una vez determinadas las frecuencias esperadas, se procede a plantear las hipótesis. 5 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Paso 1 H0: fo = fe No hay diferencia entre la experiencia local y la experiencia nacional H1: fo ≠ fe Sí hay diferencia entre la experiencia local y la experiencia nacional Paso 2 α = 0.05 Paso 3 La estadística de prueba adecuada es ji cuadrada que se designa por χ2 Con k –1 grados de libertad Número de hospitalizaciones fo fe (fo - fe) (fo - fe)2 (fo - fe)2 fe 1 2 3 4 5 6 7 165 79 50 44 32 20 10 160 80 56 40 32 24 8 5 -1 -6 4 0 -4 2 25 1 36 16 0 16 4 0.156 0.013 0.643 0.400 0.000 0.667 0.500 TOTAL 120 120 0 χ2 = 2.378 Paso 4 El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada, considerando k – 1 grados de libertad; es decir 7 – 1 = 6 grados de libertad y un nivel de significancia de 0.05. De esta manera el valor crítico es 12.592. La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para χ2 es menor que 12.592. Si el valor calculado es igual o mayor al valor crítico, se rechaza H0 y se acepta H1 6 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Paso 5 Dado que el valor que se encontró para χ2 fue de 2.378, no se rechaza la hipótesis nula. En otras palabras, el municipio de Tlalnepantla podrá concluir que la situación del municipio respecto a la hospitalización de enfermos de la tercera edad es la misma que en otras partes del país. Limitaciones de la ji cuadrada La ji cuadrada puede llevara conclusiones erróneas cuando en una celda (o en varias) se tiene una frecuencia esperada demasiado pequeña. Esto puede ocurrir porque las frecuencia esperadas aparecen en el denominador de la fórmula, y al dividir entre un número muy pequeño se obtiene un cociente muy grande. Existen dos reglas generales en relación con las celdas con frecuencias muy pequeñas: a) Si sólo hay dos celdas (tablas de 2 X 2), la frecuencia esperada en cada celda debe ser de 5 o más. De otro modo no se puede utilizar la ji cuadrada. b) Si hay más de dos celdas, no se debe utilizar la ji cuadrada cuando más del 20% de las celdas tienen una frecuencia esperada menor a 5. 5.4. Análisis de cuadros de contingencia En las pruebas de bondad y ajuste que vimos anteriormente, se analizaba únicamente una variable y un rasgo. Sin embargo, la prueba de ji cuadrada también se puede utilizar cuando se analizan dos rasgos a ala vez. En estos casos, se utiliza para saber si existe alguna relación entre estos dos rasgos. Ejercicio El Centro de Readaptación Social (CERESO) de la ciudad de Tamaulipas, quiere investigar si es diferente la readaptación a la vida civil de un hombre liberado de prisión, si regresa a vivir en su lugar de origen, o si se va vivir a otro lado. Dicho de otra forma, ¿existe alguna relación entre la readaptación a la vida civil y el lugar de residencia después de haber sido liberado de prisión? 7 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Paso 1 H0: No hay relación entre la readaptación a la vida civil y el lugar en donde vive el individuo después de haber sido liberado de prisión. H1: Hay relación entre la readaptación a la vida civil y el lugar en donde vive el individuo después de haber sido liberado de prisión. Paso 2 α = 0.01 Los psicólogos del CERESO de Tamaulipas entrevistaron a una muestra aleatoria de 200 prisioneros ya liberados, y con base en los resultados, clasificaron su readaptación como excelente, buena, regular e insatisfactoria. En la siguiente tabla se muestran los resultados obtenidos para esta muestra. Readaptación a la vida civil Residencia después de liberado de prisión Lugar de origen Otro lugar Total Excelente Buena Regular Insatisfactoria 27 13 40 35 15 50 33 37 60 25 25 50 Paso 3 La estadística de prueba adecuada es ji cuadrada que se designa por χ2 Para conocer las frecuencias observadas se utiliza la siguiente fórmula: 8 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Utilizando esta fórmula se obtiene el siguiente cuadro: Readaptación a la vida civil Residencia después de liberado de prisión Excelente Buena Regular Insatisfactoria Total fo fe fo fe fo fe fo fe fo fe Lugar de origen Otro lugar 27 24 35 30 33 36 25 30 120 120 13 16 15 20 27 24 25 20 80 80 Total 40 40 50 50 60 60 50 50 200 200 Sustituyendo la fórmula para el cálculo de ji cuadrada y comenzando por la celda superior izquierda, tenemos: ji cuadrada = (27-24)2 (35-30)2 (33-36)2 (25-30)2 (13-16)2 (15-20)2 (27-24)2 (25-20) + + + + + + + 24 30 36 30 16 20 24 20 χ2 = 5.729 Paso 4 El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada. Para conocer los grados de libertad se utiliza la siguiente fórmula: gl = (número de renglones – 1) (número de columnas – 1) gl = (r –1) (c –1) En este problema: gl = (2 – 1) (4 – 1) gl = 3 El nivel de significancia, como ya se determinó es α = 0.01. Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico de 11.345. 9 Universidad Panamericana Estadística II Prof. Andrés Sandoval H La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para χ2 es menor que 11.345. Si el valor calculado es igual o mayor al valor crítico, se rechaza H0 y se acepta H1 Paso 5 Dado que el valor que se encontró para χ2 fue de 5.729, no se rechaza la hipótesis nula. En otras palabras, concluios que no hay relación entre la readaptación a la vida civil y el lugar donde residan los prisioneros después de ser liberados. 5.5. Pruebas para la varianza Otro de los usos de la ji cuadrada es elaborar inferencias acerca de una varianza poblacional. A continuación se expone un ejemplo: Una compañía productora de alambrón va a surtir a una compañía que produce micro-alambre para soldadura. Para aceptar a sus proveedores, la empresa compradora tiene las siguientes políticas de calidad con respecto al alambrón. - resistencia a la tensión de 50 kg/mm2 - desviación estándar máxima de 5 kg/mm2 (varianza de 25) El proveedor cuenta con tres plantas de producción en diferentes plazas de la república, los gastos de embarque que se erogarían por las tres plantas son similares. Dado que este es un proyecto de gran envergadura, el director de la empresa compradora quiere saber con un nivel de significancia de 0.05, cuál de las tres plantas cubriría mejor los requerimientos establecidos en sus políticas de compra, a fin de hacer una correcta selección de la planta que les surtirá. Para tal efecto, se toman muestras en las tres plantas y, después de realizar una serie de pruebas, se encuentra lo siguiente: a) Planta Norte. Número de muestras = 10 Varianza (s2) = 26 Resistencia media a la tensión = 50 kg/mm2 10 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Se desea saber si la varianza es significativamente mayor que la requerida. b) Planta Sur. Número de muestras = 15 Desviación estándar (s) = 3 kg/mm2 Resistencia media a la tensión = 50 kg/mm2 Se desea saber si la varianza es significativamente menor que la requerida. c) Planta Centro. Número de muestras = 9 Desviación estándar (s) = 5.1 kg/mm2 Resistencia media a la tensión = 50 kg/mm2 Se desea saber si la varianza es significativamente diferente que la requerida. Paso 1, inciso a) H0: δ20 ≤ 25 H1: δ20 > 25 Paso 2, inciso a) α = 0.05 Paso 3, inciso a) La estadística de prueba adecuada es ji cuadrada que se designa por χ2 χ2 = [(10 – 1) 26] 25 χ2 = 9.36 11 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Paso 4, inciso a) El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada. Para conocer los grados de libertad se utiliza la siguiente fórmula: gl = n –1 gl = 10 – 1 gl = 9 El nivel de significancia, como ya se determinó es α = 0.05. Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico de 16.919. La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para χ2 es menor que 16.919. Si el valor calculado es igual o mayor al valor crítico, se rechaza H0 y se acepta H1 Paso 5, inciso a) Dado que el valor que se encontró para χ2 fue de 9.36, no se rechaza la hipótesis nula. En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la varianza en la resistencia a la tensión de la producción de la planta norte es igual o menor de 25; es decir, se encuentra dentro de los límites requeridos. Paso 1, inciso b) H0: δ20 ≥ 25 H1: δ20 < 25 Paso 2, inciso b) α = 0.05 Paso 3, inciso b) La estadística de prueba adecuada es ji cuadrada que se designa por χ2 12 Universidad Panamericana Estadística II Prof. Andrés Sandoval H χ2 = [(15 – 1) 32] 25 χ2 = 5.040 Paso 4, inciso b) El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada. Para conocer los grados de libertad se utiliza la siguiente fórmula: gl = n –1 gl = 15 – 1 gl = 14 El nivel de significancia, como ya se determinó es α = 0.05. En este caso, como la región de rechazo se encuentra en la cola izquierda, para encontrar el valor crítico se resta de 1 el valor de α. Así: (1 – α ) (1 – 0.05) = 0.95 Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico de 6.570. La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para χ2 es mayor que 6.570. Si el valor calculado es igual o menor al valor crítico, se rechaza H0 y se acepta H1 Paso 5, inciso b) Dado que el valor que se encontró para χ2 fue de 5.040, se rechaza la hipótesis nula. 13 Universidad Panamericana Estadística II Prof. Andrés Sandoval H En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la varianza en la resistencia a la tensión de la producción de la planta norte es significativamente menor de 25; es decir, se encuentra, incluso por debajo de los límites requeridos. Paso 1, inciso c) H0: δ20 = 25 H1: δ20 ≠ 25 Paso 2, inciso c) α = 0.05 Paso 3, inciso c) La estadística de prueba adecuada es ji cuadrada que se designa por χ2 χ2 = [(9 – 1) 5.12] 25 χ2 = 8.3 Paso 4, inciso c) El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada. Para conocer los grados de libertad se utiliza la siguiente fórmula: gl = n –1 gl = 9 – 1 gl = 8 El nivel de significancia, como ya se determinó es α = 0.05. 14 Universidad Panamericana Estadística II Prof. Andrés Sandoval H En este caso, como la región de rechazo se encuentra en ambas colas, los valores críticos se encuentran en dos sub-pasos: 1) Para encontrar el valor crítico de la izquierda se resta de 1 el valor de α.dividido entre 2. Así: (1 – α / 2 ) (1 – 0.05 / 2) = 0.975 Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico de 2.179. 2) Para encontrar el valor crítico de la derecha, el valor de alfa se divide entre dos. Así: (α / 2 ) (0.05 / 2) = 0.025 Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico de 17.534. La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para χ2 es mayor que 2.179 y menor que 17.534. Si el valor calculado no cae en este rango, se rechaza H0 y se acepta H1 Paso 5, inciso c) Dado que el valor que se encontró para χ2 fue de 8.3, no se rechaza la hipótesis nula. En otras palabras, con un nivel de significancia de 0.05 se puede asegurar que la varianza en la resistencia a la tensión de la producción de la planta norte es igual 25; es decir, se encuentra dentro de los límites requeridos. Decisión General Se concluye después del análisis de la producción de las tres plantas, que las tres producciones están cumpliendo actualmente con las especificaciones de la fábrica de micro-alambre y, por tanto, es factible que se surta desde los tres puntos y así asegurar ampliamente la capacidad de abastecimiento. 15 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Por otro lado, la producción de la planta Sur, tiene una mayor calidad (dado que su varianza es significativamente menor a los estándares requeridos). Por ello sería conveniente realizar un estudio de su capacidad de producción a fin de explorar la posibilidad de surtir todas las necesidades a partir únicamente de esta planta. 16