Universidad del Valle De Guatemala Campus Sur Facultad de Ingeniería Estadística Avanzada, Diseños Experimentales Pruebas de Bondad de Ajuste Julio César Ortiz Hernández Carné: 131373 Fecha de Entrega: 04 de septiembre de 2016 Índice Contenido Índice ..................................................................................................................................... 2 Introducción ......................................................................................................................... 3 Objetivos ............................................................................................................................... 4 Objetivo General .............................................................................................................. 4 Objetivos Específicos ....................................................................................................... 4 Pruebas de Bondad de Ajuste ............................................................................................ 5 Frecuencias Esperadas Iguales ...................................................................................... 5 Ejemplo.......................................................................................................................... 5 Frecuencias Esperadas Desiguales ................................................................................ 8 Ejemplo.......................................................................................................................... 8 Limitaciones de JI cuadrada ......................................................................................... 10 Ejemplo........................................................................................................................ 11 Prueba de hipótesis de que la distribución de datos proviene de una Población Normal ............................................................................................................................ 13 Ejemplo........................................................................................................................ 13 Conclusiones ...................................................................................................................... 15 Recomendación .................................................................................................................. 16 E-Grafía ............................................................................................................................... 17 Introducción La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un conjunto de observaciones. Las medidas de bondad en general resumen la discrepancia entre los valores observados y los que valores esperados en el modelo de estudio. Tales medidas se pueden emplear en el contraste de hipótesis, e.g. el test de normalidad de los residuos, comprobar si dos muestras se obtienen a partir de dos distribuciones idénticas (de Kolmogorov-Smirnov), o si las frecuencias siguen una distribución específica (ji cuadrado). Objetivos Objetivo General - Determinar la distribución de probabilidad que puede moldear un conjunto de datos de muestra. Objetivos Específicos - Aplicar las pruebas de bondad de ajuste de JI cuadrada para determinar cuándo un conjunto de datos sigue una distribución teórica. - Saber cuáles son las limitaciones de JI cuadrada antes de llevar a cabo algún problema. - Aplicar bien las pruebas de hipótesis cuando la distribución de datos proviene de una población normal. Pruebas de Bondad de Ajuste Frecuencias Esperadas Iguales La prueba de bondad de ajuste se dice que es una de las pruebas no paramétricas más utilizadas. Esta prueba se puede usar para datos de cualquier nivel. Este tipo de pruebas se utilizan para ver que tan bien se ajusta un conjunto de datos observados a un conjunto de datos esperados. Si no hay una diferencia significativa entre las frecuencias observadas y las frecuencias esperadas, se supondría que las frecuencias observadas fueran iguales o aproximadamente iguales. En este caso cualquier diferencia observada entre el conjunto de frecuencias observadas y esperadas, podría atribuirse al muestreo o a la casualidad. Ejemplo. El Sr. Juventino Rosas tiene una empresa dedicada a hacer tarjetas coleccionables con temas deportivos y quiere iniciar una nueva serie de tarjetas de jugadores de la liga mexicana de fútbol. Un problema es qué jugadores elegir para ponerlos en las nuevas ediciones de tarjetas. El fin de semana pasado puso un stand en las afueras del Estadio Azteca y tuvo las siguientes ventas: Jugador Quiqin Fonseca Cuauhtemoc Blanco El Bofo Buatista Oswaldo Sanchez Rafael Marquez El Chelo Delgado Total Tarjetas Vendidas 13 33 14 7 36 17 120 Número Esperado 20 20 20 20 20 20 120 Con base en esta información, ¿se puede concluir que se vende el mismo número de tarjetas de cada jugador? Si no hay una diferencia significativa entre las frecuencias observadas y las frecuencias esperadas, se supondría que las frecuencias observadas fueran iguales o aproximadamente iguales. Es decir, se esperaría vender el mismo número de tarjetas del Quiquín o del Chelo. En este caso cualquier diferencia observada entre el conjunto de frecuencias observadas y esperadas, podría atribuirse al muestreo o a la casualidad. Como hay 120 tarjetas en la muestra, esperaríamos que a cada jugador le correspondieran 20 tarjetas. Sin embargo un examen del conjunto de frecuencias observadas indica que las tarjetas de Oswaldo Sánchez se vendieron muy poco, mientras que las de Rafa Márquez se vendieron mucho. ¿Se debe esta diferencia de ventas a la casualidad, o podríamos concluir que hay preferencia por las tarjetas de algún jugador? Paso 1 H0: fo = fe H1: fo ≠ fe Paso 2 α = 0.05 Paso 3 La estadística de prueba adecuada es ji cuadrada que se designa por χ2. Con k –1 grados de libertad, donde: k = número de categorías fo = frecuencia observada en una categoría determinada fe = frecuencia esperada en una categoría determinada Para realizar el cálculo de χ2 se siguen los siguientes tres (sub) pasos: - Columna 1: Determinar las diferencias entre fo y fe. La suma de estas diferencias es cero. - Columna 2: Elevar al cuadrado cada una de las diferencias observadas entre fo y fe. Esto es (fo - fe)2 - Columna 3: Dividir los resultados de la columna 2 entre la frecuencia esperada y sumar estos valores. La suma es el valor de χ2. Jugador Quiqin Fonseca Cuauhtemoc Blanco El Bofo Buatista Oswaldo Sanchez Rafael Marquez El Chelo Delgado Total Tarjetas Vendidas 13 33 14 7 36 17 120 Número Esperado 20 20 20 20 20 20 120 (fo - fe) (fo - fe)2 (fo - fe)2 / fe -7 13 -6 -13 16 -3 0 49 169 36 169 266 9 2.45 8.45 1.8 8.45 12.8 0.45 x2 = 34.4 Paso 4 Al igual que la distribución t, la distribución χ2 es en realidad una familia de distribuciones, cada distribución de la familia cambia de acuerdo al número de grados de libertad. Como ya dijimos, el número de grados de libertad en este tipo de problemas, se calcula por k –1. Dado que hay 6 categorías o jugadores k –1 = 6 – 1 = 5 grados de libertad. Luego entonces, buscando en las tablas de χ2, encontramos que el valor crítico para 5 grados de libertad con α = 0.05 es 11.070. Que se encuentra localizando 5 grados de libertad en el margen izquierdo y moviéndose horizontalmente hasta la columna marcada con 0.05. De esta manera, la regla de decisión es: No rechazar H0 si el valor que se encuentre para χ2 es menor que 11.070. Si el valor calculado es igual o mayor al valor crítico, se rechaza H0 y se acepta H1 Paso 5 Dado que el valor que se encontró para χ2 fue de 34.40, se rechaza la hipótesis nula y se acepta la hipótesis de investigación. En otras palabras, la diferencia entre las frecuencias observadas y esperadas no se debe a la casualidad, sino que estas diferencias son lo suficientemente grandes para considerarlas significativas. Así concluimos que es muy improbable que todas las tarjetas se vendan en la misma cantidad. Frecuencias Esperadas Desiguales La prueba de ji cuadrada se puede usar cuando las frecuencias esperadas no son iguales. Es decir en el caso de que existan una diferencia entre una frecuencia observada y una frecuencia esperada. Ejemplo. Un estudio nacional sobre el número de veces que fue hospitalizado un enfermo de la tercera edad durante un lapso de dos años reveló que 40% ingresó sólo una vez, 20% dos veces, 14% tres, 10% cuatro, 8% cinco, 6% seis y 2% siete. Un estudio del municipio de Tlalnepantla quiere comparar la experiencia del esta demarcación con las cifras nacionales. De este modo se toma una muestra de 400 enfermos de la tercera edad y se determina cuántas veces fueron hospitalizados, las frecuencias observadas se presentan en la siguiente tabla: Número de hospitalizaciones 1 2 3 4 5 6 7 Número de enfermos de la tercera edad (fo) 165 79 50 44 32 20 10 400 Obviamente el número de frecuencias locales no se puede comparar con los porcentajes nacionales, sería como comparar peras con manzanas; pero los porcentajes nacionales se pueden convertir en frecuencias esperadas. Como ya se mencionó, a nivel nacional 40% de los enfermos de la tercera edad que necesitaron hospitalización en dos años, la necesitaron sólo una vez, así que si no hubiera diferencia entre las cifras de Tlalnepantla y las nacionales, entonces 40% de los cuatrocientos muestreados habrían sido hospitalizados sólo una vez durante este período, 20% de los 400 muestreados habrían sido hospitalizados dos veces y así sucesivamente. Es decir, se esperaría que la frecuencia de hospitalizaciones en Tlalnepantla coincidiera con la frecuencia observada a nivel nacional. En la siguiente tabla se muestran las frecuencias observadas y las esperadas. Número de hospitalizaciones Número de enfermos de la tercera edad (fo) Número esperado de hospitalizaciones (fe) 165 79 50 44 32 20 10 400 160 = 40% X 400 80 = 20% X 400 56 = 14% X 400 40 = 10% X 400 32 = 8% X 400 24 = 6% X 400 8 = 2% X 400 400 1 2 3 4 5 6 7 Paso 1 H0: fo = fe No hay diferencia entre la experiencia local y la experiencia nacional H1: fo ≠ fe Sí hay diferencia entre la experiencia local y la experiencia nacional Paso 2 α = 0.05 Paso 3 La estadística de prueba adecuada es ji cuadrada que se designa por χ2. Con k –1 grados de libertad. Número de hospitalizaciones fo fe (fo - fe) (fo - fe)2 (fo - fe)2/fe 1 2 3 4 5 6 7 Total 165 79 50 44 32 20 10 120 160 80 56 40 32 24 8 120 5 -1 -6 4 0 -4 2 0 25 1 36 16 0 16 4 0.156 0.013 0.643 0.4 0 0.667 0.5 2.378 χ2 = Paso 4 El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada, considerando k – 1 grados de libertad; es decir 7 – 1 = 6 grados de libertad y un nivel de significancia de 0.05. De esta manera el valor crítico es 12.592. La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para χ2 es menor que 12.592. Si el valor calculado es igual o mayor al valor crítico, se rechaza H0 y se acepta H1 Paso 5 Dado que el valor que se encontró para χ2 fue de 2.378, no se rechaza la hipótesis nula. En otras palabras, el municipio de Tlalnepantla podrá concluir que la situación del municipio respecto a la hospitalización de enfermos de la tercera edad es la misma que en otras partes del país. Limitaciones de JI cuadrada Cuando en una celda o en algunas se tiene una frecuencia esperada demasiado pequeña La ji cuadrada nos llevara a determinaciones equivocas. Esto puede ocurrir porque las frecuencias esperadas aparecen en el denominador de la fórmula, y al dividir entre un número muy pequeño se obtiene un cociente muy grande. Existen dos reglas generales en relación con las celdas con frecuencias muy pequeñas: a) Si sólo hay dos celdas (tablas de 2 X 2), la frecuencia esperada en cada celda debe ser de 5 o más. De otro modo no se puede utilizar la ji cuadrada. b) Si hay más de dos celdas, no se debe utilizar la ji cuadrada cuando más del 20% de las celdas tienen una frecuencia esperada menor a 5. Ejemplo. El Centro de Readaptación Social (CERESO) de la ciudad de Tamaulipas, quiere investigar si es diferente la readaptación a la vida civil de un hombre liberado de prisión, si regresa a vivir en su lugar de origen, o si se va vivir a otro lado. Dicho de otra forma, ¿existe alguna relación entre la readaptación a la vida civil y el lugar de residencia después de haber sido liberado de prisión? Paso 1 H0: No hay relación entre la readaptación a la vida civil y el lugar en donde vive el individuo después de haber sido liberado de prisión. H1: Hay relación entre la readaptación a la vida civil y el lugar en donde vive el individuo después de haber sido liberado de prisión. Paso 2 α = 0.01 Los psicólogos del CERESO de Tamaulipas entrevistaron a una muestra aleatoria de 200 prisioneros ya liberados, y con base en los resultados, clasificaron su readaptación como excelente, buena, regular e insatisfactoria. En la siguiente tabla se muestran los resultados obtenidos para esta muestra. Readaptación a la vida civil Residencia después de liberado de prisión Lugar de origen Otro lugar Total Excelente Buena Regular Insatisfactoria 27 13 40 35 15 50 33 37 60 25 25 50 Paso 3 La estadística de prueba adecuada es ji cuadrada que se designa por χ2 Para conocer las frecuencias observadas se utiliza la siguiente fórmula: Utilizando esta fórmula se obtiene el siguiente cuadro: Readaptación a la vida civil Residencia después de liberado de prisión Excelente Lugar de origen Otro lugar Total Buena Regular Insatisfactoria Total fo fe fo fe fo fe fo fe fo fe 27 24 35 30 33 36 25 30 120 120 13 40 16 40 15 50 20 50 27 60 24 60 25 50 20 50 80 200 80 200 Sustituyendo la fórmula para el cálculo de ji cuadrada y comenzando por la celda superior izquierda, tenemos: (27-24)2 ji cuadrada = (35-30)2 + 24 (33-36)2 + 30 (25-30)2 + 36 (13-16)2 + 30 (15-20)2 + 16 (27-24)2 + 20 24 χ2 = 5.729 Paso 4 El valor crítico se encuentra utilizando la tabla de la distribución de ji cuadrada. Para conocer los grados de libertad se utiliza la siguiente fórmula: gl = (número de renglones – 1) (número de columnas – 1) gl = (r –1) (c –1) (25-20) + 20 En este problema: gl = (2 – 1) (4 – 1) gl = 3 El nivel de significancia, como ya se determinó es α = 0.01. Luego entonces, buscando en las tablas de la distribución de ji cuadrada, se obtiene el valor crítico de 11.345. La regla de decisión es entonces: No rechazar H0 si el valor que se encuentre para χ2 es menor que 11.345. Si el valor calculado es igual o mayor al valor crítico, se rechaza H0 y se acepta H1 Paso 5 Dado que el valor que se encontró para χ2 fue de 5.729, no se rechaza la hipótesis nula. En otras palabras, concluimos que no hay relación entre la readaptación a la vida civil y el lugar donde residan los prisioneros después de ser liberados. Prueba de hipótesis de que la distribución de datos proviene de una Población Normal Ejemplo. Durante mucho tiempo, un fabricante de aparatos de televisión a tenido 40% de sus ventas en aparatos de pantallas pequeñas (de menos de 1 pulgadas), 40% de tamaño mediano (de 14 a 19 pulgadas) y el 20% en la categoría de pantalla grande (de 21 pulgadas y más). Para fijar los programas adecuados de producción para el mes siguiente, se torna una muestra aleatoria de 100 ventas durante el periodo y se encuentra que 55 de los aparatos eran pequeños, 35 medianos y 10 grandes. En seguida, se prueba la hipótesis nula de que el patrón histórico de ventas sigue siendo igual, utilizando el nivel de significancia de 1%. Prueba de Hipótesis H0 : Los porcentajes de compras de aparatos de televisión de pantalla pequeña, mediana y grande son 40%, 40% y 20% respectivamente. H1: el patrón actual de ventas de televisores es diferente del patrón histórico planteado en H0. Regla de Decisión gl 0 k - m - 1 = 3-0-1 = 2 X2 Crítica (gl = 2, = 0.01) = 9.21 La X2 calculada (en la tabla 12.2 se encuentran las frecuencias observadas y esperadas) es: Análisis Final La estadística ji - cuadrada calculada de 11.25 es mayor que el valor crítico de 9.21. Por ello, se rechaza la hipótesis nula a un nivel de significancia de 1%. Comparando las frecuencias observadas y esperadas de la tabla 12.2, se encuentra que el cambio principal consiste en que se venden más aparatos pequeños y menos grandes, con cierta reducción en las ventas de los aparatos de tamaño mediano. Conclusiones - El control estadístico de las pruebas de bondad de ajuste de JI cuadrada, sabemos que tomar en cuenta para reconocer si sigue una distribución teórica o no. - Reconociendo con éxito las limitaciones que posee JI cuadrada, tomando en cuenta que si no sabemos las limitaciones esto nos llevará a datos equivocados. - Las pruebas de hipótesis son bien aplicadas al momento de que las distribuciones provienen de una población normal. Recomendación - Estimular la búsqueda y selección crítica de información proveniente de diferentes soportes, la evaluación y validación, el procesamiento, la jerarquización, la crítica y la interpretación de la misma impuesta en los trabajos realizados por los estudiantes de la facultad de ingeniería en la Universidad del Valle de Guatemala. E-Grafía - https://es.wikipedia.org/wiki/Bondad_de_ajuste - www.geocities.ws/andres_sandoval_hernandez/Estadistica/Tema_11/Te ma_11.doc - http://esthela-mary.blogspot.com/2008/01/capitulo-vii.html - www.uoc.edu/in3/emath/docs/Chi_cuadrado.pdf - www.ub.edu/aplica_infor/spss/cap3-3.htm - www.medwave.cl/link.cgi/Medwave/Series/MBE04/5266