Probabilidad y Estadística Probabilidad y Estadística Tema 15 Análisis de datos discretos Objetivo de aprendizaje del tema Al finalizar el tema serás capaz de: • • Explicar la prueba de hipótesis Chi-Cuadrada para datos agrupados. Aplicar las pruebas de bondad de ajuste de la inferencia estadística. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Introducción al tema En una empresa de desarrollo de software, el reclutador observó que los egresados de universidades públicas obtenían mejor calificación que los egresados de universidades privadas. De hecho en los últimos años, las contrataciones de recién egresados ha sido en su mayoría, de personas que estudiaron en una universidad pública. ¿Será cierto que dependiendo del tipo de universidad, pública o privada, el egresado saldrá mejor preparado?, más aún, ¿cuál es la universidad que en teoría está preparando mejor a sus alumnos? D.R. UNIVERSIDAD TECMILENIO Introducción al tema Las pruebas de hipótesis hasta ahora se han aplicado a datos en escala de intervalo, como pesos, ingresos y edades, para determinar el valor de su media poblacional, de una proporción o bien, de dos medias o proporciones poblacionales, a través de datos muestrales. ¿Pueden aplicarse pruebas si los datos no están en escala de intervalo, sino en escala nominal u ordinal y si no se hacen suposiciones acerca de la forma de población origen? Te invito a que juntos conozcamos la distribución de probabilidad Chi-Cuadrada y a que exploremos las técnicas permiten realizar pruebas de bondad de ajuste a datos en los niveles nominal u ordinal. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Distribución Chi-Cuadrada También llamada JiCuadrado o Chi-Cuadrata de Pearsons, es una distribución de varianzas muestrales Si a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas. Si Z1, Z2, …, Zn, son variables aleatorias, independientes y distribuidas, entonces: D.R. UNIVERSIDAD TECMILENIO Distribución Chi-Cuadrada El valor calculado es siempre positivo Existe una familia de distribuciones ji cuadrada cada una con un grado de libertad (ver gráfica 15.1), en consecuencia, existe un número infinito de distribuciones. El área bajo la curva y sobre el eje horizontal es igual a 1 Las distribuciones no son simétricas, es decir, tienen colas estrechas que se extienden a la derecha. Esto significa que presenta un sesgo positivo. Al aumentar los grados de libertad, se aproxima a la curva normal. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Distribución Chi-Cuadrada • Familia de Curvas Chi-Cuardada para distintos grados de libertad. D.R. UNIVERSIDAD TECMILENIO Prueba de Bondad de Ajuste Las pruebas de bondad de ajuste Chi-Cuadrada es una de las pruebas no paramétricas más utilizadas. Ideada por Karl Pearson a principios de 1900. Es apropiada para los niveles de datos tanto nominal como ordinal, aunque también puede utilizarse para niveles de datos nominal y de razón. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Prueba de Bondad de Ajuste Es considerada como una prueba para estimar la diferencia entre una distribución observada y una teórica, a través de una prueba de hipótesis. A esta prueba no paramétrica se le conoce como Prueba de Bondad de Ajuste. D.R. UNIVERSIDAD TECMILENIO Frecuencias esperadas iguales • El estadístico utilizado para realizar la prueba de bondad de ajuste es: Donde: fe = Frecuencia observada en una categoría específica fo = Frecuencia esperada en una categoría específica D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Frecuencias esperadas iguales • Supongamos que existen algunas dudas respecto al funcionamiento correcto de una de las máquinas tragamonedas de un casino en Las Vegas. Se acciona 120 veces la palanca de la máquina y se registran los resultados, que se enlistan en la siguiente tabla: D.R. UNIVERSIDAD TECMILENIO Frecuencias esperadas iguales Paso 1: Plantear la hipótesis nula y alternativa • H0: No existe diferencia entre el número de frecuencias observadas y de frecuencias esperadas. • H1: Existe diferencia entre el número de frecuencias observadas y el número de frecuencias esperadas. Paso 2: Seleccionar el nivel de significación. • Se utilizará el nivel del 5%. Paso 3: Identificar el estadístico de prueba • El estadístico adecuado es el estadístico Chi-Cuadrado, pues se está analizando la diferencia que existe entre una frecuencia observada y una frecuencia esperada. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Frecuencias esperadas iguales Paso 4: Formular la región de decisión • La regla de decisión requiere identificar un valor crítico en la curva Chi-Cuadrada que separe la región de rechazo de la región de aceptación. • En una prueba de Chi-Cuadrada, para obtener el valor correcto debemos considerar los grados de libertad de la prueba definidos como k-1, donde k es representa al número de categorías. • En nuestro caso, los grados de libertad son 5, pues existen 6 categorías. D.R. UNIVERSIDAD TECMILENIO Frecuencias esperadas iguales • Obtenemos el valor crítico de Chi-Cuadrada con 5 grados de libertad y con un nivel de significancia de 0.05, lo obtenemos de la tabla: – De la tabla, se utiliza un valor de Chi-Cuadrada de 11.07. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Frecuencias esperadas iguales • Gráficamente Región de rechazo Región de aceptación 11.07 Valor crítico D.R. UNIVERSIDAD TECMILENIO Frecuencias esperadas iguales Paso 5: Tomar la muestra y llegar a una decisión. • Con la muestra seleccionada, se calcula el valor de Chi-Cuadrada a través de las frecuencias observadas y las frecuencias esperadas. • Sustituyendo en la fórmula tenemos: D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Frecuencias esperadas iguales Dado que 34.40 queda en la región de rechazo, la hipótesis nula que indica no existe diferencia entre el número de frecuencias observadas y el número de frecuencias esperadas, se rechaza con un nivel del 0.05 o 5%. Esto indica que la máquina tragamonedas en estudio si presenta una alteración en la ventanilla izquierda. D.R. UNIVERSIDAD TECMILENIO Frecuencias esperadas desiguales • • La Chi-Cuadrada también puede utilizarse cuando las frecuencias esperadas son desiguales. Un estudio de admisiones a hospitales, durante un periodo de dos años, reveló estadísticas respecto a adultos mayores residentes de centros de asistencia que fueron hospitalizados: D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Frecuencias esperadas desiguales • La administradora de un hospital local desea comparar su existencia con la experiencia nacional. Seleccionaron 400 adultos mayores en centros de asistencia locales que necesitaron hospitalización y se determinó el número de veces que cada uno fue admitido en su hospital. D.R. UNIVERSIDAD TECMILENIO Frecuencias esperadas desiguales Paso 1: Plantear la hipótesis nula y alternativa. • H0: No existe diferencia entre la experiencia local y nacional. • H1: Existe diferencia entre la experiencia local y nacional. Paso 2: Seleccionar el nivel de significación. • Se utilizará el nivel del 5%. Paso 3: Identificar el estadístico de prueba. • El estadístico adecuado es el estadístico Chi-Cuadrado, pues se está analizando la diferencia que existe entre una frecuencia observada y una frecuencia esperada. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Frecuencias esperadas desiguales Paso 4: Formular la región de decisión. • En nuestro caso, los grados de libertad son 6, pues existen 7 categorías. • Obtenemos el valor crítico de Chi-Cuadrada con 5 grados de libertad y con un nivel de significancia de 0.05, lo obtenemos de la tabla (12.59). D.R. UNIVERSIDAD TECMILENIO Frecuencias esperadas desiguales • Gráficamente Región de rechazo Región de aceptación 12.59 Valor crítico D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Frecuencias esperadas desiguales Paso 5: Tomar la muestra y llegar a una decisión. • El número de frecuencias observadas que resulta del estudio de los adultos mayores locales no puede compararse directamente con los porcentajes dados para los hospitales de la nación. • Sin embargo, los porcentajes pueden convertirse en frecuencias esperadas, como se ve en la siguiente tabla: D.R. UNIVERSIDAD TECMILENIO Frecuencias esperadas desiguales Paso 5: Tomar la muestra y llegar a una decisión. • Sustituyendo en la fórmula tenemos: D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Frecuencias esperadas desiguales Dado que 2.379 queda en la región de aceptación, la hipótesis nula que indica no existe diferencia entre el número de frecuencias observadas y el número de frecuencias esperadas, se acepta con un nivel del 0.05 o 5%. Esto indica los resultados de la experiencia local con respecto a los adultos mayores de centros de asistencia hospitalizados es similar a la de otras partes del país. D.R. UNIVERSIDAD TECMILENIO Limitaciones de la Chi-Cuadrada Dos reglas de aceptación general respecto a pequeñas frecuencias de celda son: Si sólo hay dos celdas, las frecuencias esperadas en cada celda deben ser cinco o más. Para más de dos celdas, la Chi-Cuadrada no debe aplicarse si más de 20% de las celdas tienen frecuencias esperadas de menos de cinco. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Cierre La distribución de probabilidad Chi-Cuadrada es una distribución que se aproxima a la normal conforme aumenta el tamaño de la muestra. Es de hecho, una distribución de probabilidad de las diferencias entre valores observados y esperados, no solamente de la media o la desviación estándar; sino, como lo vimos durante el tema, para realizar pruebas de hipótesis a datos de nivel ordinal, conocidas como Pruebas de Bondad de Ajuste. D.R. UNIVERSIDAD TECMILENIO Cierre Dichas pruebas de bondad de ajuste, utilizando el estadístico de la Chi-Cuadrada, lo revisamos en dos partes: La primera en donde la frecuencia de observaciones esperada era uniforme para cada categorías, y la segunda en donde la frecuencia de observaciones esperada es distinta, diferencia aplicable de acuerdo a la proporción de la población para el análisis muestral de las frecuencias observadas. D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio. Probabilidad y Estadística Referencias bibliográficas • • • Devore, J. (2008). Probabilidad y estadística para ingeniería y ciencias. (7a. Ed.). México: Cengage Learning. Capítulos: 8 y 9 Wakerly, D., Mendenhall, W. et al. (2002). Estadística matemática con aplicaciones. (6a. Ed). México: Cengage Learning. Spiegel, M.(2004). Probabilidad y estadística (2a. Ed). México: McGraw Hill. D.R. UNIVERSIDAD TECMILENIO Créditos Diseño de contenido: Ing. Armando Calzada Mezura, MA, PMP Coordinador académico: Lic. José de Jesús Romero Álvarez, MC y MED. Edición de contenido: Lic. Verónica Montes de Oca Pinzón. Edición de texto: Lic. Arcelia Ramos Monobe, MEE Diseño Gráfico: Lic. Alejandro Calderas González, MATI D.R. UNIVERSIDAD TECMILENIO Derechos Reservados. Universidad Tec Milenio.