ESTADISTICA INFERENCIA ESTADÍSTICA . TITULO: Una corta introducción teórica de inferencia estadística Test o Pruebas de hipótesis CHI-CUADRADO. Ejercicios resueltos y propuestos AUTOR: JUAN VICENTE GONZÁLEZ OVANDO Inferencia Estadística La inferencia estadística es la forma de tomar decisiones basadas en probabilidades y presenta dos aspectos: 1. Estimación de parámetros: - Puntual - Por intervalos 2. Prueba de Hipótesis con respecto a una función elegida como modelo. Estimación Puntual • Una estimación puntual del valor de un parámetro poblacional desconocido (como puede ser la media , µ, o la desviación estándar , σ), es un número que se utiliza para aproximar el verdadero valor de dicho parámetro poblacional. • Una estimación puntual es el valor de la estadística de la muestra correspondiente. Estimación por intervalos Nos proponemos determinar dos números entre los cuales se halla el parámetro estudiado con cierta certeza. El procedimiento para obtener un intervalo (de confianza) para un parámetro, la media , por ejemplo, requiere de la determinación de un estimador del parámetro y de la distribución del estimador. Nos ocuparemos del 2º. aspecto: Prueba de hipótesis con respecto a una función elegida como modelo. ¿Qué es una Hipótesis? Hipótesis: Es un suposición acerca del valor de un parámetro de una población con el propósito de discutir su validez. Ejemplo de hipótesis acerca de un parámetro de una población son: - El sueldo promedio de un profesional asciende a $2,625. - El veinte por ciento de los consumidores utiliza aceite de oliva ¿Qué es una prueba, test o contraste de hipótesis? Prueba de hipótesis: es un procedimiento, basado en la evidencia de la muestra y en la teoría de las probabilidades, usado para determinar si la hipótesis es una afirmación razonable y debería no ser rechazada o si no es razonable debería ser rechazada Prueba de Hipótesis Paso 1: Establecer la hipótesis nula y la alternativa ↓ Paso 2: Seleccionar el nivel de significación ↓ Paso 3: Identificar el estadístico de prueba ↓ Paso 4: Formular una regla de decisión ↓ Paso 5: Tomar una muestra, llegar a una decisión ↓ No realizar la hipótesis ↓ Rechazar la nula y aceptar la alternativa ¿ Cuáles son algunos de los contrastes de hipótesis? 1) 2) 3) 4) Contraste de hipótesis para la media Contraste de hipótesis para la varianza Contraste de hipótesis para la diferencia de medias de dos poblaciones Contraste de hipótesis para muestras relacionadas. Algunas Definiciones Hipótesis nula H0: Una afirmación acerca del valor de un parámetro de la población. Zona de aceptación. Hipótesis Alternativa H1: Una afirmación que es aceptada si la muestra provee la evidencia de que la hipótesis nula es falsa. Zona de rechazo. Nivel de significación: La probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera. Error tipo I: Rechazar la nula cuando en realida es verdadera Error tipo II: Aceptar la hipótesis nula cuando en realidad es falsa. Estadístico de prueba: Es un valor, determinado a partir de la información de la muestra, usado para decidir si rechazar o no la hipótesis nula. Valor crítico: El punto que divide la región entre el lugar en el que la hipótesis nula es rechazada y y la región donde la hipótesis nula es no rechazada. En este trabajo concentraremos nuestro estudio en la prueba o test Chi-cuadrado χ2 TEST o PRUEBA CHI-CUADRADO χ 2 Consideraciones generales: La prueba o test chi-cuadrado es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y una observación teórica (bondad de ajuste), indicando en que medida las diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hipótesis. También se utiliza el test chi-cuadrado para probar la homogeneidad entre dos poblaciones o independencia de dos variables entre si, mediante la presentación de datos dados en tablas de contingencia. Es decir: a) Chi-cuadrado de bondad de ajuste o significancia: para comprobar si los datos se ajustan a una distribución concreta. b) Chi-cuadrado de homogeneidad: para ver si dos muestras provienen de una misma población o una población con una misma familia de distribución (los datos vienen dado en una tabla de contingencia). c) Chi cuadrado de independencia: para comprobar si dos muestras son independientes ( los datos vienen en una tabla de contingencia). Para resolver estos problemas utilizaremos la distribución χ²-cuadrado. La aplicaremos básicamente: χ²cuadrado Bondad de Ajuste Pruebas con probabilidades de cada categoría completamente especificada Bondad de ajuste a una variable discreta Bondad de ajuste a una variable continua Tablas de contingencia Pruebas de Homogeneidad Pruebas de Independencia Estadístico y Estimador: La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente: χ2 = ∑ (observado – esperado ) esperado 2 Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla χ2 (1-α);(i – 1)*(j-1) = χ2 K Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución, es igual también al No. de sumandos menos 1, en el cálculo del estadístico. i: número de filas, j: número de columnas Criterio de decisión: Se acepta Ho cuando χ2 < χ2 (1-α);(i – 1)*(j-1) estadístico < estimador : se acepta Ho y se rechaza la hipótesis alternativa H1 O caso contrario, se rechaza Ho si : χ2 > χ2 (1-α);(i – 1)*(j-1) estadístico > estimador : se rechaza la hipótesis nula Ho y se acepta la alternativa H1 Ejercicios resueltos (Debes tener la tabla de distribución Chi-cuadrada) 1) ¿ Cúal es la distribución de probabilidad de chi-cuadrado de 4 grados de libertad de X<10,64? P( χ2 < 10,64 ) = 0,90 χ2 6 0,90; 6 χ2 con 14 grados de libertad de X < 6,57 2) Calcula la distribución de probabilidad de P( = 10,64 χ2 < 6,57 ) = 0,050 χ2 14 = 6,57 0,05; 14 3) ¿ Para que valor de X se cumple P ( χ2 < X ) = 0,975? 7 X = χ2 = 16,01 0,975; 7 χ2 < X ) 4) ¿ Cuál es el valor de X que cumple P ( = 0,995? 15 X = χ2 = 32,80 0,995;15 5) Halla a) P( χ2 > 0,58 ) b) P ( 2,18 < χ2 < 21.95 ) 0,975; 7 P( χ2 3 > 0,58 ) = 1– P ( 8 χ2 3 < 0,58 ) = 1 – 0,10 = 0,90 P ( 2,18 < χ2 < 21.95 ) =P ( χ2 < 21.95 ) - P(χ2 < 2.18 ) = 8 8 8 = 0,995 – 0,025 = 0,97 6) Por interpolación lineal, halla P ( χ2 < 1,90 ) 6 Sustituyendo X = 1,90 en la expresión Y = ( X – X1) * ( Y2 – Y1) + ( X2 – X1) Y1 Buscamos en la tabla de chi-cuadrado los valores más próximos a X = 1,90 en la fila de grados de libertad igual a 6, y encontramos que 1,64 < 1,90 < 2,20 Tenemos asi: χ2 P( < 1,64 ) = 0,05 (1,64 ; 0,05 ) < 2,20 ) = 0,10 (2,20 ; 0,10 ) 6 χ2 P( 6 Sustituimos en la ecuación Y = ( X – 1,64 ) * (0,10 – 0,05) + 0,05 ( 2,20 – 1,64 ) Y = ( X – 1,64 ) * 0,05 0,56 Para X = 1,90 Por lo tanto + 0,05 Y = ( 1,90 – 1,64 ) * 0,05 0,56 + 0,05 = 0,073 P ( χ2 < 1,90 ) = 0,073 6 7) En una investigación sociológica se efectúa una determinada pregunta a 5000 personas, respondiendo todas ellas ¨si¨ o ¨no¨. De estas respuestas, 2449 son afirmativas y 2551 negativas. ¿Puede afirmarse, al nivel de significación del 5 % que la población se halla igualmente repartida en orden a su opinión sobre la pregunta formulada? Análisis Decir que la población se halla igualmente repartida en cuanto a su opinión es equivalente a establecer la hipótesis de que la proporción de respuestas afirmativas es igual a la proporción de respuesta negativas. Ho: la población se halla igualmente repartida en orden a la pregunta formulada. H1: la población no se halla igualmente repartida ….. La frecuencia teórica establecida para la población según Ho es entonces mitad / mitad: es decir respuesta afirmativa: 2500, y respuesta negativa 2500. Establecemos la tabla de contingencia: TIPO DE RESPUESTA FRECUENCIAS FRECUENCIAS OBSERVADAS ESPERADAS foi fei 2449 2500 2551 2500 AFIRMATIVAS NEGATIVAS ∑ 5000 foi - fei 51 51 ( foi - fei ) 2601 2601 5000 2 5202 La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente: χ2 = ∑ (observado – esperado ) 2 = 2601 + 2601 = 2,0808 2500 Esperado 2500 Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla χ2 = χ2 (1-α);(i – 1)*(j-1) = (1-0,05); (2-1)*( 2-1) χ2 = 3.841 0,95: 1 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas, j: número de columnas Criterio de decisión: Se acepta Ho cuando χ2 < χ2 (1-α);(i – 1)*(j-1) estadístico < estimador : En nuestro caso : 2,0808 se acepta Ho y se rechaza la hipótesis alternativa H1 = χ2 < χ2 = 3,841 0,95: 1 La desviación de los valores de la encuesta es debida al azar, y por ello, aceptamos la hipótesis de que la población se halla igualmente repartida en orden a la pregunta formulada. 8) Al nivel de significación del 5 %, contrastar la hipótesis de que una moneda está bien construida, sabiendo que los resultados obtenidos en 5000 lanzamientos fueron: ¨cara¨ 1820 veces, ¨cruz¨ 3180 veces. Análisis Al decir que la moneda está bien construida, quiere expresarse que los dos sucesos, cara y cruz, son igualmente probables. Por ello, la frecuencia esperada de cara y cruz en 5000 lanzamiento seria de 2500 y 2500 respectivamente. Ho: las monedas están bien construidas, los dos sucesos son igualmente probables. H1: las monedas están defectuosas o no bien construidas. Establecemos la tabla de contingencia: RESULTADOS FRECUENCIAS FRECUENCIAS OBSERVADAS ESPERADAS No.de No.de lanzamientos lanzamientos foi fei 1820 2500 3180 2500 CARA CRUZ ∑ 5000 foi - fei 680 680 ( foi - fei ) 462400 462400 2 5000 La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente: χ2 = ∑ (observado – esperado ) Esperado 2 = 462400 + 462400 = 2500 2500 369,92 Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla χ2 = χ2 (1-α);(i – 1)*(j-1) = (1-0,05); (2-1)*( 2-1) χ2 = 3.841 0,95: 1 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas, j: número de columnas Criterio de decisión: Se acepta Ho cuando χ2 < χ2 (1-α);(i – 1)*(j-1) estadístico < estimador : En nuestro caso : 369,92 se acepta Ho y se rechaza la hipótesis alternativa H1 = χ2 > χ2 = 3,841 0,95: 1 Al nivel de significación del 5 %, la desviación NO es debida sólo al azar, y por ello, RECHAZAMOS la hipótesis de que la moneda estén bien construida. 9) Con objeto de estudiar la demanda de un producto durante los cuatro trimestres de un año se dispone de la siguiente información: Trimestre: 1º. 2º. 3º. 4º . No. unidades demandadas: 1000 950 1100 950 . Establecer una hipótesis sobre el carácter de la distribución de la demanda, verificando la bondad de ajuste (para comprobar si los datos se ajustan a una distribución concreta) al nivel de significación del 1 %. Análisis El análisis de la información que proporciona la distribución uniforme de la demanda, esto es que la misma (la demanda) se distribuye por igual a lo largo de los cuatro trimestres, por lo que la frecuencia de demanda esperada o teórica para cada trimestre es de 4000/4 = 1000 unidades c/ trimestre. Ho: la demanda se distribuye uniformemente a lo largo de los 4 trimestres. H1: la demanda no se distribuye uniformemente. Establecemos la tabla de contingencia: TRIMESTRE 1º 2º 3º 4º FRECUENCIAS FRECUENCIAS OBSERVADAS ESPERADAS Unidades Unidades demandadas demandadas foi fei 1000 1000 950 1000 1100 1000 950 1000 ∑ 4000 foi - fei 0 50 100 50 ( foi - fei ) 0 2500 10000 2500 2 4000 La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente: χ2 = ∑ χ2 = 0 . 1000 (observado – esperado ) Esperado + 2500 1000 + 2 = 10000 1000 + 2500 = 1000 15000 = 1000 Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla χ2 = χ2 = χ2 (1-α);(i – 1)*(j-1) (1-0,01); (4-1)*( 2-1) 0,99: 3 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas = 4, j: número de columnas = 2 Criterio de decisión: Se acepta Ho cuando χ2 < χ2 (1-α);(i – 1)*(j-1) = 11,34 15 estadístico < estimador : se acepta Ho y se rechaza la hipótesis alternativa H1 15 En nuestro caso : = χ2 > χ2 = 11,34 0,99: 3 Al nivel de significación del 1 %, la desviación obtenida entre lo que establece la hipótesis y la información obtenida NO es debida sólo al azar, y por ello, RECHAZAMOS la hipótesis de que la demanda se distribuya por igual a lo largo de los cuatro trimestres. 10) Para conseguir determinada calificación profesional, 100 personas se someten a dos tipos de tests independientes entre si; el resultado de cada test puede ser favorable (F) o desfavorable (D) para cada individuo. A la vista de los resultados que figuran en la tabla, los calificadores determinan 3 grupos, resultando indiferente, a efectos de la inclusión en el segundo, el test donde se obtuvo la calificación favorable. Contrastar, al nivel de significación del 5 %, la hipótesis de que la proporción teórica de individuos calificados con F o con D en cada tests es la que se señala. Grupo/Calificación: No. De individuos Proporciones teóricas: 1º. F.F. 30 ¼ 2º.F.D. 40 ½ 3º.D.D. 30 ¼ . . . Análisis Ho: la proporción teórica es de ¼, ½, ¼ para cada grupo respectivamente. H1: la proporción teórica es distinta a ¼, ½, ¼ respectivamente. Establecemos la tabla de contingencia: GRUPOS FRECUENCIAS OBSERVADAS No. de individuos FRECUENCIAS ESPERADAS No.de individuos según proporcion. foi 30 40 30 fei 25 (1/4 de 100) 50 (1/2 de 100) 25 (1/4 de 100) 100 100 1º 2º 3º ∑ foi fei 5 10 5 ( foi - fei ) 25 100 25 2 La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente: χ2 = ∑ χ2 = (observado – esperado ) Esperado 25 . 25 + 100 50 + 2 = 25 25 = 4,0 Que debe ser comparado con el estimador (estadístico teórico aproximado de la población ) dado en una tabla χ2 (1-α);(i – 1)*(j-1) = χ2 (1-0,05); (3-1)*( 2-1) = χ2 0,95: 2 = 5,991 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas = 3, j: número de columnas = 2 Criterio de decisión: Se acepta Ho cuando χ2 < χ2 (1-α);(i – 1)*(j-1) estadístico < estimador : En nuestro caso : 4.0 se acepta Ho y se rechaza la hipótesis alternativa H1 = χ2 < χ2 = 5,99 0,95: 2 Al nivel de significación del 5 %, la desviación obtenida entre lo que establece la hipótesis y la información obtenida no es significativa. Dicha desviación es debida sólo al azar, y por ello, aceptaremos la hipótesis de que la proporción de los tres grupos es ¼, ½, ¼, respectivamente. 11) Méndel tenía arvejas con dos tipos de tegumento, rugoso y liso y, según su hipótesis, en cruzamientos realizados entre ciertos tipos de plantas, el esperaba que aparecieran en la descendencia de dichos cruzamientos, arvejas de tegumento liso y rugoso en la proporción 3:1. Supongamos que en un experimento en el cual se obtiene una descendencia compuesta por 400 semillas, un genetista encuentra 285 semillas de tegumento liso y 115, de tegumento rugoso. ¿Sería razonable, con α = 0.05, pensar que esa proporción observada no está demasiado alejada de la proporción 3:1 dictada por la ley de Méndel? Análisis Según hipótesis de Méndel la frecuencia esperada o teórica de los dos tipos de tegumentos era 3:1, es decir, 3 semillas de tegumento liso por cada semilla de tegumento rugoso. Calculando dicha proporción para las 400 semillas serán: ¾ *400 = 300 (teg. liso), y ¼ * 400 = 100 (teg. rug.). Se trata de comprobar si los datos se ajustan a una distribución concreta, por lo cual utilizamos el método de Test o prueba de bondad de ajuste o significancia). Hipótesis. H0: la proporción es 3:1; H1: la proporción no es 3:1. Nivel de significación. α = 0.05. Establecemos una tabla : TEGUMENTOS FRECUENCIAS FRECUENCIAS ESPERADAS OBSERVADAS No. de semillas No.de semillas según obtenidas proporción LISO RUGOSO ∑ foi 285 115 fei 300 (3/4 de 400) 100 (1/4 de 100) 400 400 foi - fei 15 15 ( foi - fei ) 225 225 2 La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente: χ2 = ∑ χ2 = (observado – esperado ) Esperado 225 . 300 + 225 100 2 = 3.00 = 0,75 + 2,25 = Que debe ser comparado con el estimador (estadístico teórico ) dado en una tabla χ2 = χ2 (1-α);(i – 1)*(j-1) = χ2 (1-0,05); (2-1)*( 2-1) = 3,84 0,95: 1 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas = 2, j: número de columnas = 2 (de datos en la tabla de contingencia, no de cálculos) Criterio de decisión: Se acepta Ho cuando χ2 < χ2 (1-α);(i – 1)*(j-1) estadístico < estimador : se acepta Ho y se rechaza la hipótesis alternativa H1 3,00 En nuestro caso : = χ2 < χ2 = 3.84 0,95: 1 Conclusión: Al nivel de significación del 5 %, la desviación obtenida entre lo que establece la hipótesis de Méndel y la información obtenida no es significativa. Dicha desviación es debida sólo al azar, y por ello, aceptaremos la hipótesis de que la proporción entre los tegumentos lisos y rugosos es 3:1 respectivamente. 12) En un estudio del mercado, se tiene como objetivo establecer si las preferencias acerca del envase de dulce de leche son similares para hombres y mujeres. Se ha hecho una encuesta a 200 personas y se han obtenido los siguientes datos: Envase lata plastico carton vidrio Total varones 27 mujeres 12 30 29 19 26 24 33 100 100 39 59 45 57 200 Total Establecer un contraste de hipótesis entre las preferencias de envase entre hombres y mujeres con nivel de significación del 5%. Análisis Como podemos observar, se trata de una prueba de homogeneidad entre la población hombres y mujeres. Según hipótesis podemos establecer que las preferencias no difieren según el sexo por lo cual optamos que la frecuencia esperada de preferencia para cada tipo de envase es del 50 % del total para hombres y mujeres. H0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres y mujeres H1: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y mujeres Establecemos la tabla de contingencia: FRECUENCIAS OBSERVADAS No de PREFERENCIAS DE ENVASES Envase varones mujeres Total lata 27 12 39 plastico 30 29 59 carton 19 26 45 vidrio 24 33 57 Total 100 100 200 FRECUENCIAS ESPERADAS O TEÓRICAS No de PREFERENCIAS DE ENVASES IGUAL PROPORCIÓN Envase varones mujeres Total lata 19,5 19,5 39 plastico 29,5 29,5 59 carton 22,5 22,5 45 vidrio 28,5 28,5 57 Total 100 100 200 La fórmula que dá el estadístico de prueba (de la muestra) es el siguiente: χ2 = ∑ (observado – esperado ) Esperado 2 = lo calculamos paso a paso en la tabla siguiente foi - fei Envase varones mujeres lata 7,5 -7,5 plastico 0,5 -0,5 carton -3,5 3,5 ( foi - fei ) Envase varones mujeres lata 56,25 56,25 plastico 0,25 0,25 vidrio -4,5 4,5 2 carton 12,25 12,25 vidrio 20,25 20,25 2 ( foi - fei ) / fei Envase varones mujeres Total lata 2,88 2,88 5,77 plastico 0,01 0,01 0,02 Finalmente, el estadístico χ2 = carton 0,54 0,54 1,09 vidrio 0,71 0,71 1,42 Total 4,15 4,15 8,30 8,30 Que debe ser comparado con el estimador (estadístico teórico ) dado en la tabla χ2 χ2 χ2 = (1-α);(i – 1)*(j-1) = χ2 (1-0,05); (2-1)*( 4-1) = 7,81 0,95: 3 Donde α es el nivel de significación estadística ) K = (i – 1)*(j-1) K: grados de libertad de la distribución i: número de filas = 2, j: número de columnas = 4 (de datos en la tabla de contingencia, no incluir la columna de cálculos) Criterio de decisión: Se acepta Ho cuando χ2 < χ2 (1-α);(i – 1)*(j-1) estadístico < estimador : se acepta Ho y se rechaza la hipótesis alternativa H1 8,30 En nuestro caso : = χ2 > χ2 = 7,81 0,95: 3 Conclusión: se rechaza Ho, las preferencias acerca del envase de dulce de leche difieren entre hombres y mujeres. Ejercicios propuestos (Debes tener la tabla de distribución Chi-cuadrada) 1) Una compañía de seguros registra los accidentes de automóvil, en una ciudad, durante 100 dias, obteniendo la siguiente información: Número de accidentes: 0 1 2 3 o más Número de días: 40 34 16 10 Según el cálculo de distribución de probabilidad para los sucesos mencionados, las frecuencias teóricas para cada uno de ellos son: Número de días: 36.79 ; 36.79 ; 18.39 y 7.71 respectivamente. Establecer una hipótesis acerca de la distribución de probabilidad que corresponda, y contrastarla al nivel de significación del 5 %. Resp.: (estadístico) χ2 = 1,481 2) El nivel de ingresos anual de 100 familias consultadas de una población se distribuye en la forma siguiente: ENTRE NIVEL DE INGRESOS EN EUROS ANUAL 4000 6000 6000 8000 8000 10000 10000 12000 12000 14000 NÚMERO DE FAMILIAS 10 25 25 20 20 Establecer una hipótesis sobre el modelo de distribución uniforme de los sueldos, esto es que el número de familias por nivel de ingresos es la misma, y contrastarlo al nivel de significación del 1 %. Resp. (estadístico) χ2 = 7,5 : Estimador: 13,28 -------------------------------------------------------- Biobliografía: Materiales del presente curso, Pagina web de consulta: www.fisicanet.com.ar, Libro ¨Problemas de Estadística¨, autor J.López de la Manzanara Barbero.