1 PRÁCTICA 13: PRUEBA DE HIPÓTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA En ocasiones ocurre que el encargado de hacer un trabajo estadístico no está seguro de la distribución de una determinada variable aleatoria. Para solucionar tales dificultades surgen los llamados test de Bondad de Ajuste. Uno de ellos es el denominado contraste chi-cuadrado y que consiste en comparar las frecuencias observadas en la muestra con las que deberían haberse obtenido en una población que perteneciese a una distribución de probabilidad específica. De allí determinamos si la variable tiene la distribución postulada (o teórica) o si no la tiene. La prueba puede aplicarse tanto a distribuciones discretas como continuas, aunque previamente el investigador debe establecer una partición conveniente del espacio muestral en sucesos mutuamente excluyentes: para el caso de las discretas, esta partición puede darse “naturalmente”; para las continuas depende solamente del criterio del investigador. La prueba entonces, quiere discernir si una población tiene o no una determinada distribución y por lo tanto las hipótesis adecuadas son: H0) FX = F0 H1) FX ≠ F0 donde FX es la verdadera distribución de la variable de interés X, y F0 es la distribución postulada y que está totalmente especificada. Supongamos, entonces, que establecimos una partición del espacio muestral en k sucesos k mutuamente excluyentes cada uno con probabilidad teórica pi y por lo tanto ∑ p = 1. De allí, i i =1 se compara la frecuencia esperada si la distribución postulada fuera cierta en cada intervalo n pi (que es la probabilidad pi multiplicada por el tamaño muestral n), con la observada en cada uno de ellos y que notamos ni, por medio del siguiente estadístico: χk2−1 = k ∑ i =1 ( ni − n p i ) 2 n pi con las siguientes propiedades: k a) como ∑ i =1 k pi = 1 ⇒ n ∑ i =1 k pi = ∑n p i =n i =1 k b) como los k sucesos son excluyentes: ∑n = n i i =1 Por medio del contrate de razón de verosimilitudes se puede demostrar que la distribución asintótica (es decir, cuando n tiende a infinito) del mencionado estadístico es, como se puede intuir a partir de su notación, una chi-cuadrado con (k – 1) grados de libertad. Por lo tanto, y como el estadístico compara la frecuencia teórica con la observada, se rechaza H0 cuando éste es “grande” y por ello, la región crítica para un nivel α nos queda: ℜ = ⎨ χk2 −1 = k ∑ i =1 ( ni − n p i ) 2 ≥ χk2 −1, 1− α ⎬ n pi Observaciones: a) Los grados de libertad corresponden a la cantidad de sucesos mutuamente k excluyentes menos uno, dado que la relación ∑ n = n implica que sólo k – 1 eventos i i =1 son independientes. b) Como la distribución del estadístico es asintótica ello crea una dificultad en cuanto a qué tamaño de muestra es aceptable. En general, se considera que la aproximación es buena si las frecuencias esperadas para cada suceso son mayores o iguales a cinco (npi ≥ 5, para todo i). c) Si las frecuencias esperadas para algún suceso son menores que 5, se debe agrupar con algún otro, reduciéndose en tal caso los grados de libertad: éstos son siempre un grado menos que los sucesos finales considerados. 1 2 d) Si es necesario estimar algún parámetro, entonces el estadístico pierde un grado de libertad por cada parámetro estimado, e) La forma del estadístico es coherente con los que pretende medir. En primer lugar (ni – n pi) evalúa qué tan lejos están las observaciones de los valores teóricos. Luego, (ni – n pi)2 evita que las diferencias en más y en menos se compensen. Y por último la división entre n pi, “estandariza” el cociente, de tal forma que diferencias en magnitud tengan siempre la misma distribución. EJERCICIO 1 (CANAVOS 10.2) Sea X = Mes en que ocurre el nacimiento en un hospital Queremos elegir entre: H0) X ∼ Uniforme discreta (1,12) H1) X no se distribuye Uniforme discreta (1,12) Como la variable es una uniforme discreta y los sucesos posibles son k = 12, entonces cada 1 pi = y como el tamaño total de nacimientos es n = 1200, entonces n pi = 100, para todo i. 12 2 El límite de la región crítica es, a un nivel α = 0,01: χk2 −1, 1− α = χ11 , 0,99 = 24,725. El valor del estadístico lo calculamos: χk2 −1 = k ∑ i =1 ( ni − n p i ) 2 n pi = (95 − 100 )2 100 + (105 − 100 )2 100 + (95 − 100 )2 100 + (105 − 100 )2 100 + (90 − 100 )2 (95 − 100 )2 (105 − 100 )2 (110 − 100 )2 (105 − 100 )2 (100 − 100 )2 + + + + + + 100 100 100 100 100 100 (95 − 100 )2 (100 − 100 )2 + =4 100 100 Por lo tanto como 4 < 24,725, entonces no caemos en la R.C. y por lo tanto no se rechaza H0 a ese nivel. Recordemos que el p-valor es la probabilidad de que el estadístico de prueba tome valores peores, en el sentido de la región crítica, que el que tomó en la muestra. En este caso: p-valor = P ( χk2 −1 ≥ 4) = 1 - 0,03 = 0.97 Observación: Si el p-valor es mayor que el nivel α, entonces no se rechaza H0 y si es mayor, entonces se rechaza. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 1 x<-c(Ene=95,Feb=105,Mar=95,Abr=105,May=90,Jun=95, Jul=105,Ago=110,Set=105,Oct=100,Nov=95,Dic=100) chisq.test(x) Chi-squared test for given probabilities data: x X-squared = 4, df = 11, p-value = 0.97 2 3 EJERCICIO 2 (SEGUNDA REVISIÓN DE 1998) 1) Sea X = cantidad de goles por partido en el mundial de fútbol de Francia 98 Las hipótesis que nos planteamos son: H0) X tiene distribución Poisson H1) X no tiene distribución Poisson Como no conocemos el parámetro λ de la distribución de Poisson debemos estimarlo: xi n ( x i ) = ni h ( xi ) xi h ( xi ) 0 1 2 3 4 5 6 7 5 10 13 19 11 5 0 1 64 0,078125 0,15625 0,203125 0,296875 0,171875 0,078125 0 0,015625 1 0 0,15625 0,40625 0,890625 0,6875 0,390625 0 0,109375 2,640625 Entonces λˆ = x = 2,64. Por otra parte, como las frecuencias esperadas en la primera y tres últimas categorías son menores que 5 debemos reagrupar, para luego calcular sus probabilidades postuladas: (n i − n pi )2 xi pi n pi n ( x i ) = ni n pi 0y1 2 3 4 5 y más 15 13 19 11 6 64 0.2596 0.2486 0.2189 0.1445 0.1284 1 16.6168 15.9131 14.0068 9.2467 8.2166 64 0.1573 0.5333 1.7800 0.3324 0.5980 3.4010 Como la cantidad de categorías finalmente utilizadas es de 6, y se estima un parámetro entonces los grados de libertad del estadístico son cuatro. La región crítica a un nivel del 5% queda: ℜ = ⎨ χ 24 > χ 24, 0,95 = 9,48773⎬ y como χ 24 = 3,4010 < χ 24, 0,95 = 9,48773, no se rechaza H0 al nivel mencionado. 2) Como p-valor = P ( χ 24 > 3,4010) = 0,5060, es mayor que 0,10. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 2 GOLES<-c(0,1,2,3,4,5,6,7) GOLES.O<-c(5,10,13,19,11,5,0,1) n<-sum(GOLES.O) mu<-sum(GOLES*GOLES.O)/n GOLES.E<-c(dpois(GOLES[-8], mu),ppois(6,mu, lower.tail=FALSE))*n chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE) 3 4 chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE ,simulate.p.value = TRUE) Chi-squared test for given probabilities with simulated p-value (based on 2000 replicates) data: GOLES.O X-squared = 5.2174, df = NA, p-value = 0.6262 #La diferencia entre los valores para p-value (0.6335 y 0.6262) para los datos originales #y simulados no indican la necesidad de reagrupar. #Sin embargo, si lo indica la regla (muy conservadora) ne >= 5. ¿Qué hace el R? GOLES.E>=5 [1] FALSE TRUE TRUE TRUE TRUE FALSE FALSE FALSE GOLES.O<-c(sum(GOLES.O[1:2]), GOLES.O[3:5], sum(GOLES.O[6:8])) GOLES.E<-c(ppois(1,mu),dpois(GOLES[3:5], mu),ppois(4,mu, lower.tail=FALSE))*n GOLES.E>=5 [1] TRUE TRUE TRUE TRUE TRUE chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE) Chi-squared test for given probabilities data: GOLES.O X-squared = 3.401, df = 4, p-value = 0.4931 EJERCICIO 3 PUNTAJE FRECUENCIAS MARCA FREC. REL. [ x i' , x i' +1 ) n ( x i ) = ni xi h ( xi ) [0, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 40) [40, 50) 24 49 71 72 37 21 16 290 5 12,5 17,5 22,5 27,5 35 45 0,08275862 0,16896552 0,24482759 0,24827586 0,12758621 0,07241379 0,05517241 1 x i h ( x i ) ( x i − x )2 h ( x i ) 0,4137931 2,11206897 4,28448276 5,5862069 3,50862069 2,53448276 2,48275862 20,9224138 20,9812354 11,9859161 2,86764501 0,61790356 5,51997134 14,3508521 31,9851121 88,3086356 Sea X = el puntaje de una prueba de un estudiante. Queremos elegir entre las hipótesis: H0) X se distribuye normal H1) X no se distribuye normal En este caso hay que estimar los parámetros de la normal. Ello lo hacemos en el cuadro de arriba y en él obtenemos: μˆ = x = 20,92 y σ̂ 2 = s2 = 88,9208. Con estas estimaciones calculamos las probabilidades de cada intervalo si la distribución es normal y que denotamos por pi, y los valores esperados n pi: 4 5 [ x i' , x i' +1 ) F( x i' +1 ) F( x i' ) pi n pi (n i − n pi )2 n pi [0, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 40) [40, 50) 0,1226783 0,26441684 0,46101677 0,6678712 0,83296727 0,97881098 1 0,01302273 0,1226783 0,26441684 0,46101677 0,6678712 0,83296727 0,97881098 0,1226783 0,14173854 0,19659994 0,20685443 0,16509607 0,14584371 0,02118902 1 35,5767059 41,104177 57,0139812 59,9877842 47,8778602 42,2946767 6,14481485 290 3,76707498 1,51673202 3,43089045 2,40537853 2,4714522 10,7215208 15,8059562 40,1190052 Como la cantidad de sucesos (en este caso intervalos) es 7, y se estimaron 2 parámetros los χ 24, 0.99 grados de libertad del estadístico son 4 y por lo tanto el valor crítico es valor que toma el estadístico es, como se ve en el cuadro, χ 24 = 40,119 > = 13,2767. El χ 24, 0.99 = 13,2767, con lo que caemos en la R.C. y por lo tanto rechazamos H0 al nivel del 1%. Nota: En el cuadro de arriba se toma como p1 = F (10) = P ( − ∞ ≤ X ≤ 10) en vez de F (10) – k F (0) y p7 = 1 – F (40) en vez de F (50) – F (40), a efectos de que ∑ p = 1, porque la Normal i i =1 puede tomar valores entre –∞ y +∞, y es necesario considerar esta discrepancia con la muestra. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 3 Puntaje<-c("-Inf - 10","10 - 15","15 - 20","20 - 25","25 - 30","30 - 40","40 - +Inf") Marca<-c(5,12.5,17.5,22.5,27.5,35,45) Frecuencia.O<-c(24,49,71,72,37,21,16) n<-sum(Frecuencia.O) mu<-sum(Marca*Frecuencia.O/n) sigma<-sqrt((1/(n-1))*(sum(Marca^2*Frecuencia.O)-n*mu^2)) x<-c(0,10,15,20,25,30,40,50) z<-(x-mu)/sigma Frecuencia.E<-(pnorm(c(z[2:7], +Inf))-pnorm(c(-Inf, z[2:7])))*n Frecuencia.E>=5 [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE chisq.test(Frecuencia.O, p=Frecuencia.E, rescale.p = TRUE) Chi-squared test for given probabilities data: Frecuencia.O X-squared = 40.0251, df = 6, p-value = 4.504e-07 tabla<-data.frame(Puntaje=Puntaje, Marca=Marca, O=Frecuencia.O, E=Frecuencia.E, + dif=(Frecuencia.O-Frecuencia.E)^2/Frecuencia.E) 5 6 tabla Puntaje 1 -Inf - 10 2 10 - 15 3 15 - 20 4 20 - 25 5 25 - 30 6 30 - 40 7 40 - +Inf Marca 5.0 12.5 17.5 22.5 27.5 35.0 45.0 O 24 49 71 72 37 21 16 E 35.659895 41.082459 56.939179 59.908510 47.851161 42.367070 6.191726 dif 3.812494 1.525894 3.472243 2.440457 2.460707 10.776098 15.537224 sum(tabla$dif) [1] 40.02512 qchisq(0.99,4) [1] 13.27670 EJERCICIO 4 (CANAVOS 10.6) Sea X = número de personas que desarrollan alguna enfermedad cardíaca Queremos discernir entre las hipótesis: H0) X tiene distribución uniforme (en las cuatro categorías) H1) X no tiene distribución uniforme a) Como la cantidad de categorías son cuatro y no se estimó ningún parámetro los grados de libertad del estadístico son tres. El valor de éste, con los datos de la muestra, es: χ 23 = (58 − 40)2 (54 − 40)2 (36 − 40)2 (12 − 40)2 + + + = 33 40 40 40 40 Como el valor de tablas es χ 23, 0.99 = 11,34488 y 33 > 11,34488, entonces se rechaza H0 y por lo tanto a un nivel del 1%, existe evidencia estadística suficiente para afirmar que la variable no es uniforme. b) Advertirle al investigador médico que la distribución del estadístico es asintótica. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 4 x<-c(Agudo=58,Moderado=54,Ocasional=36,Nofuma=12) chisq.test(x) Chi-squared test for given probabilities data: x X-squared = 33, df = 3, p-value = 3.221e-07 EJERCICIO 5 (EXAMEN DE FEBRERO DE 1999) 1) Sea X = número de pacientes que atiende un odontólogo en una semana 1.1) H0) X se distribuye uniforme discreta H1) X no se distribuye uniforme discreta 1.2) H0) X tiene una distribución con probabilidades p1 = p2 = p3 = 0,16 y p4 = p5 = 0,26 H1) X no tiene dicha distribución 2) En este caso no hay que estimar ningún parámetro y dado que la cantidad de categorías es k = 5: 6 7 χk2 −1 = k ∑ i =1 ( ni − n p i ) 2 n pi d → χ 24 3) La región crítica, a un nivel del 5%, es: ℜ = ⎨ χ 24 > χ 24, 0,95 = 9,48773⎬ En la tabla siguiente se calcula el valor del estadístico: DÍA ni pi n pi (n i − n pi )2 n pi 1 2 3 4 5 10 9 11 14 16 60 0,16 0,16 0,16 0,26 0,26 1 9,6 9,6 9,6 15,6 15,6 60 0,01666667 0,0375 0,20416667 0,16410256 0,01025641 0,43269231 Entonces, χ 24 = 0,43268 < χ 24, 0,95 = 9,48773 y por lo tanto no rechazamos H0 al 5% de significación: el odontólogo no tiene evidencia estadística suficiente para afirmar que, con los nuevos horarios, la distribución de sus pacientes en los días de la semana, haya cambiado. 4) Cometemos un error de tipo II cuando no rechazamos H0 siendo H0 falsa. En este caso sería sostener que la distribución no cambió, a pesar de la nueva estrategia de atención del odontólogo, cuando en realidad sí lo hizo. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 5 O<-c(10,9,11,14,16) n<-sum(O) p<-c(0.16,0.16,0.16,0.26,0.26) E<-p*n E>=5 [1] TRUE TRUE TRUE TRUE TRUE chisq.test(O,E) Pearson's Chi-squared test data: O and E X-squared = 5, df = 4, p-value = 0.2873 Warning message: In chisq.test(O, E) : Chi-squared approximation may be incorrect #¿Por qué aparece un “Warning message:”? 7 8 EJERCICIO 6 (SEGUNDA REVISIÓN DE 1996) X = la demanda total semanal de un producto en miles de Kg. Para calcular las probabilidades de la muestra presentada en el cuadro, debemos hallar la función de distribución: a) si x ∈ [ 0, 1) ⇒ FX(x) = b) si x ∈ [ 1, 2) ⇒ FX(x) = ∫ x t2 0 ∫ 2 1 t2 0 2 dt = dt + x3 6 ∫ x 1 ( 1 − 7 t3 − 7 t2 + 10 t − 6) dt = + ( + 5 t 2 − 6t ) 6 6 2 x 1 = 1 7 14 − 7 x3 − 7 x3 + + 5 x2 − 6 x + –5+6= + 5 x2 − 6 x + 6 6 6 6 6 1) La prueba tiene, entonces, las siguientes hipótesis: H0) X tiene distribución FX H1) X no tiene distribución FX Como la cantidad de categorías de la muestra es 4 y no se estima ningún parámetro, los grados de libertad son 3 y por lo tanto la región crítica a un nivel del 10% es: ℜ = ⎨ χ 32 > χ 32, 0,90 = 6,25139⎬ En el siguiente cuadro calculamos el valor del estadístico: [ x i' , x i' +1 ) [ 0; 0,5) [0,5; 1) [1; 1,5) [1,5; 2) ni 9 61 195 135 F( x i' ) F( x i' +1 ) pi n pi 0,02083333 0 0,02083333 8,33333333 0,16666667 0,02083333 0,14583333 58,3333333 0,64583333 0,16666667 0,47916667 191,666667 1 0,64583333 0,35416667 141,666667 1 400 (n i − n pi )2 n pi 0,05333333 0,12190476 0,05797101 0,31372549 0,5469346 Entonces 0,54693 = χ 32 < χ 32, 0,90 = 6,25139 y por lo tanto no rechazamos H0 al 10%. 2) En ambas pruebas la decisión es no rechazar H0 porque no tengo evidencia estadística suficiente para hacerlo. Esto significa, que a dicho nivel, no se puede hallar diferencias sustanciales, con los datos de la muestra obtenida, entre las distribuciones postuladas y la real. Lo que sucede en la realidad es que si no se rechazan dos distribuciones distintas, éstas no deberían ser muy diferentes. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 6 f<-function(x) { ifelse(x<0,1,0)*0+ ifelse(x>=0 & x<1,1,0)*x^2/2+ ifelse(x>=1 & x<=2,1,0)*(-7*x^2/2+10*x-6)+ ifelse(x>2,1,0)*0 } 8 9 > integrate(f,-Inf,Inf) 1 with absolute error < 3.4e-06 p1E<-integrate(f,0, 0.5)$value; p1O<-9 p2E<-integrate(f,0.5, 1)$value; p2O<-61 p3E<-integrate(f,1,1.5)$value; p3O<-195 p4E<-integrate(f,1.5,2)$value; p4O<-135 datos<-data.frame(E=400*c(p1E, p2E, p3E, p4E), O=c(p1O, p2O, p3O, p4O)) chisq.test(datos$O, p=datos$E, rescale=TRUE) Chi-squared test for given probabilities data: datos$O X-squared = 0.5469, df = 3, p-value = 0.9085 EJERCICIO 7 (CANAVOS 10.14) En este ejercicio aplicaremos el Test de Ajuste de Kolmogorov-Smirnoff, el cual se diseñó específicamente para determinar si una variable aleatoria continua tiene o no determinada distribución. A tales efectos, se utiliza la función de distribución empírica (vista en la Práctica 9, Ejercicio 12): Fn* ( x ) = 1 n n ∑ 1{ i =1 Xi ≤ x } la cual es, como vimos anteriormente, la función que vale 0, hasta el mínimo dato de la 1 2 muestra; vale entre el mínimo y el segundo más chico; entre el segundo y el tercero más n n chico; ... y 1, del más grande en adelante. Si llamamos X (1) al dato más chico de la muestra, X (2) al segundo más chico, ..., y X (n) al más grande, podemos graficar la función de la siguiente manera: 1 2 n 1 n X (1) X (2) X ( n) 9 10 En el Ejercicio 12 de la mencionada práctica 9, demostramos que Fn* ( x ) es un estadístico consistente para estimar FX(x) = P (X ≤ x). Kolmogorov y Smirnoff demostraron que: n sup Fn* ( x ) − FX ( x ) ⎯⎯→ 0 x y que la distribución de cada uno los siguientes estadísticos no depende de la distribución de X: Dn+ = sup ( Fn* ( x ) − FX ( x ) ) , Dn− = sup ( FX ( x ) − Fn* ( x ) ) y Dn = sup Fn* ( x ) − FX ( x ) x x x a condición de que la distribución de X sea continua. Nótese que decir que la distribución de los estadísticos antedichos no depende de X, indica que esa distribución es fija y que se puede tabular (de hecho están tabuladas en cualquier libro de texto de Estadística). La demostración del Teorema, en general, no aparece en los libros de texto y está fuera del alcance de este curso: simplemente se quiere puntualizar que ella está basada en la conocida propiedad de que la variable aleatoria Y = FX(X) ∼ U [ 0, 1] ( FX(X) es aplicar FX a la variable aleatoria X) a condición de que X sea continua. Estamos en condiciones, entonces, para contrastar las hipótesis: H0) FX(x) = F0(x) H1) FX(x) ≠ F0(x) Si F0 es la verdadera distribución de X, entonces se debe cumplir que sup Fn* ( x ) − F0 ( x ) = x sup x Fn* n ( x ) − FX ( x ) ⎯⎯→ 0 , se rechazará H0 si Dn ≥ K . Por lo tanto, para que el nivel de significación sea α, la región crítica debe ser: ℜ = ⎨ Muestras: Dn ≥ Dn, 1 − α⎬ Tres observaciones finales: a) como el tamaño de muestra es n, finito, entonces: sup Fn* ( x ) − F0 ( x ) = máx Fn* ( x ) − F0 ( x ) x b) máx Fn* ( x ) − F0 ( x ) = máx x 1 ≤i ≤n máx x ∈ [ X ( i + 1) − X ( i ) ) x Fn* ( x ) − F0 ( x ) (para encontrar el máximo se puede tomar el máximo en cada intervalo, y de esos n máximos tomar el máximo) c) En cada intervalo [ X ( i) − X ( i+1)), la función Fn* ( x ) es constante, y como F0(x) es creciente (por ser X absolutamente continua), el máx x ∈ [ X ( i + 1) − X ( i ) ) Fn* ( x ) − F0 ( x ) se alcanza sólo en los extremos. Pasemos a la resolución del ejercicio: 10 11 x 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 38 41 45 50 F0(x) 0.033473 0.0487404 0.06833493 0.0926039 0.12170516 0.15558433 0.19397098 0.23639308 0.28220716 0.33064005 0.38083679 0.43191036 0.4829887 0.5332551 0.5819805 0.62854634 0.67245761 0.78520616 0.86772621 0.93658907 0.97770698 Fn*(x) 0.04 0.08 0.12 0.16 0.24 0.28 0.32 0.4 0.48 0.52 0.56 0.6 0.68 0.72 0.76 0.8 0.84 0.88 0.92 0.96 1 Fn*(x-ε )−F0(x) Fn*(x) −F0(x) -0.033473 0.006527 -0.0087404 0.0312596 0.01166507 0.05166507 0.0273961 0.0673961 0.03829484 0.11829484 0.08441567 0.12441567 0.08602902 0.12602902 0.08360692 0.16360692 0.11779284 0.19779284 0.14935995 0.18935995 0.13916321 0.17916321 0.12808964 0.16808964 0.1170113 0.1970113 0.1467449 0.1867449 0.1380195 0.1780195 0.13145366 0.17145366 0.12754239 0.16754239 0.05479384 0.09479384 0.01227379 0.05227379 -0.01658907 0.02341093 -0.01770698 0.02229302 0.14935995 0.19779284 Notación: Los intervalos [ X ( i) − X ( i+1)) se definen naturalmente y son, a vía de ejemplo: (−∞, 19), [19,20), ... . [45, 50), [50, +∞). La notación F0(x–ε) corresponde a evaluar F0 en el extremo izquierdo de cada intervalo. Si hallamos el máximo del valor absoluto de las columnas Fn* ( x ) −F0(x–ε) y Fn* ( x ) −F0(x), obtenemos que Dn = 0.19779284 < 0.27 = Dn, 1 − α, con lo cual no tenemos evidencia estadística necesaria para rechazar H0 al nivel del 5%. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 7 Edades<-c(24, 19, 20, 22, 50, 23, 23, 21, 25, 27, 45, 27, 26, 26, 35, 29, 28, 30, 31, 32, 31, 33, 34, 38, 41) Edades<-Edades[order(Edades)] ks.test(Edades, pgamma, 16, 0.5, alternative = c("two.sided")) One-sample Kolmogorov-Smirnov test data: Edades D = 0.1978, p-value = 0.2820 alternative hypothesis: two-sided Warning message: In ks.test(Edades, pgamma, 16, 0.5, alternative = c("two.sided")) : cannot compute correct p-values with ties #Investigar por que da un mensaje de alerta 11 12 EJERCICIO 8 En este ejercicio y en los posteriores de esta Práctica veremos las llamadas Pruebas de Hipótesis de Independencia, las cuales aplicaremos a dos rasgos distintos de una misma población (para más aspectos el razonamiento es relativamente similar). La idea consiste en comparar, de manera similar al Test de Ajuste Chi-cuadrado, las frecuencias realmente observadas en la muestra, para cada suceso, con las que teóricamente deberían haberse observado en el caso de ser cierta las hipótesis nula de independencia. Las hipótesis que se plantean entonces, son: H0) X y Y son independientes H1) X y Y no son independientes Como la cantidad de categorías que se toman es un conjunto finito, si llamamos pi. a la probabilidad marginal del i-ésimo suceso de la variable X y p.j al j-ésimo suceso de la variable Y, las hipótesis anteriores son equivalentes a las siguientes: H0) pi j = pi. x p.j, para todo i = 1, 2, …, r y todo j = 1, 2, ..., s (siendo r y s la cantidad de posibles sucesos de las variables X y Y respectivamente) H1) pi j ≠ pi. x p.j, para algún i y j. Si pueden especificarse las probabilidades marginales pi. y p.j, entonces bajo la hipótesis nula, la estadística: r s ( Nij − n pi. p . j )2 2 χrs = −1 n pi. p. j i =1 j =1 ∑∑ tiene una distribución asintótica chi-cuadrado con (r s – 1) grados de libertad Sin embargo, la mayoría de las veces pueden no conocerse los valores de las probabilidades marginales, por lo que se estiman en base a la muestra. Para ello se usan los estimadores de máxima verosimilitud de pi. y p.j que son respectivamente: ni . n. j y p̂. j = p̂i . = n n donde ni. y n.j son las frecuencias absolutas del i-ésimo suceso de la variable X y del j-ésimo suceso de la variable Y. Afortunadamente, la estadística chi-cuadrado permanece como la apropiada para la prueba, siempre que se empleen los estimadores antedichos y se le reste un grado de libertad por cada r ∑ parámetro estimado. Entonces como s pi . = 1 y i =1 ∑p .j = 1 , existen (r – 1) parámetros de la i =1 variable X y (s – 1) parámetros de la variable Y a estimar y por lo tanto el número de grados de libertad será (r s – 1 – (r – 1) – (s – 1) = (r – 1) (s – 1). Al sustituir las probabilidades por los estimadores nos queda la estadística: n i . n. j 2 ) ( Nij − r s n χ 2(r −1) ( s −1) = n i. n. j ∑∑ i =1 j =1 n Si la hipótesis nula es cierta N ij está próximo a por ello la región crítica a un nivel α nos queda: ℜ= ⎨ χ 2(r −1) ( s −1) = r s i =1 j =1 ∑∑ ni . n. j n ( Nij − y el estadístico toma valores pequeños, y n i . n. j n n i. n. j )2 ≥ χ 2(r −1) ( s −1) , 1− α ⎬ n Las hipótesis que nos planteamos en este ejercicio son: H0) X y Y son independientes H1) X y Y no son indepedientes 12 13 donde X = la categoría de la población económicamente activa (P:E:A.) y Y = la edad de la P:E:A: CUADRO DE VALORES OBSERVADOS < 25 25 - 60 > 60 50 220 40 O.I.M. 60 150 20 O.C. 50 250 30 O.S 40 80 10 DESOC. 200 700 100 310 230 330 130 1000 Luego de calcular las probabilidades estimadas mediante las fórmulas antedichas, podemos obtener un cuadro de valores esperados (multiplicando aquellas por el tamaño de la muestra): CUADRO DE VALORES ESTIMADOS < 25 25 - 60 > 60 62 217 31 O.I.M. 46 161 23 O.C. 66 231 33 O.S 26 91 13 DESOC. Como el valor del estadístico es χ 26 = 25,6554 tiene probabilidad P( χ 26 >=25,6554) = 0,13967 = χ 26, 0,97 , entonces rechazamos H0 a un nivel del 3%: tenemos evidencia estadística suficiente para rechazar la hipótesis de independencia entre ambas variables. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 8 O<-matrix(data=c(50,220,40,60,150,20,50,250,30,40,80,10), nrow=4, ncol=3, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 25.6554, df = 6, p-value = 0.0002581 EJERCICIO 9 (SEGUNDA REVISIÓN DE 1997) 1) Como en el cuadro de valores observados las tres primeras columnas dan 103, 93 y 94 respectivamente, lo mismo debe suceder con las de los valores esperados y por lo tanto: α = 103 – (24,7 + 15,4 + 18,8 + 17,9) = 26,2 β = 93 – (22,3 + 13,9 + 16,9 + 16,2) = 23,7 γ = 94 – (22,6 + 14 + 17,1 + 16,3) = 24 2) H0) Hay independencia entre la marca de yogur comprada más frecuentemente H1) No la hay O equivalentemente, definiendo X = la marca de yogur más frecuentemente comprada y Y = la característica principal del yogur y además p i. la probabilidad de que X sea la marca i-ésima y p.j la probabilidad de que Y sea la característica j-ésima: 13 14 H0) pi j = pi. x p.j, para todo i = 1, 2, …, 5 y todo j = 1, 2, ..., 5 H1) pi j ≠ pi. x p.j, para algún i y j 3) Como no hay que estimar ningún parámetro el estadístico tiene 24 grados de libertad y como χ 224 = 40,45 > 36,415 = χ 224, 0,95 , entonces rechazamos H0 a un nivel del 5%: tenemos evidencia estadística suficiente para rechazar la hipótesis de independencia entre ambas variables. 4) Recordamos que el p-valor es la probabilidad de que suceda lo que sucedió o algo peor en el sentido de la región crítica, o sea: p-valor = P ( χ 224 > 40,45) Pero como: P ( χ 224 > 40,45) < P ( χ 224 > 36,415) = α ⇒ p < α SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 9 O<-matrix(data=c(30,30,20,15,28, 28,28,18,16,26, 15,10,15,23,9, 14,13,16,27,18, 16,12,25,24,7), nrow=5, ncol=5, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 40.4543, df = 16, p-value = 0.000668. EJERCICIO 10 1. H0) Los atributos son independientes H1) Los atributos no son independientes α = 0,01 RC = {Muestras tales que χ (2m −1).( q −1) > k } Hay que hallar el cuadro de valores esperados para calcular el estadístico chi-cuadrado CUADRO DE VALORES ESPERADOS SI N0 TOTAL 40 360 400 CÁNCER 960 8.640 9.600 OTRA 1.000 9.000 10.000 TOTAL El valor del estadístico en la muestra es 740,74. El estadístico chi-cuadrado tiene, en este caso, 1 grado de libertad. El valor de tablas que acumula 0,99 es 6,63 y, por tanto, el valor de la muestra cae en la región típica. Conclusión: las variables no son independientes. Es fácil advertir que la asociación se da entre las categorías “ser fumador” y “morir de cáncer de pulmón”. 14 15 2. P(Morir de cáncer de pulmón / Ser fumador) = 200 / 1.000 = 0,20 P(Morir de cáncer de pulmón / No ser fumador) = 200 / 9.000 = 0,022 Observación: en este ejercicio resulta que es 9 veces más probable morir de cáncer de pulmón si se es fumador que si no se es. Los estudios realizados en la década del 50 (“Vejentud: humano tesoro” – Tálice) en EEUU mostraban que este coeficiente llegaba a 19. SOLUCIÓN DEL EJERCICIO USANDO EL PAQUETE “R”: #Ejer 10 O<-matrix(data=c(200,200,800,8800), nrow=2, ncol=2, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test with Yates' continuity correction #Quién es Yates? data: O X-squared = 736.1183, df = 1, p-value < 2.2e-16. EJERCICIO 11 (CANAVOS 10.22) Sea X = la marca de preferencia de un consumidor y Y = la región geográfica en la que habita. Como en ejercicios anteriores, queremos probar: H0) X y Y son independientes H1) X y Y no son independientes Elaboramos el cuadro: CUADRO DE VALORES ESPERADOS ESTIMADOS REGIÓN 1 REGIÓN 2 REGIÓN 3 39 48,75 29,25 MARCA A 39,25 MARCA B 52,33333333 65,41666667 51,5 MARCA C 68,66666667 85,83333333 160 200 120 117 157 206 480 El estadístico chi-cuadrado, en este caso, tiene cuatro grados y libertad y como dada la muestra χ 24 = 3,76754 < χ 24, 0,95 = 9,48773, no rechazamos H0, es decir que no hay evidencia necesaria suficiente para rechazar la hipótesis de independencia entre ambas variables. En R: #Ejer 11 O<-matrix(data=c(40,52,25, 52,70,35, 68,78,60), nrow=3, ncol=3, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 3.7675, df = 4, p-value = 0.4384 15