Test ji-cuadrado de bondad de ajuste Un problema muy frecuente en estadı́stica es tratar de comprobar si la distribución de una variable aleatoria se ajusta a un modelo teórico determinado. Por ejemplo saber si el número de errores diarios en un sistema operativo se ajusta a una distribución de Poisson, el tiempo que se tarda en cargar una página web sigue una distribución normal, etc. El test ji-cuadrado de bondad de ajuste trata de determinar si un conjunto de datos obtenidos experimentalmente pueden proceder de una determinada distribución. Su objetivo es contrastar las siguientes hipótesis: H0 ≡ F = F0 H1 ≡ F 6= F0 Para poder aplicar este método los datos deben estar agrupados en categorı́as, y la idea básica es comparar las frecuencias observadas en cada categorı́a con las que cabrı́a esperar si H0 fuera cierta. Dada una muestra aleatoria de n observaciones (x1 , . . . , xn ) los pasos que se deben emplear para realizar este contraste de hipótesis son los siguientes: 1. Determinar las categorı́as de la variable aleatoria, ci , i = 1, . . . , k. 2. Calcular la probabilidad de cada categorı́a P (ci ) = pi , suponiendo cierta H0 . 3. Calcular las frecuencias esperadas Ei = n × pi de cada categorı́a, bajo H0 . 4. Construir la región critica del contrasta a partir de la comparación entre las frecuencias observadas y esperadas mediante el estadı́stico chi-cuadrado: ) ( k X (Oi − Ei )2 > umbral R.C. = E i i=1 y calcular el umbral según el nivel de significación elegido. ( c ) X (Oi − Ei )2 P > umbral|H0 = P {χk−1 > umbral} = α E i i=1 5. Calcular las frecuencias observadas Oi de cada categorı́a y comprobar si el valor del estadı́stico, para la muestra obtenida, sobrepasa el umbral, en cuyo caso se rechaza la hipótesis nula. Una situación más real es tratar de averiguar si una variable aleatoria sigue cierto tipo de distribución, por ejemplo Binomial, Poisson etc., pero se desconoce algún parámetro.En ese caso el problema se resuelve empleando el mismo método pero con dos pequeñas modificaciones: 1. El valor del parámetro se sustituye por una estimación. 2. Los grados de libertad de la distribución ji cuadrado son k − 1 menos el número de parámetros que sea necesario estimar. Ejemplo. Sea X la variable aleatoria que representa el número de errores diarios de un sistema operativo y se quiere averiguar si se ajusta a una distribución de Poisson con λ = 2 a partir de los datos recogidos durante 84 dı́as. Se trata por tanto de contrastar las hipótesis: H0 ≡ X = P(2) H1 ≡ X 6= P(2) 1. Las categorı́as que se van a considerar son c1 = 0, c2 = 1, c3 = 2 c4 = 3, c5 = 4 o más. 2. Las probabilidades de cada categorı́a según la H0 son: 0 −2 2 = 0,1353 P (c1 ) = e 0! 1 −2 2 P (c2 ) = e = 0,2707 1! 22 P (c3 ) = e−2 = 0,2707 2! 23 P (c4 ) = e−2 = 0,1804 3! j j P P3 −2 2 −2 2 P (c5 ) = ∞ e = 1 − e = 0,1429 j=4 j=0 j! j! 3. Las frecuencias esperadas para una muestra de tamaño 84 son las siguientes: E1 = 84 × P (c1 ) = 11,3682, E2 = 84 × P (c2 ) = 22,7363, E3 = 84 × P (c3 ) = 22,7363, E4 = 84 × P (c4 ) = 15,1576, E5 = 84 × P (c5 ) = 12,0036 4. Para el nivel de significación α = 0,05 el umbral vale: ( c ) X (Oi − Ei )2 P > umbral|H0 = P {χ4 > umbral} = 0,05 ⇔ umbral = 9,49 E i i=1 5. Las frecuencias observadas fueron: O1 = 14, O1 = 23, O3 = 22, O4 = 15, O5 = 10. y el valor del estadı́stico es 5 X (Oi − Ei )2 = 0,974 < 9,49 Ei i=1 Por lo tanto no se rechaza la hipótesis de que el número de errores siga una distribución de Poisson con λ = 2. Ejemplo. Se quiere averiguar si la variable aleatoria del ejemplo anterior, se ajusta a una distribución de Poisson a partir de los datos recogidos durante los 84 dı́as. Se trata por tanto de contrastar las hipótesis: H0 ≡ X = Poisson H1 ≡ X 6= Poisson 1. Las categorı́as que se van a considerar son las mismas de antes c1 = 0, c2 = 1, c3 = 2 c4 = 3, c5 = 4 o más. 2. Para calcular las probabilidades de cada categorı́a se estima el parámetro mediante la media muestral X y se obtiene λ= 1.81. De acuerdo con este valor el valor estimado para las probabilidades teóricas es: 1,810 P(c1 ) = e−1,81 = 0,1637 0! 1,811 P(c2 ) = e−1,81 = 0,2962 1! 1,812 = 0,2681 P(c3 ) = e−1,81 2! 1,813 P(c4 ) = e−1,81 = 0,1617 3! j j P P3 −1,81 1,81 −1,81 1,81 = 1 − e = 0,1103 P(c5 ) = ∞ e j=4 j=0 j! j! 3. Las frecuencias esperadas para una muestra de tamaño 84 son las siguientes: E1 = 84 × P (c1 ) = 13,7469, E2 = 84 × P (c2 ) = 24,8820, E3 = 84 × P (c3 ) = 22,5182, E4 = 84 × P (c4 ) = 13,5860, E5 = 84 × P (c5 ) = 9,2652 4. Para el nivel de significación α = 0,05 el umbral vale: ( c ) X (Oi − Ei )2 P > umbral|H0 = P {χ3 > umbral} = 0,05 ⇔ umbral = 7,81 E i i=1 5. Las frecuencias observadas fueron: O1 = 14, O1 = 23, O3 = 22, O4 = 15, O5 = 10. y el valor del estadı́stico es 5 X (Oi − Ei )2 = 0,3644 < 7,81 Ei i=1 Por lo tanto no se rechaza la hipótesis de que el número de errores siga una distribución de Poisson. Test ji-cuadrado de independencia Este tipo de test de hipótesis se emplea para contrastar si dos variables cualitativas están relacionadas, Por ejemplo los accidentes laborales y el dı́a de la semana, el tipo de estudios de una persona y si está en paro, etc. Dos variables aleatorias discretas X e Y se dice que son independientes cuando se verifica que: P (xi , yj ) = PX (xi ) × PY (yj ) ∀(i, j). Por lo tanto las hipótesis a contrastar son: H0 ≡ P (xi , yj ) = PX (xi ) × PY (yj ) ∀(i, j) H1 ≡ P (xi , yj ) 6= PX (xi ) × PY (yj ) para algún (i, j) Dada una muestra aleatoria de n observaciones (x1 , y1 ), . . . , (xn , yn ) los pasos que se deben emplear para realizar este contraste de hipótesis son los siguientes: 1. Construir la tabla de contingencia calculando nij = número de individuos que verifican (X = xi , Y = yj ). 2. Obtener las distribuciones de frecuencias marginales de X e Y: P Variable X: ni. = cj=1 ni j i = 1, . . . , r P Variable Y: n.j = ri=1 ni j j = 1, . . . , c 3. Estimar las distribuciones de probabilidad marginales de X e Y: ni. n.j i = 1, . . . , r P̂ (yj ) = n n 4. Calcular las frecuencias esperadas de cada celda bajo H0 . P̂ (xi ) = j = 1, . . . , c Eij = n × P̂ (xi ) × P̂ (yj ) 5. Construir la región critica del contraste a partir de la comparación entre las frecuencias observadas y esperadas mediante el estadı́stico chi-cuadrado: ( r c ) X X (nij − Eij )2 R.C. = > umbral Eij i=1 j=1 6. Hay dos formas alternativas de resolver la última parte del contraste: a) Calcular el umbral según el nivel de significación elegido. ( r c ) X X (nij − Eij )2 P > umbral|H0 = P χ(r−1)(c−1) > umbral = α Eij i=1 j=1 y si el valor del estadı́stico sobrepasa ese umbral se rechaza la hipótesis nula. b) Calcular el p − valor del contraste y si resulta menor que el nivel de significación se rechaza H0 .