Test ji-cuadrado de bondad de ajuste Un problema muy frecuente

Test ji-cuadrado de bondad de ajuste Un problema muy frecuente en estadı́stica es tratar de comprobar si la distribución de una variable aleatoria se ajusta a un modelo teórico determinado. Por ejemplo saber si el número de errores diarios en un sistema operativo se ajusta a una distribución de Poisson, el tiempo que se tarda en cargar una página web sigue una distribución normal, etc. El test ji-cuadrado de bondad de ajuste trata de determinar si un conjunto de datos obtenidos experimentalmente pueden proceder de una determinada distribución. Su objetivo es contrastar las siguientes hipótesis: H0 ≡ F = F0 H1 ≡ F 6= F0 Para poder aplicar este método los datos deben estar agrupados en categorı́as, y la idea básica es comparar las frecuencias observadas en cada categorı́a con las que cabrı́a esperar si H0 fuera cierta. Dada una muestra aleatoria de n observaciones (x1 , . . . , xn ) los pasos que se deben emplear para realizar este contraste de hipótesis son los siguientes: 1. Determinar las categorı́as de la variable aleatoria, ci , i = 1, . . . , k. 2. Calcular la probabilidad de cada categorı́a P (ci ) = pi , suponiendo cierta H0 . 3. Calcular las frecuencias esperadas Ei = n × pi de cada categorı́a, bajo H0 . 4. Construir la región critica del contrasta a partir de la comparación entre las frecuencias observadas y esperadas mediante el estadı́stico chi-cuadrado: ) ( k X (Oi − Ei )2 > umbral R.C. = E i i=1 y calcular el umbral según el nivel de significación elegido. ( c ) X (Oi − Ei )2 P > umbral|H0 = P {χk−1 > umbral} = α E i i=1 5. Calcular las frecuencias observadas Oi de cada categorı́a y comprobar si el valor del estadı́stico, para la muestra obtenida, sobrepasa el umbral, en cuyo caso se rechaza la hipótesis nula. Una situación más real es tratar de averiguar si una variable aleatoria sigue cierto tipo de distribución, por ejemplo Binomial, Poisson etc., pero se desconoce algún parámetro.En ese caso el problema se resuelve empleando el mismo método pero con dos pequeñas modificaciones: 1. El valor del parámetro se sustituye por una estimación. 2. Los grados de libertad de la distribución ji cuadrado son k − 1 menos el número de parámetros que sea necesario estimar. Ejemplo. Sea X la variable aleatoria que representa el número de errores diarios de un sistema operativo y se quiere averiguar si se ajusta a una distribución de Poisson con λ = 2 a partir de los datos recogidos durante 84 dı́as. Se trata por tanto de contrastar las hipótesis: H0 ≡ X = P(2) H1 ≡ X 6= P(2) 1. Las categorı́as que se van a considerar son c1 = 0, c2 = 1, c3 = 2 c4 = 3, c5 = 4 o más. 2. Las probabilidades de cada categorı́a según la H0 son: 0 −2 2 = 0,1353 P (c1 ) = e 0! 1 −2 2 P (c2 ) = e = 0,2707 1! 22 P (c3 ) = e−2 = 0,2707 2! 23 P (c4 ) = e−2 = 0,1804 3! j j P P3 −2 2 −2 2 P (c5 ) = ∞ e = 1 − e = 0,1429 j=4 j=0 j! j! 3. Las frecuencias esperadas para una muestra de tamaño 84 son las siguientes: E1 = 84 × P (c1 ) = 11,3682, E2 = 84 × P (c2 ) = 22,7363, E3 = 84 × P (c3 ) = 22,7363, E4 = 84 × P (c4 ) = 15,1576, E5 = 84 × P (c5 ) = 12,0036 4. Para el nivel de significación α = 0,05 el umbral vale: ( c ) X (Oi − Ei )2 P > umbral|H0 = P {χ4 > umbral} = 0,05 ⇔ umbral = 9,49 E i i=1 5. Las frecuencias observadas fueron: O1 = 14, O1 = 23, O3 = 22, O4 = 15, O5 = 10. y el valor del estadı́stico es 5 X (Oi − Ei )2 = 0,974 < 9,49 Ei i=1 Por lo tanto no se rechaza la hipótesis de que el número de errores siga una distribución de Poisson con λ = 2. Ejemplo. Se quiere averiguar si la variable aleatoria del ejemplo anterior, se ajusta a una distribución de Poisson a partir de los datos recogidos durante los 84 dı́as. Se trata por tanto de contrastar las hipótesis: H0 ≡ X = Poisson H1 ≡ X 6= Poisson 1. Las categorı́as que se van a considerar son las mismas de antes c1 = 0, c2 = 1, c3 = 2 c4 = 3, c5 = 4 o más. 2. Para calcular las probabilidades de cada categorı́a se estima el parámetro mediante la media muestral X y se obtiene λ= 1.81. De acuerdo con este valor el valor estimado para las probabilidades teóricas es: 1,810 P(c1 ) = e−1,81 = 0,1637 0! 1,811 P(c2 ) = e−1,81 = 0,2962 1! 1,812 = 0,2681 P(c3 ) = e−1,81 2! 1,813 P(c4 ) = e−1,81 = 0,1617 3! j j P P3 −1,81 1,81 −1,81 1,81 = 1 − e = 0,1103 P(c5 ) = ∞ e j=4 j=0 j! j! 3. Las frecuencias esperadas para una muestra de tamaño 84 son las siguientes: E1 = 84 × P (c1 ) = 13,7469, E2 = 84 × P (c2 ) = 24,8820, E3 = 84 × P (c3 ) = 22,5182, E4 = 84 × P (c4 ) = 13,5860, E5 = 84 × P (c5 ) = 9,2652 4. Para el nivel de significación α = 0,05 el umbral vale: ( c ) X (Oi − Ei )2 P > umbral|H0 = P {χ3 > umbral} = 0,05 ⇔ umbral = 7,81 E i i=1 5. Las frecuencias observadas fueron: O1 = 14, O1 = 23, O3 = 22, O4 = 15, O5 = 10. y el valor del estadı́stico es 5 X (Oi − Ei )2 = 0,3644 < 7,81 Ei i=1 Por lo tanto no se rechaza la hipótesis de que el número de errores siga una distribución de Poisson. Test ji-cuadrado de independencia Este tipo de test de hipótesis se emplea para contrastar si dos variables cualitativas están relacionadas, Por ejemplo los accidentes laborales y el dı́a de la semana, el tipo de estudios de una persona y si está en paro, etc. Dos variables aleatorias discretas X e Y se dice que son independientes cuando se verifica que: P (xi , yj ) = PX (xi ) × PY (yj ) ∀(i, j). Por lo tanto las hipótesis a contrastar son: H0 ≡ P (xi , yj ) = PX (xi ) × PY (yj ) ∀(i, j) H1 ≡ P (xi , yj ) 6= PX (xi ) × PY (yj ) para algún (i, j) Dada una muestra aleatoria de n observaciones (x1 , y1 ), . . . , (xn , yn ) los pasos que se deben emplear para realizar este contraste de hipótesis son los siguientes: 1. Construir la tabla de contingencia calculando nij = número de individuos que verifican (X = xi , Y = yj ). 2. Obtener las distribuciones de frecuencias marginales de X e Y: P Variable X: ni. = cj=1 ni j i = 1, . . . , r P Variable Y: n.j = ri=1 ni j j = 1, . . . , c 3. Estimar las distribuciones de probabilidad marginales de X e Y: ni. n.j i = 1, . . . , r P̂ (yj ) = n n 4. Calcular las frecuencias esperadas de cada celda bajo H0 . P̂ (xi ) = j = 1, . . . , c Eij = n × P̂ (xi ) × P̂ (yj ) 5. Construir la región critica del contraste a partir de la comparación entre las frecuencias observadas y esperadas mediante el estadı́stico chi-cuadrado: ( r c ) X X (nij − Eij )2 R.C. = > umbral Eij i=1 j=1 6. Hay dos formas alternativas de resolver la última parte del contraste: a) Calcular el umbral según el nivel de significación elegido. ( r c ) X X (nij − Eij )2 P > umbral|H0 = P χ(r−1)(c−1) > umbral = α Eij i=1 j=1 y si el valor del estadı́stico sobrepasa ese umbral se rechaza la hipótesis nula. b) Calcular el p − valor del contraste y si resulta menor que el nivel de significación se rechaza H0 .

Test ji-cuadrado de bondad de ajuste Un problema muy frecuente

Documentos relacionados

Productos

Apoyo

Test ji-cuadrado de bondad de ajuste Un problema muy frecuente

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib