Test ji-cuadrado de bondad de ajuste Un problema muy frecuente

Anuncio
Test ji-cuadrado de bondad de ajuste
Un problema muy frecuente en estadı́stica es tratar de comprobar si la distribución de una
variable aleatoria se ajusta a un modelo teórico determinado. Por ejemplo saber si el número
de errores diarios en un sistema operativo se ajusta a una distribución de Poisson, el tiempo
que se tarda en cargar una página web sigue una distribución normal, etc.
El test ji-cuadrado de bondad de ajuste trata de determinar si un conjunto de datos obtenidos
experimentalmente pueden proceder de una determinada distribución. Su objetivo es contrastar
las siguientes hipótesis:
H0 ≡ F = F0
H1 ≡ F 6= F0
Para poder aplicar este método los datos deben estar agrupados en categorı́as, y la idea básica
es comparar las frecuencias observadas en cada categorı́a con las que cabrı́a esperar si H0 fuera
cierta.
Dada una muestra aleatoria de n observaciones (x1 , . . . , xn ) los pasos que se deben emplear
para realizar este contraste de hipótesis son los siguientes:
1. Determinar las categorı́as de la variable aleatoria, ci , i = 1, . . . , k.
2. Calcular la probabilidad de cada categorı́a P (ci ) = pi , suponiendo cierta H0 .
3. Calcular las frecuencias esperadas Ei = n × pi de cada categorı́a, bajo H0 .
4. Construir la región critica del contrasta a partir de la comparación entre las frecuencias
observadas y esperadas mediante el estadı́stico chi-cuadrado:
)
( k
X (Oi − Ei )2
> umbral
R.C. =
E
i
i=1
y calcular el umbral según el nivel de significación elegido.
( c
)
X (Oi − Ei )2
P
> umbral|H0 = P {χk−1 > umbral} = α
E
i
i=1
5. Calcular las frecuencias observadas Oi de cada categorı́a y comprobar si el valor del
estadı́stico, para la muestra obtenida, sobrepasa el umbral, en cuyo caso se rechaza la
hipótesis nula.
Una situación más real es tratar de averiguar si una variable aleatoria sigue cierto tipo de
distribución, por ejemplo Binomial, Poisson etc., pero se desconoce algún parámetro.En ese
caso el problema se resuelve empleando el mismo método pero con dos pequeñas modificaciones:
1. El valor del parámetro se sustituye por una estimación.
2. Los grados de libertad de la distribución ji cuadrado son k − 1 menos el número de
parámetros que sea necesario estimar.
Ejemplo.
Sea X la variable aleatoria que representa el número de errores diarios de un sistema operativo
y se quiere averiguar si se ajusta a una distribución de Poisson con λ = 2 a partir de los datos
recogidos durante 84 dı́as. Se trata por tanto de contrastar las hipótesis:
H0 ≡ X = P(2)
H1 ≡ X 6= P(2)
1. Las categorı́as que se van a considerar son c1 = 0, c2 = 1, c3 = 2 c4 = 3, c5 = 4 o más.
2. Las probabilidades de cada categorı́a según la H0 son:
0
−2 2
= 0,1353
P (c1 ) = e
0!
1
−2 2
P (c2 ) = e
= 0,2707
1!
22
P (c3 ) = e−2
= 0,2707
2!
23
P (c4 ) = e−2
= 0,1804
3!
j
j
P
P3
−2 2
−2 2
P (c5 ) = ∞
e
=
1
−
e
= 0,1429
j=4
j=0
j!
j!
3. Las frecuencias esperadas para una muestra de tamaño 84 son las siguientes:
E1 = 84 × P (c1 ) = 11,3682, E2 = 84 × P (c2 ) = 22,7363, E3 = 84 × P (c3 ) = 22,7363,
E4 = 84 × P (c4 ) = 15,1576, E5 = 84 × P (c5 ) = 12,0036
4. Para el nivel de significación α = 0,05 el umbral vale:
( c
)
X (Oi − Ei )2
P
> umbral|H0 = P {χ4 > umbral} = 0,05 ⇔ umbral = 9,49
E
i
i=1
5. Las frecuencias observadas fueron: O1 = 14, O1 = 23, O3 = 22, O4 = 15, O5 = 10. y el
valor del estadı́stico es
5
X
(Oi − Ei )2
= 0,974 < 9,49
Ei
i=1
Por lo tanto no se rechaza la hipótesis de que el número de errores siga una distribución
de Poisson con λ = 2.
Ejemplo.
Se quiere averiguar si la variable aleatoria del ejemplo anterior, se ajusta a una distribución de
Poisson a partir de los datos recogidos durante los 84 dı́as. Se trata por tanto de contrastar las
hipótesis:
H0 ≡ X = Poisson
H1 ≡ X 6= Poisson
1. Las categorı́as que se van a considerar son las mismas de antes c1 = 0, c2 = 1, c3 = 2
c4 = 3, c5 = 4 o más.
2. Para calcular las probabilidades de cada categorı́a se estima el parámetro mediante la
media muestral X y se obtiene λ= 1.81. De acuerdo con este valor el valor estimado para
las probabilidades teóricas es:
1,810
P(c1 ) = e−1,81
= 0,1637
0!
1,811
P(c2 ) = e−1,81
= 0,2962
1!
1,812
= 0,2681
P(c3 ) = e−1,81
2!
1,813
P(c4 ) = e−1,81
= 0,1617
3!
j
j
P
P3
−1,81 1,81
−1,81 1,81
=
1
−
e
= 0,1103
P(c5 ) = ∞
e
j=4
j=0
j!
j!
3. Las frecuencias esperadas para una muestra de tamaño 84 son las siguientes:
E1 = 84 × P (c1 ) = 13,7469, E2 = 84 × P (c2 ) = 24,8820, E3 = 84 × P (c3 ) = 22,5182,
E4 = 84 × P (c4 ) = 13,5860, E5 = 84 × P (c5 ) = 9,2652
4. Para el nivel de significación α = 0,05 el umbral vale:
( c
)
X (Oi − Ei )2
P
> umbral|H0 = P {χ3 > umbral} = 0,05 ⇔ umbral = 7,81
E
i
i=1
5. Las frecuencias observadas fueron: O1 = 14, O1 = 23, O3 = 22, O4 = 15, O5 = 10. y el
valor del estadı́stico es
5
X
(Oi − Ei )2
= 0,3644 < 7,81
Ei
i=1
Por lo tanto no se rechaza la hipótesis de que el número de errores siga una distribución
de Poisson.
Test ji-cuadrado de independencia
Este tipo de test de hipótesis se emplea para contrastar si dos variables cualitativas están
relacionadas, Por ejemplo los accidentes laborales y el dı́a de la semana, el tipo de estudios de
una persona y si está en paro, etc.
Dos variables aleatorias discretas X e Y se dice que son independientes cuando se verifica que:
P (xi , yj ) = PX (xi ) × PY (yj ) ∀(i, j). Por lo tanto las hipótesis a contrastar son:
H0 ≡ P (xi , yj ) = PX (xi ) × PY (yj ) ∀(i, j)
H1 ≡ P (xi , yj ) 6= PX (xi ) × PY (yj ) para algún (i, j)
Dada una muestra aleatoria de n observaciones (x1 , y1 ), . . . , (xn , yn ) los pasos que se deben
emplear para realizar este contraste de hipótesis son los siguientes:
1. Construir la tabla de contingencia calculando
nij = número de individuos que verifican (X = xi , Y = yj ).
2. Obtener las distribuciones de frecuencias marginales de X e Y:
P
Variable X: ni. = cj=1 ni j i = 1, . . . , r
P
Variable Y: n.j = ri=1 ni j j = 1, . . . , c
3. Estimar las distribuciones de probabilidad marginales de X e Y:
ni.
n.j
i = 1, . . . , r
P̂ (yj ) =
n
n
4. Calcular las frecuencias esperadas de cada celda bajo H0 .
P̂ (xi ) =
j = 1, . . . , c
Eij = n × P̂ (xi ) × P̂ (yj )
5. Construir la región critica del contraste a partir de la comparación entre las frecuencias
observadas y esperadas mediante el estadı́stico chi-cuadrado:
( r c
)
X X (nij − Eij )2
R.C. =
> umbral
Eij
i=1 j=1
6. Hay dos formas alternativas de resolver la última parte del contraste:
a) Calcular el umbral según el nivel de significación elegido.
( r c
)
X X (nij − Eij )2
P
> umbral|H0 = P χ(r−1)(c−1) > umbral = α
Eij
i=1 j=1
y si el valor del estadı́stico sobrepasa ese umbral se rechaza la hipótesis nula.
b) Calcular el p − valor del contraste y si resulta menor que el nivel de significación se
rechaza H0 .
Descargar