Pruebas de Bondad de Ajuste 1 La Prueba χ2 de Pearson

Anuncio
1
Facultad de Ingenierı́a
IMERL
PROBABILIDAD Y ESTADÍSTICA
Curso 2008
Pruebas de Bondad de Ajuste
En esta sección estudiaremos el problema de ajuste a una distribución. Dada una muestra X1 , X2 , · · · , Xn
de variables i.i.d. con distribución F , un problema básico en estadı́stica es encontrar un modelo para
los datos. Por ejemplo, supongamos que nos interesa ver hasta qué punto es razonable suponer que
los datos provienen de una cierta distribución F0 .
Las pruebas estadı́sticas destinadas a la resolución de este tipo de problemas son las llamadas Pruebas
de Bondad de Ajuste. La mayorı́a de ellas se basa en la convergencia de la función de distribución
empı́rica de la muestra: Fn (x) =
n
X
1{Xi ≤x} , a la función de distribución subyacente a la muestra
i=1
F . Dicha convergencia está garantizada en condiciones muy generales por el Teorema de GlivenkoCantelli, también llamado Teorema Fundamental de la Estadı́stica.
En esta sección se incluyen algunas pruebas muy generales y conocidas (χ2 , Kolmogorov-Smirnov), y
otras pruebas más especı́ficas (Lilliefors, D’Agostino).
1
La Prueba χ2 de Pearson
La primera prueba de bondad de ajuste fue propuesta por Karl Pearson en el año 1900.
Pearson propuso evaluar el ajuste de una función de distribución F0 a una muestra de variables i.i.d.,
mediante el uso de un estadı́stico de tipo cuadrático. Este planteamiento constituye la primera evaluación rigurosa de la calidad del ajuste a una distribución. Anteriormente a Pearson sólo se intentaron
comparaciones subjetivas.
Citemos como ejemplo el del uso de la distribución normal en la teorı́a de errores. Dicha distribución
fue introducida por Gauss en 1801 para modelar los errores en la determinación de la posición del
asteroide Ceres. Años después Laplace y Poisson llegaron a ella en versiones primigenias del Teorema
2
LA PRUEBA DE KOLMOGOROV Y SMIRNOV
2
Central del Lı́mite. Poisson agregarı́a contraejemplos con lı́mites no gaussianos. La primera justificación de la aplicabilidad del modelo fue dada por un ingeniero alemán: G. Hagen, en 1837. Pero hubo
que esperar casi un siglo hasta que alguien (Pearson) propusiera verificar la adecuación del modelo.
En el caso de hipótesis nula compuesta, en que es necesario estimar parámetros, las distribuciones
asintóticas de los estadı́sticos del tipo χ2 dependen del método de estimación utilizado.
Fundamentación de la prueba
Dada una muestra X1 , X2 , · · · , Xn de variables i.i.d., con función de distribución F , y una distribución
F0 , Pearson considera la partición en k clases A1 , A2 , · · · , Ak del soporte de F0 y a partir de ella
propone el estadı́stico
k
X
(Xni − npi )2
S=
npi
i=1
donde Xni =
n
X
1Ai (Xj ) y pi = F (Ai ). La distribución de S depende en general del número de clases
j=1
k, del vector de probabilidades (p1 , · · · , pk ) y del tamaño de muestra n. En un artı́culo de 1973,
Katti da tables exactas para el caso uniforme. De acuerdo al siguiente teorema, que enunciamos sin
demostración, S tiene, bajo la hipótesis nula distribución χ2 con k − 1 grados de libertad, mientras
que bajo la alternativa “F 6= F0 ”, S tiende casi seguramente a infinito.
Teorema
Sea p1 , p2 , · · · , pk una k-upla de números no negativos que suman 1, y sean Z1 , Z2 , · · · vectores multinomiales e independientes con parámetros {1, (p1 , p2 , · · · , pk )}. Si definimos Xn =
n
X
Zm , el estadı́stico
m=1
S=
k
X
(Xni − npi )2
i=1
npi
tiene distribución asintótica χ2 con k − 1 grados de libertad
2
La Prueba de Kolmogorov y Smirnov
Esta prueba de ajuste se basa en el llamado Teorema Fundamental de la Estadı́stica, que enunciamos
a continuación
Teorema Fundamental de la Estadı́stica (Glivenko-Cantelli)
Sea X1 , X2 , · · · , Xn , · · · una sucesión de variables aleatorias i.i.d. con distribución F , y sea Fn la
función de distribución empı́rica para la muestra de tamaño n, es decir
Fn (x) =
n
X
i=1
1(Xi ,+∞) (x) =
n
X
i=1
1[−∞,x) (Xi )
2
LA PRUEBA DE KOLMOGOROV Y SMIRNOV
3
entonces
supx∈IR |Fn (x) − F (x)| −→ 0
con probabilidad 1.
Supongamos entonces que tenemos una muestra X1 , X2 , · · · , Xn proveniente de una distribución F
y queremos realizar la prueba de hipótesis H0 : F = F0 y H1 : F 6= F0 para una cierta distribución
F0 . El teorema anterior sugiere el uso del siguiente estadı́stico
KS = supx∈IR |Fn (x) − F0 (x)|
Bajo la hipótesis nula KS (que depende de n) tenderá a cero, mientras que, bajo la hipótesis alternativa, la descomposición
KS = supx∈IR |Fn (x) − F0 (x)| = supx∈IR |Fn (x) − F (x) + F (x) − F0 (x)|
nos muestra que KS tiende a
supx∈IR |F (x) − F0 (x)| =
6 0
de modo que la prueba es consistente frente a cualquier alternativa.
Observaciones
1. Nótese en primer lugar que, por la forma de la función de distribución empı́rica, si el supremo
involucrado en el cálculo del estadı́stico KS no se alcanza en alguno de los puntos de la muestra,
entonces tomará en valor
∆−
i = limx→X − |Fn (x) − F0 (Xi )|
i
para alguno de los puntos de la muestra.
Calcular KS se reduce entonces a calcular:
o
n
KS = max max1≤i≤n {|Fn (Xi ) − F0 (Xi )|}, max1≤i≤n {∆−
i } =
max {max1≤i≤n {|i/n − F0 (Xi∗ )|}, max1≤i≤n {|(i − 1)/n − F0 (Xi∗ )|}}}
2. La distribución bajo H0 del estadı́stico KS no depende de la distribución subyacente a la muestra.
Sea la muestra X1 , X2 , · · · , Xn de variables i.i.d. con distribución F = F0 . Si hacemos el cambio
de variables Ui = F0 (Xi ) y u = F0 (x) tendremos
KS = supx∈IR |Fn (x) − F0 (x)| = supx∈IR |
n
X
1{Xi ≤x} − F0 (x)| =
i=1
supx∈IR |
n
X
i=1
1{F0 (Xi )≤F0 (x)} − F0 (x)| = supu∈[0,1] |
n
X
1{Ui ≤u} − u|
i=1
Es decir que la distribución del estadı́stico de Kolmogorov y Smirnov para la muestra X1 , X2 , · · · , Xn
3
LA PRUEBA DE NORMALIDAD DE LILLIEFORS
4
es igual a la del estadı́stico para la muestra uniforme U1 , U2 , · · · , Un (recuérdese que las variables
Ui tienen distribución uniforme en [0,1]).
Para tamaños muestrales pequeños una tabla de Montecarlo basada en la distribución uniforme,
da los percentiles para poder aplicar la prueba de Kolmogorov-Smirnov.
3. En el caso asintótico, los percentiles para la aplicación de la prueba vienen dados por un famoso
resultado debido a Donsker (1952).
4. En caso en que la distribución dependa de algunos parámetros desconocidos, si la muestra
es suficientemente grande, podemos dividirla en dos, usando una primera parte para estimar
los parámetros y la segunda para aplicar la prueba de ajuste a la distribución en la que se
sustituyen los parámetros por sus respectivos estimadores. Esta forma de proceder involucra
varias decisiones sobre la división de la muestra. En particular, decidir qué parte de la muestra
se usará para estimar los parámetros y qué parte para aplicar la prueba, es una arbitrariedad;
para evitarla, se puede volver a aplicar el procedimiento estimando los parámetros con la segunda
parte de la muestra y aplicando la prueba de ajuste con la primera (en este caso es razonable
rechazar si alguna de las dos pruebas arrojara un resultado significativo).
3
La Prueba de Normalidad de Lilliefors
Esta prueba de normalidad utiliza el estadı́stico de Kolmogorov y Smirnov, en el caso en que la media
y el desvı́o de la distribución (desconocidos) se estiman utilizando toda la muestra. Es decir que el
estadı́stico vale
x − X̄n
)|
KSL = supx∈IR |Fn (x) − Φ(
sn
donde Φ es la función de distribución normal tı́pica, Si determinamos la región crı́tica usando la tabla
de Kolmogorov y Smirnov, el resultado es una prueba muy conservadora. Lilliefors ha tabulado por
el método de Montecarlo los percentiles de este estadı́stico.
De la misma forma, existe un prueba de exponencialidad de similares caracterı́sticas.
4
La Prueba de Normalidad de D’Agostino
Este estadı́stico compara (a menos de una constante) un estimador lineal del desvı́o tı́pico en el caso
de una distribución normal, con el desvı́o muestral.
Para la muestra aleatoria simple X1 , X2 , · · · , Xn y la prueba cuya hipótesis nula es H0 : “la muestra tiene distribución normal” y cuya hipótesis alternativa es la complementaria, el estadı́stico de
D’Agostino vale:
n
Xi∗
i − n+1
X
2
D=
n2 sn
i=1
donde s2n = n1 ni=1 (Xi − X̄)2 .
El valor esperado de este estadı́stico es aproximadamente
P
1
√
.
2 π
Para tamaños muestrales pequeños se
4
LA PRUEBA DE NORMALIDAD DE D’AGOSTINO
5
dispone de una tabla de simulación que da un criterio de decisión. Para muestras de tamaño grande,
la variable
D − 2√1 π
√
n √
1
12 3−27+2π
24π
se puede aproximar por una variable normal tı́pica.
2
Descargar