CONTRASTES DE BONDAD DE AJUSTE Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción Para motivar el tipo de problemas que se quieren resolver ahora, consideramos un par de ejemplos sencillos: Ejemplo 1.- En los ejercicios de cálculo de probabilidades, siempre se suele hablar de dados equilibrados pero, naturalmente, no todos lo son. Nos gustarı́a decidir si es razonable aceptar que un determinado dado es (aproximadamente) equilibrado, es decir, nos gustarı́a decidir si es razonable aceptar que la probabilidad de todas sus caras es (aproximadamente) 1/6. Necesitamos datos, para lo cual lanzamos el dado, por ejemplo, 60 veces, y anotamos los resultados. La pregunta a la que tenemos que dar respuesta es la siguiente: ¿Podemos aceptar, a la vista de los resultados muestrales, la hipótesis nula de que la probabilidad de todas sus caras es (aproximadamente) 1/6? La decisión la tomaremos en función de las frecuencias obtenidas para cada cara. La idea básica es intuitivamente sencilla: Si las frecuencias obtenidas para cada cara son similares (en este caso, cercanas a 10), aceptaremos la hipótesis nula. En caso contrario, la rechazaremos. La cuestión que surge es la siguiente: ¿Qué regla utilizamos para decidir si las frecuencias obtenidas para cada cara son suficientemente similares? Para decidir qué hacemos, sobre todo en los casos conflictivos, necesitamos una metodologı́a general que nos permita resolver este tipo de problemas de un modo sistemático y lo más objetivo posible. Ejemplo 2.- Al aplicar las diferentes metodologı́as estadı́sticas estudiadas (estimación puntual, intervalos de confianza y contraste de hipótesis), lo primero que tenı́amos que hacer era modelizar la caracterı́stica X que estábamos estudiando. Por ejemplo, en muchas situaciones, se utilizaba el modelo Normal. La pregunta que nos hacemos ahora es la siguiente: ¿Es razonable aceptar esa modelización, a la vista de los datos disponibles? Para dar una primera respuesta a esta pregunta, podemos utilizar las herramientas gráficas que nos proporciona la Estadı́stica Descriptiva: perfil del histograma, perfil del diagrama de tallos y hojas, QQ-plots,... Todas 1 estas herramientas gráficas son sencillas y útiles cuando la situación está clara, pero necesitamos una metodologı́a general que nos permita decidir si una modelización es razonable o no, de un modo sistemático y lo más objetivo posible, sobre todo para los casos conflictivos. En las siguientes secciones, se explica el contraste χ2 para bondad de ajuste (en sus dos posibles modalidades). El nombre de contrastes χ2 procede de que la distribución (aproximada) del estadı́stico utilizado es una χ2 . 2 Contraste χ2: Primer caso Disponemos de una muestra aleatoria (X1 , . . . , Xn ) de una caracterı́stica X con distribución desconocida y queremos ver si, a la vista de la muestra, es razonable admitir que la distribución de X viene dada por P (un determinado modelo de probabilidad). Es decir, queremos ver si el modelo P se ajusta bien a los datos. Planteamos el siguiente contraste de hipótesis: H0 : “El modelo de probabilidad de X es P ”. H1 : “El modelo de probabilidad de X no es P ”. Para tomar una decisión, necesitaremos fijar un nivel de significación α próximo a cero, como es habitual. Para contrastar H0 frente a H1 hacemos una partición (arbitraria) del espacio muestral (posibles valores de X) en k clases A1 , . . . , Ak . Después, para cada Ai (i = 1, . . . , k) consideramos las siguientes frecuencias: Oi = “Frecuencia observada en Ai ” = “Número de elementos de la muestra (x1 , . . . , xn ) que se han situado en la clase Ai ” ei = “Frecuencia esperada en la clase Ai , si H0 es cierta” = nP (Ai ) Observemos que el valor de ei es nP (Ai ) ya que ei es, simplemente, la esperanza de una distribución Binomial B(n; P (Ai )). El estadı́stico que utilizaremos para llevar a cabo este contraste es: k X (Oi − ei )2 ei i=1 que tiene, aproximadamente (cuando n es grande), una distribución χ2k−1 , si H0 es cierta. 2 Si la hipótesis nula es cierta, es de esperar que las frecuencias observadas, Oi , y las frecuencias esperadas, ei , sean parecidas y, por tanto, este estadı́stico deberı́a tomar valores próximos a cero; en consecuencia, rechazaremos la hipótesis nula cuando los valores de este estadı́stico sean “grandes” y la aceptaremos cuando sean “pequeños”; la separación entre valores “grandes” y “pequeños” viene dada por el nivel de significación α; en definitiva, la regla para decidir será la siguiente: Rechazamos la hipótesis nula H0 : “El modelo de probabilidad de X es P ” (al nivel de significación α) si: k X (Oi − ei )2 i=1 ei > χ2k−1;α Normalmente, el valor del estadı́stico se calcula de la siguiente forma: k X (Oi − ei )2 i=1 ei = = 3 k X i=1 k X Oi2 − 2Oi ei + e2i ei ! = k X Oi2 i=1 ei −2 k X Oi + i=1 k X ei i=1 k k X X Oi2 Oi2 − 2n + n P (Ai ) = −n i=1 ei i=1 i=1 ei Contraste χ2: Segundo caso El contraste de la bondad del ajuste se puede plantear también en una situación algo más general: Observamos una muestra aleatoria (X1 , . . . , Xn ) de una caracterı́stica X con distribución desconocida y queremos ver si, a la vista de la muestra, es razonable admitir que la distribución de X viene dada por algún modelo de probabilidad de la familia M = {Pθ : θ ∈ Θ} donde θ = (θ1 , . . . , θr ). Es decir, queremos ver si el modelo M “se ajusta” bien a los datos. Planteamos el siguiente contraste de hipótesis: H0 : “El modelo de probabilidad de X es de la familia M”. H1 : “El modelo de probabilidad de X no es de la familia M”. Para tomar una decisión, necesitaremos fijar un nivel de significación α próximo a cero, como es habitual. Para contrastar H0 frente a H1 hacemos nuevamente una partición (arbitraria) del espacio muestral (posibles valores de X) en clases A1 , . . . , Ak , y consideramos: 3 Oi = “Frecuencia observada en Ai ” = “Número de elementos de la muestra (x1 , . . . , xn ) que se han situado en la clase Ai ” ei = “Frecuencia esperada en Ai , si H0 es cierta” = nPθ (Ai ) ' nPθ̂ (Ai ) donde θ̂ = (θ̂1 , . . . , θ̂r ) es la estimación de máxima verosimilitud de los r parámetros del modelo, a partir de los datos obtenidos. El estadı́stico que utilizaremos sigue siendo: k X (Oi − ei )2 ei i=1 que, aproximadamente (cuando n es grande), tiene una distribución χ2k−1−r , si H0 es cierta. Los grados de libertad han cambiado como consecuencia de haber tenido que estimar los r parámetros del modelo. Razonando de manera análoga a como se hizo en el primer caso, llegamos a la siguiente regla para tomar una decisión: Rechazamos la hipótesis nula H0 : “El modelo de probabilidad de X es de la familia M” (al nivel de significación α) si: k X (Oi − ei )2 i=1 ei > χ2k−1−r;α Mediante un cálculo similar al de la sección anterior, llegarı́amos a que el valor del estadı́stico se puede calcular nuevamente de la siguiente forma: k X (Oi − ei )2 i=1 ei = k X Oi2 i=1 4 ei −n