Contrastes de bondad del ajuste

CONTRASTES DE BONDAD DE AJUSTE Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción Para motivar el tipo de problemas que se quieren resolver ahora, consideramos un par de ejemplos sencillos: Ejemplo 1.- En los ejercicios de cálculo de probabilidades, siempre se suele hablar de dados equilibrados pero, naturalmente, no todos lo son. Nos gustarı́a decidir si es razonable aceptar que un determinado dado es (aproximadamente) equilibrado, es decir, nos gustarı́a decidir si es razonable aceptar que la probabilidad de todas sus caras es (aproximadamente) 1/6. Necesitamos datos, para lo cual lanzamos el dado, por ejemplo, 60 veces, y anotamos los resultados. La pregunta a la que tenemos que dar respuesta es la siguiente: ¿Podemos aceptar, a la vista de los resultados muestrales, la hipótesis nula de que la probabilidad de todas sus caras es (aproximadamente) 1/6? La decisión la tomaremos en función de las frecuencias obtenidas para cada cara. La idea básica es intuitivamente sencilla: Si las frecuencias obtenidas para cada cara son similares (en este caso, cercanas a 10), aceptaremos la hipótesis nula. En caso contrario, la rechazaremos. La cuestión que surge es la siguiente: ¿Qué regla utilizamos para decidir si las frecuencias obtenidas para cada cara son suficientemente similares? Para decidir qué hacemos, sobre todo en los casos conflictivos, necesitamos una metodologı́a general que nos permita resolver este tipo de problemas de un modo sistemático y lo más objetivo posible. Ejemplo 2.- Al aplicar las diferentes metodologı́as estadı́sticas estudiadas (estimación puntual, intervalos de confianza y contraste de hipótesis), lo primero que tenı́amos que hacer era modelizar la caracterı́stica X que estábamos estudiando. Por ejemplo, en muchas situaciones, se utilizaba el modelo Normal. La pregunta que nos hacemos ahora es la siguiente: ¿Es razonable aceptar esa modelización, a la vista de los datos disponibles? Para dar una primera respuesta a esta pregunta, podemos utilizar las herramientas gráficas que nos proporciona la Estadı́stica Descriptiva: perfil del histograma, perfil del diagrama de tallos y hojas, QQ-plots,... Todas 1 estas herramientas gráficas son sencillas y útiles cuando la situación está clara, pero necesitamos una metodologı́a general que nos permita decidir si una modelización es razonable o no, de un modo sistemático y lo más objetivo posible, sobre todo para los casos conflictivos. En las siguientes secciones, se explica el contraste χ2 para bondad de ajuste (en sus dos posibles modalidades). El nombre de contrastes χ2 procede de que la distribución (aproximada) del estadı́stico utilizado es una χ2 . 2 Contraste χ2: Primer caso Disponemos de una muestra aleatoria (X1 , . . . , Xn ) de una caracterı́stica X con distribución desconocida y queremos ver si, a la vista de la muestra, es razonable admitir que la distribución de X viene dada por P (un determinado modelo de probabilidad). Es decir, queremos ver si el modelo P se ajusta bien a los datos. Planteamos el siguiente contraste de hipótesis: H0 : “El modelo de probabilidad de X es P ”. H1 : “El modelo de probabilidad de X no es P ”. Para tomar una decisión, necesitaremos fijar un nivel de significación α próximo a cero, como es habitual. Para contrastar H0 frente a H1 hacemos una partición (arbitraria) del espacio muestral (posibles valores de X) en k clases A1 , . . . , Ak . Después, para cada Ai (i = 1, . . . , k) consideramos las siguientes frecuencias: Oi = “Frecuencia observada en Ai ” = “Número de elementos de la muestra (x1 , . . . , xn ) que se han situado en la clase Ai ” ei = “Frecuencia esperada en la clase Ai , si H0 es cierta” = nP (Ai ) Observemos que el valor de ei es nP (Ai ) ya que ei es, simplemente, la esperanza de una distribución Binomial B(n; P (Ai )). El estadı́stico que utilizaremos para llevar a cabo este contraste es: k X (Oi − ei )2 ei i=1 que tiene, aproximadamente (cuando n es grande), una distribución χ2k−1 , si H0 es cierta. 2 Si la hipótesis nula es cierta, es de esperar que las frecuencias observadas, Oi , y las frecuencias esperadas, ei , sean parecidas y, por tanto, este estadı́stico deberı́a tomar valores próximos a cero; en consecuencia, rechazaremos la hipótesis nula cuando los valores de este estadı́stico sean “grandes” y la aceptaremos cuando sean “pequeños”; la separación entre valores “grandes” y “pequeños” viene dada por el nivel de significación α; en definitiva, la regla para decidir será la siguiente: Rechazamos la hipótesis nula H0 : “El modelo de probabilidad de X es P ” (al nivel de significación α) si: k X (Oi − ei )2 i=1 ei > χ2k−1;α Normalmente, el valor del estadı́stico se calcula de la siguiente forma: k X (Oi − ei )2 i=1 ei = = 3 k X i=1 k X Oi2 − 2Oi ei + e2i ei ! = k X Oi2 i=1 ei −2 k X Oi + i=1 k X ei i=1 k k X X Oi2 Oi2 − 2n + n P (Ai ) = −n i=1 ei i=1 i=1 ei Contraste χ2: Segundo caso El contraste de la bondad del ajuste se puede plantear también en una situación algo más general: Observamos una muestra aleatoria (X1 , . . . , Xn ) de una caracterı́stica X con distribución desconocida y queremos ver si, a la vista de la muestra, es razonable admitir que la distribución de X viene dada por algún modelo de probabilidad de la familia M = {Pθ : θ ∈ Θ} donde θ = (θ1 , . . . , θr ). Es decir, queremos ver si el modelo M “se ajusta” bien a los datos. Planteamos el siguiente contraste de hipótesis: H0 : “El modelo de probabilidad de X es de la familia M”. H1 : “El modelo de probabilidad de X no es de la familia M”. Para tomar una decisión, necesitaremos fijar un nivel de significación α próximo a cero, como es habitual. Para contrastar H0 frente a H1 hacemos nuevamente una partición (arbitraria) del espacio muestral (posibles valores de X) en clases A1 , . . . , Ak , y consideramos: 3 Oi = “Frecuencia observada en Ai ” = “Número de elementos de la muestra (x1 , . . . , xn ) que se han situado en la clase Ai ” ei = “Frecuencia esperada en Ai , si H0 es cierta” = nPθ (Ai ) ' nPθ̂ (Ai ) donde θ̂ = (θ̂1 , . . . , θ̂r ) es la estimación de máxima verosimilitud de los r parámetros del modelo, a partir de los datos obtenidos. El estadı́stico que utilizaremos sigue siendo: k X (Oi − ei )2 ei i=1 que, aproximadamente (cuando n es grande), tiene una distribución χ2k−1−r , si H0 es cierta. Los grados de libertad han cambiado como consecuencia de haber tenido que estimar los r parámetros del modelo. Razonando de manera análoga a como se hizo en el primer caso, llegamos a la siguiente regla para tomar una decisión: Rechazamos la hipótesis nula H0 : “El modelo de probabilidad de X es de la familia M” (al nivel de significación α) si: k X (Oi − ei )2 i=1 ei > χ2k−1−r;α Mediante un cálculo similar al de la sección anterior, llegarı́amos a que el valor del estadı́stico se puede calcular nuevamente de la siguiente forma: k X (Oi − ei )2 i=1 ei = k X Oi2 i=1 4 ei −n

Contrastes de bondad del ajuste

Documentos relacionados

Productos

Apoyo

Contrastes de bondad del ajuste

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib