Estimación de la función de distribución Alberto Rodrı́guez Casal 25 de febrero de 2009 La función de distribución Sea X una variable aleatoria. Recordemos que la función de distribución F de la variable X viene definida por F (x) = P(X ≤ x), x ∈ R. A pesar de que la función de distribución sólo nos da información sobre la probabilidad de que la variable esté en conjuntos de la forma (−∞, x], esta información es suficiente para caracterizar la probabilidad inducida por la variable y ası́ calcular, por ejemplo, la probabilidad de un conjunto de la forma, (a, b]. Por tanto estimar la función de distribución será muy útil para saber en qué regiones toma valores la variable. Alberto Rodrı́guez Casal Estimación de la función de distribución La distribución empı́rica Sea X1 , . . . , Xn una muestra aleatoria de una población X con función de distribución F . La función de distribución empı́rica n Fn (x) = 1X I(Xi ≤ x), n i=1 Alberto Rodrı́guez Casal Estimación de la función de distribución La distribución empı́rica Sea X1 , . . . , Xn una muestra aleatoria de una población X con función de distribución F . La función de distribución empı́rica n Fn (x) = 1X I(Xi ≤ x), n i=1 0.2 0.4 Fn(x) 0.6 0.8 1.0 ecdf(x) 0.0 ● −3 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 3 Figura: Función de distribución empı́rica de una muestra de tamaño 100 de x una población normal estándar Alberto Rodrı́guez Casal Estimación de la función de distribución Distribución empı́rica: Propiedades Sea X1 , . . . , Xn una muestra aleatoria de una población X con función de distribución F . Sea Fn la función de distribución empı́rica. Entonces 1. Para cada x fijo, E(Fn (x)) = F (x), Var (Fn (x)) = F (x)(1 − F (x)) . n 2. (Teorema de Glivenko-Canteilli) Con probabilidad uno sup |Fn (x) − F (x)| → 0 x∈R 3. (Desigualdad de Dvoretzky-Kiefer-Wolfowitz, DKW) Para cualquier 2 P sup |F (x) − Fn (x)| > ≤ 2e −2n x∈R Alberto Rodrı́guez Casal Estimación de la función de distribución Banda de confianza para la función de distribución La desigualdad de DKW puede usarse para construir una banda de confianza para F . Igualando la parte derecha de la desigualdad a α obtenemos que si 1 2 2 n = log 2n α entonces la función de distribución F estará comprendida con probabilidad al menos 1 − α entre Fn − n y Fn + n . Por tanto definiendo L(x) = máx{Fn (x) − n , 0}, U(x) = mı́n{Fn (x) + , 1} tenemos que P(L(x) ≤ F (x) ≤ U(x), para todo x) ≥ 1 − α Alberto Rodrı́guez Casal Estimación de la función de distribución Ejemplo de código R para la banda de confianza n=100 x=rnorm(n) Fn=ecdf(x) alfa=0.05 epsilon=sqrt(1/(2*n)*log(2/alfa)) t=seq(min(x),max(x),by=0.01) L=pmax(Fn(t)-epsilon,0) U=pmin(Fn(t)+epsilon,1) plot(Fn) points(t,U,type="s") points(t,L,type="s") points(t,pnorm(t),t="l",col=red") Alberto Rodrı́guez Casal Estimación de la función de distribución Aplicaciones de la distribución empı́rica a la estimación Muchas caracterı́sticas de interés poblacionales pueden ser estimadas reemplazando F por Fn . Alberto Rodrı́guez Casal Estimación de la función de distribución Aplicaciones de la distribución empı́rica a la estimación Muchas caracterı́sticas de interés poblacionales pueden ser estimadas reemplazando F por Fn . Ejemplo Los parámetros como la media o la varianza poblacional son desconocidos porque la distribución de la población F no es conocida. Sin embargo, dada una muestra de la población, la distribución empı́rica Fn es completamente conocida y, por tanto, podremos estimar el parámetro de interés (media o varianza) calculando el mismo parámetro para una variable X ∗ con distribución Fn . Alberto Rodrı́guez Casal Estimación de la función de distribución Aplicaciones de la distribución empı́rica a la estimación Muchas caracterı́sticas de interés poblacionales pueden ser estimadas reemplazando F por Fn . Ejemplo Los parámetros como la media o la varianza poblacional son desconocidos porque la distribución de la población F no es conocida. Sin embargo, dada una muestra de la población, la distribución empı́rica Fn es completamente conocida y, por tanto, podremos estimar el parámetro de interés (media o varianza) calculando el mismo parámetro para una variable X ∗ con distribución Fn . I Calcula la media de X ∗ donde X ∗ tiene distribución Fn . Alberto Rodrı́guez Casal Estimación de la función de distribución Aplicaciones de la distribución empı́rica a la estimación Muchas caracterı́sticas de interés poblacionales pueden ser estimadas reemplazando F por Fn . Ejemplo Los parámetros como la media o la varianza poblacional son desconocidos porque la distribución de la población F no es conocida. Sin embargo, dada una muestra de la población, la distribución empı́rica Fn es completamente conocida y, por tanto, podremos estimar el parámetro de interés (media o varianza) calculando el mismo parámetro para una variable X ∗ con distribución Fn . I Calcula la media de X ∗ donde X ∗ tiene distribución Fn . Solución: La media muestral X . I Calcula la varianza de X ∗ donde X ∗ tiene distribución Fn . Alberto Rodrı́guez Casal Estimación de la función de distribución Aplicaciones de la distribución empı́rica a la estimación Muchas caracterı́sticas de interés poblacionales pueden ser estimadas reemplazando F por Fn . Ejemplo Los parámetros como la media o la varianza poblacional son desconocidos porque la distribución de la población F no es conocida. Sin embargo, dada una muestra de la población, la distribución empı́rica Fn es completamente conocida y, por tanto, podremos estimar el parámetro de interés (media o varianza) calculando el mismo parámetro para una variable X ∗ con distribución Fn . I Calcula la media de X ∗ donde X ∗ tiene distribución Fn . Solución: La media muestral X . I Calcula la varianza de X ∗ donde X ∗ tiene distribución Fn . Solución: La varianza muestral Sn2 . Alberto Rodrı́guez Casal Estimación de la función de distribución El bootstrap El bootstrap fue propuesto por Efron en 1979 para estimar la varianza de un estadı́stico. Sin embargo hoy en dı́a sus aplicaciones son enormes y es utilizado en la construcción de intervalos de confianza y contrastes de hipótesis. Alberto Rodrı́guez Casal Estimación de la función de distribución El bootstrap El bootstrap fue propuesto por Efron en 1979 para estimar la varianza de un estadı́stico. Sin embargo hoy en dı́a sus aplicaciones son enormes y es utilizado en la construcción de intervalos de confianza y contrastes de hipótesis. Sea Tn (X1 , . . . , Xn ) un estadı́stico (es decir una función de la muestra). Supongamos que queremos conocer la varianza de Tn VF (Tn ). Escribimos VF (Tn ) para destacar el hecho de que la varianza del estadı́stico Tn depende de F . Por ejemplo si Tn = X entonces VF (Tn ) = Alberto Rodrı́guez Casal σ2 n Estimación de la función de distribución Idea del bootstrap El bootstrap para estimar la varianza de Tn consta normalmente de dos etapas: b es un estimador I Estimar VF (Tn ) mediante V b (Tn ) donde F F de F construido a partir de la muestra. I Aproximar VFb (Tn ) mediante simulación Ejercicio Calcula el estimador bootstrap de la varianza para Tn = X tomando como Fb = Fn la distribución empı́rica. Alberto Rodrı́guez Casal Estimación de la función de distribución Simulación Supongamos que tenemos una muestra aleatoria Y1 , . . . , YB de una distribución G . Por la ley de los grandes números, casi seguro, B 1 X Yj → E(Y ), B j=1 cuando B → ∞. Alberto Rodrı́guez Casal Estimación de la función de distribución Simulación Supongamos que tenemos una muestra aleatoria Y1 , . . . , YB de una distribución G . Por la ley de los grandes números, casi seguro, B 1 X Yj → E(Y ), B j=1 cuando B → ∞. En simulación tomaremos B grande para que la diferencia entre la media muestral y la poblacional sea pequeña. De forma más general si h es una función cualquiera B 1 X h(Yj ) → E(h(Y )) B j=1 Alberto Rodrı́guez Casal Estimación de la función de distribución Simulación Supongamos que tenemos una muestra aleatoria Y1 , . . . , YB de una distribución G . Por la ley de los grandes números, casi seguro, B 1 X Yj → E(Y ), B j=1 cuando B → ∞. En simulación tomaremos B grande para que la diferencia entre la media muestral y la poblacional sea pequeña. De forma más general si h es una función cualquiera B 1 X h(Yj ) → E(h(Y )) B j=1 En particular, 2 B n B X X X 1 1 1 (Yj − Y )2 = Yj2 − Yj → Var (Y ) B B B j=1 j=1 Alberto Rodrı́guez Casal j=1 Estimación de la función de distribución Estimación bootstrap de la varianza Para estimar VFb (Tn ) lo que tendremos que hacer es simular muestras X1∗ , . . . , Xn∗ de Fb y calcular Tn∗ = Tn (X1∗ , . . . , Xn∗ ) repetidamente para evaluar estimar empı́ricamente su varianza. Mundo real F ⇒ X1 , . . . , Xn ⇒ Tn = Tn (X1 , . . . , Xn ) Mundo bootstrap Fb ⇒ X1∗ , . . . , Xn∗ ⇒ Tn∗ = Tn (X1∗ , . . . , Xn∗ ) Si Fb es la distribución empı́rica para simular Xi∗ lo único que tenemos que hacer es seleccionar al azar un punto de X1 , . . . , Xn . Alberto Rodrı́guez Casal Estimación de la función de distribución Algoritmo para la estimación bootstrap de la varianza I Simular X1∗ , . . . , Xn∗ de Fb I Calcular Tn∗ = T (X1∗ , . . . , Xn∗ ) I Repetir B veces los pasos 1 y 2 para obtener los valores ∗ ,...,T∗ Tn,1 n,B I Calcular B vboot B 1 ∗ 2 1 X ∗ Tn,b − Tn,b = B B b=1 Alberto Rodrı́guez Casal Estimación de la función de distribución Algoritmo para la estimación bootstrap de la varianza I Simular X1∗ , . . . , Xn∗ de Fb I Calcular Tn∗ = T (X1∗ , . . . , Xn∗ ) I Repetir B veces los pasos 1 y 2 para obtener los valores ∗ ,...,T∗ Tn,1 n,B I Calcular B vboot B 1 ∗ 2 1 X ∗ Tn,b − Tn,b = B B b=1 Ejercicio I Escribe una función en R que permita estimar la varianza de la media muestral. I Cambia el código anterior para que permita estimar la varianza de la mediana muestral. Alberto Rodrı́guez Casal Estimación de la función de distribución El método pivotal para poblaciones normales Es conocido que si X1 , . . . , Xn sigue una distribución normal entonces √ X −µ T = n S sigue una distribución T de Student con n − 1 grados de libertad, Tn−1 . En la expresión anterior S es la cuasidesviación tı́pica muestral. Este resultado puede ser utilizado para construir un intervalo de confianza para µ. Si tn−1,β , 0 < β < 1, denota aquel valor para el cual P(Tn−1 ≥ tn−1,β ) = β, entonces S S X − tn−1,α/2 √ , X − tn−1,(1−α/2) √ , n n es un intervalo de confianza para µ de nivel 1 − α. Alberto Rodrı́guez Casal Estimación de la función de distribución Método asintótico Si la población no sigue una distribución normal necesitarı́amos encontrar dos valores cl , cu para los cuales P(cl ≤ T ≤ cu ) = 1 − α que nos permitirı́an calcular el intervalo para µ de nivel (1 − α) S S X − cu √ , X − cl √ n n Los valores cu , lu son desconocidos y dependen de la distribución F . El teorema central del lı́mite (TCL) nos asegura que para n grande cl ≈ −zα/2 y cu ≈ zα/2 donde zβ se define igual que tn−1,β pero en este caso la distribución empleada es la distribución normal estándar. El intervalo obtenido por este método asintótico es S S X − zα/2 √ , X + zα/2 √ . n n Alberto Rodrı́guez Casal Estimación de la función de distribución El método bootstrap estudentizado El método bootstrap también nos permite construir intervalos de confianza para µ sin necesidad de recurrir al TCL: 1. Calculamos la distribución empı́rica Fn 2. Se genera una muestra bootstrap x1∗ , . . . , xn∗ de Fn 3. Se evalúa T ∗ en la muestra bootstrap obteniendo ∗ √ x −x ∗ t = n , s∗ donde x ∗ y s ∗ denotan la media y la cuasidesviación tı́pica muestral de la muestra bootstrap x1∗ , . . . , xn∗ . 4. Se repiten los pasos 2 y 3 B veces: obtenemos t1∗ , . . . , tB∗ 5. Se ordenan de menos a mayor los valores calculados de T ∗ y se toma el valor que ocupa la posición α/2 ∗ B, cl∗ , y el que ocupa la posición (1 − α/2) ∗ B, cu∗ . El intervalo bootstrap es ∗ s ∗ s x − cu √ , x − cl √ n n Alberto Rodrı́guez Casal Estimación de la función de distribución Ejercicio Comprueba el funcionamiento del método anterior cuando X1 . . . , Xn es una muestra aleatoria simple de tamaño n = 100 de una distribución exponencial de parámetro 1. Para ello: 1. Genera una muestra de tamaño 100 del exponencial de parámetro 1. 2. Calcula el intervalo bootstrap para µ ( en este caso µ = 1). Toma B = 1000 y α = 0.05 3. Comprueba si µ está en el intervalo construido. 4. Repite los pasos anteriores M veces. Calcula el porcentaje de veces en que µ está en el intervalo bootstrap. Este porcentaje deberı́a estar próximo al 95 % 5. Finalmente calcula el porcentaje de veces que µ está contenido en intervalo basado en la aproximación normal. Alberto Rodrı́guez Casal Estimación de la función de distribución