Métodos de Remuestreo Tema 2. Distribución Empı́rica basado en B. Efron, R. Tibshirani (1993). An Introduction to the bootstrap. O. Kirchkamp (2014). Resampling methods. Curso 2014/15 Parámetros, distribuciones y el principio de plug-in I El mejor modo de visualizar las muestras aleatorias es en términos de poblaciones finitas o un universo U de unidades individuales U1 , U2 , . . . , UN cada una de las cuales tiene la misma probabilidad de ser seleccionada. I En cada unidad Ui se toma una unidad de interés Xi de modo que se obtiene un censo X1 , X2 , . . . , XN o X. I Una muestra aleatoria de tamaño n es una colección de n unidades u1 , u2 , . . . , un seleccionadas al azar del universo U. I En cada unidad seleccionada ui se obtiene una medida de interés xi de modo que el total se denota como x. I Los problemas en estadı́stica en general se refieren a estimar algún aspecto de la distribución de probabilidad F basada en una muestra. Ejemplo sobre el principio de plug-in I Se toma el ejemplo de los centros de máster en leyes library ( bootstrap ) with ( law82 , plot (100 * GPA ∼ LSAT , ylab = " GPA " )) points ( law , pch =3) legend ( " bottomright " , c ( " poblacion " , " muestra " ) , pch = c (1 ,3)) Ejemplo sobre el principio de plug-in I La población está compuesta por 82 centros de enseñanza de máster en leyes (dataset law82). La muestra contiene 15 observaciones. I Interesa calcular la correlación entre GPA (la puntuación media en los cursos de grado) y LSAT (calificación de admisión). I La verdadera puntuación: with ( law82 , cor ( GPA , LSAT )) I El estimador plug-in es with ( law , cor ( GPA , LSAT )) Función de distribución empı́rica I La distribución empı́rica denominada Fb es un estimador simple de la función de distribución teórica F . I El principio de plug-in consiste en estimar algún aspecto de F como la media, mediana etc. mediante Fb. I El bootstrap es una aplicación directa de este principio. I Supongamos que se observa una muestra aleatoria de tamaño n con función de distribución F F → (x1 , x2 , . . . , xn ) Función de distribución empı́rica I La función de distribución empı́rica Fb se define como la distribución 1 discreta que asigna probabilidad a cada valor xi donde n i = 1, 2, . . . , n De este modo Fb asigna a un conjunto A del espacio muestral de x la probabilidad empı́rica # {xi ∈ A} b P(A) = n que es la proporción de la muestra observada x que ocurre en A. Función de distribución empı́rica # Simulo datos de cal ificacio nes mu <- 6 .5 sigma <- 0 .5 y <- rnorm ( n =20 , mean = mu , sd = sigma ) y <- round (y ,3) t <- mean ( y ) cat ( " La muestra es " , sort ( y ) , " \ n en que se obtiene una media muestral igual a " , t, "\n") Función de distribución empı́rica # EDF X11 () plot.ecdf ( x =y , verticals = TRUE , do.p = FALSE , main = " EDF de Calific aciones " , lwd =2 , panel.first = grid ( col = " gray " , lty = " dotted " ) , ylab = " Empirical F " ) Función de distribución empı́rica plot.ecdf ( x =y , verticals = TRUE , do.p = FALSE , main = " Empirical vs Real F " , lwd =2 , xlab = " x " , panel.first = grid ( nx = NULL , ny = NULL , col = " gray " , lty = " dotted " ) , ylab = " EDF " ) curve ( expr = pnorm (x , mean = mu , sd = sigma ) , col = " red " , add = TRUE , lw =3) Función de distribución empı́rica I Se define la función de distribución empı́rica como n Número de elementos de la muestra ≤ x 1X Fbn (x) = = 1 {xi ≤ x} n n i=1 I I donde 1 {A} es la función indicatriz del suceso A. En general, Fbn (x) se puede considerar como una función de distribución discreta que asigna probabilidad igual a 1/n a cada uno de los n valores x1 , . . . , xn . Ası́ Fbn (x) es una función escalón con un salto de tamaño 1/n en cada punto xi (i = 1, . . . , n). Función de distribución empı́rica I I I Si se ordenan los valores de la muestra de menor a mayor x(1) < x(2) < · · · < x(n) entonces then Fbn (x) = 0 para x < x(1) Fbn (x) salta al valor 1/n en x = x(1) y se mantiene igual a 1/n para x(1) ≤ x < x(2) Fbn (x) salta al valor 2/n en x = x(2) y se mantiene igual a 2/n para x(2) ≤ x < x(3) y ası́ sucesivamente I Si se fija el valor de x entonces la variable aleatoria 1 {xi ≤ x} es una v.a. Bernoulli de parámetro p = F (x) Entonces nFbn (x) es una v.a binomial de media nF (x) y varianza I nF (x)(1 − F (x)). De este modo Fbn (x) es un estimador insesgado de F (x). I Propiedades de la función de distribución empı́rica I Si se denota como F (x) la función de distribución de la v.a. de la que procede la muestra entonces, para todo número (−∞ < x < ∞), la probabilidad de que una observación dada Xi sea menor o igual que x es F (x). I Por tanto, por la ley de los grandes números, cuando n → ∞, la proporción Fbn (x) de observaciones en la muestra que son menores o iguales que x convergen en probabilidad a F (x). p Fbn (x) → F (x) −∞ < x < ∞ Propiedades de la función de distribución empı́rica I I Se tiene un resultado más potente: Fbn (x) converge a F (x) de manera uniforme para todos los valores de x Lemma de Glivenko-Cantelli Sea Fbn (x) una función de distribución empı́rica de una m.a.s X1 , . . . , Xn de una función de distribución F entonces, p Dn = Sup Fbn (x) − F (x) → 0 −∞<x<∞ I Nota: Antes de que los valores X1 , . . . , Xn hayan sido observados Dn es una v.a. I El lema implica que cuando el tamaño n de la muestra es grande la función de distribución empı́rica Fbn (x) está muy próxima a F (x) sobre la recta real. I Ası́, cuando se desconoce la función de distribución F (x) se puede considerar que Fbn (x) es un estimador de F (x). Intervalos de confianza basados en la función de distribución empı́rica I Teorema de Dvoretzky-Kiefer-Wolfowitz (DKW) Sea X1 , . . . , Xn una muestra aleatoria de una v.a. con función de distribución F . Entonces, para todo ε > 0 2 b P sup F (x) − Fn (x) > ε ≤ 2e −2nε x I Se pueden construir ası́ los intervalos de confianza Intervalos de confianza basados en la función de distribución empı́rica I Se define L(x) = n o máx Fbn (x) − εn , 0 U(x) = n o mı́n Fbn (x) + εn , 1 s donde εn I = 1 log 2n 2 α de este modo, para toda función de distribución F y para todo x se tiene que P (L(x) ≤ F (x) ≤ U(x)) ≥ 1 − α Función de distribución empı́rica library ( sfsmisc ) # Simulas datos de una distribucion chi cuadrado con 3 g.l. x <- rchisq (50 ,3) X11 () plot ( ecdf ( x )) X11 () ecdf.ksCI (x , ci.col = " blue " , lwd =2)