Estimación de la función de distribución

Anuncio
Estimación de la función de distribución
Alberto Rodrı́guez Casal
25 de febrero de 2009
La función de distribución
Sea X una variable aleatoria. Recordemos que la función de
distribución F de la variable X viene definida por
F (x) = P(X ≤ x), x ∈ R.
A pesar de que la función de distribución sólo nos da información
sobre la probabilidad de que la variable esté en conjuntos de la
forma (−∞, x], esta información es suficiente para caracterizar la
probabilidad inducida por la variable y ası́ calcular, por ejemplo, la
probabilidad de un conjunto de la forma, (a, b]. Por tanto estimar
la función de distribución será muy útil para saber en qué regiones
toma valores la variable.
Alberto Rodrı́guez Casal
Estimación de la función de distribución
La distribución empı́rica
Sea X1 , . . . , Xn una muestra aleatoria de una población X con
función de distribución F . La función de distribución empı́rica
n
Fn (x) =
1X
I(Xi ≤ x),
n
i=1
Alberto Rodrı́guez Casal
Estimación de la función de distribución
La distribución empı́rica
Sea X1 , . . . , Xn una muestra aleatoria de una población X con
función de distribución F . La función de distribución empı́rica
n
Fn (x) =
1X
I(Xi ≤ x),
n
i=1
0.2
0.4
Fn(x)
0.6
0.8
1.0
ecdf(x)
0.0
●
−3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2
3
Figura: Función de distribución empı́rica de una muestra de tamaño 100 de
x
una población normal estándar
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Distribución empı́rica: Propiedades
Sea X1 , . . . , Xn una muestra aleatoria de una población X con
función de distribución F . Sea Fn la función de distribución
empı́rica. Entonces
1. Para cada x fijo,
E(Fn (x)) = F (x), Var (Fn (x)) =
F (x)(1 − F (x))
.
n
2. (Teorema de Glivenko-Canteilli) Con probabilidad uno
sup |Fn (x) − F (x)| → 0
x∈R
3. (Desigualdad de Dvoretzky-Kiefer-Wolfowitz, DKW) Para
cualquier 2
P sup |F (x) − Fn (x)| > ≤ 2e −2n
x∈R
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Banda de confianza para la función de distribución
La desigualdad de DKW puede usarse para construir una banda de
confianza para F . Igualando la parte derecha de la desigualdad a α
obtenemos que si
1
2
2
n =
log
2n
α
entonces la función de distribución F estará comprendida con
probabilidad al menos 1 − α entre Fn − n y Fn + n . Por tanto
definiendo
L(x) = máx{Fn (x) − n , 0}, U(x) = mı́n{Fn (x) + , 1}
tenemos que
P(L(x) ≤ F (x) ≤ U(x), para todo x) ≥ 1 − α
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Ejemplo de código R para la banda de confianza
n=100
x=rnorm(n)
Fn=ecdf(x)
alfa=0.05
epsilon=sqrt(1/(2*n)*log(2/alfa))
t=seq(min(x),max(x),by=0.01)
L=pmax(Fn(t)-epsilon,0)
U=pmin(Fn(t)+epsilon,1)
plot(Fn)
points(t,U,type="s")
points(t,L,type="s")
points(t,pnorm(t),t="l",col=red")
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Aplicaciones de la distribución empı́rica a la estimación
Muchas caracterı́sticas de interés poblacionales pueden ser
estimadas reemplazando F por Fn .
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Aplicaciones de la distribución empı́rica a la estimación
Muchas caracterı́sticas de interés poblacionales pueden ser
estimadas reemplazando F por Fn .
Ejemplo
Los parámetros como la media o la varianza poblacional son
desconocidos porque la distribución de la población F no es
conocida. Sin embargo, dada una muestra de la población, la
distribución empı́rica Fn es completamente conocida y, por tanto,
podremos estimar el parámetro de interés (media o varianza)
calculando el mismo parámetro para una variable X ∗ con
distribución Fn .
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Aplicaciones de la distribución empı́rica a la estimación
Muchas caracterı́sticas de interés poblacionales pueden ser
estimadas reemplazando F por Fn .
Ejemplo
Los parámetros como la media o la varianza poblacional son
desconocidos porque la distribución de la población F no es
conocida. Sin embargo, dada una muestra de la población, la
distribución empı́rica Fn es completamente conocida y, por tanto,
podremos estimar el parámetro de interés (media o varianza)
calculando el mismo parámetro para una variable X ∗ con
distribución Fn .
I
Calcula la media de X ∗ donde X ∗ tiene distribución Fn .
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Aplicaciones de la distribución empı́rica a la estimación
Muchas caracterı́sticas de interés poblacionales pueden ser
estimadas reemplazando F por Fn .
Ejemplo
Los parámetros como la media o la varianza poblacional son
desconocidos porque la distribución de la población F no es
conocida. Sin embargo, dada una muestra de la población, la
distribución empı́rica Fn es completamente conocida y, por tanto,
podremos estimar el parámetro de interés (media o varianza)
calculando el mismo parámetro para una variable X ∗ con
distribución Fn .
I
Calcula la media de X ∗ donde X ∗ tiene distribución Fn .
Solución: La media muestral X .
I
Calcula la varianza de X ∗ donde X ∗ tiene distribución Fn .
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Aplicaciones de la distribución empı́rica a la estimación
Muchas caracterı́sticas de interés poblacionales pueden ser
estimadas reemplazando F por Fn .
Ejemplo
Los parámetros como la media o la varianza poblacional son
desconocidos porque la distribución de la población F no es
conocida. Sin embargo, dada una muestra de la población, la
distribución empı́rica Fn es completamente conocida y, por tanto,
podremos estimar el parámetro de interés (media o varianza)
calculando el mismo parámetro para una variable X ∗ con
distribución Fn .
I
Calcula la media de X ∗ donde X ∗ tiene distribución Fn .
Solución: La media muestral X .
I
Calcula la varianza de X ∗ donde X ∗ tiene distribución Fn .
Solución: La varianza muestral Sn2 .
Alberto Rodrı́guez Casal
Estimación de la función de distribución
El bootstrap
El bootstrap fue propuesto por Efron en 1979 para estimar la
varianza de un estadı́stico. Sin embargo hoy en dı́a sus aplicaciones
son enormes y es utilizado en la construcción de intervalos de
confianza y contrastes de hipótesis.
Alberto Rodrı́guez Casal
Estimación de la función de distribución
El bootstrap
El bootstrap fue propuesto por Efron en 1979 para estimar la
varianza de un estadı́stico. Sin embargo hoy en dı́a sus aplicaciones
son enormes y es utilizado en la construcción de intervalos de
confianza y contrastes de hipótesis.
Sea Tn (X1 , . . . , Xn ) un estadı́stico (es decir una función de la
muestra). Supongamos que queremos conocer la varianza de Tn
VF (Tn ).
Escribimos VF (Tn ) para destacar el hecho de que la varianza del
estadı́stico Tn depende de F . Por ejemplo si Tn = X entonces
VF (Tn ) =
Alberto Rodrı́guez Casal
σ2
n
Estimación de la función de distribución
Idea del bootstrap
El bootstrap para estimar la varianza de Tn consta normalmente
de dos etapas:
b es un estimador
I Estimar VF (Tn ) mediante V b (Tn ) donde F
F
de F construido a partir de la muestra.
I
Aproximar VFb (Tn ) mediante simulación
Ejercicio
Calcula el estimador bootstrap de la varianza para Tn = X
tomando como Fb = Fn la distribución empı́rica.
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Simulación
Supongamos que tenemos una muestra aleatoria Y1 , . . . , YB de
una distribución G . Por la ley de los grandes números, casi seguro,
B
1 X
Yj → E(Y ),
B
j=1
cuando B → ∞.
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Simulación
Supongamos que tenemos una muestra aleatoria Y1 , . . . , YB de
una distribución G . Por la ley de los grandes números, casi seguro,
B
1 X
Yj → E(Y ),
B
j=1
cuando B → ∞. En simulación tomaremos B grande para que la
diferencia entre la media muestral y la poblacional sea pequeña.
De forma más general si h es una función cualquiera
B
1 X
h(Yj ) → E(h(Y ))
B
j=1
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Simulación
Supongamos que tenemos una muestra aleatoria Y1 , . . . , YB de
una distribución G . Por la ley de los grandes números, casi seguro,
B
1 X
Yj → E(Y ),
B
j=1
cuando B → ∞. En simulación tomaremos B grande para que la
diferencia entre la media muestral y la poblacional sea pequeña.
De forma más general si h es una función cualquiera
B
1 X
h(Yj ) → E(h(Y ))
B
j=1
En particular,

2
B
n
B
X
X
X
1
1
1
(Yj − Y )2 =
Yj2 − 
Yj  → Var (Y )
B
B
B
j=1
j=1
Alberto Rodrı́guez Casal
j=1
Estimación de la función de distribución
Estimación bootstrap de la varianza
Para estimar VFb (Tn ) lo que tendremos que hacer es simular
muestras X1∗ , . . . , Xn∗ de Fb y calcular Tn∗ = Tn (X1∗ , . . . , Xn∗ )
repetidamente para evaluar estimar empı́ricamente su varianza.
Mundo real F ⇒ X1 , . . . , Xn ⇒ Tn = Tn (X1 , . . . , Xn )
Mundo bootstrap Fb ⇒ X1∗ , . . . , Xn∗ ⇒ Tn∗ = Tn (X1∗ , . . . , Xn∗ )
Si Fb es la distribución empı́rica para simular Xi∗ lo único que
tenemos que hacer es seleccionar al azar un punto de X1 , . . . , Xn .
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Algoritmo para la estimación bootstrap de la varianza
I
Simular X1∗ , . . . , Xn∗ de Fb
I
Calcular Tn∗ = T (X1∗ , . . . , Xn∗ )
I
Repetir B veces los pasos 1 y 2 para obtener los valores
∗ ,...,T∗
Tn,1
n,B
I
Calcular
B
vboot
B 1 ∗ 2
1 X
∗
Tn,b − Tn,b
=
B
B
b=1
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Algoritmo para la estimación bootstrap de la varianza
I
Simular X1∗ , . . . , Xn∗ de Fb
I
Calcular Tn∗ = T (X1∗ , . . . , Xn∗ )
I
Repetir B veces los pasos 1 y 2 para obtener los valores
∗ ,...,T∗
Tn,1
n,B
I
Calcular
B
vboot
B 1 ∗ 2
1 X
∗
Tn,b − Tn,b
=
B
B
b=1
Ejercicio
I
Escribe una función en R que permita estimar la varianza de
la media muestral.
I
Cambia el código anterior para que permita estimar la
varianza de la mediana muestral.
Alberto Rodrı́guez Casal
Estimación de la función de distribución
El método pivotal para poblaciones normales
Es conocido que si X1 , . . . , Xn sigue una distribución normal
entonces
√
X −µ
T = n
S
sigue una distribución T de Student con n − 1 grados de libertad,
Tn−1 . En la expresión anterior S es la cuasidesviación tı́pica
muestral. Este resultado puede ser utilizado para construir un
intervalo de confianza para µ. Si tn−1,β , 0 < β < 1, denota aquel
valor para el cual
P(Tn−1 ≥ tn−1,β ) = β,
entonces
S
S
X − tn−1,α/2 √ , X − tn−1,(1−α/2) √ ,
n
n
es un intervalo de confianza para µ de nivel 1 − α.
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Método asintótico
Si la población no sigue una distribución normal necesitarı́amos
encontrar dos valores cl , cu para los cuales
P(cl ≤ T ≤ cu ) = 1 − α
que nos permitirı́an calcular el intervalo para µ de nivel (1 − α)
S
S
X − cu √ , X − cl √
n
n
Los valores cu , lu son desconocidos y dependen de la distribución
F . El teorema central del lı́mite (TCL) nos asegura que para n
grande cl ≈ −zα/2 y cu ≈ zα/2 donde zβ se define igual que tn−1,β
pero en este caso la distribución empleada es la distribución normal
estándar. El intervalo obtenido por este método asintótico es
S
S
X − zα/2 √ , X + zα/2 √ .
n
n
Alberto Rodrı́guez Casal
Estimación de la función de distribución
El método bootstrap estudentizado
El método bootstrap también nos permite construir intervalos de
confianza para µ sin necesidad de recurrir al TCL:
1. Calculamos la distribución empı́rica Fn
2. Se genera una muestra bootstrap x1∗ , . . . , xn∗ de Fn
3. Se evalúa T ∗ en la muestra bootstrap obteniendo
∗
√
x −x
∗
t = n
,
s∗
donde x ∗ y s ∗ denotan la media y la cuasidesviación tı́pica
muestral de la muestra bootstrap x1∗ , . . . , xn∗ .
4. Se repiten los pasos 2 y 3 B veces: obtenemos t1∗ , . . . , tB∗
5. Se ordenan de menos a mayor los valores calculados de T ∗ y
se toma el valor que ocupa la posición α/2 ∗ B, cl∗ , y el que
ocupa la posición (1 − α/2) ∗ B, cu∗ . El intervalo bootstrap es
∗ s
∗ s
x − cu √ , x − cl √
n
n
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Ejercicio
Comprueba el funcionamiento del método anterior cuando
X1 . . . , Xn es una muestra aleatoria simple de tamaño n = 100 de
una distribución exponencial de parámetro 1. Para ello:
1. Genera una muestra de tamaño 100 del exponencial de
parámetro 1.
2. Calcula el intervalo bootstrap para µ ( en este caso µ = 1).
Toma B = 1000 y α = 0.05
3. Comprueba si µ está en el intervalo construido.
4. Repite los pasos anteriores M veces. Calcula el porcentaje de
veces en que µ está en el intervalo bootstrap. Este porcentaje
deberı́a estar próximo al 95 %
5. Finalmente calcula el porcentaje de veces que µ
está contenido en intervalo basado en la aproximación normal.
Alberto Rodrı́guez Casal
Estimación de la función de distribución
Descargar