Universidad de Granada Bootstrap en poblaciones finitas

Anuncio
Universidad de Granada
Departamento de Estadı́stica e Investigación Operativa
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Máster Oficial en Estadı́stica Aplicada
Granada, julio de 2014
Índice general
1. EL MÉTODO BOOTSTRAP
4
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2. Estimación bootstrap de la distribución del estimador de un parámetro de interés
6
1.3. Estimación bootstrap del error estándar . . . . . . . . . . . . . . . . . . . . . .
7
1.4. Estimación bootstrap del sesgo . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.5. Intervalos de confianza bootstrap: Métodos de construcción . . . . . . . . . . . .
8
1.5.1. Intervalo de confianza bootstrap Normal estándar . . . . . . . . . . . . .
8
1.5.2. Intervalo de confianza bootstrap percentil . . . . . . . . . . . . . . . . .
9
1.5.3. Intervalo de confianza bootstrap básico . . . . . . . . . . . . . . . . . . . 10
1.5.4. Intervalo de confianza bootstrap t (estudentizado) . . . . . . . . . . . . . 11
1.5.5. Intervalo de confianza bootstrap mejorado, BCa . . . . . . . . . . . . . . 12
2. BOOTSTRAP EN POBLACIONES FINITAS
15
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2. Muestreo aleatorio simple con reemplazamiento . . . . . . . . . . . . . . . . . . 17
2.3. Muestreo aleatorio simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . 19
2.3.1. Variante del factor de corrección (F) . . . . . . . . . . . . . . . . . . . . 21
2.3.2. Variante del reescalado (R)
. . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.3. Variante BWR (Replacement bootstrap) . . . . . . . . . . . . . . . . . . 22
2.3.4. Variante BWO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.5. Variante Mirror-Match (MM) . . . . . . . . . . . . . . . . . . . . . . . . 25
2
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
2.4. Muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5. Muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6. Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.1. Muestreo aleatorio simple con y sin reemplazamiento en los estratos . . . 34
2.6.2. Muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento en los estratos . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6.3. Muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento en los estratos . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7. Muestreo multietápico con estratificación . . . . . . . . . . . . . . . . . . . . . . 40
2.7.1. Muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento en la primera etapa . . . . . . . . . . . . . . . . . . . . . 40
2.7.2. Muestreo πps en la primera etapa . . . . . . . . . . . . . . . . . . . . . . 43
2.8. Estimadores no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3. Aplicaciones con R
52
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2. Muestreo aleatorio simple con reemplazamiento . . . . . . . . . . . . . . . . . . 52
3.3. Muestreo aleatorio simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . 60
A. Funciones implementadas
67
B. Diseños muestrales y estimadores usuales
72
3
Capı́tulo
1
EL MÉTODO BOOTSTRAP
1.1.
Introducción
El bootstrap fue introducido en 1979 por Bradley Efron, aunque experimentó avances en
años sucesivos gracias a aportaciones de otros autores como Robert Tibshirani, Michael Chernick, Jun Shao o Anthony Davison.
Los métodos bootstrap son una clase de métodos Monte Carlo no paramétricos que
pretenden estimar la distribución de una población mediante remuestreo. Los métodos de
remuestreo tratan una muestra observada como una población finita, y generan muestras
aleatorias a partir de ella para estimar caracterı́sticas poblacionales y hacer inferencia sobre la
población muestreada. A menudo estos métodos se usan cuando no se conoce la distribución
de la población objetivo, de modo que la muestra es la única información disponible.
El término bootstrap puede referirse a bootstrap no paramétrico o bootstrap paramétrico. Los métodos de Monte Carlo que implican el muestreo a partir de una distribución
de probabilidad completamente especificada, son conocidos como bootstrap paramétrico. En el
caso no paramétrico la distribución no se especifica.
4
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
La distribución de la población finita representada por la muestra puede ser vista como
una pseudopoblación con caracterı́sticas similares a las de la verdadera población. Generando
repetidamente muestras aleatorias de esta pseudopoblación (remuestreo), se puede estimar la
distribución muestral de un estadı́stico. El remuestreo permite también estimar propiedades de
un estimador tales como su sesgo o su error estándar.
Cabe señalar que las estimaciones bootstrap de una distribución de muestreo son análogas
a la idea de estimación de la densidad. El histograma de una muestra proporciona una estimación de la forma de la función de densidad. El histograma no es la densidad, pero desde el
punto de vista no paramétrico puede ser visto como una estimación razonable de la misma.
Existen métodos para generar muestras aleatorias de densidades completamente especificadas;
el bootstrap genera muestras aleatorias a partir de la distribución empı́rica de la muestra.
Supongamos que x = {x1 , . . . , xn } es una muestra aleatoria observada de una distribución
con función de distribución F (x). Si a partir de x se selecciona aleatoriamente X ∗ , entonces
P [X ∗ = xi ] =
1
, i = 1, . . . , n
n
El remuestreo genera una muestra aleatoria X1∗ , . . . , Xn∗ mediante el muestreo con reemplazamiento de x. Las variables aleatorias Xi∗ son independientes e idénticamente distribuidas de
manera uniforme en el conjunto de {x1 , . . . , xn }.
La función de distribución empı́rica, Fn (x), es un estimador de F (x). Puede probarse que
Fn (x) es un estadı́stico suficiente de F (x); es decir, toda la información sobre F (x) contenida
en la muestra está también contenida en Fn (x). Aún más, Fn (x) es en sı́ misma la función de
distribución de una variable aleatoria, a saber, la variable aleatoria que se distribuye de manera
uniforme en el conjunto x = {x1 , . . . , xn }. Por tanto, la función de distribución empı́rica Fn es la
función de distribución de X ∗ . Ası́, en bootstrap, pueden considerarse dos aproximaciones. Por
una parte, Fn es una aproximación de FX ; y, por otra, la función de distribución empı́rica Fm∗ de
5
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
las réplicas bootstrap es una aproximación de Fn . El remuestreo a partir de x equivale a generar
muestras aleatorias de la distribución Fn (x). Las dos aproximaciones pueden ser representadas
mediante el diagrama
F → X → Fn
Fn → X ∗ → Fn∗
Para generar una muestra aleatoria bootstrap mediante remuestreo de x, basta generar n
números enteros aleatorios {i1 , . . . , in } uniformemente distribuidos en 1, . . . , n y seleccionar la
muestra bootstrap x∗ = {xi1 , . . . , xin }.
1.2.
Estimación bootstrap de la distribución del estimador de un parámetro de interés
Sea θ un parámetro poblacional de interés (que puede ser un vector) y θ̂ un estimador de
θ. Entonces, la estimación bootstrap de la distribución de θ̂ se obtiene como sigue:
1. Para cada réplica bootstrap, indexada por b = 1, . . . , B:
a) Generar la muestra x∗(b) = {x∗1 , . . . , x∗n } mediante muestreo con reemplazamiento a
partir de la muestra observada {x1 , . . . , xn }
b) Calcular la réplica b−ésima de θ̂(b) a partir de la b−ésima muestra bootstrap.
2. La estimación bootstrap de Fθ̂ (·) es la distribución empı́rica de las réplicas θ̂(1) , . . . , θ̂(B) .
6
Bootstrap en poblaciones finitas
1.3.
Samuel Nicolás Gil Abreu
Estimación bootstrap del error estándar
La estimación bootstrap del error estándar de un estimador θ̂ es la desviación estándar
muestral de las réplicas bootstrap θ̂(1) , . . . , θ̂(B) , dada por
σ
bθ̂∗
v
u
u
=t
B
1 X (b)
(θ̂ − θ̂∗ )2
B − 1 b=1
donde
θ̂∗
B
1 X (b)
=
θ̂ .
B b=1
Según Efron y Tibshirani, el número de réplicas necesarias para obtener una buena estimación del error estándar no es elevado; por lo general B = 50 es suficiente, y con escasa
frecuencia se precisa B > 200. En cambio, sı́ es necesario que B sea mucho mayor para la
estimación mediante intervalos de confianza.
1.4.
Estimación bootstrap del sesgo
Si θ̂ es un estimador insesgado de θ, entonces E[θ̂] = θ. En general el sesgo de un estimador
θ̂ de θ está dado por
sesgo[θ̂] = E[θ̂ − θ] = E[θ̂] − θ .
Ası́, cada estadı́stico es un estimador insesgado de su valor esperado y, en particular, la media
muestral de una muestra aleatoria es un estimador insesgado de la media de la distribución.
La estimación bootstrap del sesgo utiliza las réplicas bootstrap de θ̂ para estimar la disb Para una población finita x = (x1 , . . . , xn ), el parámetro es θ̂(x) y
tribución muestral de θ.
disponemos de B estimadores independientes e idénticamente distribuidos, θ̂(b) . Dado que la
media muestral de las réplicas {θ̂(b) } es insesgada para su valor esperado E[θ̂∗ ], la estimación
7
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
bootstrap del sesgo es:
s\
esgo[θ̂] = θ̂∗ − θ̂
siendo θ̂∗ =
1
B
PB
b=1
θ̂(b) y θ̂ = θ̂(x) la estimación obtenida a partir de la muestra observada x.
Cabe señalar que en bootstrap se muestrea Fn en lugar de FX , luego θ se reemplazará por
θ̂ a la hora de estimar el sesgo. Además, un sesgo positivo indicará que θ̂ tiende a sobreestimar
en media a θ, y un sesgo negativo indicará que θ̂ subestima a dicho parámetro.
1.5.
Intervalos de confianza bootstrap: Métodos de construcción
En esta sección vamos a presentar diversas aproximaciones para construir intervalos de
confianza bootstrap para un parámetro de interés.
1.5.1.
Intervalo de confianza bootstrap Normal estándar
Esta aproximación es la más simple, aunque no necesariamente la mejor. Sea θ̂ un estimador
del parámetro θ con error estándar σθ̂ . Si θ̂ es una media muestral y el tamaño muestral es
grande, entonces por el Teorema Central del Lı́mite se tiene que
Z=
θ̂ − E[θ̂]
σθ̂
se aproxima a una Normal estándar.
Por consiguiente, si θ̂ es insesgado para θ, resulta de forma aproximada que
θ̂ ± zα/2 · σθ̂
8
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
donde zα/2 = Φ−1 (1− α2 ), con Φ la función de distribución de la Normal estándar, es un intervalo
de confianza para θ al nivel de confianza 100(1 − α) %.
Este intervalo es fácil de calcular, aunque acabamos de ver que requiere varios supuestos. Por
un lado, θ̂ debe tener distribución normal o ser una media muestral y que el tamaño muestral
sea suficientemente grande; y, por otro, θ̂ debe ser insesgado para θ.
Además, aquı́ σθ̂ se ha tratado como un parámetro conocido, aunque en bootstrap es estimado por la desviación estándar muestral de las réplicas bootstrap de θ̂, lo que proporciona el
intervalo
θ̂ ± zα/2 · σ
bθ̂∗ .
El sesgo puede ser estimado y utilizado para centrar el estadı́stico Z, lo que da lugar al
intervalo corregido por el sesgo
θ̂ ± zα/2 · σ
bθ̂∗ − (θ̂∗ − θ̂) = (2θ̂ − θ̂∗ ) ± zα/2 · σ
bθ̂∗ ,
que está centrado en (2θ̂ − θ̂∗ ).
1.5.2.
Intervalo de confianza bootstrap percentil
Utiliza la distribución empı́rica de las réplicas bootstrap como distribución de referencia. Los
cuantiles de la distribución empı́rica son estimadores de los cuantiles de la distribución muestral
de θ̂, con lo que estos cuantiles aleatorios reproducirán mejor la verdadera distribución cuando
la distribución de θ̂ no sea Normal.
Supóngase que θ̂(1) , . . . , θ̂(B) son las réplicas bootstrap del estadı́stico θ̂. A partir de la
función de distribución de las réplicas se calculan los cuantiles de órdenes
respectivamente, que definen el intervalo de confianza.
9
α
2
y 1 − α2 , θ̂ α2 y θ̂1− α2 ,
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Efron y Tibshirani probaron que el intervalo Percentil presenta ventajas teóricas sobre el
intervalo normal estándar y un mejor comportamiento en la práctica.
1.5.3.
Intervalo de confianza bootstrap básico
Este intervalo transforma la distribución de las réplicas bootstrap restando el estadı́stico
observado. Los cuantiles de la muestra transformada se usan para determinar los lı́mites de
confianza.
Considérese T un estimador de θ, y sea kα el cuantil de orden α de T − θ. Entonces:
P [T − θ > kα ] = 1 − α ⇒ P [T − kα > θ] = 1 − α
Ası́, un intervalo de confianza al nivel de confianza 100 · (1 − 2α) % con el mismo error α en
la cola inferior y superior, está dado por (t − k1−α , t − kα ).
En bootstrap, la distribución de T es habitualmente desconocida, pero los cuantiles pueden
ser estimados.
Sea θ̂α el cuantil de orden α calculado a partir de la función de distribución empı́rica de las
réplicas θ̂∗ . Y sea bα el cuantil de orden α de θ̂∗ − θ̂. Entonces b̂α = θ̂α − θ̂ es un estimador de
bα .
Por tanto, un lı́mite de confianza superior aproximado para un nivel de confianza del 100(1−
α) % está dado por
θ̂ − b̂α/2 = θ̂ − (θ̂α/2 − θ̂) = 2θ̂ − θ̂α/2 .
De un modo similar un lı́mite inferior de confianza aproximado está dado por
2θ̂ − θ̂1−α/2 .
10
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Ası́, el intervalo de confianza bootstrap básico al nivel de confianza del 100(1 − α) % es
(2θ̂ − θ̂1−α/2 , 2θ̂ − θ̂α/2 )
1.5.4.
Intervalo de confianza bootstrap t (estudentizado)
θ̂ − E[θ̂]
no
σθ̂
sigue exactamente una distribución normal, dado que σθ̂ es estimada. Tampoco puede afirmarse
Incluso si θ̂ tiene distribución normal y θ̂ es insesgado para θ, el estadı́stico Z =
que se trate de un estadı́stico t de Student puesto que se desconoce la distribución del estimador
bootstrap σ
bθ̂ .
El intervalo de confianza bootstrap t, o estudentizado, no utiliza la distribución t de Student
como distribución de referencia, sino que genera mediante remuestreo la distribución muestral
de un estadı́stico de “tipo t”.
Sea x = (x1 , . . . , xn ) la muestra aleatoria observada. Se obtiene el correspondiente estadı́stico
observado θ̂. El intervalo de confianza bootstrap t al nivel de confianza 100(1 − α) % es
(θ̂ − t∗1−α/2 · σ
bθ̂ , θ̂ − t∗α/2 · σ
bθ̂ )
donde σ
bθ̂ , t∗1−α/2 y t∗α/2 se calculan como sigue:
1. Calcular θ̂ = θ̂(x).
2. Para cada réplica bootstrap, indexada por b = 1, . . . , B:
(b)
(b)
a) Generar la b-ésima muestra bootstrap x(b) = (x1 , . . . , xn ) mediante muestreo con
reemplazamiento a partir de x
b) Calcular θ̂(b) a partir de la b-ésima muestra bootstrap x(b) .
c) Calcular o estimar el error estándar σ
bθ̂(b) remuestreando a partir de x(b) , no de x, de
forma independiente para cada muestra bootstrap.
11
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
d ) Obtener la b-ésima réplica del estadı́stico “t”,
t(b) =
θ̂(b) − θ̂
σ
bθ̂(b)
3. Obtener los cuantiles muestrales t∗α/2 y t∗1−α/2 de la muestra ordenada de réplicas t(b) , dado
que la muestra de réplicas t(1) , . . . , t(B) es la distribución de referencia para “t”.
4. Calcular σ
bθ̂ como la desviación estándar muestral de las réplicas θ̂(b) .
5. Determinar los lı́mites de confianza θ̂ − t∗1−α/2 · σ
bθ̂ y θ̂ − t∗α/2 · σ
bθ̂ .
La desventaja de este tipo de intervalos reside en que la estimación de los errores estándar
σ
bθ̂(b) debe obtenerse mediante bootstrap. Ası́, si B = 1000, el tiempo empleado en calcular el
intervalo de confianza bootstrap t es aproximadamente 1000 veces mayor que el empleado en
aplicar cualquiera de los otros métodos.
1.5.5.
Intervalo de confianza bootstrap mejorado, BCa
Los intervalos de confianza bootstrap mejorados son una variante de los intervalos percentil
que poseen mejores propiedades teóricas y proporcionan un rendimiento superior en la práctica.
Para un nivel de confianza 100 · (1 − α) %, los habituales cuantiles de órdenes α/2 y 1 − α/2
son ajustados por dos factores: una corrección para el sesgo, y otra para la asimetrı́a o ajuste
de aceleración.
El intervalo de confianza bootstrap mejorado, que notamos BCa, está dado por
(θ̂α∗ 1 , θ̂α∗ 2 ) ,
donde los lı́mites de confianza están dados por los cuantiles muestrales de órdenes
12
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
α1 = Φ ẑ0 +
ẑ0 + zα/2
1 − â(ẑ0 + zα/2 )
y
α2 = Φ ẑ0 +
ẑ0 + z1−α/2
1 − â(ẑ0 + z1−α/2 )
de las réplicas bootstrap, donde
zα = Φ−1 (α) ,
B
1 X
I(θ̂(b) < θ̂)
B b=1
ẑ0 = Φ−1
!
y
Pn
i=1 (θ()
â =
6·
Pn
i=1
q
− θ(i) )3
((θ() − θ(i) )2 )3/2
con I la función indicadora.
El factor de corrección del sesgo, ẑ0 , es en realidad una estimación de una medida del sesgo
mediano de las réplicas θ̂∗ de θ̂. Si θ̂ es la mediana de las réplicas bootstrap, entonces ẑ0 = 0.
El factor de aceleración, â, es una estimación de una medida de la asimetrı́a a partir de las
réplicas jackknife.
Cabe señalar que existen otros métodos para estimar la aceleración. El factor de aceleración â
debe su nombre a que estima la tasa de cambio del error estándar de θ̂ con respecto al parámetro
θ (en una escala normalizada). Al usar el intervalo de confianza bootstrap normal estándar se
supone que θ̂ es aproximadamente Normal con esperanza θ y varianza σ(2θ̂) independiente del
parámetro θ. Sin embargo, no siempre es cierto que la varianza de un estimador sea constante
con respecto al parámetro. El factor de aceleración tiene como objetivo ajustar los lı́mites
de confianza para tener en cuenta la posibilidad de que la varianza de los estimadores pueda
depender del verdadero valor del parámetro a estimar.
Los intervalos de confianza bootstrap BCa tienen dos importantes ventajas teóricas:
13
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Son “invariantes” frente a transformaciones en el parámetro, es decir, si (θ̂α∗ 1 ; θ̂α∗ 2 ) es un
intervalo de confianza de este tipo para θ, y t(θ) es una transformación del parámetro θ,
entonces
t(θ̂α∗ 1 ), t(θ̂α∗ 2 )
es el intervalo correspondiente para t(θ).
Tienen precisión de segundo orden, esto es, su error tiende a 0 a la velocidad 1/n.
El intervalo de confianza bootstrap t tiene precisión de segundo orden, pero no es respetado
por las transformaciones. El intervalo de confianza bootstrap percentil sı́ es respetado por las
transformaciones, pero tiene precisión de primer orden (su error tiende a cero a la velocidad
p
1/ (n)). Y el intervalo de confianza bootstrap Normal no posee ninguna de estas propiedades.
14
Capı́tulo
2
BOOTSTRAP EN POBLACIONES FINITAS
2.1.
Introducción
En este capı́tulo vamos a tratar el problema de estimación de la varianza en el muestreo en
poblaciones finitas mediante el método bootstrap.
Como sabemos el método bootstrap es un método de replicación. Otros métodos de replin
cación son: el método de los grupos aleatorios, basado en réplicas de tamaño ; el método de
k
n
las semimuestras, que emplea réplicas de tamaño ; y el método jackknife, que trabaja con
2
réplicas de tamaño n − j. En comparación con los métodos anteriores, el método bootstrap
utiliza réplicas de cualquier tamaño n∗ .
Sea Y1 , . . . , Yn una muestra de una variables aleatorias independientes e idénticamente distribuidas con función de distribución F . Sea θ un parámetro desconocido de la distribución
que se desea estimar. Notaremos θb al estimador muestral de θ. En lo sucesivo trataremos el
b V ar[θ],
b muestreando repetidamente.
problema de estimar la varianza de θ,
Una muestra bootstrap es una muestra aleatoria simple con reemplazamiento de tamaño n∗
seleccionada a partir de una muestra inicial, que es considerada como una pseudopoblación
para este muestreo. Notaremos Y1∗ , . . . , Yn∗ a las observaciones bootstrap.
15
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Sea θb∗ el estimador bootstrap de θ, que tiene la misma forma funcional que θb pero aplicado
a la muestra bootstrap en lugar de a la muestra de partida. Entonces, el estimador bootstrap
b está definido por
de V ar[θ]
b = V ar∗ [θb∗ ]
v1 [θ]
donde V ar∗ denota la varianza condicionada dada la muestra inicial o pseudopoblación.
El muestreo bootstrap repetido a partir de la muestra de partida genera muestras alternativas que podrı́an haber sido seleccionadas como muestra de partida de F . Ası́, la idea de
este método es emplear la varianza en el muestreo bootstrap repetido para estimar la varianza,
b
V ar[θ].
b Sin
En casos sencillos en los que θb es lineal es posible determinar la expresión de v1 [θ].
embargo, en general, no se tiene la expresión exacta y es preciso recurrir a una aproximación.
Dicho método de aproximación consta de tres pasos:
1. Generar un número grande, A, de muestras bootstrap independientes a partir de la muestra inicial.
2. Para cada muestra bootstrap calcular el correspondiente estimador θbα∗ , α = 1, . . . , A, del
parámetro de interés.
3. Determinar la varianza muestral de los valores θbα∗ , α = 1, . . . , A; esto es:
A
b =
v2 [θ]
1 X b∗ b∗ 2
θ −θ
A − 1 α=1 α
con:
A
∗
1 X b∗
b
θ =
θ
A α=1 α
Claramente v2 converge a v1 cuando A → ∞. Efron y Tybshirani (1986) comentan que un
valor de A entre 50 y 200 es adecuado en muchas situaciones.
16
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
La aproximación v2 de v1 es fácil de calcular en todos los casos. En lo que sigue vamos a
estudiar el estimador bootstrap para diseños muestrales sencillos y estimadores lineales, para
los que se dispone de resultados exactos. El método bootstrap funciona bien en estos casos, en
los que los estimadores habituales de la varianza también están disponibles, y este adecuado
comportamiento motiva su uso en diseños más complicados, para los que no disponemos de
los estimadores habituales de la varianza. Finalmente se considerarán diseños más complejos y
estimadores no lineales.
2.2.
Muestreo aleatorio simple con reemplazamiento
Supóngase que se desea estimar la media poblacional Y de una variable y en estudio en una
población finita U de tamaño N . Se seleccionan n unidades en la población mediante muestreo
aleatorio simple con reemplazamiento. Sean y1 , . . . , yn los valores muestrales de y. Entonces, es
habitual estimar Y mediante la media muestral; esto es:
y=
1X
yi
n
Es sabido que la varianza de este estimador y el estimador usual de la varianza vienen dados,
respectivamente, por:
V ar[y] =
σ2
n
y
v[y] =
s2
n
siendo:
N
1 X
σ =
(Yi − Y )2
N i=1
2
17
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
y
n
1 X
s =
(yi − y)2
n − 1 i=1
2
Además, v[y] es un estimador insesgado de V ar[y].
En este caso, la muestra bootstrap y1∗ , . . . , yn∗ ∗ es una m.a.s. con reemplazamiento de tamaño
n∗ obtenida a partir de la muestra inicial de tamaño n, y el correspondiente estimador para la
media poblacional es la media muestral
y∗ =
1 X ∗
yi
n∗
1
, i = 1, . . . , n, entonces la media y
n
la varianza condicionadas de y1∗ , dada la muestra de partida, están dadas por:
Considérese, por ejemplo, y1∗ . Dado que P [y1∗ = yi ] =
n
1X
=
yi = y
n i=1
E∗ [y1∗ ]
y
n
V
ar∗ [y1∗ ]
n−1 2
1X
(yi − y)2 =
·s
=
n i=1
n
respectivamente. Dado que las observaciones bootstrap y1∗ , . . . , yn∗ ∗ son independientes e idénticamente distribuidas por construcción, la media y la varianza condicionadas de y ∗ , dada la
muestra de partida, resultan ser:
n
E∗ [y ∗ ] = E∗ [y1∗ ] =
1X
yi = y
n i=1
y
v1 [y] = V ar∗ [y ∗ ] =
1
n − 1 s2
∗
·
V
ar
[y
]
=
· ∗
∗ 1
n∗
n
n
18
(2.1)
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
respectivamente. Ası́, en general, el estimador bootstrap de la varianza v1 [y] no coincide con el
estimador usual de la varianza v[y] y no es un estimador insesgado de V ar[y]. Esta deseable
propiedad se obtiene si y sólo si n∗ = n − 1.
Teorema 2.1 Dada una muestra aleatoria simple con reemplazamiento de tamaño n de una
población finita de tamaño N , el estimador bootstrap de la varianza, v1 [y], es un estimador
insesgado de V ar[y] si y sólo si el tamaño de la muestra bootstrap es una unidad menos que
el tamaño de la muestra original; es decir, n∗ = n − 1. Para n∗ = n el sesgo de v1 [y] como
estimador de V ar[y] está dado por
sesgo[v1 [y]] = −
1
· V ar[y]
n
Para tamaños muestrales grandes, el sesgo no parece ser relevante, mientras que para tamaños muestrales pequeños podrı́a ser muy importante. Por ejemplo, si n = 2 y n∗ = n el sesgo
serı́a del 50 %.
2.3.
Muestreo aleatorio simple sin reemplazamiento
El método bootstrap no se adecúa con facilidad a los diseños muestrales sin reemplazamiento, incluso en los casos más simples. En esta sección se describen algunas variaciones del método
estándar que pueden ser apropiados para el muestreo aleatorio simple sin reemplazamiento. El
parámetro de interés será la media poblacional Y .
Sea s la muestra de partida de tamaño n y s∗ la muestra bootstrap de tamaño n∗ . En
principio se supondrá que s∗ se ha obtenido a partir de s mediante muestreo aleatorio simple
con reemplazamiento. Más adelante se cambiará este supuesto.
19
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
La media muestral y es el estimador habitual de la media poblacional. Es fácil probar que
para el estimador bootstrap
y∗ =
1 X ∗
yi
n∗
se tiene que:
E∗ [y ∗ ] = E∗ [yi∗ ] =
1X
yi = y
n i∈s
y
V ar∗ [y ∗ ] =
1
1 1 X
n − 1 s2
∗
2
·
· ∗
V
ar
[y
]
=
·
(y
−
y)
=
∗ i
i
n∗
n n∗ i∈s
n
n
Cabe señalar que estos resultados no se ven afectados por el diseño muestral de la muestra
de partida sino únicamente por el diseño de la muestra bootstrap, de modo que coinciden con
los obtenidos en la sección anterior para el muestreo aleatorio simple con reemplazamiento.
Teorema 2.2 Sea y1∗ , . . . , yn∗ ∗ una muestra bootstrap de tamaño n∗ obtenida mediante muestreo
aleatorio simple con reemplazamiento de la muestra de partida s, la cual a su vez es elegida de
la población mediante muestreo aleatorio simple sin reemplazamiento. Entonces, el estimador
bootstrap de V ar[y] está dado por
v1 [y] = V ar∗ [y ∗ ] =
n − 1 s2
· ∗
n
n
(2.2)
Por tanto, para el muestreo aleatorio simple sin reemplazamiento, el estimador v1 [y] de la
varianza
V ar[y] = (1 − f ) ·
S2
n
no coincide con el estimador insesgado usual
v[y] = (1 − f ) ·
20
s2
n
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Y el sesgo de v1 [y] es
sesgo[v1 [y]] = E[v1 [y]] − V ar[y] =
n − 1 S2
S2
· ∗ − (1 − f ) ·
n
n
n
En el caso particular n∗ = n − 1 se tiene que el estimador bootstrap
v1 [y] =
s2
n
es sesgado, con
S2
S2
S2
− (1 − f ) ·
=f·
sesgo[v1 [y]] =
n
n
n
Si f es pequeño, el sesgo de v1 es despreciable. En lo que sigue presentamos cuatro variantes
del método bootstrap estándar para abordar situaciones en las que f no es pequeño.
2.3.1.
Variante del factor de corrección (F)
Si n∗ = n − 1, un estimador insesgado de la varianza está dado simplemente por
v1F (y) = (1 − f ) · v1 [y]
2.3.2.
Variante del reescalado (R)
Rao y Wu (1988) definieron el estimador bootstrap de la varianza en términos de las observaciones reescaladas
yi]
p
=y+ 1−f ·
r
n∗
· (yi∗ − y)
n−1
La media bootstrap es ahora
∗
n
p
1 X ]
y = ∗
yi = y + 1 − f ·
n i=1
]
21
r
n∗
· (y ∗ − y)
n−1
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
y, en virtud del teorema 2.2, el estimador bootstrap de la varianza es
n∗
1−f 2
· V ar∗ [y ∗ ] =
·s
n−1
n
v1R [y] = V ar∗ [y ] ] = (1 − f ) ·
Nótese que v1R coincide con el estimador usual de la varianza de y en muestreo aleatorio
simple sin reemplazamiento, que es insesgado.
Si se considera n∗ = n, entonces las observaciones reescaladas son
yi]
p
=y+ 1−f ·
r
n
· (yi∗ − y),
n−1
mientras que la elección n∗ = n − 1 proporciona
yi] = y +
2.3.3.
p
1 − f · (yi∗ − y)
Variante BWR (Replacement bootstrap)
El método bootstrap con reemplazamiento, debido a McCarthy y Snowden (1985), pretende
eliminar el sesgo de V ar∗ [y ∗ ] haciendo una elección adecuada del tamaño muestral. Tomando
n∗ =
n−1
1−f
en v1 [y], resulta
v1BW R [y] =
1−f 2
·s ;
n
esto es, el estimador usual insesgado de V ar[y] en muestreo aleatorio simple sin reemplazamiento.
22
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
n−1
no sea un número entero,
1
−f
n−1
∗
0
podemos tomar como tamaño n de la muestra bootstrap n =
, n00 = n0 + 1, o una
1−f
aleatorización entre n0 y n00 , donde [[ ]] denota la función entero mayor. Wolter (1985) prefiere
En la práctica, puesto que es muy probable que el cociente
la primera elección, n∗ = n0 , dado que devuelve un estimador conservador de la varianza y su
sesgo es suficientemente pequeño en muchas ocasiones.
2.3.4.
Variante BWO
Gross (1980) introdujo este método bootstrap sin reemplazamiento en el que la muestra
bootstrap es obtenida por muestreo aleatorio simple sin reemplazamiento. Esto es, tanto la
muestra inicial como la bootstrap tienen en común que se obtienen sin reemplazamiento.
Esta variante supone un importante avance teórico, pero su implementación práctica en
muchos diseños es aparentemente complicada.
El procedimiento se resume en cuatro pasos:
N
y se copia cada elemento de la muestra inicial k veces para crear una nueva
n
N
pseudopoblación Us de tamaño N , cuyos elementos denotamos yj0 j=1 . Exactamente k
1. Se toma k =
de estos valores yj0 coinciden con los yi , ∀ i = 1, . . . , n.
2. Construir la muestra bootstrap s∗ de tamaño n∗ a partir de Us mediante muestreo aleatorio
simple sin reemplazamiento
3. Determinar la media bootstrap:
∗
n
1 X ∗
y = ∗
y
n i=1 i
∗
4. Calcular el estimador bootstrap teórico v1BW O (y) = V ar∗ [y ∗ ] o repetir los tres pasos
anteriores un gran número de veces A y calcular la versión de Monte Carlo:
2
A
X
1
y ∗α − 1
v2BW O [y] =
y ∗α0 
A − 1 α=1
A 0
A
X

α =1
23
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Puesto que s∗ se obtiene mediante muestreo aleatorio simple sin reemplazamiento de Us , la
esperanza y la varianza condicionadas de y ∗ quedan en la forma habitual; esto es:
N
1 X 0
1 X
k X
k
E∗ [y ] =
yj =
kyi =
yi =
ny = y
N j=1
N i∈s
N i∈s
N
∗
y
N
N
X
s∗ 2
1 X 0
1
1
∗
0
∗
∗
V ar∗ [y ] = (1 − f ) · ∗ = (1 − f ) · ∗ ·
·
y0
yj −
n
n N − 1 j=1
N j 0 =1 j
= (1 − f ∗ ) ·
X
1
1
·
k (yi − y)2
·
n∗ N − 1 i∈s
= (1 − f ∗ ) ·
1
N
k
·
·
· (n − 1) · s2
∗
n N −1 N
= (1 − f ∗ ) ·
1
N
1
·
· · (n − 1) · s2
∗
n N −1 n
!2
donde:
f∗ =
n∗
N
y
s2 =
X
1
·
(yi − y)2
n − 1 i∈s
Por tanto, se concluye que, en general, el estimador bootstrap v1BW O [y] = V ar∗ [y ∗ ] ni es
insesgado ni coincide con el estimador usual de la varianza
v[y] = (1 − f ) ·
con f =
n
.
N
24
s2
n
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Si n∗ = n, entonces:
1−f 2
v1BW O (y) =
·s ·
n
N
n−1
·
N −1
n
y el estimador bootstrap es sesgado por el factor:
C=
N · (n − 1)
n · (N − 1)
Para alcanzar la insesgadez puede redefinirse el estimador bootstrap multiplicándolo por C −1 ,
v1BW O = C −1 · V ar∗ [y ∗ ] ,
o trabajar con los valores reescalados
yi] = y +
√
C · (yi∗ − y)
N
no es en general un número entero. El método puede
n
N
0
00
0
0
modificarse para trabajar con k igual a k =
, k = k + 1, o una aleatorización entre k
n
00
0
0
y k . Siguiendo el paso 1, esta aproximación crea pseudopoblaciones de tamaños N = n · k ,
Otra de las dificultades es que k =
00
00
N = n · k , o una aleatorización entre los dos.
2.3.5.
Variante Mirror-Match (MM)
Este método fue introducido por Sitter (1992a, 1992b) para el caso en que la fracción de
muestreo f se grande (no sea despreciable). Se resume en los cuatro pasos siguientes:
1. Elegir una submuestra o grupo aleatorio de tamaño m ∈ Z, 1 ≤ m < n, de la muestra de
partida s mediante muestreo aleatorio simple sin reemplazamiento.
25
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
2. Repetir el paso anterior k veces, con
n 1−e
·
m 1−f
k=
m
. Ası́, la muestra bootstrap estará formada por los k grupos aleatorios
n
seleccionados y tendrá tamaño n∗ = m · k.
donde e =
3. Determinar la media bootstrap
∗
n
k
k
m
1 X ∗
1 XX ∗ 1 X ∗
y = ∗
y
y =
y =
n i=1 i
k m j=1 r=1 i
k j=1 j
∗
siendo y ∗j la media muestral del j-ésimo grupo aleatorio seleccionado, j = 1, . . . , m.
4. Calcular el estimador bootstrap teórico v1M M (y) = V ar∗ [y ∗ ], o repetir los tres pasos
anteriores un gran número de veces, A, y calcular la versión de Monte Carlo:
2
A
X
1
y ∗α − 1
v2M M [y] =
y ∗α0 
A − 1 α=1
A 0
A
X

α =1
El tamaño de la muestra bootstrap,
n∗ = n ·
1−e
,
1−f
difiere del tamaño de la muestra de partida a través de la razón de dos factores de corrección
en poblaciones finitas. La elección m = f · n implica que la fracción de submuestreo e coincide
con la fracción principal de muestreo, f . En este caso, n∗ = n .
Por definición, las medias muestrales y ∗j , j = 1, . . . , m, son variables aleatorias independientes e idénticamente distribuidas con medias y varianzas condicionadas:
E∗ [y ∗j ] = y
26
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
y
V ar∗ [y ∗j ] = (1 − e) ·
s2
m
respectivamente, con
n
s2 =
1 X
(yi − y)2
n − 1 i=1
Por tanto, el estimador bootstrap de la varianza es
v1M M (y) =
1
m 1−f
s2
s2
· V ar∗ [y ∗j ] =
·
· (1 − e) ·
= (1 − f ) ·
k
n 1−e
m
n
que es el estimador usual insesgado de la varianza V ar[y].
En la práctica, puesto que k no es habitualmente un número entero, puede redefinirse k
como
0
k =
00
0
0
n 1−e
·
m 1−f
,
00
k = k + 1, o una aleatorización entre k y k . La primera elección devuelve un estimador
conservador de la varianza.
2.4.
Muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento
Otro caso sencillo surge cuando se selecciona la muestra mediante muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento. Supóngase ahora que se
desea estimar el total poblacional, Y , de una variable y, y que se dispone de los valores Xi ,
i = 1, . . . , n, de una variable auxiliar X en toda la población. Para formar la muestra se hace
uso de una medida del tamaño de Xi y de n valores aleatorios independientes rk , k = 1, . . . , n,
de una distribución U (0, 1).
27
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Para el k-ésimo número aleatorio rk , se selecciona la única unidad i para la que Si−1 < rk ≤
Si , donde las sumas acumuladas están definidas por:
Si =
 i
X



p i0

i = 1, . . . , N
0
i =1



0
i=0
y
pi =
Xi
X
Sea yk el valor de la variable y para la unidad aleatoriamente seleccionada a partir de rk , e
Irk ∈(Si−1 ,Si ] la variable indicadora
Irk ∈(Si−1 ,Si ] =



 1 si rk ∈ (Si−1 , Si ]


 0 en otro caso
Entonces, el estimador insesgado estándar para el total poblacional está dado por
n
N
n
n
1 X yk
1 XX
Yi
1X
Yb =
=
Irk ∈(Si−1 ,Si ] ·
=
zk
n k=1 pk
n k=1 i=1
pi
n k=1
con
zk =
N
X
Irk ∈(Si−1 ,Si ] ·
i=1
Yi
pi
Sea ahora r1∗ , . . . , rn∗ ∗ una muestra bootstrap obtenida de la pseudopoblación, r1 , . . . , rn ,
mediante muestreo aleatorio simple con reemplazamiento. El estimador de Y a partir de la
muestra bootstrap es
∗
n
N
1 XX
Yi
Irk∗ ∈(Si−1 ,Si ]
Y = ∗
n k=1 i=1
pi
b∗
28
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Obsérvese que Yb ∗ es la media de n∗ variables aleatorias independientes e idénticamente
distribuidas
zk =
N
X
Irk∗ ∈(Si−1 ,Si ] ·
i=1
Yi
,
pi
con media y varianza condicionadas:
n
E∗ [z1∗ ] =
1X
zk = Yb
n k=1
y
n
V ar∗ [z1∗ ] =
2
1 X
zk − Yb ,
n k=1
respectivamente.
En consecuencia,
E∗ [Yb ∗ ] = E∗ [z1∗ ] = Yb
y
n
V ar∗ [Yb ∗ ] =
2
1 1 X
1
∗
b
·
V
ar
[z
]
=
z
−
Y
∗
k
1
n∗
n∗ n k=1
(2.3)
"
=
1
n−1 1
·
∗
n
n n−1
n
X
#
(zk − Yb )2
k=1
n−1
Ası́, el estimador bootstrap de la varianza de Yb es v1 [Yb ] = V ar∗ [Yb ∗ ], que resulta ser
n∗
veces el estimador usual de la varianza bajo muestreo con probabilidades proporcionales al
tamaño muestral con reemplazamiento. Si se construye una muestra bootstrap de tamaño n∗ =
n − 1, entonces v1 [Yb ] coincide con dicho estimador y es insesgado. Por otra parte, si n∗ = n, v1
es sesgado, aunque el sesgo es despreciable si n es grande.
29
Bootstrap en poblaciones finitas
2.5.
Samuel Nicolás Gil Abreu
Muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento
Otro diseño muestral básico es el muestreo πps o muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento, en el que las probabilidades de inclusión son
proporcionales al tamaño de una variable auxiliar. Si Xi es la medida del tamaño para la i−ésima unidad, entonces la probabilidad de inclusión de primer orden para una muestra de tamaño
fijo n es:
πi = n · p i = X i ·
X
n
−1
Las probabilidades de inclusión de segundo orden, que notaremos πij , vienen determinadas por
el algoritmo especı́fico de muestreo con probabilidades proporcionales utilizado.
En lo que sigue nos ocuparemos de la estimación del total poblacional, Y . El estimador de
Horvitz-Thompson habitual es
Yb =
X yi X
1X
=
wi · yi =
ui
πi
n i∈s
i∈s
i∈s
donde ui = n · wi · yi y los pesos wi son los inversos de las probabilidades de inclusión.
Nuestro objetivo es estimar la varianza de Yb utilizando un procedimiento bootstrap. En
este caso, el estimador usual (Yates-Grundy) de V ar[Yb ], es
v[Yb ] =
2
n X
n
X
yi
yj
πi πj − πij
·
−
π
π
πj
ij
i
i=1 j>i
Desafortunadamente, el método bootstrap encuentra grandes dificultades para hacer frente
a este tipo de diseños muestrales. En realidad, ninguna variante bootstrap proporciona un estimador insesgado de la varianza y suele recurrirse a una aproximación bien conocida, a saber,
tratar la muestra como si hubiera sido seleccionada mediante muestreo con probabilidades pro-
30
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
porcionales al tamaño muestral con reemplazamiento. Ası́, sea u∗1 , . . . , u∗n∗ la muestra bootstrap
obtenida mediante muestreo aleatorio simple con reemplazamientoa partir de la muestra de
partida s. Entonces, el estimador bootstrap del total es
∗
n
1 X ∗
∗
b
Y = ∗
u
n i=1 i
donde u∗i = (n · wi · yi )∗ son variables aleatorias independientes e idénticamente distribuidas
tales que
n
E∗ [u∗1 ]
1X
=
ui = Yb
n i=1
y
n
n
X
1X
V ar∗ [u∗1 ] =
(ui − Yb )2 = n
n i=1
i=1
ui Yb
−
n
n
!2
=n
n
X
Yb
wi · yi −
n
i=1
!2
La definición de u∗i pretender preservar en la muestra bootstrap la relación entre wi e yi en la
muestra de partida.
Puesto que la varianza condicionada de Yb ∗ depende únicamente del diseño de la muestra bootstrap, y no del diseño de la muestra inicial, resulta
n
n X
Yb
1
∗
∗
b
wi · yi −
V ar∗ [Y ] = ∗ V ar∗ [u1 ] = ∗
n
n i=1
n
!2
,
(2.4)
que es el estimador bootstrap v1 [Yb ] de la varianza bajo muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento.
Si se considera n∗ = n − 1 queda:
n X
Yb
wi · yi −
v1 [Yb ] =
n − 1 i∈s
n
!2
n
n
1 XX
=
n − 1 i=1 j>i
yi
yj
−
π i πj
2
que es el estimador usual insesgado de la varianza en muestreo con probabilidades proporcionales
al tamaño muestral con reemplazamiento.
31
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
v1 [Yb ] es un estimador sesgado de la varianza en muestreo con probabilidades proporcionales
al tamaño muestral sin reemplazamiento y para n∗ = n − 1 se tiene que
sesgo[v1 [Yb ]] =
n
b
b
· V ar[Ywr ] − V ar[Y ]
n−1
donde V ar[Ybwr ] es la varianza del total estimado en muestreo con probabilidades proporcionales
al tamaño muestral con reemplazamiento.
Ası́, el método bootstrap tiende a sobreestimar la varianza en muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento siempre que la varianza sea menor
que la varianza en muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento. El sesgo es probablemente pequeño siempre que n y N sean ambos grandes. En
n
≥ 1.
muestras pequeñas la sobreestimación está agravada por el factor
n−1
Cuando n = 2, la sobreestimación de la varianza puede controlarse mediante reescalado. En
efecto, considerando los valores reescalados
u]i
= Yb +
π1 π2 − π12
π12
12
(u∗i − Yb )
el estimador bootstrap del total es
∗
n
1 X ]
Y = ∗
u
n i=1 i
b]
y el estimador bootstrap de la varianza está dado por
v1R (Yb ) = V ar∗ [Yb ] ] =
1
1 π1 π2 − π12
V ar∗ [u]1 ] = ∗
V ar∗ [u∗1 ]
∗
n
n
π12
Entonces, para n = 2 y n∗ = n − 1 resulta
π1 π2 − π12
v1R (Yb ) =
(w1 y1 − w2 y2 )2 ,
π12
32
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
que coincide con el estimador usual insesgado de Yates-Grundy de la varianza. No obstante, el
reescalado sólo funciona cuando π1 π2 > π12 .
Desafortunadamente no está claro como extender esta variante del reescalado al caso de un
n cualquiera. Alternativamente, cuando n∗ = n − 1, se puede intentar corregir el sesgo de forma
aproximada introduciendo un factor de corrección en la forma
n X
Yb
wi · yi −
v1F [Yb ] = (1 − f ) V ar∗ [Yb ∗ ] = (1 − f )
n − 1 i∈s
n
!2
,
donde
n
1X
πi .
f=
n i=1
Aunque esta corrección no ha sido aceptada por todos, proporciona una sencilla regla práctica
para reducir la sobreestimación de la varianza.
2.6.
Muestreo estratificado
La extensión del método bootstrap a diseños muestrales estratificados es relativamente directa. En primer lugar ha de tenerse en cuenta que las muestras bootstrap deben conformar
una muestra estratificada seleccionada de la muestra de partida. En lo que sigue, este método
se aplicará en los casos de muestreo aleatorio simple con reemplazamiento, muestreo aleatorio
simple sin reemplazamiento, muestreo con probabilidades proporcionales al tamaño muestral
con reemplazamiento y muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento, dentro de los estratos. Los detalles de aplicación del bootstrap a estos diseños
muestrales ya han sido presentados en las secciones anteriores.
33
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Supóngase que la población se divide en L estratos. Sea Nh el número de unidades de la
población que conforma el estrato h-ésimo, h = 1, . . . , L. El muestreo se lleva a cabo de forma
independiente en los diferentes estratos, y nh denota el tamaño muestral en el estrato h-ésimo.
Sean yhi , i = 1, . . . , nh , las observaciones muestrales en el estrato h-ésimo, h = 1, . . . , L. Y
∗
sea yhi
, i = 1, . . . , n∗h , la muestra bootstrap en el estrato h-ésimo, h = 1, . . . , L.
En lo sucesivo, para simplificar, se considerará nh ≥ 2 y n∗h = nh − 1 en todos los estratos;
esto es, el tamaño de las muestras bootstrap es una unidad menos que el tamaño de las muestras
iniciales en cada estrato. Además se supone que las muestras bootstrap se obtienen de forma
independiente en cada estrato mediante muestreo aleatorio simple con reemplazamiento a partir
de la muestra inicial.
2.6.1.
Muestreo aleatorio simple con y sin reemplazamiento en los
estratos
En los casos de muestreo aleatorio simple con reemplazamiento y muestreo aleatorio simple
sin reemplazamiento, el estimador estándar para el total poblacional es:
L
X
Yb =
Ybh
h=1
donde
n
h
Nh X
·
yhi ,
Ybh =
nh i=1
y su versión bootstrap es:
Yb ∗ =
L
X
Ybh∗
h=1
donde
∗
nh
Nh X
∗
b
Yh = ∗ ·
y ∗ = Nh y ∗h ,
nh i=1 hi
34
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
con
∗
nh
1 X
∗
yh = ∗ ·
y∗ .
nh i=1 hi
Entonces, el estimador bootstrap para la varianza está dado por:
v1 [Yb ] = V ar∗ [Yb ∗ ] =
L
X
V ar∗ [Ybh∗ ] =
h=1
L
X
Nh2 · V ar∗ [y ∗h ]
h=1
Y, teniendo en cuenta (2.1) y (2.2), se obtiene que
v1 [Yb ] =
L
X
Nh2 ·
h=1
s2h
nh
con
n
s2h
h
1 X
=
(yhi − y h )2 .
nh − 1 i
Obsérvese que se trata del estimador usual insesgado para la varianza en el caso de muestreo
aleatorio simple con reemplazamiento.
Sin embargo, v1 [Yb ] es sesgado para el muestreo aleatorio simple sin reemplazamiento ya que
nh
omite los factores de corrección para poblaciones finitas. Si las fracciones de muestreo fh =
Nh
son insignificantes en todos los estratos, el sesgo será pequeño y v1 será suficientemente bueno.
En caso contrario, serı́a deseable reducir el sesgo de alguna forma.
La variante del factor de corrección no es factible aquı́ a menos que el tamaño muestral sea
asignado proporcionalmente a los estratos, en cuyo caso
1 − fh = 1 − f
para todos los estratos y
v1F [Yb ] = (1 − f ) · V ar∗ [Yb ∗ ]
35
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
vuelve a ser el estimador usual insesgado de la varianza.
La variante del reescalado también puede utilizarse para reducir el sesgo. A partir de las
observaciones bootstrap reescaladas
1
]
∗
= y h + (1 − fh ) 2 (yhi
− yh) ,
yhi
la versión bootstrap del total poblacional es
Yb ] =
L
X
Ybh]
h=1
donde
∗
nh
X
N
h
]
Ybh = ∗ ·
y] ,
nh i=1 hi
y el correspondiente estimador bootstrap de la varianza está dado por
v1R [Yb ] = V ar∗ [Yb ] ] =
L
X
Nh2 · (1 − fh ) ·
h=1
s2h
,
nh
que reproduce el estimador usual insesgado de la varianza en el muestreo aleatorio simple sin
reemplazamiento.
2.6.2.
Muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento en los estratos
Si en los estratos se utiliza muestreo con probabilidades proporcionales al tamaño muestral
con reemplazamiento, el estimador del total poblacional es:
Yb =
L
X
h=1
36
Ybh
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
donde
nh
1 X
b
Yh =
zhi
nh i=1
con
zhi =
yhi
.
phi
Su versión bootstrap es
Yb ∗ =
L
X
Ybh∗
h=1
donde
nh
1 X
∗
∗
b
zhi
Yh = ∗
nh i=1
con
∗
zhi
=
yhi
phi
∗
.
Y el estimador bootstrap de la varianza está dado por
v1 [Yb ] = V ar∗ [Yb ∗ ] =
L
X
V ar∗ [Ybh∗ ]
h=1
Entonces, por (2.3), resulta que
v1 [Yb ] =
L
X
h=1
n
h 2
X
1
zhi − Ybh
nh · (nh − 1) i=1
que es el estimador usual insesgado de la varianza.
37
Bootstrap en poblaciones finitas
2.6.3.
Samuel Nicolás Gil Abreu
Muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento en los estratos
Finalmente, si en los estratos se usa muestreo con probabilidades proporcionales al tamaño
muestral sin reemplazamiento, el estimador de Horvitz-Thompson del total poblacional es
L
X
Yb =
Ybh
h=1
donde
nh
X
1
uhi
Ybh =
nh i=1
con
uhi = nh · whi · yhi
y
whi =
1
.
πhi
Su versión bootstrap es
Yb ∗ =
L
X
Ybh∗
h=1
donde
∗
Ybh∗
nh
1 X
= ∗
u∗hi
nh i=1
con
u∗hi = (nh · whi · yhi )∗ .
Adoptando la aproximación de tratar la muestra como si hubiera sido seleccionada mediate muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento y
38
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
teniendo en cuenta (2.4), el estimador bootstrap de la varianza es
v1 [Yb ] = V ar∗ [Yb ∗ ] =
L
X
V ar∗ [Ybh∗ ] =
h=1
L
X
h=1
nh
nh − 1
nh
X
i=1
Ybh
whi · yhi −
nh
!2
Nótese que este estimador es sesgado para muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento y, de hecho, sobreestima V ar[Yb ] en la medida en que la
auténtica varianza sea menor que la obtenida en muestreo con probabilidades proporcionales
al tamaño muestral con reemplazamiento.
En determinadas aplicaciones nh = 2, ∀ h = 1, . . . , L. En estos casos el sesgo en la estimación
de la varianza puede eliminarse trabajando con las observaciones reescaladas
u]hi
= Ybh +
πh1 πh2 − πh12
πh12
12
(u∗hi − Ybh )
Entonces, el estimador bootstrap del total es
Yb ] =
L
X
Ybh]
h=1
donde
∗
Ybh]
nh
1 X
= ∗
u]hi .
nh i=1
Y el estimador bootstrap de la varianza está dado por
v1R (Yb ) =
L
X
h=1
V ar∗ [Ybh] ] =
L
X
πh1 πh2 − πh12
πh12
h=1
39
(wh1 yh1 − wh2 yh2 )2 .
Bootstrap en poblaciones finitas
2.7.
Samuel Nicolás Gil Abreu
Muestreo multietápico con estratificación
En esta sección vamos a abordar la estimación bootstrap de la varianza en muestreo estratificado cuando en cada estrato se lleva a cabo un muestreo en dos o más etapas.
En la primera etapa, en cada estrato, haremos uso del muestreo con probabilidades proporcionales al tamaño muestral, con o sin reemplazamiento, para seleccionar una muestra de
conglomerados o unidades primarias de muestreo (PSU). Posteriormente, dentro de cada unidad primaria en cada estrato, se lleva a cabo submuestreo en varias etapas hasta seleccionar en
la última etapa las unidades últimas de muestreo (USU).
El muestreo se supone independiente de un estrato a otro, y el submuestreo dentro de cada
unidad primaria ha de ser independiente del efectuado en las demás.
El método del conglomerado último, introducido por Hansen, Hurwitz y Madow (1953),
permite obtener el estimador de la varianza del estimador del parámetro de interés considerando
el muestreo multietápico como un caso especial de muestreo por conglomerados con una sola
etapa.
Se denomina conglomerado último al conjunto de todas las unidades muestrales de última
etapa que pertenecen a la misma unidad primaria, independientemente de que se realicen una o
varias etapas de muestreo dentro de cada unidad primaria. La consideración del conglomerado
último simplifica considerablemente la estimación de la varianza porque no es necesario calcular
las componentes de la varianza atribuibles a las demás etapas de muestreo dentro de las PSU.
2.7.1.
Muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento en la primera etapa
Consideremos L estratos y supongamos que en cada estrato se seleccionan nh , h = 1, . . . , L,
conglomerados o PSUs mediante muestreo con probabilidades proporcionales al tamaño mues-
40
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
tral con reemplazamiento siendo phi la probabilidad que tiene la i-ésima PSU de ser seleccionada
P h
en cada extracción ( ni=1
phi = 1) en el h-ésimo estrato.
Supongamos que estamos interesados en estimar el total poblacional, Y . Sea Yhi el total
poblacional dentro de la i-ésima PSU en el estrato h-ésimo, esto es, dentro de la (h, i)−ésima
PSU. Y sea Ybhi el estimador de Yhi en el conglomerado ultimo de la i-ésima unidad PSU en el
estrato h-ésimo.
La forma de Ybhi no es importante. Sin embargo, Ybhi deberı́a ser un buen estimador de
Yhi , lo que significa que deberı́a ser insesgado o aproximadamente insesgado. Además, deberı́a
emplearse el mismo estimador (con la misma forma funcional) para cada PSU dentro de un
estrato.
El total poblacional puede estimarse mediante
Yb =
L
X
Ybh
h=1
donde
nh
nh
1 X
Ybhi
1 X
=
zhi
Ybh =
nh i=1 phi
nh i=1
con
zhi =
Ybhi
.
phi
Asumiendo muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento, es conocido que el estimador usual insesgado de la varianza V ar[Yb ] es
v[Yb ] =
L
X
h=1
v[Ybh ] =
L
X
h=1
n
h 2
X
1
b
zhi − Yh
nh · (nh − 1) i=1
41
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Para llevar a cabo la estimación bootstrap, la muestra bootstrap puede construirse mediante
el siguiente procedimiento:
1. Seleccionar una muestra de n∗1 PSUs a partir de la muestra inicial (pseudopoblación) en
el primer estrato mediante muestreo aleatorio simple con reemplazamiento.
2. De manera independiente, tomar una muestra de n∗2 PSUs a partir de la muestra inicial
en el segundo estrato mediante muestreo aleatorio simple con reemplazamiento.
3. Repetir el paso 2 para los restantes estratos, h = 3, . . . , L.
4. Aplicar el método de los conglomerados últimos. Esto significa que cuando una PSU
es seleccionado en la muestra bootstrap, todas las unidades del conglomerado último
son incluidas en la muestra bootstrap. Ası́, la muestra bootstrap conforma una muestra
multietápica, estratificada, de la población. Su diseño es similar al de la muestra de
partida.
La versión bootstrap de Yb es
Yb ∗ =
L
X
Ybh∗
h=1
donde
∗
Ybh∗
∗
nh
nh
1 X
Ybhi∗
1 X
= ∗
= ∗
z∗
nh i=1 phi
nh i=1 hi
con Ybhi∗ la versión bootstrap de Ybhi en el conglomerado ultimo de la i-ésima unidad PSU en el
estrato h-ésimo, y
∗
zhi
=
Ybhi∗
.
phi
∗
En el h-ésimo estrato, las variables zhi
, i = 1, . . . , n∗h , tienen esperanza y varianza condicio-
nadas comunes dadas por:
∗
E∗ [zhi
]
nh
1 X
=
zhi = Ybh
nh i=1
42
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
y
V
∗
]
ar∗ [zhi
nh 2
1 X
=
zhi − Ybh .
nh i=1
Ası́, podemos dar el siguiente teorema:
Teorema 2.3 El estimador bootstrap ideal de la varianza está dado por
v1 [Yb ] =
L
X
V ar∗ [Ybh∗ ] =
h=1
nh L
L
2
∗
X
V ar∗ [zh1
] X 1 1 X
b
zhi − Yh
=
·
·
n∗h
n∗ nh i=1
h=1 h
h=1
Obsérvese que el estimador bootstrap coincide con el estimador usual insesgado de la varianza
cuando n∗h = nh − 1.
Para otros tamaños de la muestra bootstrap, tales como n∗h = nh , se tiene que v1 es sesgado
de V ar[Yb ]. El sesgo puede ser relevante para tamaños pequeños de nh .
2.7.2.
Muestreo πps en la primera etapa
En lo que sigue vamos a centrar nuestra atención en el muestreo multietápico cuando las
nh PSUs son seleccionadas mediante algún esquema πps en cada estrato.
Sea Nh el número de PSUs en el estrato h-ésimo, y supongamos que la probabilidad de
seleccionar la i-ésima PSU en el estrato h-ésimo es
πhi = nh phi ,
con 0 < πhi < 1,
PNh
i
phi = 1 y phi proporcional al valor Xi de alguna variable auxiliar x.
Sea Yhi el total poblacional en la (h, i)-ésima PSU. Vamos a considerar un estimador del
total poblacional Y de la forma
Yb =
L
X
h=1
43
Ybh
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
donde
Ybh =
nh
X
Ybhi
i=1
πhi
nh
1 X
Ybhi
=
nh i=1 phi
con Ybhi un estimador de Yhi resultado del submuestreo en la segunda y sucesivas etapas.
Si Yhi = E(Ybhi | i), la varianza de Yb está dada por
V ar[Yb ] =
L
X
V ar(Ybh ) =
h=1
L
X
"
V ar
nh
X
Yhi
i=1
h=1
πhi
#
+
Nh
X
σ2
!
2hi
i=1
πhi
2
donde σ2hi
= V ar(Ybhi | i) es la contribución a la varianza debida al muestreo en la segunda y
sucesivas etapas dentro de la (h, i)-ésima PSU.
El estimador Yb de este tipo más utilizado es
Yb =
L
X
Ybh =
nh X
L X
X
whij · yhij
h=1 i=1 j∈shi
h=1
donde shi es el conjunto de USUs observadas resultado del submuestreo en la segunda y sucesivas
etapas dentro de la (h, i)−ésima PSU, y whij es el peso asociado a la (h, i, j)−ésima USU.
Yb puede escribirse como
Yb =
nh
L
X
1 X
uhi.
nh i=1
h=1
donde
uhi. =
X
uhij ,
j∈shi
con
uhij = nh · whij · yhij
44
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
La versión bootstrap de Yb es
Yb ∗ =
L
X
Ybh∗ =
nh X
L X
X
∗
whij
· yhij
h=1 i=1 j∈shi
h=1
donde los pesos bootstrap están dados por
∗
whij
= thi ·
nh
· whij
n∗h
siendo thi el número de veces que la (h, i)-ésima PSU es seleccionado en la muestra bootstrap.
thi puede tomar los valores 0, 1, . . . , n∗hi . Para las PSUs no seleccionadas, thi = 0 y los corres∗
= 0. Para las PSUs seleccionadas pero no
pondientes pesos bootstrap son también nulos, whij
duplicadas en la muestra bootstrap se tiene que thi = 1 y los pesos bootstrap
∗
whij
=
nh
· whij
n∗h
reflejan el producto del peso de la (h, i)-ésima PSU en la muestra inicial y el inverso de la fracción
de muestreo bootstrap. Para las PSUs seleccionados y duplicadas en la muestra bootstrap se
tiene que thi ≥ 2 y los pesos bootstrap reflejan el producto del peso de la (h, i)-ésima PSU en
la muestra inicial, el inverso de la fracción de muestreo bootstrap, y el número de veces que la
PSU ha sido seleccionada.
Yb ∗ también puede escribirse en la forma
∗
nh
L
X
1 X
∗
b
Y =
u∗hi.
∗
n
h=1 h i=1
con
!∗
u∗hi. =
X
nh · whij · yhij
j∈shi
la versión bootstrap de uhi. para i = 1, . . . , n∗h , h = 1, . . . , L.
45
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Las variables u∗hi. son independientes e idénticamente distribuidas con varianza condicionada
V
ar∗ [u∗h1. ]
nh 2
1 X
b
uhi. − Yh
=
nh i=1
Entonces, el estimador bootstrap de la varianza resulta ser ahora
v1 [Yb ] = V ar∗ [Yb ∗ ] =
L
X
V ar∗ [Ybh∗ ] =
h=1
=
nh
L
X
nh X
X
n∗h
j∈shi
h=1
i=1
whij · yhij
L
X
V ar∗ [u∗h1. ]
n∗h
h=1
Ybh
−
nh
!2
Para n∗h = nh − 1, puede probarse que la esperanza del estimador bootstrap es
E[v1 [Yb ]] =
L
X
 
E  nh
nh − 1
h=1
nh
X
i=1
Yhi.
πhi
nh
1 X
Yhi0 .
−
nh i0 =1 πhi0
!2 
+
Nh
X
σ2

2hi 
i=1
πhi
Comparando esta expresión con la varianza de Yb concluimos que el estimador bootstrap incluye
de forma adecuada las contribuciones a la varianza del submuestreo dentro de cada PSU.
2.8.
Estimadores no lineales
En esta sección vamos a considerar la estimación bootstrap de la varianza para estimadores
no lineales.
Una cuestión clave es porqué cabrı́a esperar que el método bootstrap proporcione un estimador de la varianza razonablemente bueno para un estimador no lineal. Hemos visto que el
método bootstrap funciona bien para estimadores lineales, ya que tiene la capacidad de reproducir el estimador usual insesgado de la varianza. Una adecuada elección de n∗ y el método
46
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
del reescalado proporcionan la insesgadez. Puesto que el método funciona con estadı́sticos lineales, deberı́a funcionar también con estadı́sticos no lineales dado que localmente poseen un
comportamiento lineal.
Sea T un vector de dimensión p × 1 de totales poblacionales, y sea θ un parámetro general
de interés en una población finita, definido por
θ = g(T ) ,
donde g es continuamente diferenciable.
Si Tb es un estimador insesgado de T obtenido a partir de una muestra s determinada por
algún esquema general de muestreo, entonces el estimador de θ es
θ̂ = g(Tb)
El método bootstrap para estimar V ar(θ̂) se concreta en los siguientes pasos:
1. Obtener una muestra bootstrap s∗1 por los métodos vistos en las secciones anteriores.
2. Determinar T̂1∗ , la versión bootstrap de los totales estimados basada en la muestra bootstrap.
3. Calcular la versión bootstrap del estimador θ̂1∗ = g(T̂1∗ )
4. Si es posible, determinar el estimador bootstrap ideal de la varianza, v1 [θ̂] = V ar∗ [θ̂1∗ ],
finalizando de este modo el procedimiento de estimación bootstrap. En caso contrario,
continuar con los siguientes pasos y emplear el método de Monte Carlo para aproximar
el estimador ideal bootstrap.
5. Tomar A − 1 muestras bootstrap más, s∗α , lo que da un total de A muestras. Las muestras
deben ser mutuamente independientes.
47
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
6. Determinar T̂α∗ , las versiones bootstrap de los totales estimados para α = 1, . . . , A.
7. Calcular las versiones bootstrap del estimador θ̂α∗ = g(T̂α∗ ) para α = 1, . . . , A.
8. Finalmente, calcular el estimador bootstrap de Monte Carlo de la varianza:
A 2
X
1
v2 [θ̂] =
·
θ̂α∗ − θ̄ˆ∗
A − 1 α=1
con:
A
1 X ∗
θ̂
θ̄ˆ∗ = ·
A α=1 α
Como alternativa conservadora se puede calcular v2 en términos de las diferencias al cuadrado respecto de θ̂ en lugar de θ̄ˆ∗ .
A continuación vamos a mostrar, a modo de ejemplo, cómo puede aplicarse el método al
importante problema del estimador de razón.
Supondremos que se ha entrevistado a una muestra multietápica seleccionada dentro de L
estratos, obteniéndose ası́ observaciones yhij , xhij para la j−ésima unidad última de muestreo
(USU) seleccionada dentro de la i−ésima unidad primaria de muestreo (PSU) obtenida en el
h−ésimo estrato. Los estimadores usuales de los totales poblacionales son:
Yb =
nh X
mhi
L X
X
whij · yhij
h=1 i=1 j=1
y
b=
X
nh X
mhi
L X
X
whij · xhij
h=1 i=1 j=1
donde nh es el número de PSUs seleccionados dentro del estrato h-ésimo, mhi es el número de
USUs entrevistadas dentro de la (h, i)-ésimo PSU, y whij es el peso asignado a la (h, i, j)−ésima
USU. Dichos pesos reflejan los inversos de las probabilidades de inclusión y quizás otros factores,
48
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
b sean estimadores insesgados o casi insesgados de los
y son especificados de modo que Yb y X
correspondientes totales poblacionales Y y X.
A menudo resulta de interés en la investigación en encuestas la razón de los totales
θ = Y /X ,
que se estima habitualmente por
b.
θ̂ = Yb /X
Para estimar V ar(θ̂) debemos obtener de forma independiente A muestras bootstrap como
se indicó en la sección 2.7, y para cada una de ellas, α = 1, . . . , A, calcular las versiones
bootstrap de los totales poblacionales:
Ybα∗ =
nh X
mhi
L X
X
wαhij · yhij
h=1 i=1 j=1
y
b∗ =
X
α
nh X
mhi
L X
X
wαhij · xhij
h=1 i=1 j=1
donde los pesos bootstrap están dados por
wαhij = tαhi ·
nh
· whij
n∗h
siendo tαhi el número de veces que la (h, i)-ésima PSU de la muestra inicial es seleccionada
dentro de la α-ésima muestra bootstrap.
Entonces calcularemos las versiones bootstrap de la razón
b∗
θ̂α∗ = Ybα∗ /X
α
49
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
para α = 1, . . . , A.
Finalmente, evaluaremos el estimador bootstrap de Monte Carlo de la varianza
A 2
X
1
∗
∗
ˆ
·
θ̂ − θ̄
v2 [θ̂] =
A − 1 α=1 α
Otro importante parámetro de interés en la investigación en encuestas está definido como
la solución de la ecuación:
N
X
[Yi − µ(Xi θ)]Xi = 0
i=1
Si se considera una variable dependiente y dicotómica y
exθ
,
µ(xθ) =
1 + exθ
el parámetro θ se corresponde con aquél que define el modelo de regresión simple logı́stica;
mientras que para una variable dependiente y cualquiera y
µ(xθ) = xθ ,
el parámetro θ se corresponde con la pendiente en el modelo de regresión lineal simple sin
término constante.
Dado el plan de muestreo multietápico con estratificación considerado anteriormente, el
estimador θ̂ está definido como la solución de la ecuación
nh X
mhi
L X
X
ˆ · xhij = 0
whij · [yhij − µ(xhij θ)]
h=1 i=1 j=1
50
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
El estimador θ̂ puede ser obtenido mediante el método iterativo de Newton-Raphson:
θ̂
(k+1)
= θ̂
(k)
+
" L n m
h X
hi
XX
#−1
0
whij · µ (xhij θ̂
(k)
)·
x2hij
h=1 i=1 j=1
·
nh X
mhi
L X
X
whij · [yhij − µ(xhij θ̂(k) )] · xhij
h=1 i=1 j=1
siendo
µ0 (xθ) =



µ(xθ) · [1 − µ(xθ)], para el problema de regresión simple logı́stica


1, para el problema de regresión lineal simple
Para la α-ésima muestra bootstrap, la versión bootstrap θ̂α∗ del estimador θ̂ está definida
como la solución de la ecuación
nh X
mhi
L X
X
wαhij · [yhij − µ(xhij θ̂α∗ )] · xhij = 0
h=1 i=1 j=1
donde los pesos bootstrap wαhij están definidos como se vio anteriormente. θ̂α∗ puede obtenerse
de nuevo mediante el método iterativo de Newton-Raphson. Finalmente, haciendo uso de las A
muestras bootstrap, el estimador bootstrap de la varianza de θ̂ es
v2 [θ̂] =
A 2
X
1
·
θ̂α∗ − θ̄ˆ∗
A − 1 α=1
El método puede extenderse de forma directa al caso multivariante, en el que θ es (p × 1) y
Xi es (1 × p).
51
Capı́tulo
3
Aplicaciones con R
3.1.
Introducción
En este capı́tulo, como aplicación de los métodos estudiados, se presentan varias funciones
implementadas en el entorno de programación estadı́stica R con el propósito de obtener la
estimación bootstrap de Monte Carlo de la varianza del parámetro de interés, ası́ como su
sesgo, en el caso de emplear muestreo aleatorio simple.
También se analizan brevemente las funciones, de utilidad para nuestros propósitos, de la
librerı́a boot de R, en la que podemos encontrar los métodos y conjuntos de datos del libro
”Bootstrap Methods and Their Applications”, de A. C. Davison y D. V. Hinkley (1997).
Además, se desarrollan varios ejemplos con la ayuda de las funciones comentadas.
3.2.
Muestreo aleatorio simple con reemplazamiento
La función BootSRSWR, de elaboración propia, proporciona el estimador bootstrap de Monte Carlo del error estándar de un estadı́stico de interés y del sesgo de dicho estadı́stico, cuando
52
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
se emplea muestreo aleatorio simple con reemplazamiento para construir las muestras bootstrap
a partir de la muestra de partida.
Los argumentos de la función son:
data
Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corresponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.
statistic
Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico de
interés. Debe tener 2 argumentos: el primero corresponde a los datos originales (data);
y el segundo es un vector de ı́ndices que determinará la muestra bootstrap.
m
Tamaño de las muestras bootstrap que se van a generar
A
Número de muestras bootstrap que se van a generar.
El valor de la función es un objeto de tipo lista con elementos:
t0
t
El valor observado del estadı́stico de interés aplicado a data.
Un vector con las réplicas bootstrap del estadı́stico de interés, resultado de aplicar la
función statistic.
mean
var
sd
La media de las réplicas bootstrap del estadı́stico de interés.
La estimación bootstrap de la varianza del estadı́stico de interés.
La estimación bootstrap del error estándar del estadı́stico de interés.
bias
La estimación bootstrap del sesgo del estadı́stico de interés.
data
El objeto pasado a la función BootSRSWR como argumento data.
st
El estadı́stico pasado a la función BootSRSWR como argumento statistic.
53
Bootstrap en poblaciones finitas
m
Samuel Nicolás Gil Abreu
El escalar pasado a la función BootSRSWR como argumento m.
Además, la función genera un histograma de la distribución de las estimaciones bootstrap del
estadı́stico de interés.
El código de la función se presenta en el Apéndice A.
Por otra parte, el paquete boot proporciona funciones útiles para llevar a cabo la estimación
bootstrap en este caso. En concreto, son de especial interés las funciones boot y boot.ci.
La función boot genera muestras bootstrap de un estadı́stico de interés a partir de unos
datos de partida, y proporciona la estimación bootstrap del error estándar del estadı́stico de
interés y de su sesgo.
A continuación resumimos los argumentos de la función que son de interés para nuestros propósitos:
data
Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corresponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.
statistic
Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico
de interés. Para el caso de bootstrap no paramétrico statistic debe tener 2 argumentos:
el primero corresponde a los datos originales (data); y el segundo será habitualmente
un vector de ı́ndices que determinará la muestra bootstrap.
R
sim
Número de muestras bootstrap a generar.
Cadena de caracteres que especifica el tipo de simulación requerida. Su valor por
defecto es ordinary, que corresponde al bootstrap no paramétrico.
54
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
El valor de la función es un objeto de clase boot. Se trata de una lista en la que destacamos los
elementos:
t0
t
El valor observado del estadı́stico de interés aplicado a data.
Una matriz cuyas filas corresponden a las réplicas bootstrap del estadı́stico de interés,
resultado de aplicar la función statistic.
statistic
R
data
El estadı́stico pasado a la función boot como argumento statistic.
El escalar pasado a la función boot como argumento R.
El objeto pasado a la función boot como argumento data.
La función boot.ci calcula hasta 5 tipos de intervalos de confianza bootstrap no paramétricos, a saber, normal, básico, t, percentil y BCa. Sus argumentos más relevantes son:
boot.out
Objeto de clase boot resultado de aplicar la función boot a unos datos observados.
conf
Escalar o vector que especifica los niveles de confianza deseados.
type
Vector de cadenas de caracteres especificando el tipo de intervalos de confianza requeridos. Su valor debe ser un subconjunto de entre los valores c(“norm”, “basic”, “stud”,
“perc”, “bca”), o simplemente “all” si se quieren calcular los 5 tipos de intervalos.
El valor de la función es un objeto de tipo boot.ci. Se trata de una lista con elementos:
R
El número de réplicas bootstrap en las que están basados los intervalos.
t0
El valor observado del estadı́stico de interés en la misma escala que los intervalos.
call
normal
La llamada a la función boot.ci.
Matriz de intervalos calculados usando la aproximación normal
55
Bootstrap en poblaciones finitas
basic
Samuel Nicolás Gil Abreu
Intervalos calculados por el método bootstrap básico.
student
Intervalos calculados por el método bootstrap estudentizado.
percent
Intervalos calculados por el método bootstrap del percentil.
bca
Intervalos calculados por el método bootstrap BCa.
Ejemplo 3.1 En la librerı́a bootstrap de R podemos encontrar el conjunto de datos law. Se
trata de un dataframe que contiene las observaciones muestrales de la puntuación media en
las pruebas de admisión, LSAT , y del promedio de calificaciones en grado medio, GP A, en 15
Facultades de Derecho.
> library(bootstrap)
> law
LSAT GPA
1
576 339
2
635 330
3
558 281
4
578 303
5
666 344
6
580 307
7
555 300
8
661 343
9
651 336
10
605 313
11
653 312
12
575 274
13
545 276
14
572 288
15
594 296
56
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Este conjunto de datos es una muestra aleatoria del conjunto de datos law82 que corresponde
a una población de 82 Facultades de Derecho. Se pretende estimar la correlación entre las
puntuaciones LSAT y GP A, y calcular el error estándar de la estimación bootstrap de la
correlación muestral.
La correlación poblacional y su estimación muestral, a partir de law, están dadas por
> cor(law82$LSAT,law82$GPA)
[1] 0.7599979
> cor(law$LSAT,law$GPA)
[1] 0.7763745
Vamos a hacer uso de la función BootSRSWR especificando muestras bootstrap del mismo tamaño que la muestra inicial. A continuación se muestra el código necesario y la salida
proporcionada por R.
> BootSRSWR(law, function(x,i) cor(x[i,1], x[i,2]), 15, 2000)
Estimaci{\’o}n a partir de la muestra inicial: 0.77637
Media de las estimaciones bootstrap:
0.76913
Estimaci{\’o}n bootstrap de la varianza:
Error est{\’a}ndar:
0.01873
0.13684
Estimaci{\’o}n bootstrap del sesgo:
-0.00725
La Figura 3.1 muestra la distribución de las estimaciones bootstrap obtenidas.
La estimación bootstrap puede obtenerse también haciendo uso de la función boot del paquete boot. El código a ejecutar y la salida obtenida son los siguientes:
> boot.obj <- boot(data=law, statistic=function(x,i) cor(x[i,1], x[i,2]), R
=2000)
> boot.obj
57
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Distribución de las estimaciones bootstrap
587
440
294
147
0
0.00
0.25
0.50
0.75
1.00
Figura 3.1: Distribución de las estimaciones bootstrap de la correlación lineal entre LSAT y
GP A
ORDINARY NONPARAMETRIC BOOTSTRAP
Call: boot(data = law, statistic = function(x, i) cor(x[i, 1], x[i, 2]), R =
2000)
Bootstrap Statistics :
original
bias
t1* 0.7763745 -0.005824032
std. error
0.1287397
Finalmente vamos a calcular los intervalos de confianza bootstrap para la correlación lineal
entre LSAT y GP A, al nivel de confianza del 95 %, mediante la función boot.ci.
> boot.ci(boot.obj, type="all")
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on 2000 bootstrap replicates
58
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
CALL : boot.ci(boot.out = boot.obj, type = "all")
Intervals : Level
95 %
( 0.5299,
Level
95 %
Normal
1.0345 )
Percentile
( 0.4757,
Basic
( 0.5897,
1.0770 )
BCa
0.9631 )
( 0.3647,
0.9398 )
Calculations and Intervals on Original Scale
Ejemplo 3.2 El conjunto de datos patch del paquete bootstrap contiene medidas de cierta hormona en el caudal sanguı́neo de 8 individuos tras haber llevado tres parches médicos diferentes:
un parche placebo (placebo), un parche antiguo (old) y un parche nuevo (new).
> library(bootstrap)
> patch
subject placebo oldpatch newpatch
z
y
1
1
9243
17649
16449
8406 -1200
2
2
9671
12013
14614
2342
3
3
11792
19979
17274
8187 -2705
4
4
13357
21816
23798
8459
5
5
9055
13850
12560
4795 -1290
6
6
6290
9806
10157
3516
351
7
7
12412
17208
16570
4796
-638
8
8
18806
29044
26325 10238 -2719
2601
1982
Se considera el parámetro de interés θ definido como:
θ=
E[new] − E[old]
E[old] − E[placebo]
59
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Si |θ| ≤ 0.2 se acepta la bioequivalencia de los parches antiguos y los nuevos; esto es,
se asumirá que a todos los efectos terapeúticos los parches producen el mismo efecto en los
pacientes. El estadı́stico es de la forma Y /Z, con Y = new − old y Z = old − placebo. Vamos a
determinar los estimadores bootstrap de la desviación estándar y del sesgo del estadı́stico razón
de bioequivalencia.
El código necesario, especificando muestras bootstrap del mismo tamaño que la muestra de
partida, y la salida proporcionada por R, se muestran a continuación:
> BootSRSWR(patch[,c("y","z")], function(x,i) mean(x[i,1])/mean(x[i,2]), 8,
2000)
Estimaci{\’o}n a partir de la muestra inicial: -0.07131
Media de las estimaciones bootstrap:
-0.06659
Estimaci{\’o}n bootstrap de la varianza:
Error est{\’a}ndar:
0.01075
0.10368
Estimaci{\’o}n bootstrap del sesgo:
0.00472
La Figura 3.2 muestra la distribución de las estimaciones bootstrap obtenidas.
3.3.
Muestreo aleatorio simple sin reemplazamiento
La función BootSRSWOR, de elaboración propia, proporciona el estimador bootstrap de
Monte Carlo del error estándar de un estadı́stico de interés y del sesgo de dicho estadı́stico,
cuando se emplea muestreo aleatorio simple sin reemplazamiento para construir las muestras
bootstrap a partir de la muestra de partida. La función implementa las variantes BW O y M M .
Los argumentos de la función son:
60
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Distribución de las estimaciones bootstrap
394
296
197
98
0
−0.30
−0.11
0.07
0.26
0.45
Figura 3.2: Distribución de las estimaciones bootstrap de la razón de bioequivalencia
data
Objeto de tipo vector, matrix o dataframe. Si es un vector, cada componente corresponde a una observación univariante de la muestra inicial; en caso contrario, cada fila
corresponde a una observación multivariante de la muestra inicial.
variante
Cadena de caracteres que especifica las variantes del método bootstrap que se van
a utilizar. Sus valores pueden ser: “BWO”, para la variante BW O; “MM”, para la
variante M M ; u “all”, si se van a utilizar las dos variantes.
statistic
Función que será aplicada a los datos y devuelve la versión bootstrap del estadı́stico de
interés. Debe tener 2 argumentos: el primero corresponde a los datos originales (data);
y el segundo es un vector de ı́ndices que determinará la muestra bootstrap.
N El tamaño de la población de la que se ha extraı́do la muestra inicial
m Vector o escalar, en función de variante. Si variante es “all”, m es un vector que
especifica el tamaño de las muestras bootstrap que se van a generar en la variante
BW O y el número de grupos aleatorios en los que se dividirá la muestra inicial en la
variante M M .
61
Bootstrap en poblaciones finitas
A
Samuel Nicolás Gil Abreu
Número de muestras bootstrap que se van a generar.
El valor de la función es un objeto de tipo lista con elementos:
t0
t
El valor observado del estadı́stico de interés aplicado a data.
Lista con componentes BWO, MM, o ambas, según variante. Cada componente contiene las réplicas bootstrap del estadı́stico de interés, resultado de aplicar la función
statistic, para la correspondiente variante.
mean
El vector de medias de las réplicas bootstrap del estadı́stico de interés para variante.
var
El vector de estimaciones bootstrap de la varianza del estadı́stico de interés para
variante.
sd
El vector de estimaciones bootstrap del error estándar del estadı́stico de interés para
variante.
bias
El vector de estimaciones bootstrap del sesgo del estadı́stico de interés para variante.
data
El objeto pasado a la función BootSRSWOR como argumento data.
st
El estadı́stico pasado a la función BootSRSWOR como argumento statistic.
N El escalar pasado a la función BootSRSWOR como argumento N
m El vector o escalar pasado a la función BootSRSWOR como argumento m.
Además, la función genera histogramas de la distribución de las estimaciones bootstrap del
estadı́stico.
El código de la función se encuentra en el Apéndice A.
62
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Ejemplo 3.3 A partir de la muestra law del ejemplo 3.2, vamos a obtener las estimaciones
bootstrap de la media poblacional y de la correlación lineal entre ambas variables, mediante
muestreo aleatorio simple sin reemplazamiento BW O y M M .
Utilizaremos la función BootSRSWOR implementada. Para la variante BWO vamos a construir muestras bootstrap del mismo tamaño que la muestra de partida, 15. En el caso de la
variante M M vamos a considerar grupos aleatorios de tamaño 5 de la muestra de partida. A
continuación recogemos el código necesario y las salidas proporcionadas por R:
Medias poblacionales de LSAT y GP A.
La medias poblacionales y su estimaciones muestrales, a partir de law, están dadas por
> sapply(law82[,-1], mean)*c(1,100)
LSAT
GPA
597.5488 313.4878
> sapply(law, mean)
LSAT
GPA
600.2667 309.4667
Las estimaciones bootstrap de la varianza y el sesgo de la medias muestrales de LSAT y
GP A son:
> BootSRSWOR(law$LSAT, "all", function(x,i) mean(x[i]), 82, c(15,5), 2000)
Estimaci{\’o}n a partir de la muestra inicial: 600.2667
Media de las estimaciones bootstrap:
600.26827 (BWO)
Estimaci{\’o}n bootstrap de la varianza:
Error est{\’a}ndar:
9.62597 (BWO)
600.5931 (MM)
92.6593 (BWO)
228.73238 (MM)
15.1239 (MM)
Estimaci{\’o}n bootstrap del sesgo:
0.0016 (BWO)
0.32643 (MM)
> BootSRSWOR(law$GPA, "all", function(x,i) mean(x[i]), 82, c(15,5), 2000)
63
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Estimaci{\’o}n a partir de la muestra inicial: 309.4667
Media de las estimaciones bootstrap:
309.50737 (BWO)
Estimaci{\’o}n bootstrap de la varianza:
Error est{\’a}ndar:
5.39766 (BWO)
309.3127 (MM)
29.13469 (BWO)
81.1138 (MM)
9.00632 (MM)
Estimaci{\’o}n bootstrap del sesgo:
0.0407 (BWO)
-0.15397 (MM)
Las Figuras 3.3 y 3.4 muestran la distribución de las estimaciones bootstrap obtenidas.
Distribución de las estimaciones bootstrap (BWO)
400
300
200
100
0
565.24
583.87
602.50
621.13
639.76
Distribución de las estimaciones bootstrap (MM)
263
197
132
66
0
560.27
581.39
602.50
623.61
644.73
Figura 3.3: Distribución de las estimaciones bootstrap de la media poblacional de LSAT
64
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Distribución de las estimaciones bootstrap (BWO)
304
228
152
76
0
294.11
302.55
311.00
319.45
327.89
Distribución de las estimaciones bootstrap (MM)
431
323
216
108
0
280.19
295.10
310.00
324.90
339.81
Figura 3.4: Distribución de las estimaciones bootstrap de la media poblacional de GP A
Correlación lineal entre LSAT y GP A.
> BootSRSWOR(law, "all", function(x,i) cor(x[i,1], x[i,2]), 82, c(15,5),
2000)
Estimaci{\’o}n a partir de la muestra inicial: 0.77637
Media de las estimaciones bootstrap:
0.77171 (BWO)
Estimaci{\’o}n bootstrap de la varianza:
Error est{\’a}ndar:
0.12159 (BWO)
0.01478 (BWO)
0.76072 (MM)
0.05582 (MM)
0.23626 (MM)
Estimaci{\’o}n bootstrap del sesgo:
-0.00466 (BWO)
-0.01565 (MM)
La Figura 3.5 muestra la distribución de las estimaciones bootstrap obtenidas.
65
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Distribución de las estimaciones bootstrap (BWO)
323
242
162
81
0
0.25
0.44
0.62
0.81
1.00
Distribución de las estimaciones bootstrap (MM)
754
566
377
188
0
−0.30
0.03
0.35
0.67
1.00
Figura 3.5: Distribución de las estimaciones bootstrap de la correlación lineal entre LSAT y
GP A
66
Apéndice
A
Funciones implementadas
BootSRSWR
function (data, statistic, m, A) {
n <- NROW(data)
index <- seq_len(n)
theta0 <- statistic(data, index)
cat("\nEstimaci{\’o}n a partir de la muestra inicial:", round(theta0, digits
=5))
Index.boot <- replicate(A, sample(index, m, replace=TRUE), simplify=FALSE)
theta.boot <- sapply(Index.boot, statistic, x = data)
av <- mean(theta.boot)
cat("\n\nMedia de las estimaciones bootstrap: ", round(av, digits=5))
Var <- var(theta.boot)
cat("\nEstimaci{\’o}n bootstrap de la varianza: ", round(Var, digits=5))
Sd <- sqrt(Var)
cat("\nError est{\’a}ndar: ", round(Sd, digits=5))
67
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
sesgo <- av - theta0
cat("\nEstimaci{\’o}n bootstrap del sesgo: ", round(sesgo, digits=5))
hist(theta.boot, freq=TRUE, main="Distribuci{\’o}n de las estimaciones
bootstrap", axes=FALSE, xlab = "", ylab="", col=terrain.colors(20))
a <- diff(par()$usr[1:2])
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr[2]-0.04*a
, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)),
las=1)
cat("\n")
out <- list(t0 = theta0, t = theta.boot, mean = av, var = Var, sd = Sd, bias
= sesgo, data = data, st = statistic, m = m)
invisible(out)
}
BootSRSWOR
function (data, variante="all", statistic, N, m, A) {
n <- NROW(data)
index <- seq_len(n)
theta0 <- statistic(data, index)
cat("\nEstimaci{\’o}n a partir de la muestra inicial:", round(theta0, digits
=5))
theta.boot <- vector("list", 2)
names(theta.boot) <- c("BWO","MM")
68
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
if (is.element(variante, c("BWO", "all"))){
k <- round(N/n)
index.U <- rep(index, each=k)
Index.boot <- replicate(A, sample(index.U, m, replace=FALSE), simplify=
FALSE)
theta.boot$BWO <- sapply(Index.boot, statistic, x = data)
}
if (is.element(variante, c("MM", "all"))){
M <- switch(variante, MM=m[1], all=m[2])
if(M < n){
k <- ceiling(M*(1-M/n)/(M*(1-n/N)))
Index.boot <- replicate(A, unlist(replicate(k, sample(index, M,
replace=FALSE), simplify=FALSE)), simplify=FALSE)
theta.boot$MM <- sapply(Index.boot, statistic, x = data)
}
else cat("No es posible calcular la variante MM (m debe ser menor que n)
")
}
j <- switch(variante, BWO=1L, MM=2L, all=c(1,2))
theta.boot <- theta.boot[j]
av <- structure(sapply(theta.boot, mean), names=c("BWO","MM")[j])
cat("\n\nMedia de las estimaciones bootstrap: ", paste(round(av, digits=5),
" (", names(av), ")", sep="", collapse="
"))
Var <- structure(sapply(theta.boot, var), names=c("BWO","MM")[j])
cat("\nEstimaci{\’o}n bootstrap de la varianza: ", paste(round(Var, digits
=5), " (", names(Var), ")", sep="", collapse="
"))
Sd <- structure(sapply(theta.boot, sd), names=c("BWO","MM")[j])
69
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
cat("\nError est{\’a}ndar: ", paste(round(Sd, digits=5), " (", names(Var), "
)", sep="", collapse="
"))
sesgo <- structure(av - theta0, names=c("BWO","MM")[j])
cat("\nEstimaci{\’o}n bootstrap del sesgo: ", paste(round(sesgo, digits=5),
" (", names(Var), ")", sep="", collapse="
"))
par(mfrow=c(length(theta.boot),1))
if (is.element(variante, c("BWO", "all"))){
hist(theta.boot$BWO, freq=TRUE, main="Distribuci{\’o}n de las
estimaciones bootstrap (BWO)", axes=FALSE, xlab = "", ylab="", col=
terrain.colors(20))
a <- diff(par()$usr[1:2])
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr
[2]-0.04*a, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)
), las=1)
}
if (is.element(variante, c("MM", "all"))){
hist(theta.boot$MM, freq=TRUE, main="Distribuci{\’o}n de las
estimaciones bootstrap (MM)", axes=FALSE, xlab = "", ylab="", col=
terrain.colors(20))
a <- diff(par()$usr[1:2])
axis(1, line = 0.25, at = round(seq(par()$usr[1]+0.04*a, par()$usr
[2]-0.04*a, length.out=5L), digits=2))
axis(2, line = 0.25, at = round(seq(0, par()$usr[4]/1.04, length.out=5L)
), las=1)
}
cat("\n")
70
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
out <- list(t0 = theta0, t = theta.boot, mean = av, var = Var, sd = Sd, bias
= sesgo, data = data, st = statistic, N = N, m = m)
invisible(out)
}
71
Apéndice
B
Diseños muestrales y estimadores usuales
Algunos diseños muestrales
srs wor
muestreo aleatorio simple con reemplazamiento
srs wr
muestreo aleatorio simple sin reemplazamiento
pps wor
muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento
pps wr
muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento
pps wr + srs wor
Etapa 1: muestreo con probabilidades proporcionales al tamaño muestral con reemplazamiento
Etapa 2: muestreo aleatorio simple con reemplazamiento
pps wor + srs wor
Etapa 1: muestreo con probabilidades proporcionales al tamaño muestral sin reemplazamiento
Etapa 2: muestreo aleatorio simple con reemplazamiento
L strata
muestreo estratificado
NOTA: En este documento todas las menciones a los estimadores usuales de la varianza hacen referencia
a los estimadores de la varianza de la siguiente tabla, a menos que se especifique lo contrario.
72
·
n
N
73
L strata
pps wor + srs wor
pps wr + srs wor
1
n
·
PL
Yb = h=1 Ybh
πi = n · pi
Mi ·y i.
πi
Mi ·y i.
i=1
pi
Pn
·
Pn
Yb.. = i=1
Yb.. =
Yb =
pps wr
yi
i=1 pi
Pn
1
n
Pn
Yb = i=1
yi
yi
yi
πi
i=1
i=1
Pn
f=
1
f
Yb = N ·
Yb =
Pn
Estimador
pps wor
srs wr
srs wor
Diseño
i=1
Yi − Y
·
Yi.
pi
Mi2
i=1 πi
· (1 − f2i ) ·
Si2
mi
PL
V ar[Yb ] = h=1 V ar[Ybh ]
PN
−
+
−
2
2
Yi.
πi
Si2
mi
− Y..
· (1 − f2i ) ·
i=1 pi ·
Pn
PN PN
V ar[Yb.. ] = i=1 j>i (πi · πj − πij ) ·
+
Yi
πi
pi · (Zi − Y )
Yi
pi
i=1
Zi =
·
PN
Mi2
i=1 pi
1
n
1
n
PN
V ar[Yb.. ] =
i=1
PN
j>i (πi · πj − πij ) ·
1
N
PN PN
σ2 =
+ n1 ·
Yj
πj
2
+
v[Yb ] =
s2 =
1
n
·
·
Yj.
πj
2
v[Yb.. ] =
i=1
Pn
·
i=1
v[Yb ] =
Mi2
i=1 πi
Pn
·
h=1
2
yi
πi
v[Ybh ]
−
s2i
mi
Mi ·y i.
πi
Mj ·y j.
πj
− Yb..
2
2
yj
πj
2
−
zi − Yb
Mi ·y i.
pi
·
· (1 − f2i ) ·
PL
2
(yi − ȳ)
i=1
Pn
Pn
·
πi ·πj −πij
j>i
πij
1
n·(n−1)
1
n·(n−1)
Pn
+
i=1
Pn
v[Yb.. ] =
v[Yb ] =
i=1
·
s2
n
yi
πi ·πj −πij
j>i
πij
PN PN
1
n−1
s2
n
(yi − ȳ)
i=1
Pn
i=1
Pn
v[Yb ] = N 2 ·
1
n−1
σ2
n
2
s2 =
V ar[Yb ] = N 2 ·
PN
2
y=
·
Yi − Y
v[Yb ] = N 2 · (1 − f ) ·
Yi
1
N
i=1
PN
S2
n
Estimador usual de la Varianza
i=1
V ar[Yb ] =
V ar[Yb ] =
1
N −1
Y =
S2 =
V ar[Yb ] = N 2 · (1 − f ) ·
Varianza
2
+
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
Bibliografı́a
[1] Arnold, S.F.- Gibbs Sampling. Handbook of Statistics 9: Computational Statistics. North
Holland. 1993.
[2] Beran, R.- Jackknife approximations to bootstrap estimates. Ann. Statist., 12, 101-118.
1984.
[3] Bickel, P.J., & Freedman, D.A.- Some asymptotic theory for the bootstrap. Ann. Statist.,
9, 1196-1217. 1981.
[4] Chambers, R.L. & Skinner, C.J. ed.- Analysis of Survey Data, Wiley Series in Survey
Methodology. Wiley. 2003.
[5] Davison, A.C. & Hinkley, D.V.- Bootstrap Methods and Their Applications. Cambridge
University Press. 1997.
[6] Diciccio, T.J., & Romano, J.P.- A review of bootstrap confidence intervals. J.R.S.S. B, 50,
338-354. 1988.
[7] Diciccio, T.J., & Efron, B.- Bootstrap confidence intervals. Stat. Science. 11, 189-228. 1996.
[8] Efron, B.- Bootstrap Methods: Another Look at the Jackknife. Ann. Statist., 7, 1-26. 1979.
[9] Efron, B.- Better bootstrap confidence intervals. J.A.S.A., 82, 171-200. 1987.
[10] Efron, B., & Tibshirani, R.J.- An introduction to the bootstrap. Chapman & Hall. 1993.
[11] Everitt, B. S. & Hothorn, T.- A Handbook of Statistical Analyses Using R. 2006.
74
Bootstrap en poblaciones finitas
Samuel Nicolás Gil Abreu
[12] Freedman, D.A.- Bootstrap regresion models. Ann. Statist., 9, 1218-1228. 1981.
[13] Gambino, J.G.- PPS: Functions for PPS sampling. 2005.
[14] Ghosh, M. et al.- A note on bootstrapping the sample median. Ann. Statist., 12, 1130-1135.
1984.
[15] Hall, P.- On the bootstrap and confidence intervals. Ann. Statists., 14, 1431-1452. 1986.
[16] Hinkley D. V.- Bootstrap methods. J.R.S.S. B, 50, 321-337. 1988.
[17] LePage, R. & Billard, L. eds.- Exploring the limits of boostrap. J. Wiley. 1992.
[18] Lumley, T.- Survey: analysis of complex survey samples. 2010.
[19] Maindonald, J. & Braun, J.- Data Analysis and Graphics Using R. Cambridge University
Press. 2007.
[20] Mooney, C.Z. & Duval, R.D.- Bootstrapping: A nonparametric approach to statistical
inference. Beverly Hill: Sage Publication. 1993.
[21] Rao, C.R. ed.- Handbook of Statistics 9: Computational Statistics. North-Holland. 1993.
[22] Rizzo, M.- Statistical Computing with R. Chapman & Hall. 2007.
[23] Thompson, M.E.- Theory of Sample Surveys. Chapman & Hall. 1997.
[24] Wu, C.F.J.- Jackknife, bootstrap and other resampling methods in regresion analysis. Ann.
Statist., 14, 1261-1295. 1986.
[25] Wolter, K. M.- Introduction to Variance Estimation. Springer, 5. 1985.
75
Descargar