Estimación núcleo de distribuciones

Anuncio
UNIVERSIDAD DE EXTREMADURA
DEPARTAMENTO DE MATEMÁTICAS
Trabajo Fin de Master
Estimación núcleo de distribuciones:
existencia y propiedades asintóticas
del ancho de banda óptimo.
Pablo Monfort Vinuesa
Badajoz, 2010
ii
Índice general
iii
Introducción
Si realizamos una revisión de carácter histórico referente a los estimadores de tipo núcleo, veremos
que éstos aparecen por primera vez en el contexto de la estimación de densidades. Previo a los estimadores núcleo tenemos el primer artı́culo que utiliza técnicas no paramétricas para la estimación de una
densidad. Dicho artı́culo, de Fix y Hodges (1951) [?], permaneció sin publicar hasta que es recuperado en
1989 por Silverman y Jones (1989) [?], los cuales publican dicho informe junto a interesantes aportaciones
al respecto.
Años más tarde encontramos los primeros artı́culos que hacen uso de los estimadores núcleo para
la estimación de densidades: Akaike (1954) [?], Parzen (1962) [?] y Rosenblatt (1956) [?]. Rosenblatt
presenta importantes resultados en el contexto de la teorı́a L2 , considerado el contexto natural a la hora
de evaluar el comportamiento global de un estimador de una función de densidad. Y no se consideran
en profundidad hasta Parzen (1962) y Devroye (1983) [?] los criterios L∞ y L1 , respectivamente, para la
medición del error cometido por un estimador
Es en 1964 cuando el estimador núcleo de la distribución es introducido por primera vez de la mano de
Nadaraya (1964) [?], el cual decide considerar, como estimador de la función de distribución, la integral
del estimador núcleo de la densidad usado hasta la fecha por Parzen y Rosenblatt.
En una época reciente es cuando los estimadores núcleo de la distribución están siendo objeto de un
profundo estudio. Podemos destacar algunos artı́culos que analizan los principales puntos de interés de
estos estimadores como Altman & Léger (1995) [?] sobre la selección del ancho de banda óptimo, Abdous
(1993) [?] sobre el error cuadrático integrado medio de estos estimadores y Swanepoel (1988) [?], Jones
(1990) [?] y Tenreiro (2006) [?] sobre el comportamiento asintótico del ancho de banda de los estimadores
núcleo de la distribución.
En la presente memoria realizaremos un exhaustivo trabajo de recopilación, análisis e investigación
referido a los estimadores núcleo de la distribución. Para ello, el escrito comienza con un capı́tulo de
preliminares donde en primer lugar establecemos el marco general del presente estudio y definimos los
conceptos básicos en el estudio de la estimación de distribuciones. A continuación, para poder estudiar
la precisión de un estimador, y ası́ compararlo con otros, proporcionamos las definiciones y resultados
necesarios dentro de las teorı́as L1 , L2 y L∞ . Con tal objetivo, pasamos a definir y describir las más
inmediatas caracterı́sticas de los dos estimadores que se comparan en esta memoria: la función de distriv
vi
Introducción
bución empı́rica y el estimador núcleo de la distribución. Por último, y antes de finalizar el capı́tulo se
incluyen unos comentarios sobre uno de los principales problemas a la hora de seleccionar el estimador
núcleo adecuado: la selección del ancho de banda óptimo.
En el segundo capı́tulo realizamos un exhaustivo análisis del error cometido por el estimador núcleo y
distintas descomposiciones del mismo. Todo ello como paso previo al análisis del comportamiento asintótico del ancho de banda. Además incluimos resultados que nos proporcionan condiciones suficientes para
la existencia del ancho de banda óptimo.
En el tercer capı́tulo desarrollamos una extensa simulación para comparar, tal y como comentábamos
previamente, los dos estimadores de los que disponemos. Enfrentamos la eficiencia del estimador núcleo
y de la función de distribución empı́rica a través del mencionado estudio de simulación donde analizamos
el error medio cometido por cada estimador para muestras procedentes de las densidades de Marron y
Wand (1992) [?] y de distintos tamaños muestrales.
Finalmente, la memoria concluye con dos apéndices y la bibliografı́a utilizada. En el primero de los
apéndices enunciamos y probamos algunos resultados utilizados a lo largo de la memoria que, por no
ser exactamente del campo de la Estadı́stica o por ser muy recurrentes en esta memoria, consideramos
más adecuado incluir en un apéndice. Por último, en el segundo apéndice incluimos las funciones implementadas en el programa estadı́stico R para el desarrollo y estudio del tercer capı́tulo de simulación y la
realización de los gráficos e imágenes que aparecen en la memoria.
Capı́tulo 1
Preliminares
A lo largo de este primer capı́tulo estudiaremos el problema de estimación de distribuciones considerando diversos criterios existentes para medir el error cometido mediante un estimador de la distribución.
Describiremos los resultados existentes para el estimador más extendido de la función de distribución,
la función de distribución empı́rica, y, además, introduciremos los estimadores núcleo de la distribución
sobre los que versa el presente trabajo.
1.1.
Conceptos básicos.
A lo largo de toda esta memoria, supondremos R y Rd provistos de sus respectivas σ-álgebras de
Borel, R y Rd .
La noción de estructura estadı́stica juega en Estadı́stica Matemática un papel análogo al que el espacio
de probabilidad desempeña en Cálculo de Probabilidades; viene a ser, por tanto, el punto de partida formal
de cualquier problema de inferencia estadı́stica. Definamos, pues, algunos conceptos básicos siguiendo la
estructura del libro Nogales (1998) [?].
Definición 1.1. a) Una estructura estadı́stica es una terna (Ω, A, P), donde (Ω, A) es un espacio medible
y P una familia de probabilidades sobre él. Al espacio medible (Ω, A) lo llamaremos espacio de las
observaciones, los elementos de Ω se suelen llamar observaciones y los de A, sucesos. En ocasiones se
escribe la familia P en la forma {Pθ : θ ∈ Θ}; en ese caso, el ı́ndice θ se suele llamar parámetro, mientras
que Θ se denomina espacio de parámetros.
b) Un estadı́stico sobre esa estructura estadı́stica es una función medible T (o variable aleatoria, en
lenguaje probabilı́stico) definida en (Ω, A) y a valores en otro espacio medible (Ω0 , A0 ). Entenderemos en
lo sucesivo que una aplicación T : Ω → Ω0 escrita en la forma T : (Ω, A) → (Ω0 , A0 ) es (A, A0 )-medible; en
ese caso, la estructura estadı́stica (Ω0 , A0 , {P T : P ∈ P}) se denomina estructura imagen del estadı́stico
T , donde P T denota la distribución de probabilidad (o distribución, a secas) de T respecto a P , definida
por
P T (A0 ) = P (T −1 (A0 )) = P ({ω : T (ω) ∈ A0 }), para cada A0 ∈ A0 .
1
2
Preliminares
Definición 1.2. Se llama función de distribución de probabilidad a cualquier función F : R −→ [0, 1]
que verifique:
1. F es no decreciente.
2. F es continua por la derecha.
3.
lı́m F (x) = 0.
x→−∞
4. lı́m F (x) = 1.
x→∞
Es sencillo ver que dada una probabilidad P en (R, R), la función F (x) = P ((−∞, x]) es una función
de distribución.
Se dice que F es la función de distribución asociada a una variable aleatoria X : Ω −→ R si viene
inducida por P X ; es decir, si F (x) = P X ((−∞, x]) = P (X ≤ x), ∀x ∈ R.
Definición 1.3. Sean (Ω, A) un espacio medible y µ una medida sobre él. Una densidad (de probabilidad )
respecto a la medida µ es una función medible f : (Ω, A) → R̄ tal que f > 0 µ-c.s. y verifique
Z
f (ω)dµ(ω) = 1.
Ω
En ese caso,
Z
Pf (A) =
f (ω)dµ(ω),
A ∈ A,
A
define una probabilidad en A, y se dice que f es una densidad de Pf respecto a µ. Si Pf = P X también
se dice que f es la densidad de la variable aleatoria X.
Si la función de distribución F de una variable aleatoria X es absolutamente continua, será derivable
en casi todo punto. Si además f es la densidad de X, entonces
Z
x
F (x) = P (X ≤ x) =
f (s) ds
x ∈ R,
−∞
y por tanto
F 0 (x) = f (x)
c.s.
Ambas propiedades serán utilizadas a lo largo de todo el presente trabajo continuamente.
Definición 1.4. Una muestra de tamaño n sobre un espacio de probabilidad (Ω, A, P ) (resp., sobre una
estructura estadı́stica (Ω, A, P)) es una colección X1 , . . . , Xn de n variables aleatorias (resp., estadı́sticos)
independientes e idénticamente distribuidas (abreviado, iid) a valores en un mismo espacio medible, donde
independientes e idénticamente distribuidas en el caso estadı́stico significa P -iid, para cada P ∈ P.
Definición 1.5. Sean (Ω, A, {Pθ : θ ∈ Θ}) una estructura estadı́stica, (Ω0 , A0 ) un espacio medible y
ϕ : Θ → (Ω0 , A0 ) una aplicación. Un estimador de ϕ es un estadı́stico T : (Ω, A) → (Ω0 , A0 ). A la aplicación ϕ se le llama estimando y, para cada observación ω ∈ Ω, diremos que T (ω) es una estimación de ϕ.
En estadı́stica asintótica, se llama también estimador de ϕ a una sucesión (Tn ) de estimadores de ϕ en
el sentido anterior.
1.2. Criterios de error
3
Definición 1.6. Sea X una variable aleatoria definida en un espacio de probabilidad (Ω, A, P ), entonces
la esperanza o valor esperado de X, que se denota como E[X] o EP [X], se define del siguiente modo:
Z
EP [X] =
X dP.
Ω
La esperanza de X verifica una serie de propiedades básicas, derivadas de las propiedades de las
integrales, como el ser un operador lineal o ser un operador monótono, entre otras propiedades. Pueden
consultarse en Pérez (1986) [?].
Definición 1.7. Un estimador T de ϕ en la estructura estadı́stica (Ω, A, P) se dice insesgado o centrado
si verifica que
EP [T ] = ϕ(P ), ∀P ∈ P
De acuerdo a esta definición, podemos definir el sesgo de un estimador:
Definición 1.8. Se denomina sesgo de un estimador T de ϕ, y se denota B(T ) o BP (T ), a la diferencia
entre el valor esperado de T y el parámetro ϕ:
B(T ) = E[T ] − ϕ.
Definición 1.9. Dada una variable aleatoria X con esperanza E[X], la varianza de X, que se denota
por V ar(X) o V arP (X), viene definida mediante la siguiente expresión:
h
2 i
V ar(X) = E X − E[X]
.
Una descomposición de la varianza muy habitual es:
V ar(X) = E[X 2 ] − (E[X])2 .
1.2.
Criterios de error
Definición 1.10. Llamaremos estimador de una función de distribución F a cualquier función medible
Gn : R × Rn −→ [0, 1]
(x; x1 , . . . , xn ) → Gn (x; x1 , . . . , xn )
Para estudiar cómo de bueno es un estimador, es inevitable la selección de criterios que nos permitan
comparar entre varios estimadores en la búsqueda del estimador óptimo. Hasta el presente, y debido a
la subjetividad de la elección de los criterios del error, no se ha llegado a un consenso entre los diversos
investigadores del área existiendo dos grandes lı́neas que optan por criterios que minimizan el error uniforme o el error cuadrático de la estimación.
Cuando utilizamos estimadores sesgados en una estimación paramétrica, el criterio de minimizar la
varianza es, a veces, sustituido por el criterio de minimizar el error cuadrático medio (MSE), que es la
4
Preliminares
suma de la varianza y del sesgo al cuadrado como vemos a continuación. Puntualmente, dada una sucesión
de estimadores Gn de la función de distribución F , la precisión del estimador Gn se mide mediante
M SE{Gn (x)} = E[{Gn (x) − F (x)}2 ] = V ar(Gn (x)) + B 2 (Gn (x))
donde recordemos que B(Gn (x)) = E[Gn (x)] − F (x).
Esta ecuación afronta el problema de la estimación no paramétrica de una forma puntual. Sin embargo, el interés de la estimación funcional radica en obtener una estimación de la distribución completa;
por tanto, se hace necesario recurrir a criterios de error globales, como pueden ser los mencionados a
continuación y cuyas definiciones se darán de inmediato, una vez tenemos una sucesión de estimadores
Gn de nuestra función de distribución F :
kGn − F k1 , kGn − F k2 o kGn − F k∞ .
Antes de pasar a definir los distintos tipos de criterios de error que se pueden considerar para un
estimador, expondremos algunos conceptos previos.
Definición 1.11. Sea (Ω, A, µ) un espacio de medida. Dado 1 ≤ p < ∞, decimos que una función
G : (Ω, A) → R pertenece a Lp si verifica
Z
p
|G| dµ < ∞.
Ω
Definición 1.12. Sea (Ω, A, µ) un espacio de medida. Decimos que una función G : (Ω, A) → R pertenece
a L∞ si verifica
sup G(ω) < ∞.
ω∈Ω
Íntimamente relacionados con estos espacios figuran los conceptos de norma de una función. Dicho
concepto, que definiremos a continuación, nos permitirán valorar la precisión de un estimador midiendo
el error que comete como tal con respecto a la verdadera función desconocida.
Definición 1.13. Sea (Ω, A, µ) un espacio de medida. Dado 1 ≤ p < ∞ y una función G de Lp se llama
norma p de G a
Z
1/p
p
kGkp =
|G| dµ
Ω
Análogamente, podemos definir la norma infinito:
Definición 1.14. Sea (Ω, A, µ) un espacio de medida. Dada una función G de L∞ se llama norma infinito
de G a
kGk∞ = sup |G(ω)|
ω∈Ω
Señalar que aunque la definición de kGk∞ es a través del supremo esencial, en el presente trabajo
dicho supremo esencial coincide con el supremo a secas ya que trabajamos con funciones de distribución.
Cuando el espacio de medida es (R, R) con la medida de Lebesgue y Gn y F son dos funciones de
distribución, observar que kGn −F k∞ siempre estará bien definido pues éstas toman valores en el intervalo
[0, 1].
1.2. Criterios de error
5
Considerando, por tanto, la distancia L∞ definimos el error absoluto uniforme como
U AE{Gn } = sup |Gn (x) − F (x)| .
x∈R
Como este criterio depende de la muestra, es habitual utilizar el error absoluto uniforme medio definido
como
h
i
M U AE{Gn } = E sup |Gn (x) − F (x)| .
x∈R
Por otro lado, los otros dos criterios kGn − F k1 y kGn − F k2 e incluso kGn − F kp ∀p ≥ 1 también
estarán bien definidos sin más que exigir que tanto Gn como F sean absolutamente continuas y tengan
media finita. Veámoslo en el siguiente lema:
Lema 1.15. Sean F y Gn funciones de distribución con densidades f y gn respectivamente. Si F y Gn
tienen media finita entonces
kGn − F kp < ∞
∀p ≥ 1
Demostración. Comencemos viendo que
Z ∞
Z ∞ Z x
dx
g
(t)
−
f
(t)
dt
|Gn (x) − F (x)| dx =
n
−∞
0
0
Z ∞
Z ∞
Z ∞
1 −
dx
=
g
(t)
dt
−
1
+
f
(t)
dt
n
0
x
x
Z ∞Z ∞
Z ∞ Z ∞
|gn (t) − f (t)| dt dx
f (t) − gn (t) dt dx ≤
=
0
∞
Z
Z
0
x
∞
Z
x
∞
Z
t
≤
|gn (t)| + |f (t)| dt dx =
|gn (t)| + |f (t)| dx dt
0
x
0
0
Z ∞
Z ∞
Z ∞
=
t |gn (t)| + t |f (t)| dt =
t |gn (t)| dt +
t |f (t)| dt < ∞
0
0
0
donde hemos utilizado el Teorema de Fubini para intercambiar el orden de integración y donde la última
desigualdad es debido a la hipótesis de que F y Gn tienen media finita.
Análogamente,
Z 0
Z 0 Z x
Z 0 Z x
dx ≤
|Gn (x) − F (x)| dx =
g
(t)
−
f
(t)
dt
|gn (t) − f (t)| dt dx
n
−∞
−∞
0
Z
Z
−∞
x
−∞
0
Z
−∞
0
Z
|f (t)| + |gn (t)| dt dx =
=
−∞
Z 0
−∞
|f (t)| + |gn (t)| dx dt
−∞
t
−t |f (t)| − t |gn (t)| dt < ∞
=
−∞
con lo que queda probado que Gn − F ∈ L1 .
Como Gn y F son acotadas por ser funciones de distribución, tenemos que:
6
Preliminares
kGn −
F kpp
Z
Z
p
p−1
|Gn (x) − F (x)| dx =
=
|Gn (x) − F (x)|
R
|Gn (x) − F (x)| dx
R
Z
≤1
|Gn (x) − F (x)| dx < ∞
∀p ∈ N
R
Si tomamos como herramienta de medida del error kGn − F k1 , para cada muestra el error absoluto
integrado viene dado por
Z
IAE{Gn } =
|Gn (x) − F (x)| dx
R
Debido a que este criterio es aleatorio pues depende de la muestra, es preferible utilizar su media
Z
M IAE{Gn } = E
|Gn (x) − F (x)| dx
R
Este criterio no está tan desarrollado en la literatura cientı́fica actual como L2 y L∞ , aunque se conocen algunos resultados que ponen de manifiesto la relación entre este criterio y la métrica de Wasserstein.
Para una mayor profundización pueden verse algunas propiedades y resultados asintóticos en del Barrio,
Giné y Matrán (1999) [?].
También podemos pensar en considerar la distancia L2 para el estudio del error cometido por el
estimador. Ası́, para cada muestra, definimos el error cuadrático integrado como
Z
[Gn (x) − F (x)]2 dx
ISE{Gn } =
R
donde recordemos que Gn es el estimador de la función de distribución desconocida F .
Nuestro objetivo, sin embargo, será estudiar el error cuadrático integrado medio
Z
M ISE{Gn } = E
[Gn (x) − F (x)]2 dx
R
Nos centraremos en este último por ser ampliamente utilizado y por su facilidad de manipulación.
Téngase en cuenta además que el integrando es no negativo, por lo que el orden de integración y la
esperanza pueden intercambiarse aplicando el Teorema de Fubini. De este modo:
Z
hZ
i Z
M ISE{Gn } = E
[Gn (x) − F (x)]2 dx =
E[{Gn (x) − F (x)}2 ] dx =
M SE{Gn (x)} dx
R
R
R
Z
Z
=
V ar{Gn (x)} dx +
B 2 {Gn (x)} dx = IV (Gn ) + IB 2 (Gn )
R
R
donde IV (Gn ) e IB 2 (Gn ) se denominan varianza integrada y sesgo cuadrático integrado respectivamente.
1.3. La función de distribución empı́rica
1.3.
7
La función de distribución empı́rica
Supongamos que tenemos una variable aleatoria X con función de distribución desconocida F (t) =
P (X ≤ t), y disponemos de una muestra X1 , . . . , Xn de la distribución definida por F .
Consideremos ahora el problema de estudiar el error cometido al estimar la distribución desconocida
F mediante un estimador Gn : (R × Rn , R × Rn ) −→ (R, R). El estimador natural consistirá en contar
la proporción de observaciones que son menores o iguales que t, es decir,
n
Fn (x) =
1X
I(−∞,x] (Xi )
n i=1
donde IA es la función indicador del conjunto A.
La función Fn es conocida como función de distribución empı́rica y, claramente, es una función escalonada que toma valores en [0, 1].
Definimos ahora Zi (x) = I(−∞,x] (Xi ), las cuales son variables aleatorias independientes e idénticamente distribuidas, pues lo eran las Xi , y su esperanza es E[Zi ] = P (X ≤ x) = F (x) ≤ 1.
En consecuencia estamos en situación de poder aplicar la Ley de los Grandes Números llegando a que
n
1 X
(Zi (x) − EZi (x)) → 0
|Fn (x) − F (x)| = n
i=1
c.s.
cuando n → ∞.
Esto significa que podemos estimar de modo consistente una función de distribución arbitraria en
cualquier punto x.
Por otro lado, sabemos que
M SE{Fn (x)} = V ar(Fn (x)) + B 2 (Fn (x)),
donde B(Fn (x)) = 0 ya que podemos ver que Fn (x) es un estimador insesgado de F (x):
n
h1 X
i
I(−∞,x] (Xi ) = E[I(−∞,x] (X)] = P (X ∈ (−∞, x]) = F (x)
E[Fn (x)] = E
n i=1
y donde su varianza es
V ar[Fn (x)] =
1
F (x)(1 − F (x))
n
Puede probarse que no existe ningún otro estimador insesgado con menor varianza.
Además, gracias al Teorema Central del Lı́mite, se establece que
√
n(Fn (x) − F (x)) →d N (0, F (x)(1 − F (x)))
para cada x fijo.
Pero es más, podemos enunciar a continuación el Teorema Fundamental de la Estadı́stica Matemática:
8
Preliminares
Teorema 1.16 (Teorema de Glivenko-Cantelli (1933)). Sean X1 , . . . , Xn variables aleatorias i.i.d. con
función de distribución F . Entonces
kFn − F k∞ = sup |Fn (x) − F (x)| → 0
c.s.
x∈R
cuando n → ∞.
Demostración. Su demostración puede verse en Van der Vaart (1998) [?].
El Teorema de Glivenko-Cantelli nos proporciona un resultado de consistencia para Fn en L∞ , pero
no especifica a qué velocidad converge dicho lı́mite. Para ello, disponemos de otros resultados como el
que podemos encontrar en Nickl (2010) [?] :
Teorema 1.17 (Desigualdad de Dvoretzky, Kiefer y Wolfowitz). Sean X1 , . . . , Xn variables aleatorias
i.i.d. con función de distribución F . Entonces, para cada n ∈ N y cada λ ≥ 0,
P
√
n sup |Fn (x) − F (x)| > λ ≤ 2exp{−2λ2 }.
x∈R
Demostración. Una demostración para este resultado puede encontrarse en Massart (1990) [?].
Respecto al error cuadrático integrado, para la función de distribución empı́rica, Fn , tenemos que
M ISE{Fn } =
1
n
Z
F (x)[1 − F (x)] dx,
R
y además es finito sin más que suponer que F tenga media finita. Veamos esto último en el siguiente
resultado.
Lema 1.18. Sea F una función de distribución con densidad f , y supongamos que dicha distribución
R
R
tiene media finita, es decir, R |z| dF (z) < ∞. Entonces, ψ(F ) = R F (z)(1 − F (z)) dz < ∞.
R
Si R z dF (z) = 0 entonces podemos expresar
Z
ψ(F ) = 2
R
R
f (z1 )f (z2 ) máx{z1 , z2 }dz1 dz2
zf (z)F (z)dz =
R
Demostración. Que
Z Z
R
|z| dF (z) < ∞ significa que
R
R
R
|z| f (z) dz < ∞. Ahora bien, como
1.3. La función de distribución empı́rica
Z
Z Z
9
x
Z
F (x)(1 − F (x))dx =
R
∞
f (v)dvdx
f (u)du
−∞
R
x
Z Z Z
=
f (u)I(−∞,x) (u)f (v)I(x,∞) (v)dvdudx
ZR ZR ZR
=
f (u)f (v)I(u,v) (x)I(−∞,v) (u)dxdvdu
Z v
=
f (u)f (v)I(−∞,v) (u)
dxdvdu
u
ZR R Z
=
f (u) f (v)(v − u)I(−∞,v) (u)dvdu
R
R
Z Z
Z Z
=
f (u)f (v)vI(−∞,v) (u)dvdu −
f (u)f (v)uI(−∞,v) (u)dvdu
ZR R
Z
Z v
ZR R
uf (u) f (v)I(−∞,v) (u)dvdu
f (u)dudv −
vf (v)
=
R
R
−∞
R
Z
Z
Z ∞
=
vf (v)F (v)dv −
uf (u)
f (v)dvdu
u
ZR
ZR
=
vf (v)F (v)dv −
uf (u)(1 − F (u))du
R
R
Z
Z
Z
=
vf (v)F (v)dv −
uf (u)du +
uf (u)F (u)du
R
R
R
Z
Z
= 2 zf (z)F (z)dz − uf (u)du
ZR ZR
R
R
R
entonces
Z
Z
Z
F (z)(1 − F (z)) dz = 2
zf (z)F (z)dz −
uf (u)du
Z
≤ 2 |zf (z)F (z)| dz + |uf (u)| du
R
ZR
Z
≤ 2 |zf (z)| dz +
|uf (u)| du
R
ZR
= 3 |zf (z)| dz < ∞
R
ZR
R
R
Para demostrar la primera de la triple igualdad, y de acuerdo a los cálculos anteriores,
Z
Z
F (x)(1 − F (x))dx = 2
R
Z
= 2 zf (z)F (z)dz,
R
por ser f simétrica.
Z
zf (z)F (z)dz −
R
uf (u)du
R
10
Preliminares
Para la segunda igualdad, razonamos del siguiente modo,
Z Z
R
R
f (z1 )f (z2 ) máx{z1 , z2 }dz1 dz2
Z Z z2
Z Z ∞
=
f (z1 )f (z2 ) máx{z1 , z2 }dz1 dz2 +
f (z1 )f (z2 ) máx{z1 , z2 }dz1 dz2
R −∞
R z2
Z Z z2
Z Z ∞
=
f (z1 )f (z2 )z2 dz1 dz2 +
f (z1 )f (z2 )z1 dz1 dz2
R −∞
R z2
Z
Z Z z1
=
F (z2 )f (z2 )z2 dz2 +
f (z1 )f (z2 )z1 dz2 dz1
R
R −∞
Z
= 2 zf (z)F (z)dz = ψ(F )
R
1.4.
El estimador núcleo de la distribución
Existe una extensa bibliografı́a cientı́fica que trata el problema de la estimación de densidades desde
diversos puntos de vista. La herramienta más utilizada en dicho campo hoy dı́a son los estimadores núcleo.
Disponemos de un gran abanico de escritos que tratan sobre dichos estimadores; puede consultarse Prakasa
Rao (1983) [?], Silverman (1986) [?] o Chacón (2004) [?].
R
Definición 1.19. Llamamos núcleo a cualquier función k ∈ L1 tal que R k(x) dx = 1.
A partir de ahora, siempre consideraremos núcleos que verifiquen k ≥ 0, es decir, núcleos que sean
densidades.
Definición 1.20. Dados un núcleo k y un número real h > 0, llamaremos estimador núcleo de la densidad
f , con núcleo k y ancho de banda h al estimador definido por
n
fn,k,h : (x; x1 , . . . , xn ) ∈ R × Rn 7→
1 X x − xi k
∈ R,
nh i=1
h
que escribiremos de modo abreviado como
n
fnh (x) =
1 X x − xi k
.
nh i=1
h
Observar que dicho estimador, por definición de núcleo, es también una densidad si k ≥ 0.
Ahora bien, este estimador induce otro para las funciones de distribución de modo inmediato: el
estimador núcleo de la distribución. Es sobre este estimador sobre el que versa todo el presente trabajo.
Pasemos, pues, a definirlo inmediatamente.
Definición 1.21. Con la notación utilizada en la anterior definición y dado el estimador núcleo fnh de
la densidad f , podemos definir el estimador núcleo de la distribución como
Z x
fnh (t) dt.
Fnh (x) =
−∞
1.4. El estimador núcleo de la distribución
11
Desarrollemos algo más esta definición para dar una forma equivalente de definir el estimador núcleo
de la distribución:
Z
x
Z
Fnh (x) =
−∞
n
1X
=
n i=1
donde K(x) =
Rx
−∞
x
fnh (t) dt =
−∞
Z
n
n
1 X
1 X t − xi dt =
k
nh i=1
h
nh i=1
x−xi
h
Z
x
k
t − x i
h
−∞
dt
n
k(y) dy =
−∞
1 X x − xi ,
K
n i=1
h
k(t) dt y donde hemos realizado el cambio de variable y =
t−xi
h .
De acuerdo a lo anterior, tenemos otra definición equivalente de estimador núcleo de la distribución
que damos a continuación.
Definición 1.22. Consideramos una función de distribución K y un número real h > 0. En estas
condiciones, llamaremos estimador núcleo de la distribución F , con distribución núcleo K y ancho de
banda h al estimador definido por
n
Fn,K,h : (x; x1 , . . . , xn ) ∈ R × Rn 7→
1 X x − xi K
∈ R,
n i=1
h
que escribiremos de modo abreviado como
n
Fnh (x) =
1 X x − xi K
.
n i=1
h
Es obvio que, al ser K una función de distribución, entonces el estimador núcleo Fnh también es una
distribución. Basta con ver que Fnh cumple efectivamente los requisitos exigibles a una función para ser
distribución.
La definición del estimador Fnh , válido para h > 0, puede extenderse al caso h = 0. Podemos escribir
Z
Z
x − y
Fnh (x) = K
dFn (y) = k(z)Fn (x − hz) dz,
h
donde hemos utilizado
Z
Z
I[0,+∞) (x − hz − Xi ) dK(z) =
{z≤(x−Xi )/h}
dK(z) = K
x − X i
h
,
como aparece en Chacón & Rodrı́guez-Casal (2010) [?], de modo que, para h = 0, Fnh coincide con Fn .
Uno de los inconvenientes principales de Fn es que, mientras que F puede ser continua, Fn siempre
es discontinua.
En el siguiente gráfico, podemos comparar para una muestra de tamaño 20 procedente de una distribución N (0, 1), la verdadera función de distribución Φ(x), junto a los estimadores Fn y Fnh , apreciándose
cómo el estimador núcleo parece aproximarse más a la verdadera distribución.
12
Preliminares
1.0
Comparativa entre Φ, Fnh y Fn
0.0
0.2
0.4
F(x)
0.6
0.8
Φ
Fnh
Fn
−3
−2
−1
0
1
2
3
x
Figura 1.1: Comparativa entre Φ, Fn y Fnh
A la hora de estudiar la precisión de Fnh como estimador de la función de distribución desconocida
F mediante el criterio del M ISE, Jones (1990) [?] demuestra que el K óptimo es el correspondiente a la
distribución uniforme
K(x) =



0
√
x<− 3
√
√
si − 3 ≤ x < 3
√
si
3≤x
si
√
x+√ 3
3
2



1
Sin embargo, en términos de eficencia no hay mucha diferencia entre unos y otros, por lo que se suele
utilizar el núcleo gaussiano
Z
x
Φ(x) =
φ(t) dt,
x∈R
−∞
siendo φ(t) =
√1
2π
exp{−t2 /2}, que corresponde a la distribución normal estándar.
De acuerdo a esto, la elección del núcleo K no es una cuestión muy importante. Donde sı́ surge la
problemática es en la elección de un ancho de banda h óptimo para minimizar el M ISE. Describiremos
este problema en el siguiente epı́grafe.
1.5. El problema de la elección óptima del ancho de banda
1.5.
13
El problema de la elección óptima del ancho de banda
En el presente apartado se plantea cómo debemos elegir el ancho de banda h de manera óptima, en
el sentido de que el error cometido por el estimador núcleo sea mı́nimo. Supongamos que partimos de
una muestra X1 , . . . , Xn y queremos estimar la distribución utilizando para ello el estimador núcleo antes
definido Fnh . Fijado un núcleo K, para determinar completamente el estimador anterior sólo es necesario
elegir el ancho de banda h > 0 óptimo. El criterio que seguiremos será escogerlo de modo que minimice
el M ISE cometido al utilizar el estimador núcleo Fnh para estimar F .
Es inmediato que M ISE{Fnh } ≡ M ISE(F ; K, n, h) es una cantidad que dependerá fuertemente del
ancho de banda h tomado; por ello abreviaremos como M ISE(h) a partir de ahora. El estudio del mismo
se desarrollará extensamente en el Capı́tulo 2.
Fijadas, pues, F , K y n, tenemos una función real
M ISE : [0, ∞) ⊂ R → R.
Supongamos que dicha función M ISE tiene un punto donde se alcanza su mı́nimo, punto que denotaremos hM ISE (como expresión abreviada de hM ISE (F ; K, n)), y que será, por tanto, el que verifique
M ISE(hM ISE ) ≤ M ISE(h),
∀h > 0.
El valor de ancho de banda h = hM ISE ∈ (0, ∞) es, por tanto, el valor óptimo a utilizar en el estimador Fnh para estimar la distribución. Sin embargo, es claro que dicho ancho de banda depende de
n y también de F , que es desconocida desde el punto de vista estadı́stico. En dicho sentido, podemos
decir que el problema de elección del ancho de banda óptimo es equivalente al problema mismo de la
estimación de la distribución, ya que para determinar totalmente hM ISE necesitarı́amos conocer F .
En la Figura ?? se muestra la gráfica de la función M ISE(h) cuando n = 20, F = Φ y K es el
núcleo correspondiente a la distribución uniforme. El M ISE de Fn se refleja en el valor M ISE(0) y
se observa claramente cómo una buena elección de h puede mejorar sensiblemente dicho error, ya que
M ISE(0) = 0,02848 y M ISE(hM ISE ) = 0,01894. Es más, el estimador Fnh comete menor error que Fn
no sólo para hM ISE , sino para un amplio rango de valores de h.
14
Preliminares
0.030
0.035
Elección del h óptimo
0.020
0.025
MISE(h)
●
0.0
0.2
0.4
0.6
0.8
1.0
h
Figura 1.2: Problema de la elección de hM ISE
En el siguiente capı́tulo se establecen condiciones que aseguran la existencia de al menos un h que
minimice el M ISE y se describen también con detalle las propiedades de dicho ancho de banda óptimo.
Capı́tulo 2
El ancho de banda óptimo
2.1.
Existencia y comportamiento lı́mite del ancho de banda
óptimo
En primer lugar indiquemos que, a partir de este punto y por cuestión de notación, cada vez que
R
R
escribamos sin especificar los lı́mites de integración estaremos denotando R .
Comencemos recordando que en el capı́tulo primero hemos visto que podemos escribir
M ISE(h) = IB 2 (h) + IV (h),
donde
IB 2 (h) =
Z
[EFnh (x) − F (x)]2 dx
y
Z
IV (h) =
V ar(Fnh (x)) dx
se denominan sesgo cuadrático integrado y varianza integrada, respectivamente.
Recordemos además que en la definición del estimador núcleo de la distribución figura una función k la
cual es densidad de K y, por tanto, k integra 1 y es no negativa. A partir de este momento, supondremos
en el desarrollo de todo el capı́tulo que F y K tienen densidades f y k, respectivamente.
A continuación, proporcionaremos en esta sección dos lemas con desarrollos de IB 2 (h) y de IB 2 (h) +
nIV (h) necesarios para la demostración de la siguiente proposición que nos informará sobre el comportamineto asintótico del M ISE(h). Para ello, utilizaremos continuamente el siguiente resultado:
Teorema 2.1. (Teorema de Taylor con resto en forma integral). Sea f una función n-veces
derivable con f (n) continua. En tales circunstancias, podemos escribir
f (x + h) = f (x) + f 0 (x)h +
donde
Rn =
f n−1 (x) n−1
f 00 (x) 2
h + ··· +
h
+ Rn−1 ,
2
(n − 1)!
hn
(n − 1)!
Z
1
(1 − t)n−1 f (n) (x + ht) dt.
0
15
x, h ∈ R,
16
El ancho de banda óptimo
Demostración. Una demostración de este resultado puede verse en Apóstol (1991) [?].
Veamos en los dos siguientes lemas los desarrollos antes mencionados.
Lema 2.2. Con la notación utilizada hasta el momento
ZZZZ 1
2
IB (h) = −h
uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y)
(2.1)
0
Demostración. Recordemos que, por definición, al tener F densidad, F (x) =
Rx
k(y)dy. Podemos escribir la esperanza de Fnh como:
−∞
Rx
−∞
f (y)dy, K(x) =
Z Z (x−y)/h
x − y
x − X Z
1
k(z)f (y)dzdy
= K
f (y) dy =
EFnh (x) = EK
h
h
−∞
ZZ
ZZ
=
k(z)f (y)I{z≤(x−y)/h} dz dy =
k(z)f (y)I{y≤x−hz} dy dz
x−hz
ZZ
=
Z
k(z)f (y) dy dz =
k(z)F (x − hz) dz.
−∞
donde hemos utilizado el Teorema de Fubini para cambiar el orden de integración.
De acuerdo al desarrollo realizado en (??) de EFnh (h),
Z
Z hZ
i2
2
2
IB (h) = [EFnh (x) − F (x)] dx =
k(u)F (x − uh) du − F (x) dx
Z hZ
i2
=
k(u) F (x − uh) − F (x) du dx
Z hZ
i
ih Z
k(v) F (x − vh) − F (x) dv dx.
=
k(u) F (x − uh) − F (x) du
De acuerdo al desarrollo de Taylor de F (x − uh),
Z
F (x − uh) = F (x) − uh
1
f (x − uht) dt
0
tenemos que
IB 2 (h) =
Z hZ
Z
k(u) − uh
1
i
ih Z
k(v) F (x − vh) − F (x) dv dx
f (x − uht) dt du
0
= −h
Z h ZZ
1
i
ih Z
k(v) F (x − vh) − F (x) dv dx
uk(u)f (x − uht) dt du
0
1
ZZZZ
= −h
uk(u)k(v)f (x − uht)[F (x − vh) − F (x)] dt du dv dx
0
Realizando ahora el cambio de variable y = x − uht obtenemos
IB 2 (h) = −h
1
ZZZZ
uk(u)k(v)f (y)[F (y + uht − vh) − F (y + uht)] dt du dv dy
0
1
ZZZZ
= −h
uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y)
0
(2.2)
2.1. Existencia y comportamiento lı́mite del ancho de banda óptimo
17
Lema 2.3. En las condiciones del lema anterior
1
ZZZ
2
IB (h) + nIV (h) = ψ(F ) − hψ(K) + 2h
uk(u)F (y + uht)dtdudF (y)
(2.3)
0
Demostración. Podemos escribir la varianza
Var[Fnh (x)] =
x − X i2 o
h x − X i
1 n h x − X1 2 i h
1
1
1
=
E K
− EK
.
Var K
n
h
n
h
h
(2.4)
Respecto al primer sumando,
2
Z Z (x−y)/h
h x − X 2 i Z
x − y 2
1
E K
= K
f (y)dy =
k(z)dz f (y)dy
h
h
−∞
Z Z (x−y)/h Z (x−y)/h
=
k(z1 )k(z2 )f (y)dz1 dz2 dy
−∞
−∞
ZZZ
=
k(z1 )k(z2 )f (y)I{y≤x−hz1 } I{y≤x−hz2 } dz1 dz2 dy
ZZ
=
k(z1 )k(z2 )F (x − h máx{z1 , z2 })dz1 dz2
(ya que I{y≤x−hz1 } I{y≤x−hz2 } = I{y≤x−h máx{z1 ,z2 }} )
ZZZ 1
= F (x) − h
k(z1 )k(z2 ) máx{z1 , z2 }f (x − ht máx{z1 , z2 })dtdz1 dz2
0
donde la última igualdad es debida al desarrollo de Taylor de F ,
Z
F (x − h máx{z1 , z2 }) = F (x) − h máx{z1 , z2 }
1
f (x − ht máx{z1 , z2 })dt.
0
Utilizando lo anterior y la fórmula (??),
Z
2
2
(EFnh (x) − F (x)) dx + n
IB (h) + nIV (h) =
Z
Z
V ar(Fnh (x)) dx
(EFnh (x) − F (x))2 dx
Z n h x − X i2 o
x − X1 2 i h
1
1
E K
− EK
dx
+n
n
h
h
=
(2.5)
18
El ancho de banda óptimo
Z nh
x − X i2
1
EK
+ F 2 (x) − 2F (x)EFnh (x)
h
x − X i2 o
h x − X 2 i h
1
1
− EK
dx
+E K
h
h
Z
Z n
F 2 (x) − 2F (x) k(u)F (x − hu) du + F (x)
=
Z Z
Z 1
o
f (x − ht máx{z1 , z2 })dtdz1 dz2 dx
−h
k(z1 )k(z2 ) máx{z1 , z2 }
=
R
0
R
Z
Z
Z n
F 2 (x) − 2F 2 (x) + 2F (x) huk(u)
=
1
f (x − uht) dt du + F (x)
0
Z Z
−h
Z
k(z1 )k(z2 ) máx{z1 , z2 }
R
1
o
f (x − ht máx{z1 , z2 })dtdz1 dz2 dx
0
R
1
ZZZ
= ψ(F ) − hψ(K) + 2h
uk(u)F (x)f (x − uht) dt du dx
0
1
ZZZ
= ψ(F ) − hψ(K) + 2h
uk(u)F (y + hut)f (y) dt du dy
0
1
ZZZ
= ψ(F ) − hψ(K) + 2h
uk(u)F (y + hut) dt du dF (y)
0
donde la penúltima igualdad ha sido debida la cambio de variable y = x − hut.
El Lema (??) nos sirve para describir el comportamiento lı́mite de la función IB 2 (h).
Lema 2.4. Suponiendo las condiciones del Lema ?? se verifica que IB 2 es una función continua de h y
cumple que:
1. lı́m IB 2 (h) = 0.
h→0
2. lı́m IB 2 (h) = +∞.
h→∞
Demostración. De acuerdo al desarrollo del Lema ?? sabemos que
ZZZZ 1
IB 2 (h) = −h
uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y).
0
y además |F (y + uht − vh) − F (y + uht)| ≤ 1, pues F es función de distribución. Por tanto,
|uk(u)k(v)[F (y + uht − vh) − F (y + uht)]| ≤ |uk(u)k(v)| , con lo que
ZZZZ 1
Z
|u| |k(u)| |k(v)| dt du dv dF (y) = |u| |k(u)| du < ∞
0
y concluimos, aplicando el Teorema de la Convergencia Dominada, que IB 2 (h) es continua con respecto
a h en (0, +∞).
Para el primer lı́mite, como F es continua tenemos
ZZZZ 1
lı́m IB 2 (h) = lı́m −h
uk(u)k(v)[F (y + uht − vh) − F (y + uht)] dt du dv dF (y) = 0
h→0
h→0
0
2.1. Existencia y comportamiento lı́mite del ancho de banda óptimo
19
donde la integral y el lı́mite conmutan por el Teorema de la Convergencia Dominada razonando de modo
análogo a como hemos hecho anteriormente.
Para el segundo lı́mite, razonamos del siguiente modo. Teniendo en cuenta la expresión para EFnh (x)
dada en (??) y que F es continua por hipótesis, tenemos que
Z
lı́m EFnh (x) = k(z) lı́m F (x − hz) dz
h→∞
h→∞
Z 0
Z ∞
=
k(z) lı́m F (x − hz) dz +
k(z) lı́m F (x − hz) dz
−∞
0
h→∞
Z
=
k(z) dz = K(0) =
−∞
0
h→∞
1
,
2
R
ya que k es simétrica y k = 1. Además, el lı́mite y la integral han conmutado porque F (x − hz) ≤ 1 y
R
k(z) dz = 1.
Aplicando ahora el Lema de Fatou a IB 2 obtenemos que
Z
Z
Z
lı́m inf Bx2 (h)dx = lı́m inf (EFnh (x) − F (x))2 dx ≥ lı́m inf (EFnh (x) − F (x))2 dx
h→+∞
h→+∞
h→+∞
Z
Z
Z ∞
1
2
2
= (K(0) − F (x)) dx = ( − F (x)) dx ≥
(1/4)2 = +∞
(2.6)
2
x0
donde para la última desigualdad hemos usado que, como F (x) −→ 1 cuando x → ∞, tenemos que existe
x0 tal que
1
1
∀x ≥ x0 .
F (x) − >
2
4
Utilicemos el lema anterior junto al Lema ?? para analizar el comportamiento lı́mite del M ISE.
R
R
Teorema 2.5. Si se verifica que |x| dF (x) < ∞ y |u| |k(u)| du < ∞ entonces ∀n ∈ N, M ISE es una
función real y continua en (0, +∞) tal que:
i −1
1h
1
M ISE(h) − ψ(F ) =
ψ(K)
h→0 h
n
n
1. lı́m
2.
lı́m M ISE(h) = +∞
h→+∞
Demostración. Veamos primero que M ISE es continua en (0, +∞).
Debido a que IB 2 (h) es continua con respecto a h en (0, +∞) tal y como hemos probado en el Lema
??, para probar que M ISE(h) también lo es, basta con verlo para IB 2 (h) + nIV (h) ya que podemos
descomponer el M ISE(h) del siguiente modo:
1
(nIB 2 (h) + nIV (h))
n
1
1
= (n − 1)IB 2 (h) + (IB 2 (h) + nIV (h))
n
n
M ISE(h) = IB 2 (h) + IV (h) =
pero ver que IB 2 (h) + nIV (h) es continua con respecto a h en (0, +∞) es inmediato siguiendo un
razonamiento análogo al empleado con el sesgo. Veámoslo.
20
El ancho de banda óptimo
Teniendo en cuenta que IB 2 (h) + nIV (h) descompone del siguiente modo de acuerdo a como hemos
probado en el Lema ??,
IB 2 (h) + nIV (h) = ψ(F ) − hψ(K) + 2h
1
ZZZ
uk(u)F (y + uht)dtdudF (y),
0
bastará ver que el tercer sumando es continuo con respecto a h en (0, +∞) ya que el primero no depende
de h y el segundo es h por una cantidad que no depende de h.
R
Usando, pues, nuevamente que |u| |k(u)| du < ∞ por hipótesis, y que |F (y + uht)| ≤ 1 debido a que
F es función de distribución tenemos que:
|uk(u)F (y + uht)| ≤ |uk(u)| ,
1
ZZZ
con lo que
Z
|u| |k(u)| dt du dF (y) =
|u| |k(u)| du < ∞.
0
Demostremos ahora los dos apartados restantes del presente teorema:
1. De acuerdo a las descomposiciones que hemos dado de M ISE(h), de IB 2 (h) y de IB 2 (h) + nIV (h),
además de que F es continua, tenemos que
i
1
1h
M ISE(h) − ψ(F )
h→0 h
n
1
i
1h1
1 2
= lı́m
(n − 1)IB 2 (h) +
IB (h) + nIV (h) − ψ(F )
h→0 h n
n
n
h n − 1 ZZZZ 1
= lı́m −
uk(u)k(v) F (y + uht − vh) − F (y + uht) dtdudvdF (y)
h→0
n
0
ZZ 1
i
1
1
+
ψ(F ) − hψ(K) + 2h
ψ(F )
uk(u)F (y + uht)dtdudF (y) −
nh
nh
0
−1
ψ(K)
=
n
lı́m
ya que tanto IB 2 (h) como IB 2 (h) + nIV (h) son funciones continuas respecto a h en (0, +∞).
2. De acuerdo al Lema ?? tenemos que
lı́m IB 2 (h) = ∞.
h→∞
Por tanto, concluimos que lı́mh→+∞ M ISE(h) ≥ lı́mh→+∞ IB 2 (h) = +∞.
Fijarse que del anterior resultado se deduce que para h suficientemente pequeño, M ISE(h) < M ISE(0)
1
−1
ya que M ISE(0) = ψ(F ) y
ψ(K) < 0.
n
n
R
R
Teorema 2.6. Si se verifica que |x| dF (x) < ∞ y |u| |k(u)| du < ∞, entonces para cada n ∈ N,
M ISE(h) tiene un mı́nimo en (0, +∞), es decir, existe un número real estrictamente positivo, hM ISE ,
tal que M ISE(hM ISE ) = mı́nh>0 M ISE(h).
2.1. Existencia y comportamiento lı́mite del ancho de banda óptimo
21
Demostración. Demostrar que M ISE(h) tiene un mı́nimo en (0, +∞) es equivalente a probar que M (h) :=
R
M ISE(h) − n1 F (x)(1 − F (x))dx tiene un mı́nimo. Pero M (0) = 0 y, por el resultado anterior, sabemos
que lı́mh→+∞ M (h) = +∞.
Por tanto, como M es continua, para probar que M (h) tiene un mı́nimo bastará ver que existe h1 tal que
M (h1 ) < 0.
Y esto es inmediato, pues, por el resultado anterior, lı́mh→0 Mh(h) = −1
n ψ(K) < 0, por tanto, ∃h1 > 0
M (h1 )
tal que h1 < 0 y esto implica que M (h1 ) < 0
A continuación vamos a probar que el ancho de banda óptimo tiende a 0 bajo ciertas condiciones.
Para ello, haremos uso de la siguiente definición y lema, el cual establece la relación existente entre la
función caracterı́stica de una función arbitraria g y la función caracterı́stica de su derivada.
Definición 2.7. Dada una función g ∈ L1 arbitraria su función caracterı́stica, que denotaremos por
ϕg (t) con t real, se define como
ϕg : R −→ C
Z
t → ϕg (t) =
exp{itx}g(x) dx.
Lema 2.8. Sea g ∈ L1 absolutamente continua y sea g 0 su derivada que suponemos que pertenece a L1 .
Entonces
ϕg0 (t) = −itϕg (t), t ∈ R.
Demostración. Puede verse la demostración en Kawata (1972), pág. 69 [?].
Lema 2.9. Sean F y G funciones de distribución con densidades f y g, respectivamente, y tales que
R
R
|x| f (x) dx < ∞ y |x| g(x) dx < ∞ entonces G − F ∈ L1 y
ϕG−F (t) = (−it)−1 [ϕg (t) − ϕf (t)],
Z
ϕG−F (0) = t[f (t) − g(t)] dt
t 6= 0
Demostración. Veamos que se cumplen las hipótesis del lema previo y ası́ aplicarlo para g = G − F
(donde esta g no debe confundirse con la densidad de G sino que hace referencia a la g usada en el lema
anterior):
1. G − F es absolutamente continua puesto que tiene densidad g − f .
2. G − F ∈ L1 de acuerdo al Lema ??.
3. (G − F )0 = g − f ∈ L1 por ser g y f funciones de densidad.
Ahora podemos aplicar el lema previo, con lo que
ϕ(G−F )0 (t) = (−it)ϕG−F (t)
con
t 6= 0.
Por tanto, como (G − F )0 = g − f y por propiedades básicas de las funciones caracterı́sticas, tenemos que
22
El ancho de banda óptimo
ϕG−F (t) = (−it)−1 [ϕg (t) − ϕf (t)]
con t 6= 0.
Para el caso t = 0, es fácil ver con un razonamiento análogo al anterior;
Z
Z
0
Z
[G(x) − F (x)] dx =
ϕG−F (0) =
[G(x) − F (x)] dx +
−∞
Z
0
Z
∞
Z
x
[g(t) − f (t)] dt dx
−∞
Z x
0
Z
−∞
∞Z ∞
[f (t) − g(t)] dt dx
[g(t) − f (t)] dt dx +
=
−∞
Z 0
−∞
Z 0
Z
0
∞
Z
−∞
Z 0
t
0
Z
0
∞
t[f (t) − g(t)] dt
−tg(t) + tf (t) dt +
Z−∞
= t[f (t) − g(t)] dt
x
t
[f (t) − g(t)] dx dt
[g(t) − f (t)] dx dt +
=
=
Z
[g(t) − f (t)] dt dx +
−∞
Z 0
[G(x) − F (x)] dx
0
x
=
∞
0
Teorema 2.10. Bajo las condiciones del Teorema ??, si f es continua y la función caracterı́stica de k
no es constante en ningún entorno del origen, entonces lı́mn→+∞ hM ISE (F ; K, n) = 0
Demostración. Supongamos que lı́m supn→+∞ hM ISE (F ; K, n) > 0, para alguna F .
Por tanto, existe una subsucesión de (hM ISE (F ; K, n)) tal que lı́mk→+∞ hM ISE (F ; K, nk ) = λ. Para cada
h > 0 fijo, y de acuerdo a las ecuaciones (??) y (??), a que IB 2 (F ; K, h) es una función continua, a que
el M ISE(h) descompone en función de sesgo y varianza y a que lı́mn→∞ IV (h) = 0 tenemos que:
IB 2 (F ; K, h) = lı́m M ISE(F ; K, nk , h) ≥ lı́m M ISE(F ; K, nk , hM ISE (F ; K, nk ))
k→+∞
k→+∞

+∞
si λ = +∞
≥ lı́m IB 2 (F ; K, hM ISE (F ; K, nk )) =
IB 2 (F ; K, λ) si 0 < λ < +∞
k→+∞
donde IB 2 (F ; K, λ) > 0, como veremos después. En ambos casos, como IB 2 (F ; K, h) es continua tal y
como probamos en la demostración de la Proposición ??, llegamos a contradicción al tomar lı́mite cuando
h → 0, debido a que lı́mh→0 IB 2 (h) = 0 tal y como vimos en el Lema ??.
Veamos que, efectivamente, IB 2 (F ; K, λ) > 0. Recordemos que
Z
EFnh =
Z
k(z)F (x − hz) dz =
1 x−y
k(
)F (y) dy =
h
h
Z
kh (x − y)F (y) dy = kh ∗ F (x).
Además, (kh ∗ F )0 = kh ∗ f por ser f continua (ver Chacón (2004, Lema A.2)[?]); de modo que kh ∗ F
es una función de distribución debido a que kh ∗ f es una función de densidad por ser convolución de
densidades.
2.2. Representación asintótica del ancho de banda óptimo
23
Por otro lado, como k y f tienen media finita por hipótesis, entonces kh ∗ F tiene media finita:
Z
ZZ
xkh ∗ f (x) dx =
xkh (x − y)f (y) dx dy
ZZ
=
(y + z)kh (z)f (y) dz dy
Z
Z
≤ |y| f (y) dy + |z| kh (z) dz < +∞,
y, por tanto, kh ∗ F − F ∈ L1 .
Pero, como además kh ∗ F y F son acotadas entonces, juntando todo lo anterior, tenemos que kh ∗
F − F ∈ L2 .
Ahora ya podemos aplicar la fórmula de Parseval a kh ∗ F − F teniendo en cuenta las siguientes
propiedades elementales de las transformadas de Fourier
ϕK+L (t) = ϕK (t) + ϕL (t)
ϕK∗L (t) = ϕK (t)ϕL (t)
ϕKh (t) = ϕK (th).
De este modo obtenemos, usando el lema previo y la fórmula de Parseval, que
Z
2
IB (h) =
1
π
1
=
π
1
=
π
1
=
π
=
2
Z
(EFnh − F (t)) dt = (kh ∗ F − F (t))2 dt
Z ∞
2
|ϕkh ∗F −F (t)| dt
Z0 ∞
2
t−2 |ϕkh ∗f − ϕf (t)| dt
0
Z ∞
2
t−2 |ϕk (th)ϕf (t) − ϕf (t)| dt
0
Z ∞
2
2
t−2 |ϕf (t)| |1 − ϕk (th)| dt > 0
0
ya que, por hipótesis, la función caracterı́stica de k no es constante para ningún entorno del origen; y
como ϕf (0) = 1 y ϕf es continua entonces ϕf es mayor que 0 en otro intervalo y bastará, pues, con tomar
el menor de los dos intervalos para poder asegurar que tanto |ϕf (t)| como |1 − ϕk (th)| son positivos.
2.2.
Representación asintótica del ancho de banda óptimo
A lo largo de la presente sección probaremos los resultados necesarios con el objetivo puesto en ver el
orden de convergencia del ancho de banda óptimo para el M ISE. Para ello, construiremos un desarrollo
adecuado para el sesgo y la varianza integrados para concluir con el Teorema ?? que proporciona el valor
de c0 de modo que hM ISE = c0 n−1/3 + o(n−1/3 ).
R
R
Denotemos, a partir de ahora, µ2 (k) = R z 2 k(z)dzy R(g) = g(x)2 dx para cualquier g ∈ L2 . Con
esta notación, podemos dar el siguiente lema.
24
El ancho de banda óptimo
Lema 2.11. Si k es simétrico, con µ2 (k) < ∞, y F tiene densidad f que es derivable con continuidad y
con f 0 ∈ L2 ∩ L∞ entonces el sesgo cuadrático integrado admite la siguiente expresión
IB 2 (h) =
1
µ2 (k)2 R(f 0 )h4 + o(h4 ),
4
cuando h → 0.
Demostración. De acuerdo a (??), podemos escribir la esperanza de Fnh como:
Z
EFnh (x) =
k(z)F (x − hz)dz.
R
Usando el desarrollo de Taylor para F (x − hz) alrededor de x tenemos que
2 2
Z
F (x − hz) = F (x) − hzf (x) + h z
1
(1 − t)f 0 (x − hzt)dt
0
y como F (x) =
R
k(z)F (x)dz, debido a que k integra 1, el sesgo de Fnh (x) puede ser reescrito como
Z
Z
Bx (h) = EFnh (x) − F (x) = k(z)F (x − hz)dz − F (x) = k(z)[F (x − hz) − F (x)]dz
Z
ZZ 1
= −hf (x) zk(z)dz + h2
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
0
= h2
ZZ
1
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
(2.7)
0
R
donde estamos usando, además, que zk(z)dz = 0, debido a que k es simétrico.
A continuación, elevando al cuadrado e integrando obtenemos que el sesgo cuadrático integrado puede
ser escrito como
Z
Z h ZZ 1
i2
IB 2 (h) = Bx (h)2 dx = h4
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx.
0
RR 1
Denotemos ahora I(x; h) = 0 z 2 k(z)(1 − t)f 0 (x − hzt)dtdz. Como por hipótesis µ2 (k) < ∞ y f 0 es
continua y acotada tenemos que
2
z k(z)(1 − t)f 0 (x − hzt) ≤ z 2 k(z)(1 − t) kf 0 k∞
con
1
ZZ
2
z k(z)(1 − t) dt dz < ∞,
0
luego, por el Teorema de la Convergencia Dominada (TCD), sabemos que para cada x fijo,
1
ZZ
z 2 k(z)(1 − t)f 0 (x)dtdz = µ2 (k)f 0 (x)
lı́m I(x; h) =
h→0
0
Z
1
(1 − t)dt
0
1
= µ2 (k)f 0 (x)
2
Aplicando ahora el Lema de Fatou:
1
µ2 (k)2 R(f 0 ) =
4
Z
1
µ2 (k)2 f 0 (x)2 dx =
4
Z
Z
2
lı́m inf I(x; h) dx ≤ lı́m inf
h→0
h→0
I(x; h)2 dx
(2.8)
2.2. Representación asintótica del ancho de banda óptimo
25
Para obtener la correspondiente desigualdad para el lı́m sup tengamos en cuenta que, usando de nuevo
la desigualdad de Cauchy-Schwarz,
2
I(x; h) ≤
1
hZ Z
1
ih Z Z
u k(u)(1 − t)dtdu
2
0
1
= µ2 (k)
2
i
u2 k(u)(1 − t)f 0 (x − hut)2 dtdu
0
1
Z Z
u2 k(u)(1 − t)f 0 (x − hut)2 dtdu
0
ası́ que
Z
lı́m sup
I(x; h)2 dx ≤
h→0
1
µ2 (k)2 R(f 0 ).
4
(2.9)
R
Las desigualdades (??) y (??) implican que lı́mh→0 I(x; h)2 dx existe y es igual a 41 µ2 (k)2 R(f 0 ) y, de
este modo, logramos el desarrollo deseado para el sesgo cuadrático integrado, ya que hemos probado que
h−4 IB 2 (h) →
1
µ2 (k)2 R(f 0 )
4
cuando h → 0.
Lema 2.12. En las mismas condiciones que el lema anterior y suponiendo además que f ∈ L2 y que
R
|xf (x)| dx < ∞,
h2 1
1
IV (h) = ψ(F ) − hψ(K) + O
, cuando h → 0.
(2.10)
n
n
n
Demostración. Para cada punto fijo x, podemos escribir
x − X i2 o
1 n h x − X1 2 i h
1
E K
− EK
Var[Fnh (x)] =
n
h
h
de acuerdo a (??).
Para el segundo sumando, razonamos del mismo modo que en (??) y ası́ obtenemos
Bx (h) = h2
1
ZZ
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
0
de modo que
x − X EK
1
h
= F (x) + Bx (h) = F (x) + h2
1
ZZ
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
0
Elevando al cuadrado vemos que
ZZ 1
h
x − X i2
1
= F (x)2 + 2h2 F (x)
z 2 K(z)(1 − t)f 0 (x − hzt)dtdz
EK
h
0
ZZ 1
2
4
2
+h
z k(z)(1 − t)f 0 (x − hzt)dtdz
0
Recordemos que por (??) tenemos que,
ZZZ 1
h x − X 2 i
1
= F (x) − h
k(z1 )k(z2 ) máx{z1 , z2 }f (x − ht máx{z1 , z2 })dtdz1 dz2 .
E K
h
0
(2.11)
26
El ancho de banda óptimo
Uniendo (??) y (??) obtenemos
1n
Var[Fnh (x)] =
F (x)(1 − F (x))
n
ZZZ 1
−h
k(z1 )k(z2 ) máx{z1 , z2 }f (x − ht máx{z1 , z2 })dtdz1 dz2
0
− 2h2 F (x)
ZZ
1
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
o
0
− h4
1
ZZ
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz
2
0
R
R
Integrando lo anterior, y como F (1 − F ) < ∞ debido a la hipótesis que establece que |xf (x)| dx <
∞, tenemos que
Z
Z
1
F (x)[1 − F (x)]dx
IV (h) = Var[Fnh (x)]dx =
n
ZZZZ 1
1
− h
k(z1 )k(z2 ) máx{z1 , z2 }f (x − ht máx{z1 , z2 })dtdz1 dz2 dx
n
0
ZZZ 1
2 2
− h
z 2 k(z)(1 − t)f 0 (x − hzt)F (x)dtdzdx
n
0
Z ZZ 1
i2
1 4 h
− h
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx
n
0
Z
1
1
=
F (x)[1 − F (x)]dx − hψ(K)
n
n
ZZZ 1
2
z 2 k(z)(1 − t)f 0 (x − hzt)F (x)dtdzdx
− h2
n
0
Z ZZ 1
i2
1 4 h
− h
z 2 k(z)(1 − t)f 0 (x − hzt)dtdz dx
n
0
R
donde hemos utilizado que f (x − ht máx{z1 , z2 }) dx = 1 por ser f función de densidad.
Ahora, si probamos que las integrales del tercer y cuarto sumando están acotados por una constante
que no depende de h ni n, entonces quedará probado que
h2 h4 1
F (x)[1 − F (x)]dx − hψ(K) + O
+O
n
n
n
4
2
tal y como querı́amos demostrar, ya que O hn = o hn porque h → 0.
Respecto al cuarto sumando, podemos ver que
Z Z Z 1
ZZZ 1
2
0
≤
z
k(z)(1
−
t)f
(x
−
hzt)F
(x)dtdzdx
z 2 k(z)(1 − t)|f 0 (x − hzt)F (x)|dtdzdx
1
IV (h) =
n
0
Z
0
Para continuar, integremos por partes del siguiente modo:
Z
0
f (x − hzt)dx = dv ⇒ v = f 0 (x − hzt)dx = f (x − hzt)
F (x) = u ⇒ f (x)dx = du
(2.12)
2.2. Representación asintótica del ancho de banda óptimo
27
De esta manera,
Z
Z
Z
f 0 (x − hzt)F (x)dx = [F (x)f (x − hzt)]+∞
−
f
(x
−
hzt)f
(x)dx
=
−
f (x − hzt)f (x)dx
−∞
supuesto que lı́mx→±∞ f (x) = 0. Pero esto último es consecuencia, de acuerdo a los resultados auxiliares
del Apéndice A, de decir que f y f f 0 son integrables. Y f y f f 0 son integrables debido a que hemos
supuesto que f 2 y f 02 son integrables (f también lo es por ser función de densidad) y al Teorema de
Cauchy-Schwarz:
hZ
f (x)f 0 (x) dx
i2
Z
≤
2
Z
|f (x)| dx
2
|f 0 (x)| dx
Ası́, podemos continuar:
ZZZ 1
(??) =
z 2 k(z)(1 − t)f (x − hzt)f (x)dtdzdx
0
1
ZZ
z 2 k(z)(1 − t)
=
Z
f (x − hzt)f (x)dxdtdz
0
1
ZZ
z 2 k(z)(1 − t)
≤
Z
f (x − hzt)2 dx
1/2 Z
f (x)2 dx
1/2
Z
dtdz =
0
1
f (x)2 µ2 (k) dx
2
sin más que usar de nuevo la desigualdad de Cauchy-Schwarz.
Por otro lado, en relación al tercer sumando, y usando una vez más la desigualdad de Cauchy-Schwarz,
obtenemos:
ZZZZ 1 Z 1
z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − hzt)f 0 (x − huw)dtdzdudwdx
0
≤
0
h ZZZZ
h ZZZZ
1
0
1
Z
Z
1
z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − hzt)2
i1/2
0
1
z 2 k(z)(1 − t)w2 k(w)(1 − u)f 0 (x − huw)2
0
0
Z
i1/2
h
1
1
f 0 (x − hzt)2 dx
= µ2 (k) µ2 (k)
2
2
Z
h
i1/2
1
1
× µ2 (k) µ2 (k)
f 0 (x − huw)2 dx
2
2
1
1
1
1
0 12
= µ2 (k) R(f ) µ2 (k) R(f 0 ) 2 = µ2 (k)2 R(f 0 )
2
2
4
tal y como querı́amos.
×
i1/2
Una vez que hemos hallado IB 2 (h) y IV (h) y de acuerdo a la descomposición del M ISE en suma
de dichas dos componentes, pasemos a enunciar el siguiente teorema que recoge lo estudiado en los dos
lemas anteriores.
Teorema 2.13. Si k es simétrico, con µ2 (k) < ∞, y F tiene densidad f tal que f ∈ L2 , es derivable con
R
continuidad y |xf (x)| dx < ∞, y además f 0 ∈ L2 ∩ L∞ entonces
M ISE(h) = IB 2 (h) + IV (h) = AM ISE(h) + O
h2 n
+ o(h4 )
28
El ancho de banda óptimo
siendo AM ISE(h) =
1
n ψ(F )
− nh ψ(K) + 41 h4 µ2 (k)2 R(f 0 )
Corolario 2.14. Existe un ancho de banda asintóticamente óptimo, que denotaremos hAM ISE , que
minimiza el error cuadrático integrado medio asintótico (AMISE). Dicho ancho de banda óptimo es
hAM ISE = c0 n−1/3 donde
c0 = ψ(K)1/3 µ2 (K)−2/3 R(f 0 )−1/3
(2.13)
Además, para dicho hAM ISE , el AMISE cometido, que denotaremos AM ISEo , viene dado por
3
AM ISEo = ψ(F )n−1 − µ2 (K)−2/3 ψ(K)4/3 R(f 0 )−1/3 n−4/3
4
Demostración. Hemos visto en el teorema anterior que
1
1
1
ψ(F ) − hψ(K) + h4 µ2 (k)2 R(f 0 )
n
n
4
Hallando el h que minimiza el valor de dicha expresión, obtenemos:
AM ISE(h) =
∂AM ISE
= −n−1 ψ(K) + h3 µ22 (k)R(f 0 ) = 0
∂h
Por tanto,
hAM ISE = n−1/3 ψ(K)1/3 µ2 (k)−2/3 R(f 0 )−1/3 = c0 n−1/3 .
Y sustituyendo el hAM ISE en la expresión del AMISE llegamos a que:
AM ISEo = n−1 ψ(F ) − n−4/3 ψ(K)4/3 µ2 (k)−2/3 R(f 0 )−1/3
1
+ µ2 (K)2 R(f 0 )n−4/3 ψ(K)4/3 µ2 (k)−8/3 R(f 0 )−4/3 =
4
3
= ψ(F )n−1 − µ2 (k)−2/3 ψ(K)4/3 R(f 0 )−1/3 n−4/3
4
Restando el término n−1 ψ(F ) al M ISE obtenemos lo que denotaremos por M :
M (h) = M ISE(h) − n−1 ψ(F ).
Por tanto, en virtud del teorema anterior podemos escribir
h2 M (h) = AM (h) + O
+ o(h4 )
n
donde
1
AM (h) = −n−1 hψ(K) + h4 µ2 (K)2 R(f 0 )
4
Teorema 2.15. Bajo las condiciones del Teorema ??, existe U ∈ R, tal que
0 ≤ n1/3 hM ISE ≤ U, para casi todo n ∈ N.
Es más, se cumple que lı́mn→∞ n1/3 hM ISE = c0 , donde c0 viene dado por (??), de modo que, como
consecuencia, podemos escribir
hM ISE = c0 n−1/3 + o(n−1/3 ),
es decir,
hAM ISE
hM ISE
→ 1.
2.2. Representación asintótica del ancho de banda óptimo
29
Demostración. De acuerdo con la notación antes señalada, y tomando h = cn−1/3 , tenemos que
1
M (cn−1/3 ) = −cn−4/3 ψ(K) + c4 n−4/3 µ2 (k)2 R(f 0 ) + O(n−5/3 ) + o(n−4/3 )
4
h
i
1
= n−4/3 − cψ(K) + c4 µ2 (k)2 R(f 0 ) + O(n−5/3 ) + o(n−4/3 )
4
Tomando lı́mites, obtenemos
1
lı́m n4/3 M (cn−1/3 ) = −cψ(K) + c4 µ2 (k)2 R(f 0 ).
4
n→∞
(2.14)
Nótese que, precisamente, el c que minimiza ese lı́mite es c0 .
De acuerdo a la definición de hM ISE tenemos que
n4/3 M (cn−1/3 ) ≥ n4/3 M (hM ISE ).
Tomando lı́mite en la expresión anterior y de acuerdo a (??), tenemos que:
1
−cψ(K) + c4 µ2 (k)2 R(f 0 ) ≥ lı́m sup n4/3 M (hM ISE )
4
n→∞
(2.15)
De aquı́ deducimos que lı́m supn→∞ n1/3 hM ISE < ∞. Veámoslo razonando por contradicción. Supongamos que lı́m supn→∞ n1/3 hM ISE = +∞. Entonces,
1
− cψ(K) + c4 µ2 (k)2 R(f 0 ) ≥ lı́m sup n4/3 M (hM ISE )
4
n→∞
h
i
2
4/3 1 4
= lı́m sup n
hM ISE µ2 (k) R(f 0 ) + o(h4M ISE ) − n−1 hM ISE ψ(K) + O(n−1 h2M ISE )
4
n→∞
1 4/3 4
= lı́m sup n hM ISE µ2 (k)2 R(f 0 ) + n4/3 o(h4M ISE ) − n1/3 hM ISE ψ(K) + O(n1/3 h2M ISE )
n→∞ 4
h
1
i
= lı́m sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + o(1) + (n1/3 hM ISE )(−ψ(K) + o(n1/3 hM ISE )
4
n→∞
h
i
1
= lı́m sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + an + (n1/3 hM ISE )(−ψ(K) + bn )
4
n→∞
donde an y bn son sucesiones que convergen a 0.
Como 14 µ2 (k)2 R(f 0 ) > 0 entonces ∃n1 ∈ N suficientemente grande tal que ∀n > n1 ,
1
1
µ2 (k)2 R(f 0 ) + an ≥ µ2 (k)2 R(f 0 ).
4
8
Y como −ψ(K) < 0 entonces ∃n2 ∈ N suficientemente grande tal que ∀n > n2 ,
−ψ(K) + bn ≥ −2ψ(K).
Por tanto, para n0 = máx{n1 , n2 } tenemos que ∀n > n0 ,
1
1
µ2 (k)2 R(f 0 ) + an ≥ µ2 (k)2 R(f 0 )
4
8
30
El ancho de banda óptimo
y
−ψ(K) + bn ≥ −2ψ(K).
De acuerdo con esto, llegamos a que
1
− cψ(K) + c4 µ2 (k)2 R(f 0 )
4
h
1
i
≥ lı́m sup (n1/3 hM ISE )4 µ2 (k)2 R(f 0 ) + (n1/3 hM ISE )(−2ψ(K))
8
n→∞
= lı́m sup[c2 x4n − c1 xn ] = lı́m sup xn [c2 x3n − c1 ] = +∞
n→∞
n→∞
ya que c2 = 81 µ2 (k)2 R(f 0 ) > 0 y donde hemos denotado xn = n1/3 hM ISE y c1 = 2ψ(K). De este modo
hemos llegado a contradicción.
Por tanto, como acabamos de probar que lı́m supn→∞ n1/3 hM ISE < ∞, tenemos que existe U ∈ R
con U < ∞ y tal que
n1/3 hM ISE ≤ U, para casi todo n ∈ N.
Como cota inferior podemos considerar el 0 pues, por definición, hM ISE ≥ 0. Por tanto, a partir de
un cierto n, todos los términos de la sucesión {n1/3 hM ISE }n están en el intervalo [0, U ]. Por consiguiente,
existe una subsucesión de {n1/3 hM ISE }n que es convergente; llamamos l a dicho lı́mite.
De acuerdo a esto y al desarrollo de M (h) valorado en h = hM ISE obtenemos que
1
n4/3 M (hM ISE ) = −n1/3 hM ISE ψ(K) + n4/3 h4M ISE µ2 (k)2 R(f 0 )
4
+ O(n1/3 h2M ISE ) + n4/3 o(h4M ISE )
por lo que la correspondiente subsucesión de {n4/3 M (hM ISE )}n tendrá lı́mite
1
−lψ(K) + l4 µ2 (k)2 R(f 0 ).
4
Pero según (??),
1
1
−c0 ψ(K) + c40 µ2 (k)2 R(f 0 ) ≥ −lψ(K) + l4 µ2 (k)2 R(f 0 )
4
4
Como c0 era el único valor positivo que hacı́a mı́nima la expresión anterior, tiene que ser l = c0 .
Con el razonamiento anterior se prueba además que c0 es el único valor de adherencia de la sucesión
{n1/3 hM ISE }n en [0, U ]. Pero todos los elementos de dicha sucesión están en [0, U ] a partir de uno dado,
por tanto, la sucesión tiene lı́mite y dicho lı́mite es c0 .
Capı́tulo 3
Estudio de simulación
A lo largo del presente capı́tulo desarrollaremos un trabajo de simulación en el que compararemos el
ISE cometido con la función de distribución empı́rica y el ISE cometido con el estimador núcleo de la
distribución.
Para ello generaremos 100 muestras de cada una de las diez primeras densidades de Marron & Wand
(1992) [?] para diversos tamaños muestrales (n = 50, n = 100 y n = 200) y realizaremos diagramas
de cajas conjuntos donde comparar el ISE cometido por la función de distribución empı́rica y por el
estimador núcleo de la distribución tomando h = hISE , el valor que minimizaba ISE(h).
Pueden verse los diversos programas utilizados para el estudio de simulación en el Apéndice B.
Recordemos cuáles eran dichas densidades de Marron y Wand procedentes de diversas mixturas de
densidades y adjuntemos a continuación los gráficos resultantes de la simulación detallada anteriormente
para datos procedentes de las mencionadas diez distribuciones de Marron y Wand:
31
32
Estudio de simulación
Densidad 2
0.4
Densidad 1
0.4
0.3
f(x)
0.0
0.0
0.1
0.1
0.2
0.2
f(x)
0.3
0.5
N(0,1)
Densidad de M.W.
−2
−1
0
1
2
3
−3
−2
−1
0
x
x
Densidad 3
Densidad 4
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
f(x)
0.0
0.0
0.2
0.4
0.5
0.6
f(x)
0.8
1.0
1.0
1.2
1.5
1.4
−3
−2
−1
0
1
2
3
−3
−2
−1
0
x
x
Densidad 5
Densidad 6
−2
−1
0
1
2
3
−3
−2
−1
0
x
x
Densidad 7
Densidad 8
f(x)
0.0
0.0
0.1
0.1
0.2
0.2
0.3
0.3
0.4
0.4
−3
f(x)
0.2
f(x)
0
0.0
0.1
1
f(x)
2
0.3
3
0.4
−3
−2
−1
0
1
2
3
−3
−2
−1
0
x
x
Densidad 9
Densidad 10
0.3
f(x)
0.2
0.2
0.1
0.1
0.0
0.0
f(x)
0.4
0.3
0.5
0.4
0.6
−3
−3
−2
−1
0
x
1
2
3
−3
−2
−1
0
x
Figura 3.1: Densidades de Marron y Wand.
Estudio de simulación
33
0.35
Densidad 2 de Marron y Wand
ISE(h=0)
ISE(h=hISE)
●
●
●
●
●
●
0.25
●
●
●
●
0.02
●
●
●
●
●
●
●
●
●
●
●
●
0.01
●
●
0.20
●
●
●
●
●
●
●
●
0.15
0.03
ISE(h=0)
ISE(h=hISE)
0.30
0.04
●
●
●
●
●
●
●
●
0.10
0.05
Densidad 1 de Marron y Wand
●
●
0.00
●
●
n=50
n=50
n=100
n=100
n=200
n=200
n=50
n=100
n=200
n=200
●
ISE(h=0)
ISE(h=hISE)
1.2
0.05
0.06
ISE(h=0)
ISE(h=hISE)
1.4
n=100
Densidad 4 de Marron y Wand
0.07
Densidad 3 de Marron y Wand
n=50
0.04
●
0.03
1.0
●
●
●
●
●
●
●
●
0.01
0.8
0.02
●
●
0.6
●
●
●
●
●
●
●
●
●
0.00
●
n=50
n=50
n=100
n=100
n=200
n=200
n=50
●
●
n=50
n=100
n=100
n=200
n=200
Densidad 6 de Marron y Wand
0.08
Densidad 5 de Marron y Wand
●
ISE(h=0)
ISE(h=hISE)
0.06
0.15
ISE(h=0)
ISE(h=hISE)
●
●
0.02
0.05
0.04
0.10
●
0.00
●
n=50
n=50
●
n=100
n=100
n=200
n=200
n=50
n=50
n=100
n=100
n=200
n=200
Densidad 8 de Marron y Wand
0.25
Densidad 7 de Marron y Wand
●
●
0.15
ISE(h=0)
ISE(h=hISE)
ISE(h=0)
ISE(h=hISE)
●
●
0.15
0.10
0.20
●
●
0.10
0.05
●
●
0.00
●
n=50
n=50
n=100
n=100
n=200
n=200
n=50
n=50
n=100
n=100
●
●
n=200
●
ISE(h=0)
ISE(h=hISE)
●
n=200
Densidad 10 de Marron y Wand
0.04
0.10
Densidad 9 de Marron y Wand
ISE(h=0)
ISE(h=hISE)
●
●
0.03
0.08
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.01
0.04
0.02
0.06
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.02
●
●
0.00
●
●
n=50
n=50
n=100
n=100
n=200
n=200
n=50
n=50
n=100
n=100
n=200
n=200
Figura 3.2: Comparación del ISE para Fnh y Fn con las densidades de Marron y Wand.
34
Estudio de simulación
Como primera observación clara del presente estudio de simulación, es señalable que la estimación
por parte de la distribución empı́rica es, en términos absolutos, relativamente buena con errores globales
bajos. Sin embargo, a la hora de realizar una comparativa que enfrente a los dos estimadores objeto de
estudio, puede verse que es claramente preferible el estimador núcleo, el cual comete un error mucho
menor para todas las densidades.
En algunas de las muestras el estimador núcleo es preferible aunque no claramente superior (densidades
6, 8 y 9), pero en las restantes densidades (densidades 1, 2, 3, 4, 5, 7 y 10) es significativamente preferible
el estimador núcleo, ya que mejora considerablemente en términos de ISE a la función de distribución
empı́rica, llegando a cometer un error hasta 15 veces menor para los datos procedentes de la densidad
5 en cualquiera de los distintos tamaños muestrales. Podemos apreciar en la siguiente figura, donde
hemos representado la función M ISE para 500 muestras de tamaño muestral n = 100 de la densidad 5
de Marron y Wand, cómo es posible mejorar sustancialmente con respecto a la función de distribución
empı́rica mediante la elección óptima de h. En tal figura apreciamos que M ISE(0) = 0,14770 mientras
que M ISE(hM ISE ) = 0,00284.
●
0.00
0.05
MISE(h)
0.10
0.15
Elección del h óptimo
0.0
0.2
0.4
0.6
0.8
1.0
h
Figura 3.3: M ISE(h) para la densidad 5 de Marron y Wand y n = 100
Todos estos resultados de simulación han sido desarrollados calculando el hISE , el cual, como hemos
visto en los capı́tulos anteriores es desconocido en la práctica. No obstante, la búsqueda de selectores de
ancho de banda b
h, a partir de los datos, será objeto de futuro estudio.
Apéndice A
Algunos resultados auxiliares
A lo largo del presente apéndice desarrollaremos algunos resultados auxiliares que han sido utilizados
en el presente trabajo pero cuyas demostraciones no considerábamos adecuado incluir en el lugar en que
se utilizaban por diversos motivos.
Dichos resultados, pues, serán enunciados y demostrados con todo detalle en este apéndice.
Lema A.1. Sea g : R → R una función continuamente diferenciable tal que g y gg 0 son integrables.
Entonces lı́m|x|→+∞ g(x) = 0.
Demostración. La integrabilidad de g es suficiente para probar que el lı́mite lı́m|x|→+∞ |g(x)| existe y es
finito. Sea (xn ) una sucesión estrictamente creciente de números reales no negativos convergente a +∞
tal que x0 = 0. Tenemos entonces que
g 0 gI[0,+∞)
=
∞
X
g 0 gI[xk ,xk+1 )
k=0
=
lı́m fn ,
donde
fn =
n
X
g 0 gI[xk ,xk+1 ) ,
k=0
de modo que
|fn | ≤
∞
X
|g 0 g|I[xk ,xk+1 ) = |g 0 g|.
k=0
De la hipótesis de integrabilidad de |g 0 g| y el Teorema de la Convergencia Dominada de Lebesgue
obtenemos que
Z +∞
Z +∞
0
g g = lı́m
fn ,
0
0
35
36
Algunos resultados auxiliares
donde, debido a la continuidad de g 0 ,
n Z
X
+∞
Z
fn
=
0
+∞
g 0 gI([xk , xk+1 [)
0
k=0
n Z xk+1
X
=
k=0
n
X
=
k=0
g0 g
xk
1
(g(xk+1 )2 − g(xk )2 )
2
1
(g(xn+1 )2 − g(0)2 ).
2
=
Por lo tanto,
+∞
Z
0
1
g 0 g = lı́m (g(xn+1 )2 − g(0)2 ),
2
lo cual prueba que
2
2
+∞
Z
g 0 g.
lı́m g(x) = g(0) + 2
x→+∞
0
De un modo análogo, puede verse que
2
2
Z
0
lı́m g(x) = g(0) − 2
x→−∞
g 0 g.
−∞
Corolario A.2. Si g : R → R es una función diferenciable tal que g 0 es continua y acotada y g es
integrable, entonces lı́m|x|→+∞ g(x) = 0.
Apéndice B
Funciones implementadas
Programa para pintar la función de distribución de una N (0, 1), Fn y Fnh .
pintanormalFnFnh<-function(n=20){
Fnh<-function(x,h){
colSums(punif((matrix(rep(x,each=n),n,length(x))-muestra)/h,
-sqrt(3),sqrt(3)))/n
}
integrando<-function(x,h){
(Fnh(x,h)-pnorm(x))^2
}
integral<-function(h){
x<-seq(-5,5,length=10000)
(sum(integrando(x,h)))*(x[2]-x[1])
}
ISE0<-0
ISEh0<-0
muestra<-rnorm(n)
h0<-optimize(integral,lower=0,upper=3)$minimum
plot(a<-seq(-3,3,0.1),pnorm(a),type="l",xlab="x",ylab="F(x)",main=
expression(paste("Comparativa entre ",Phi,", ",F[nh]," y ",F[n])))
lines(a,Fnh(a,0),col=2)
lines(a,Fnh(a,h0),col=3)
37
38
Funciones implementadas
legend(-2,1,c(expression(Phi),expression(F[nh]),expression(F[n])),fill=
c(1,3,2))
}
pintanormalFnFnh(20)
Programa para representar el ISE(h) según valores de h.
hoptimo<-function(n=20){
Fnh<-function(x,h){
colSums(punif((matrix(rep(x,each=n),n,length(x))-muestra)/h,-sqrt(3),
sqrt(3)))/n
}
integrando<-function(x,h){
(Fnh(x,h)-pnorm(x))^2
}
integral<-function(h){
x<-seq(-5,5,length=10000)
(sum(integrando(x,h)))*(x[2]-x[1])
}
ISEh0<-0
muestra<-rnorm(n)
h0<-optimize(integral,lower=0,upper=3)$minimum
h<-seq(0,1.5,0.02)
for(i in h){
ISEh0<-c(ISEh0,integral(i))
}
plot(h,ISEh0[2:(length(h)+1)],type="l",xlab="h",ylab="ISE(h)",main=
"Elección del h óptimo")
Funciones implementadas
}
hoptimo(20)
Programa para representar el M ISE(h) según valores de h
hoptimo<-function(b=500,n=20){
Fnh<-function(x,h){
colSums(punif((matrix(rep(x,each=n),n,length(x))-muestra)/h,-sqrt(3),
sqrt(3)))/n
}
integrando<-function(x,h){
(Fnh(x,h)-pnorm(x))^2
}
integral<-function(h){
x<-seq(-5,5,length=10000)
(sum(integrando(x,h)))*(x[2]-x[1])
}
h<-seq(0,1,0.01)
ISESh0<-matrix(0,length(h),b)
for(j in 1:b){
ISEh0<-0
muestra<-rnorm(n)
h0<-optimize(integral,lower=0,upper=3)$minimum
for(i in h){
ISEh0<-c(ISEh0,integral(i))
}
ISESh0[,j]<-ISEh0[2:(length(h)+1)]
}
MISE<-rowSums(ISESh0)/b
plot(h,MISE,type="l",xlab="h",ylab="MISE(h)",main=
"Elección del h óptimo",xlim=c(0,1))
39
40
Funciones implementadas
points(0,MISE[1],lwd=8)
cat("MISE(0)=",MISE[1],"\n","MISE(h_MISE)",min(MISE))
}
hoptimo(500,20)
Programa para representar las densidades de Marron y Wand junto a la normal estándar. Para
las otras densidades de Marron y Wand, se usa un programa análogo donde simplemente se debe
cambiar MW.nm1 por la densidad correspondiente además del tı́tulo del boxplot.
library(nor1mix)
plot(a<-seq(-3,3,0.01),dnorMix(a,MW.nm1),col=2,type="l",main="Densidad
1",xlab="x",ylab="f(x)")
lines(a,dnorm(a),lty=2)
legend(-3,0.4,c("N(0,1)","Densidad de M.W."),fill=c(1,2))
Programa para representar boxplots conjuntos para la comparación del M ISE(h) cometido por
Fnh y Fn para b = 100 muestras de tamaños muestrales n = 50, 100 y 200 provenientes de la
densidad 1 de Marron y Wand.
Para las otras densidades de Marron y Wand, es un programa análogo donde simplemente se debe
cambiar MW.nm1 por la densidad correspondiente además del tı́tulo del boxplot.
library(nor1mix)
# b es el número de muestras
# n es el tama~
no de cada muestra
simulacion<-function(b=100){
Fnh<-function(x,h){
colSums(punif((matrix(rep(x,each=n),n,length(x))-muestra)/h,-sqrt(3),
sqrt(3)))/n
}
integrando<-function(x,h){
(Fnh(x,h)-pnorm(x))^2
}
integral<-function(h){
x<-seq(-5,5,length=10000)
(sum(integrando(x,h)))*(x[2]-x[1])
Funciones implementadas
}
ISE0<-0
ISEh0<-0
n=50
for (i in 1:b){
muestra<-rnorMix(n,MW.nm1)
h0<-optimize(integral,lower=0,upper=3)$minimum
ISE0<-c(ISE0,integral(0))
ISEh0<-c(ISEh0,integral(h0))
}
ISE1<-0
ISEh1<-0
n=100
for (i in 1:b){
muestra<-rnorMix(n,MW.nm1)
h0<-optimize(integral,lower=0,upper=3)$minimum
ISE1<-c(ISE1,integral(0))
ISEh1<-c(ISEh1,integral(h0))
}
ISE2<-0
ISEh2<-0
n=200
for (i in 1:b){
muestra<-rnorMix(n,MW.nm1)
h0<-optimize(integral,lower=0,upper=3)$minimum
ISE2<-c(ISE2,integral(0))
41
42
Funciones implementadas
ISEh2<-c(ISEh2,integral(h0))
}
boxplot(ISE0[2:(b+1)],ISEh0[2:(b+1)],ISE1[2:(b+1)],ISEh1[2:(b+1)],
ISE2[2:(b+1)],ISEh2[2:(b+1)],names=c("n=50","n=50","n=100",
"n=100","n=200", "n=200"),col=c(3,4,3,4,3,4),main="Densidad 1
de Marron y Wand")
legend(4,max(ISE0),c("ISE(h=0)",expression(ISE(paste("h=",h[ISE])))),
fill=c(3,4))
}
simulacion(100)
Bibliografı́a
[1] Abdous B. (1993). Note on the minimum mean integrated squared error of kernel estimates of a
distribution function and its derivates. Communications in Statistics, 22, 603-609.
[2] Akaike, H. (1954). An approximation to the density function. Annals of the Institute of Statistical
Mathematics, 6, 127-132.
[3] Altman, N. & Léger, C. (1995). Bandwidth selection for kernel distribution function estimation.
Journal of Statistical Planning and Inference, 46, 195-214.
[4] Apostol (1991). Calculus: Volumen 1. Cálculo con funciones de una variable, con una introducción al
álgebra lineal. Reverté. Barcelona.
[5] Chacón, J.E. (2004). Estimación de densidades: algunos resultados exactos y asintóticos. Servicio de
Publicaciones de la Universidad de Extremadura. Cáceres.
[6] Chacón, J.E. & Rodrı́guez-Casal, A. (2010). A note on the universal consistency of the kernel distribution function estimator. Statistics and Probability Letters, 80, 1414-1419.
[7] Del Barrio, E., Giné, E. & Matrán, C. (1999). Central limit theorems for the wasserstein distance
between the empirical and the true distributions. The Annals of Probability, 27, 1009-1071.
[8] Devroye, L. (1983). The equivalence of weak, strong and complete convergence in L1 for kernel density
estimates. Annals of Statistics, 11, 896-904.
[9] Fix, E. & Hodges, J.L. (1951). Discriminatory analysis, nonparametric estimation: consistency propierties. Report No. 4, Project no. 21-49-004, USAF School of Aviation Medicine. Randolph Field,
Texas.
[10] Jones, M.C. (1990). The performance of kernel density functions in kernel distribution function
estimation. Statistics & Probability Letters, 9, 129-132.
[11] Kawata, T. (1972). Fourier analysis in probability theory. Academic Press. New York.
[12] Marron, J.S. & Wand, M.P. (1992). Exact mean integrated square error. Annals of Statistics, 20,
712-736.
[13] Massart, P. (1990). The tight constant in the Dvoretzky-Kiefer-Wolfowitz inequality. The Annals of
Probability, 18, 1269-1283.
43
44
BIBLIOGRAFÍA
[14] Nadaraya, E.A. (1964). Some new estimates for distribution functions. Theory Probability Applications, 15, 497-500.
[15] Nickl, R. (2010) Nonparametric statistical theory. Cambridge University Press.
[16] Nogales, A.G. (1998) Estadı́stica matemática. Servicio de Publicaciones de la Universidad de Extremadura. Cáceres.
[17] Parzen, E. (1962). On the estimation of a probability density function and the mode. Annals of
Mathematical Statistics, 33, 1065-1076.
[18] Pérez, R. (1986). Nociones básicas de estadı́stica. Servicio de Publicaciones de la Universidad de
Oviedo.
[19] Prakasa Rao, B.L.S. (1983). Nonparametric functional estimation. Academic Press. New York.
[20] Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density function. Annals of
Mathematical Statistics, 27, 832-837.
[21] Silverman, B.W. (1986). Density estimation for statistics and data analysis. Chapman & Hall. London.
[22] Silverman, B.W. & Jones, M.C. (1989). E. Fix & J.L. Hodges (1951): an important unpublished
contribution to nonparametric discriminant analysis and density estimation. International Statistical
Review, 57, 233-247.
[23] Swanepoel, J. (1988). Mean integrated square error properties and optimal kernels when estimating
a distribution function. Communications in Statistics-Theory Methods, 17, 3785-3799.
[24] Tenreiro, C. (2006). Asymptotic behaviour of multistage plug-in bandwidth selections for kernel
distribution function estimators. Nonparametric Statistics, 18, 101-116.
[25] Van der Vaart A.W. (1998). Asymptotic statistics. Cambridge University Press.
Descargar