Estimación de Curvas asociadas a Series Temporales: el problema

Anuncio
ESTADISTICA ESPAÑOLA
Vol. 35, Núm. 133, 1993, págs. 377 a 40fi
Estimación de Curvas asociadas a Series
Temporales : el problema de Selección
de la Ventana
ALEJANDRO G2UINTELA DEL RIO
Departamento de Maternáticas - Facultad de Inforrnática
Universidad de La Coruña
RESUMEN
En este trabajo se estudian los distintos métodos existentes para obtener, de
manera automática a partir de los datos, el parámetro de suavización (banda o
ventana) correspondiente a la estimación no paramétrica, tipo núcleo, de curvas
de probabilidad (densidad, distribución y regresión) asociadas a muestras de
datos dependientes y, más en concreto, fuertemente m'rxing. Dichos métodos se
ajustan, en general, al procedimiento clásico de validación cruzada.
Para cada tipo de curva estudiada se propone una forma de seleccionar la
ventana, y se analiza mediante simulaciones la validez de tal método.
Palabras clave: Estimación no paramétrica, procesos fuertemente mixing, validación cruzada.
Clasificación AMS: 62G99.
.
INTRODUCCION
La estimación no paramétrica de curvas asociadas a modelos de probabilidad
constituye, hoy en día, una metodología de trabajo muy práctica para su utilización en amplios campos de distintas ciencias (medicina, biología, economía, etc.).
A la hora de aproximar una curva teórica de interés (densidad, distribución, razón
de fallo...} subyacente a un conjunto de datos, la metodología no paramétrica
evita el uso de la especificación concreta de una forma funcional y utiliza,
^ f'.-^ F' ^ ^^ t)! F"^
exclusivamente, las observaciones muestrales como herramienta de construcción de un estimador de dicha curva.
Si se dispone de una muestra (X^,X2,...,X^,) (X; E lRP) de datos procedentes de
!a observación de una variable aleatoria continua X, curvas de gran interés a
estudiar sobre la misma son su función de densidad, f, y su función de distribución
F. Si disponemos, en cambia, de una muestra {(X;, Y;)}^^ 1 con X; E IRp, Y E IR,
una curva de surna utilidad a la hora de proporcionar información sobre la nube
de puntos es !a función de regresián m(x) = E[Y/X = xj.
Existen diferentes tipos de estimadores no paramétricos de !as curvas anteriormente mencionadas. Monografías muy valiosas sobre estos temas son las de
Silverman (1986), para el caso concreta de ia densidad, y la de H^rdle (1990)
para !a regresión, Otros libros a destacar son el de Pral^asa Rao (1983), Devroye
(1987), y Gyi^rfi y otros (1990).
L.a mayoría de los estimadores no paramétricos admiten un formato general,
conocido como estimadores delta. Así tendríamos, para el caso de 1a densidad:
^
n
fh ^x ^ - n-1 ^ Sh tX+ Xi^
i- 1
(^)
siendo óh: IRPx ^P--^ IR- una función que nos indica el peso dei dato X; para la
estimación en el punto x.
Para la función de distribución:
n
n
Fh ^X^ = n^1 ^ S h Cxt Xi^
i= 1
x
siendo ó^ (x, U) =^ áh (t, U} dt
Y, en el caso de la regresión:
n
n^^ ^ Yi ^n (x, Xi)
^ (x) _
i=^ _
____
mh
n
n^1 ^ Yi Sn tx, Xi)
i_...1
Estimadores tan conocidos como e! núclea, el histograma o el de los desarroIlos ortogonales, se adaptan a este formato. De ellos, el más utilizado, qúe
trataremos en este trabajo, es el estimador núcleo, correspondiente a la elección
como función delta de
Sn (X^ u) = hsP K [íx--u)/h]
siendo K una función de IRp con valores en IR, con j K(t)dt =
(2)
E ^^11M1>(;'(_)fV Uf (.IJR`vA`.^ ^^;<)(:.IAf)A^ A `;E^^.'if ^ Tf n^^!^'i ) F^^2r^^I E ^-,
..
,3i_
En cualquiera de los estimadores construidos anteriormente para alguna de
las curvas en consideración, aparece como pieza fundamental de los mismos un
parámetro de escala, h, Ilamado parámetro de suavización, ventana o banda,
que nos indica el entorno de x en el que tomamos puntos muestrales que influyen
en la esti^mación concreta en el punto x. Este parámetro ventana h controla la
cantidad de suavización inherente a la estimación no paramétríca. Un valor
excesivo produce estimaciones con poca varianza pero muy «distanciadas» de
la verdadera función, y un valor muy pequer^o de h origina estimaciones con poco
sesgo, pero demasiado variables. Es, en cambio, conocido que la elección
concreta de la función K no influye demasiado en los resultados de la estimación.
Una función núcleo muy utilizada es la de Epanechnikov:
K(u) = 3/4(1--u2) si ^ u^ ^ 1 y 0 en otro caso
(3)
Por io indicado anteriormente, un problema primordial, y quizá el más
importante, a la hora de realizar la estimación de una curva, consiste en la
elección de un parámetro ventana o banda adecuado. EI problema de la
selección automática del valor h(única y exclusivamente a partir de los datos)
ha sido tratado exhaustivamente bajo la suposición de independencia de la
muestra. Puede consultarse el trabajo de Marron (1988) para una revisión de
las distintas técnicas disponibles en densidad y regresión. Otros trabajos
importantes son !os de Jones y otros (1992), y Cao y otros (1992a), que
realizan una descripción de distintas técnicas de selección de la ventana para
el estimador núcleo de la densidad, y estudios de simulación comparativos de
los mismos. En estos trabajos se analizan distintas metodologías (bootstrap,
técnicas plug-in, puntos de ínflexión...) y se obtienen algunos resultados comparativos (prácticos y teóricos).
Sin embargo, la hipótesis de independencia puede resultar errónea si, por
ejemplo, Ios datos han sido recogidos de forma secuencial en el tiempo.
Cuando las observaciones muestrales pertenecen a una serie temporal, la
metodología no paramétrica se adapta, sin excesivos problemas, al tratamiento con las mismas. Distintos estudios, como los de Castellana y Leadbetter
(1986), Robinson (1983), Roussas (1988) o Vilar Fernández (1989), entre
otros, indican que los estimadores na paramétricos se comportan sensiblemente bien cuando se trabaja con series de tiempo, alcanzándose propiedades asintóticas del mismo tipo que cuando se trabaja con datos independientes. Sin embargo, los estudios existentes hasta la actualidad (tanto de tipo
teórico como relativos a simulaciones) en lo tocante a la selección de la
ventana bajo hipótesis de dependencia, son menos numerosos que los desarrollados bajo supuestos de independencia. Es propósito de este trabajo ei
dar una visión de los distintos métodos disponibles hoy en día, bajo un
contexto general de dependencia. Así, en la sección 2 introducimos las condiciones teóricas de dependencia sobre las cuales trabajar. En la sección 3
t ^^^' ^^(1^
^^^3(_^
tratamos el problema de la selección de la ventana h en la estimación no
paramétrica de la funcián de densidad. En la sección 4 se aborda ei mismo
probiema cuando se estima ia función de distribución, y en la seccián 5
cuando se estima la función de regresián. Sin excesiva pérdida de generalidad
{los resultados que se den son fácilmente extensibles a varias dimensiones}
se tratará el caso unidimensional (p =^1).
2.
CONDiCIONES DE DEPENDENCIA Y CRITERiOS DE ERROR
Sea U; _(X;,Y;) una sucesión de variables aleatorias. Se dice
Definición 2.1
que {U;} es ^c-mixing o fuertemente mixing (Rosenblatt, 1956) si para cada
k,n E^V* y para cada conjunto A(resp. B) que es (U;,...,Uk)-med'+ble (resp. (Un+k,
Un+k+^,...)-medible), se tiene
^ P(AnB) - P(A}P(B)^ <a(n),
siendo a(n) una sucesión de números reales positivos que tiende a cero.
Esta condición de dependencia es muy general, y engloba, como caso importante debido a su aparicián en múltiples ejemplos, a las procesos ARMA can
ruido continuo [consultar, por ejemplo, Bradley (1986) para un estudio más
detaliado sobre este tipo de condicián].
Consideremos ahora los criterios para la valoración del comportamiento de un
estimador que utilice algún método automático de selección del parámetro ventana. Este criterio puede ser globa! o puntual, según se centre el interés en la
estimación por entero de la curva o la estimación en un punto particular.
Cuando consideramos la estimación en un único punto x, una medida natural
es el error cuadratico medio (mean squared error), definido por
MSEX (rn) = E [rn (x) - r (x)]2
{4)
con rh un estimador de alguna de las curvas de interés.
La forma más a menudo usada de medir el comportamiento global de nc ^omo
estimador de r es el error cuadrático medio integrado (MISE), definido por
MISE (rn) = E ^ jrh (x) - r(x)]2 w(x) dx
(5)
C^tras medidas globaies de interés son el error cuadrático promedio ( average
^
squared error)
n
ASE (rn) = n^1 i Lrr, (X^} -- r(X^)]2 w(X^)
^ -: ^
{6)
E `; ( EM^,( .1; iCJ (^)E (..l)F^VA`.^^ ^`^`^,(!(.iA[)t^`^ A ;^E f<'It `^,
f i "✓'F'^ .)F^:'1^ E `..
y el error cuadrátrco integrado ( integrated squared error)
ISE (rh) = j[r h(x} - r(x)]2 w(x) dx
(7)
representando w(^ ) alguna función de ponderación, que puede ser idénticamente
uno
Otras criterios se centran en considerar errores absolutos (i.e la norma L'), o
a norma del supremo. Estos dos úitimos casos han sido, en general, menos
tratados en la literatura sobre estimación no paramétrica, principalmente debido
a su mayor dificultad teórica. En este trabajo consideraremos los criterios de error
de tipo cuadrático.
Bajo la suposicián de que los datos sean fuertemente mixing, según la definición 2.1, los tres errores globales citados san asintóticamente equivalentes, en
el sentido de que si d y d' son dos errores cualesquiera (ASE, ISE o MISE) se
cumpte que
lim sup
n --> ^x^h E H^
d ^rh^
- d^ (rh^
__
d_ ^rhj_ _ _..
^ 0 casi seguro
(8)
donde H^ es un conjunto de posibles parámetros h, que se detallará más adelante. Esta propiedad de equivalencia asintótica ha sido demostrada por Vieu
(1991 b), y permite, en cierta forma, trabajar indistintamente con uno u otro tipo
de error. Además, dichos errores son, asintáticamente, los mismos que si se
trabajase con datos independientes. Más concretarnente, Vieu (1991 b) demuestra que
sup ^ MISE ( rh) - M1SE o(rh) I= 0(h^k)
(gi
h ^ H^
con MISEo el error que se originaria si los datos en estudio fuesen independientes, k el número de derivadas de la función a estirnar, y cansiderando que h tiende
a cero si n tiende a infinito. Un resultado del mismo estilo es el dado por Hall y
Hart (1990}, que estudian el MISE asociado al estimador núcleo de la densidad,
bajo la suposición de que la muestra (X^,...,X^) proviene de un proceso
cx ^
MA: X^ =^ ak Z ^_k, (con ^k ak <^} y demuestran que
k ^^ ^^
MISE (fh) ^ MISE o (fh) + Var (X) f(f^)2
siendo X la media muestral. AI n© depender de h el segundo término de esta
última expresión, la mejor velocidad de convergencia alcanzable por el MISE bajo
independencia no va a verse afectada por la dependencia de los datos.
E`^,,I^f.:)^ST^t:,A E ^;L'AN^u^I ^r
Estos resultados de tipo asintótico, sin embargo, necesitan un elevado tamaño
muestral para verificarse. Así, por ejemplo, Wand ( 1992), calcula la expresión
exacta del MISE para un proceso AR(1): Xt = pX t_^ + et, con densidad marginal
f y núcleo K gaussianas, y obtiene que, para p= 0.9, se necesita un tamaño
muestral de 486 para obtener ei mismo mínimo en la función MISE que cuando
n= 5o y p= 0(independencia). En general, lo mismo va a ocurrir cuando se elija
un parámetro de suavización. Aunque asintóticamente el parámetro óptimo sea
el mismo, no ocurrirá lo misma para tamaños muestrales finitos, como se pondrá
de manifiesto en los ejemplos de simulación que mostraremos rnás adelante.
3.
SELECCION AUTOMATICA DE LA VENTANA EN LA ESTIMACION DE
LA FUNCION DE DENSIDAD
Supongamos una muestra X^,X2,...,Xn de datos fuertemente mixing, con densidad común f. Para elegir un parámetro de suavización para el estimador núcleo
existen dos métodos, con !a denominación común de validación cruzada. EI
método clásico de validación cruzada de mínimos cuadrados («least-squares
cross-validation») propuesto por Rudemo (1982) y Bowman (1984), para datos
independientes, consiste en efegir el h que minimice la función
n n.
CV (h) = j f^ ( x) w(x) dx -- 2n^^ ^ f^ (x^) w(x^)
i =- ^
(10)
^
donde f^ es el estimador núclea que utiliza toda la muestra excepto el dato X^.
La función CV (h) es, así definida, un estimador insesgado del MISE {salvo una
constante que no depende de h). Para datos fuertemente mixing, ^y^irfi^y otros
(1990} proponen la modificación consistente en redefinir el estimador f ^ de la
forma siguiente:
n
n
f^ (x) .- ^ r 1_1
^ Kn (x -- Xi) Y ili - ^ I)
i= 1
siendo y(u) una función que verifica:
^, ( u) = 0 si u= o
1 siu>In
0 <_ y (u) <_ 1 si u ^ In
n
Y 'Y = ^ 'Y (^i - ^ ^)
(12)
La razón de este estimador es ia siguiente: Si los datos están correlacionados
n.
positivamente, al estimar f (X^) mediante f^ (X^), los datos próximos temporalmente
E.STIMA(.;IC)N [)E:: (:L^RVAS ASO(..;IADAS A SERIE ^; TE P^^tF'C)RALE`.^
_
a Xj: Xj_,,Xj_^+^,...,Xj_1,Xj+1,Xj+2, ... , Xj♦, proporcionan información sobre Xj que viene
dada por la dependencia de la muestra y no por su estructura probabilistica, lo
que origina que la función de validacián cruzada alcance el mínimo en bandas
pequeñas y se obtengan, por lo tanto, estimaciones poco suavizadas. Si los datos
están altamente correlacionados negativamente se obtienen, en cambio, estimaciones sobresuavizadas.
Para evitar este problema, en ( 11) calculamos la estimación de f(Xj) ponderando los datos próximos ( en el tiempo) a Xj; en consecuencia, los que están
altamente correlacionados con él, dándoles un peso inferior cuanto mayor sea
su dependencia con Xj. Así, la función ^y (u) clasifica ios datos en función de su
dependencia (cercanía en el tiempo), indicando cuándo dos datos pueden ser
tratados como si fueran independientes [y (u} = 1].
Es importante tener en cuenta que este método es claramente una generalización del método para datos independientes, sin más que considerar la función
Y (u) = 1 -- I[-i^, -^- in^ (u)
(13)
y elegir I^ = o. Esta última función es la utilizada por Hart y Vieu (199ó).
EI segundo método estudiado [C^uintela y Vilar (1991)], asintóticamente equivalente a este último, como se detallará a continuación, es el de validación
cruzada de pseudo-máxirna verosimilitud, también Ilamado de Kullback-Leibler. consiste en elegir el h que maximice
n n,
L(h)=rI(fñ)+(Xj)
a, ^, f X,^ e`- P c X, )
(14}
j= 1
donde
n.
^.
(f^ )+ (Xj) = max {(f^ } (Xj), 0}
P(X) _,^ h K ^( Y - x ) / h] dy
siendo [a,b] algún intervalo donde f(x) sea estrictamente mayor que cero. La
n.
utilización de la parte positiva
del
estimador
[(fh)+]
permite utilizar funciones núcleo
,
que tomen valores negativos. EI uso de la función indicadora 1^a,b^(-) y de !a
función e-^E^^ en (14) reducen problemas que surgen en aquellos puntos en donde
la densidad f es muy próxima a cero, o cuando se realiza la estimación de una
densidad con colas pesadas [véase Marron (1985), para una explicación rninuciosa de la conveniencia de dichos términos en la expresión (14)].
f s1nt.,^^;r^t_^ E :,c>^r^^.^^.a
3^4
La optimalidad de estos dos métodos de validación cruzada viene dada en el
siguiente teorema. Para ello son necesarias las hipótesis que se detallan a
continuación:
Supongamos que la función núcleo K satisface:
(K.1) K es Hélder continua:
^ K(x) - K(y}I < C^) x- yI ^, ^x, y E R, C^ > 0, ^> 0
(K,2) K es de soporte compacto.
(K.3) K es simétrica y de orden v, es decir:
,(K(u)du= 1,0<JxvK(x)dx<^,
f xk K(x) dx = o, k= 1, ..., v- 1
(K.4)
La transformada de Fourier de K es absolutamente integrable.
La ventana h se elegirá dentro del intervalo:
(H.1)
H^ _ [An^a^, Bn-b^], o < b < 1 / (2v + 1) < a' < 2 / (1 + 4v).
con A y B constantes positivas finitas.
Los datos X^,X2,...,X^ son a-mixing, donde los coeficientes mixing y la sucesión
tln)^ E ^v verifican:
(L.1) I^ < i^ = Dn^^ para algún 0< r^ <[2 - a' (1 + 4v)] / 2(D > 0
(L.2)
cz (I^) = sup a(j) = o(n- r2)
1}^;,
para r2 = U+ V+(2a' + 4va') (2 + U/V),
donde U= 1 +2a'+2va'-byV=2-a'{1 +4v)-2r^.
n
(L.3)
^, tn - k) a(k) = o (n-2vb")
k-0
Sobre la función de ponderación w se supone
(w.1) w es acotada de soporte compacto.
Finalmente, se sup©ne sobre fa función de densidad a estimar:
(F.1) f tiene v derivadas continuas en todo punto x E[a,b], v> 1. (v igual que
en (K.3)).
E:STIMA(;I()N UE (^1^RVAS ASOC;IAUA`^ A^^F F^IE ^; EE MF'^.iF^A^ E S
3^^
(F.2) ^C> > 0 tal que f(x) > C^ ^x E[a,b]
(F.3) max [f (x), f (-x)] --^ 0 cuando x -^ ^.
(F.4) f es Hólder continua:
^ f(x) -- f(Y)^ ^ C^ x- y^ b,^ x E
^, b> 0
(F.5) Existe la densidad asociada a la variable bidimensional (^C^,X^+^) con
respecto a la medida de Lebesgue.
Teorema 3.1 Bajo las hipótesis (H.1), (W.^1), (L.1)-(L.3), (K.1)-{K.4) y(F`.1)(F.5), si ^i es el parámetro que maximiza L(h) o minimiza CV(h), se tiene que,
cuando n --^
^
ERR (f^)
------------ _ n
^ 1 casi seguro
(15)
inf ERR (fh^
h E Hn
sie ndo E RR(^h) = MI S E (^h), AS E (^h) o I SE (^h).
La demostración de este resultado, generalizado para funciones delta no necesariamente tipo núcleo, puede verse en Quintela y Vilar ( 1991). Algunos comentarios a resaltar sobre las hipótesis serían:
(i) Las hipótesis acerca de la función núcleo K son bastante corrientes y
fáciles de verificar. Un caso muy concreto y que aparece comúnmente en la
práctica es que v= 2, y así, un ejemplo de función núcleo verificando las hipótesis
(K.1)-(K.4) es la de Epanechnikov (3).
(ii) Con respecto al intervalo H^, si, por ejemplo, v= 2, podría elegirse
a' = b' = 1/5, con lo que el parámetro de suavización elegido tornaría la forma
clásica h = Cn-^^5, que es la forma del parámetro de suavización que minimiza el
desarrollo asintótico del MISE como MISE = j Sesgo2 (^h) + j Var (^h}.
(iii) La acotación I^ <_ Dnr^ (donde r^ es un número positivo menor que uno)
nos garantiza que el número de puntos que ponderamos inferiormente en la
validación cruzada no exceda una cantidad razonable, dependiente del tamaño
de la muestra. absérvese que la hipótesis (L.1) permite elegir I^ = 0, que corresponde a la técnica de validación cruzada para datos independientes, suponiendo
que la función y es de la forma (13).
(iv) Las condiciones impuestas a los coeficientes oc-mixing parecen bastante
complicadas, pero puede probarse con relativa sencillez que tales condiciones
son verificadas por coeficientes de tipo exponencial o geométrico cx(k) = apk (0 ^
F^;T^f)i^^?ic.A E^F1AP^f)! t^
p< ^) o a(k) ^ bk-^t, que son realmente los más característicos para muestras de
datos dependientes ( modelos autorregresivos, etc.).
3.1.
Ejemplo de simulación
Un pequeño ejemplo de simulación sería el siguiente: Se han generado 50
muestras de tamaño 10o del proceso autorregresivo de orden 1:
Xt = pXt_^ + Et, con Et E N(o,1 } y p= 0.6
(16)
Para cada una de las muestras se ha calculado:
EI parámetro de suavización que minimiza el error cuadrático promedio
ASE (h), ^IASE^ Este será el parámetro con el cual comparar la bondad de los
resultados obtenidos medíante validación cruzada.
EI parámetro de suavización que se obtiene por validación cruzada de máxima
verosimilitud, hMV, eligiendo el intervalo [a,bj ^[-c^, +6] con 6 la desviación típica
de la muestra.
Ef parámetro de suavización que se obtiene por validación cruzada de mínimos
cuadrados, hcv, eligiendo como función de peso w(x) = 1^^, +aa(x).
En cada muestra, para cada una de estas ventanas, h,^sE, hnnv Y hcv se ha
calculado el error cuadrático promedio ASE asociado. Se ha utilizado ia
función núcleo de Epanechnikov (3), y función ponderadora de la dependencia
^y (u) = 1- - I^_^^,+^^^(u}. Esta función núcleo se utilizará en todas 1as simulaciones del trabajo.
Los resultados que se exponen a continuación (ventanas y errores cuadráticos) corresponden a la media de 1as 50 muestras, apareciendo entre paréntesis fa desviación típica, también obtenida de las 50 replicaciones. Los resultados son:
E^, 1 G^,.^. "^It., T;^ ,', c^,^'A^Jt" ;^
Ca^mentarios:
Puede observarse, a partir de la tabla 3.1 y de la figura 3.1, que los mejores
resultados corresponden a elecciones de I^ = 3,4,5 y 6(en cuanto a menor error
ASE y menor distancia al mejor parámetro hASE) lo cual es coherente con el hecho
de que la dependencia entre los datos es relativamente fuerte (el parámetro p
del proces© es 4,6). En efecto, tanto en las simulaciones efectuadas por Quintela
y Vilar (1991) {en las que se anafizan también valores de p= 0,0.3 y 0.9) como
en las realizadas por Hart y Vieu (1990) (en las que sólo se estudia la validación
cruzada minimo cuadrática, y se utilizan otros tamaños muestrales), se observa
que, según se va aumentando la dependencia entre los datos, debe irse paralelamente aumentando ei valor de i^, puesto que, aunque las resultados no Ilegan
a ser en exceso diferentes, sí son mejores.
De la tabla 3.1 se extrae ia conclusión de que los métodos de validación
cruzada poseen una alta variabilidad (desviación tipica grande} en cuanto a los
valores obtenidos para las ventanas hMV y hcv, según se observa en las columnas
dos y cuatro de dicha tabia. Tal efecto ya había sido puesto de manifiesto por
Hárdfe y otros (1988} y por Hall y Marron (1987). Dicha variabilidad también
aparece en la estimación no paramétrica de la función de distribucíón y de la
función de regresión.
Otra elección posible para la función y, que además evita el tener que elegir
algún valor para el entero In, sería considerar la siguiente función, basada en los
misrnos criterios que los test de hipótesis clásicos sobre correlación:
y(u) = 1 - ^r(u
1
si (r (u)^ > 2 / ^Iñ
en otro caso
(17)
con r(u) = autocorrelación muestral de orden u.
Realizando ahora el mismo estudio anterior con esta función, y abservando los
resultados para valores de p= 0, 0.3, ^.6 y 0.9, obtenemos:
TAB LA 3.2
Ventanas obtenidas mediante validación cruzada y errores cuadráticos
asociados, utilizando la función de ponderación (^ 7}
4^
hMV
ASE (hMV)
hcv
0
0.3
0.6
0.9
0.924 (0.330}
0.957 (0.366)
1.143 (0.38$)
3.712 (0.180)
0.0028 (0.0034)
0.0024 (0.0025)
0.0020 (0.0022)
0.00089 (0.0006)
0.924 (0.336)
0.927 (0.386)
1.152 (0.417)
2.544 (0.626)
ASE (hcv)
0.0028
0.0027
0.0022
0.0021
(0.0031)
(0.0030)
(0.0026)
(0.0031)
389
E;ST^iMAC^I^^^N E:)E C^:t.)RVAS ASC^C.^IAUA^^ A^^E RIE_^; TE MF'í__)f;^;^ E: ^
_
_
Podemos comprobar que, por ejempla, para p= 0.6 que corresponde al primer
estudio realizado, los resultados son similares a los obtenidos escogiendo el
mejor valor de I^. Una segunda consecuencia que obtenemos es que los dos
métodos de validacián cruzada proporcionan prácticamente los mismos resultados, existiendo sólo diferencia, en favor del método de máxima verosimilitud,
cuando la dependencia es muy fuerte (p = 0.9).
Sería muy interesante poder obtener resultados del tipo de los proporcionados
por Hall y Marron (1987), que calculan la distribución asintótica de la ventana de
validación cruzada mínimo cuadrática, una Normal centrada en la ventana que
minimiza el criterio MISE, y a la cual se acerca con velocidad de convergencia
n-^^'°^ Sin embargo, la inexistencia de teoremas centraies del límite para formas
cuadráticas generales sobre datos fuertemente mixing, necesarios para demostrar resultados de este tipo, imposibilitan, por el momento, la obtención de los
mismos.
Un estudio comparativo de simulación de diez métodos de selección de la
ventana, incluyendo los de validación cruzada, diseñados para datos independientes, y aplicados a distintos modelos de datos con dependencia (autorregresivos, m-dependientes y otros) y con distintas distribuciones marginales (normal,
exponencial, doble exponencial y otras) es el de Cao y otros (1992b). En este
trabajo puede observarse que todos los métodos diseñados para utilizarse con
datos independientes empeoran cuando esta hipótesis no se cumpie, salvo
excepciones concretas en algunas distribuciones.
3.2.
Criterios locales de selección de ta ventana
Un criterio local será aquel que calcule el parámetro h(x) que trate de minimizar,
en un punt© x de interés, el error cuadrático medio (4}. Simplemente, si en la
función de validación cruzada mínimo cuadrática {10) elegimos corno función
peso w(y) = W^,X(y) una función centrada en el punto en estudio x, tenemos un
criterio de validación cruzada local, que consistirá en elegir, para cada x, la
ventana h(x) que minimice
CV
) Wn,x{y
} d -W x^
n_ f^
h^x^
!) n,x^
^)
h{Y
x^ h=
)
y 2^
af2
(
18 }
j - ^
n
con f^ dado por (11). Tendremos así para cada punto una ventana diferente a la
utilizada en los restantes puntos de estimación. Este tipo de planteamiento local
orígina estímadores no paramétricos que no son densidades, y en general son
menos suaves que los estimadores que utilizan una ventana global para todos
los puntos.
.39C^
E ^TA[)1^TIC:A F `-;F'ANt_)t A
Este criterio ha sida estudiado par Hall y Schucany (1989) y Mielniczuk y otros
(1989) en el caso de datos independientes. Para el caso de datos dependientes
fuertemente mixing, la ©ptimalidad asintótica del método ha sido demostrada por
C^uintela y Vilar (1992), que prueban un resuitado similar al teorema 3.1 de!
apartado anterior. Esta es
Tearema 3.2
en (18)
Si consideramos la ventana que minimiza el criterio definido
h (x) = arg rnin CVX (h)
h ^ H ^^
se tiene
ER_ x [h_(x)]
_
--j^ 1 casi seguro.
sup
x^^a, b^ inf ER X(h)
h ^ H^,
donde los errores ERx(h) no son más que versiones locales de !as medidas
cuadráticas de error anteriormente definidas, esto es:
n
n
ASE x(h) = n`1 ^[fh (X^) -- f CX^)]2 w^, x(X^)
^^i
n
ISE x(h) -- f[fh (y) - f{y)^2 Wn, x(y) dx
(19)
MISE x (h) = E [!SE X (h)]
La equívalencia asintótica entre estos tres errores, dei tipo (8}, viene dada por:
Teorema 3.3
Se verifica:
sup _^ER.X__(h) -- MISE
. __ X- h)
MISE,^ (h)
h^ H^
a casi segura
siendo ERX(h) = MSEX(h}, ASEx(h) o ISEx(h)
^as condicianes bajo las cuales se verifican estos resultados son del estilo de
las utilizadas en e! teorema 3.1, can la necesidad de imponer a la funcíón de
peso iocal, W, las condiciones
(1) W^,X (u} verifica
Wn,X(u)?0,
sup Wn, X( u)= O^ ( n^3),
x, u
J^Nn,x(u)du=1
R^ ^1 _ 1^ ^ a^& c 1
10
2
5
E.S 1 IMA(:I( )N C)E. (:^1.1f^VAS ASOC.IAC)AS A SE F^IE `^s T f MF't )RAL F`^
_
__
39
(2) para toda función g continua se verifica
J W^,X (u) g(u) du ^ g(x) uniformemente para x E[a,bJ
Las hipótesis exactas necesarias, así como las demostraciones de estos teoremas, bastante técnicas y complicadas, pueden consultarse en Quintela y Vilar
(1992 ) .
3.3.
Ejemplo de simulación
Realizando un estudio del mismo estilo que el visto en la validación global,
hemos simulado 50 muestras de tamaño 200 del modefo AR(1): Xt = a.7Xt_^ +
+^t, con distribución marginal de Xt una N(0,1}. Hemos estudiado la estimación
de tipo local en los puntos de la forma yk =-2 + 0.25k, con k = 0,1, ...,16; esto
es, en dichos puntos calculamos la ventana local utilizando ( 18), y la estimación
en el mismo con dicha ventana, así como la estimación utilizando la ventana
mínimo cuadrática global, según {10). A continuación, calculamos el error cuadrático promedio de ambas estimaciones, dado por
16 ^
ASE (h) = 17 -^ L [fn ( Yk) - f (Yk)^2
k=0
EI peso local utilizado fue WX{y) = 1 si ^ y-x (^ 0.5, y la función y la dada en
(13), con In = 3. Los resultados, sobre las 50 rnuestras replicadas, son:
TABLA 3.3.1
Comparación de errores cuadráticos en#re estimaciones con ventanas
globales y locales
Media
Des. Típica
CV global
0.002133
0.001779
CV local
0.001933
0.001777
ASE con
Los resuftados indican que una estimación con bandas locales mejora, aunque no
excesivamente, los resultados que proporcionan las estimaciones con banda global.
En Quintela y Vilar (1992) y Vieu (1991 a), pueden verse otros estudios de simulación
análogos que confirman lo expuesto en este pequeño ejemplo. EI inconveniente
mayor de realizar estimaciones locales, además del ya mencionado de que un
estimador con ventanas en cada punto no es una función de densidad, es que
precisa minimizar la función de validación cruzada en cada punto de in#erés. EI
tiempo de computación requerido es, pues, significativamente mayor.
F. ^T^
! ^}
kl^:^,^ E^^^:,t^>AP^JQI 1'^
SELECCION AUTC3MATICA DE LA VENTANA EN LA ESTIMACION DE
LA FUNCION DE DIsTRIBUCION
4.
Propiedades del estimadar núcleo de !a función de distribución,
n
n
K(t) dt, han sido investigadas, en-
Fh (x) = n-' ^ K* [(x - X;} / h^, con K* (u) =
i -= 1
-°°
tre otros autores, por Nadaraya (1964), Watson y Leadbetter ( 1964) y Reiss
(1981), en un contexto de datos independientes. Bajo suposiciones de dependencia tipo mixing, ha sido estudiado por Roussas ( 1989a}, Sarda y Vieu (1989},
y Vilar Fernández { 1991), entre otros. En dichos estudios se pone de manifiesto,
al igual que en eí caso de la densidad, la necesidad de canstruir algún criterio
que permita !a selección automática del parámetro de suavizado h. Este aspecto
ha sido, al contrario que en el caso de la función de densidad, muy poca
estudiado, y únicamente se han obtenido propiedades de optimalidad asintótica
para el método de validación cruzada, que consiste en elegir el h que haga
.
m^nimo
n
A
CVF (h) = n-^ ^ [Fñ (X^ ^ - Fn CX^}l^ W (%C^)
(2^)
co n
(
=n^'
^ K*[{x-X;}/h]
^^ - i I > ^^
C2
n
Fn
= n-^ ^ I^^ x^
, (X^)
^22)
j^^
la función de distribución empírica, y
n^ - #^i : ^ ^-^i > In}
^
siendo I^ un entero como en la hipótesis (L.1) de! teorema 3.1. F ^ corresponde
al estimador núcfeo considerando la muestra sin 21^ + 1(en general) puntos, los
más cercanos temporalrnente a X^. En el caso de que I^ sea igual a cero tenemos
el procedimiento de validación cruzada introducido por Sarda (1990), cuando !os
datos muestrales san independientes. La relación de dependencia puede ocasionar que la banda estimada no sea muy buena si I^ = 0, por 1o que tal vez sea
conveniente elegir un In mayor, de cara a evitar la influencia de ias datos más
próximos temporalmente a X^ en la estimación de la distribución en dicho valor
X^, exactamente igual que ocurría en el caso de la densidad. Este criterio es
estudiado en Quintela {1992}, donde se demuestra.
Teorema 4.1
además,
Bajo las hipótesis (H.1), {W.1), (L.1)-{L.3), (F.1)-(F.5) y sí,
E`;TIMAt^ION C7E (;IJRVAS ASC)(^^IAI_)AS A SE RIE ^^ TF MF'C)RAL E`^
393
La función K* es absolutamente continua y K=(K*)' verifica:
integra área 1.
es Hálder con#inua.
tiene soporte compacto.
es de orden v.
Se verifica:
si ^ se elige como aquel que minimiza CVF(h), entonces
, ^
lim - ---ERR
- {h)- - = 1 casi seguro
n -^ ^ inf ERR' (h}
h E H^,
Comentarios:
Vieu (1991 b) muestra que
MISE(h) = V^nJ^ -- V2hn^^ + B3h4
(24)
donde V^, V2 y B3 son constantes positivas, correspondiendo los dos primeros términos a ia varianza y el tercero al sesgo elevado al cuadrado. EI
ERR'(h) en la expresión (23) es el respectivo error cuadrático [ASE'(h), ISE'(h)
o MISE'(h}^ sin el término V^n-1, es decir ERR'(h} = ERR(h) - V^n^^. Por lo
tanto, el primer término de (24} no depende del parámetro h desconocido.
Además, recordemos que se verifica la relación de equivalencia entre los
errores cuadráticos, dada por (8), que también es válida cuando eliminamos
el término V^n-^.
Resultaría relativamente sencillo realizar extensiones del método para funciones de peso locales W^,x, adaptando la validación cruzada local del capítulo
anterior, así como la utilización de funciones de ponderación temporales ^y(u).
La demostración de este resultado es bastante densa, del estilo de la
realizada por Hart y Vieu (1990), y utiliza extensiones de resultados que sirven
para acotar covarianzas de variables aleatorias mixing, del tipo del lema de
Volkonskii y Rozanov (1959) o Davydov (1968). Puede consultarse en Quintela (1992).
4.1.
Ejemplo de simulación
En este apartado hemos generado 100 muestras de 100 datos del rnismo
proceso autorregresivo de orden 1 estudiado en (16).
. ^ ^1^
^ .`7T^^^_)I`7 ^ If.,i^ F `>^'H^^^()i^ia
Se ha estudiado la estimación no paramétrica de la función de distribución F(x)
asociada al proceso [Narmai {0,1.56252)] en el intervalo [-2.5, +2.5] haciendo el
estudio en los puntos yk = 2.5 + 0.025k, can k variand0 desde 0 hasta 200.
Para cada una de las muestras se ha calculado:
La banda que se obtiene por validación cruzada, h^^, eligiendo coma función
de peso w{x) = 1, y variando e! número de puntos que se efiminan (I„ + 1) desde
1 hasta 11. EI parámetro ventana de validación cruzada se busca como aquel
que minimiza (20).
La banda que minirniza el errar cuadrático promedio:
Zoo „
RSE(h) _ (201)-^ ^ Fn (Yk) - F (Yk)
K -- 0
que denotaremos por hASE
Para cada uno de estos dos últimas parámetros se ha calculada el error
cuadrática prometiio. En la tabla siguiente se exponen !os resultados obtenidos. Para cada supuesto se ha calculado la media sobre las cien muestras
de las ventanas hcv Y hASE^ y la media de sus errores cuadráticos. Los
números entre paréntesis indican las desviaciones típicas obtenidas sobre las
100 muestras. Puede observarse la mejora paulatina ai ir suprimiendo puntos
en el métoda, igual que ocurría en el caso de la densidad. En este caso,
tadavía sería necesario considerar valores de !^, mayores para obtener resultados más práximos al óptimo. Merece destacarse el hecho de que, cuando
I^ = 0 ó 1, el valor obtenido para h^v sea siempre el mismo ( la desviación
tipica es cero). Ocurre que, en estos dos casos, el procedimiento de validación
cruzada seiecciona el parámetro más pequeño pasible dentro del intervalo en
el que se está realizando la minimización de la función CVF (20). Se obtiene
así un dramático efecto de infrasuavización, al tratar la muestra coma si fuese
de datos independientes, y mejorándose dicha efecto cuando el valor de In
aumenta pragresivamente.
ESTIMA(_;IC)N [)f (.;IJRVAS A5O(:IA[)A^ r\
E RIE `, T E M^'^ )F2Al E^>
__
3y5
TA B LA 4.1
Ventanas óptimas y ventanas obtenidas mediante validación cruzada y
errores cuadráticos asociados, para la distribución de un proceso
autorregresivo de orden uno
hASE
ASE(hASE)
1.0862 (0.4168)
0.00293 (0.00395)
Validación cruzada
0
1
2
4
5
6
7
8
9
10
5.
ASE{hcv)
hcv
n
0.05000 (o.ooooo)
0.05000
0.08360
0.10340
0.21200
0.24440
0.34160
0.42020
0.44480
0.51260
0.53660
( 0.00000)
( 0.12494)
(0.15218)
( 0.28756)
( 0.32490)
( 0.38550)
(0.40952)
( 0.43851)
( 0,46091)
( 0.48579)
0.00359
0.00359
0.00358
0.00357
0.00353
0.00352
0.00348
0.00344
0.00344
0.00341
0.00341
( 0.00423)
( 0.00423)
( 0.00423)
(0.00423)
(0.00420)
(0.00420)
( 0.00418)
(0.00418)
( 0.00418)
(0.00417)
(0.00417)
SELECCION AUTOMATICA DE LA VENTANA EN LA ESTIMACION DE
LA FUNCION DE REGRESION
La idea general de la regresión se sustenta en !a suavización de un conjunto
de datos { (X;, Y;) }^_ ^, mediante la aproximación de la curva de respuesta media
m en la relación
Y; = m(X;) + ^;
i = 1,2,...,n
{25)
En la regresión pueden considerarse dos situaciones diferentes: Primero, suponer que las dos variables X e Y son Variables Aleatorias. La curva de regresión
se define entonces
m{x) = E(Y^ X = x)
{26)
^a curva de regresión está bien definida si TI YI < ^. Si existe la densidad
conjunta f(x,y) entonces m(x) puede calcularse como
m(x) = f Yf(x^Y)dY^f^(x)
,^^t.,^^,^^ ^^_ r^ ^_ ^;^^^.r^^^ ^i ,r^
'SyE^
donde f^(x) es la densidad marginal de la variabfe X. Este caso se conoce camo
modelo de diseñ© aleatorio. Cuando fas variabfes X, por el contrario, no son
afeatorias, nos encontramos ante e! modelo de diseño fijo, dado en (25}, donde
ios fE;^;'-_ 1 son errares aleatorios, generalmente de media cero y varianza finita.
Aquí consideraremos que dichos errores no son independientes entre sí.
lJn estimador clásico de la función de regresión, tant© en el modelo de diseño
fijo camo en el modelo de diseña aleatorio, es el estimador de Nadaraya-Watson.
n
n-^ ^ Kn (x - X^) Yi
^ _ 1
n
mh
(X) =
^
(^7)
n^^ ^ Kh ( X - X, )
; _^ 1
En el caso del modelo de diseño fijo, uno de fos estimadores más utilizados
es el de Priestley y chao (1972), que es del moda
n
_
mn(
x) = h-^ ^, Y^^{X^^+^ - X^)
r K X hX^
(^8)
i == 1
Una generalización del mismo es ef estimadar de Gasser-M^iller (1979), también conocido coma estimador convolución
n
mh (x} = h-^ ^, Y^ ' K(cx - ^,Yf,} du
j :,, 1
(29)
S, -- ^
con X^_1 <_ Sj_^ ^ X^ efegido entre fos datos X ordenados de menor a mayar.
cuafquiera de estos dos estimadores puede generafizarse fácilmente para la
consideración de diseño aleatorio.
Propiedades de consistencia y normalidad asintótica de estos estimadores, en
el • supuesto de dependencia muestral fuertemente mixíng, pueden verse, por
ejemplo, en Roussas {1989b), para el estimador de Nadaraya-Watson (27), y en
Quintefa {1992), para el estimador de Gasser-Mi^ller (29).
Principafinente, fos métodos estudiados para la seiección de la ventana h en
los estimadores de la función de regresión pueden englobarse dentro de una
forma genera! de validación cruzada, definida mediante penalización del error de
predicción p(h) que viene dado por
n
n
P (h) = n-1 ^ [Y^ -- mr, (X^)]^ c^) (?C^^
1
1
(30}
r Í ^ Í'^/^^_^ _I1 )^`,^ [_)E
^
I ^^^/^i`"l ^{^}( )^ _I ^^^ )^^.`^ ,^ {^sF E'^^ ^ `-
E
í'( .^f^,l,^
^ ^
^
^.^-
,3^^ lr
con c,.a una función de ponderación no negativa. De este modo, se ajusta este
error de predicción mediante
n
n
G (h^ ^ n-^ ^ [Yj _ mh (Xj)]2 ^ (nh)-' uXxj)
(31}
j-^
y se elige el parámetro h que mínimice esta función. La función E.(u) puede tomar
distintos valores, dando lugar a distintos criterios [ver Hárdle, (1990), pág. 167].
Concretamente, si tomamos ^(n-' h-' )=[1 -- n-' h-' K(0)]^2 puede probarse que
^
obtendríamos la función de validación cruzada general
n
n
CV (h) = n-' ^ [Yj - mh
j (Xj)^2 UJ (Xj)
(32)
j == 1
siendo mh,j el estimador para la muestra sin ei dato (Xj, Yj). Hárdle y Vieu (1990)
demuestran la optimalidad asin#ótica de este método, en el sentido (15), para el
caso de que los datos (X;, Y;) sean fuertemente mixing, y de nuevo aportando la
capacidad de eliminar más de un punto en la validación cruzada, con el fin de
suprimir la dependencia temporal entre los datos más próximos. Es decir, en este
caso el estimador mh,j sería
n^ ' . ^ Kn^X - Xi) Yi
^^ - j^ >i^,__
^
mn,j(:x. __ .___. n
n^'
_ __
(33)
^ Kntx - Xi)
li - ^I '^^
En Gyórfi y otros ( 1990) se generaliza este estimador, de la forma
(34)
n
^ Yi Kn^x - Xi) y(li - jl)
i -1
r
n
^ KnCx - Xi) ^Y (^i -1^)
i - 1
lo que permite la utilizacíón de funciones del tipo (17). Este ha sido, hasta el
momento, el único método de selección de la ventana estudiado en el modelo
de diseño aleatorio.
EI caso del modelo de diseño fijo ha sido considerado rnás profusamente,
debido posiblemente a su mayor facilidad, al obviar la condición de aleatoriedad
en la variable X. Los métodos propuestos varían, según el estimador utilizado y
las condiciones de^dependencia impuestas a los errores del modelo.
3^j^3
^^,^^.^,ri^;:.
^( iI. !'^
La mayaría de los estudios se centran en la suposición de que los errores del
diseño t:; pueden englobarse dentro del esquema general:
(35)
^;_^ ^^Z;^^
^
con los ^^ números reales tales que ^, ^^j^ ^^, y los z^ variables aleatorias
j .^ -^^
independientes, idénticamente distribuidas y para las cuales se presupone la
existencia de algunos momentos {para ver las condíciones de una forma precisa,
acúdase a cada trabajo en particular).
Así, Chiu { 1989), considera el estimador de Priestley-Chao (28), en el modelo
de diseño fijo con puntos X; igualmente espaciados, esto es X; = i/n, y propone
elegir como parámetro h para dicho estimador aquel que minimice
^2 ^ 4n ^(0) K(0}
R (h }-P(h> ^
nh
(36)
donde p(h) es el error de predicción dado en (30), 62 es algún estimador de la
varianza de los errores, y^(C}) es alguna estimación del espectro de los errores
^
en la frecuencia cero. Esta función R(h) es una generalización, para el contexto
de dependencia, del criterio estudiado en Rice (1984).
En Altman (1990), quien considera el mismo tipo de modelo y estizador que
Chiu, se utilizan como críterios de selección de la ventana los métodos de
validación cruzada (32) y validación cruzada generalizada (31), corregidos de
manera que !as autocorrelacíones de los errores puedan tenerse en cuenta.
Altman considera las siguientes funciones de validación cruzada a minimizar:
n
^
(37)
CV (h} = n^1^ _ _ _ ^^_- mh(X^}]2
j =-= 1
[nhf2]
K {X^ - X^ Ih)
^ _ ^ __ .1__ _ 1 + ,^ __..
nh
r - -[nh/2]
^
(validación cruzada mfnimo cuadratíca)
_(X^)^2
_
GCV (}
h = n-' n_
^ ^Yi - mh
i^= 1[^1 - n^^ Tr {Kn Rn)]^
{38)
(validación cruzada generalizada)
En estas fórmulas, pn representa la autocorrelación, por [x] denotamos la
parte entera de x, Kn es !a matriz de elementos K[(X; - Xj)/h] /nh, Rn es la
matriz de autocorrelaciones, y Tr representa la traza de una matriz. Altman
E^ ^TIMf^(,lOPJ UE_ (,URVf^:i AS^^)C,If^DA,`.^^ A;:i^ f^:lE `; f E^F^1í'( yf^r^L E^,
,.3^^
denota estos métodos como métodos directos de corrección. En la práctica,
las autocorrelaciones teóricas se estiman mediante las autocorrelaciones
muestrales. Otros métodos similares son los que Altman denomina métodos
indirectos de corrección, y son del estilo de los anteriores [Ver fármulas 26 y
27 de Altman (1990)].
Chu y Marron (1991) también suponen un modelo de diseño fijo, con errores
verificando las condiciones de un proceso ARMA, y comparan la validación
cruzada modificada para datos dependientes [utilizando el estimador mh,j según (33)], con la validación cruzáda particionada. Este método de selección
de la ventana, introducido por Marron (1987) en la estimación de la densidad,
consiste en dividir las n observaciones muestrales en g subgrupos, y calcular
la función de validación cruzada mínimo cuadrática ordinaria (32) CVk(h) para
cada subgrupo (k = 1,2,...,g). A continuación, se minimiza el promedio de
dichas funciones
9
CV* (h) = g-1 ^ CVk (h)
k=1
Sea ^i^v el valor de h que minimiza esta última función. Dado que ^i^v es una
ventana apropiada para muestras de tamaño n/g, la ventana de validaci©n cruzada particionada se define como ^iPCV = 9-^'5 ^ ^v^
Si g= 1 estaríamos ante la validación cruzada ordinaria. En este criterio
aparece un nuevo parámetro, el entero g, que viene a jugar un valor similar al
del entero I^ en la validación cruzada modificada. En ambos casos, el problema
de seleccionar dichos valores es un problema de mucha menor importancia que
el propio de elegir el parámetro ventana, como se pone de manifiesto en los
estudios de simulación efectuados por Chu y Marron (1991).
Un análisis más genérico en el modelo de regresión con diseño fijo consiste
en suponer que los errores del modelo ^; son una serie estacionaria de tipo
fuertemente mixing, puesto que, como ya fue indicado, este tipo de procesos
engloba a los utilizados en los estudios anteriores. EI estimador de GasserM^iller {29) verifica, en este supuesto, y bajo condiciones de regularidad no
restrictivas en la función m, propiedades interesantes de consistencia casi
segura uniforme y normalidad asintótica, como ha sido probado en Quintela
{1992). En dicho trabajo se analiza el criterio de validación cruzada mínimo
cuadrática (32) para la selección de la ventana en este estimador. Asi, se
elegirá h que minimice
n
CV (h) = n-1 ^ [Yj - mh, j (Xj)]2 w (Xj)
j==1
(39)
^^ oc^
F <_,r,^f^^^1r^r^^.,a F ^^^E^^>^r^i^^^ ^
definiendo como estimador mn,^
n
mn j(X) _^ h^^ Y^ ^
^y
^_- ^
S^-,
K[(t - u)^] du Y(li - jl)
(40)
De esta forma panderamos c©n menor fuerza las observaciones Y; que son
más dependientes con Y^ (tengamos en cuenta que los Y; arrastran directamente
la estructura de dependencia de los errores aleatorios ^;}. La o^ ptimalidad asíntótica de este método se sigue baja condiciones del mismo estilo que las vistas en
el caso de la densidad y la regresión, y que no detallamos por no alargar en
exceso el trabajo. Merece destacarse que es posible demostrar dicho resultado
de optimalidad asintótica sin hacer ninguna suposición de acotación en los
errores s;, lo cual hace más prolija la demostración del mismo. EI resultado similar
para la re+gresión en diseño aleatorio [teorema 6.5.1 de Gyórfi y otros { 1990)]
precisa, en cambio, la suposición de que la variable Y esté acotada o posea
momentos de todos los órdenes.
5.1.
Ejemplo de simulación
Como comprobación empírica de la validez del método ( 39) propuesto para
la sefección del parámetro ventana en el estimador convolución, consideramos un trabajo de simulación análogo al desarrollado por Hárdle y otros
(1988), y Chu y Marron ( 1991 }. Se elige el modelo m(x} = x3(1-x)3, restringido
al intervalo [0,1], dividiendo é ste en 100 puntos equidístantes t;, y se obtiene
ia muestra (t;,Y;} con Y; = m{t;) + E;, en donde los errores ^; corresponden a
una serie de tiernpo AR(1): E; = p^ ;_ ^+ a; con distribución rnarginal normal
de media cero y desviación típica 0.015. Hemos replicado este proceso 100
veces y para cada muestra hemos calculado, como en otras simulaciones
anteriores:
(i) La banda que minimiza el error cuadrático medio, hASE, y el error cuadrático asociado, ASE{hASE).
{íi} La banda que se obtiene por validación cruzada, hcv, eligiendo coma
función y(u) = 1- 1 ^_,n +^^ {u} con In variando desde 0 hasta 10. La función de
peso fue w(x) = 5/3 si 1/5 < x< 4/5.
como siempre, hemos calculado las medias y las desviaciones tipicas de los
resultados sobre las 100 muestras replicadas. Estos últimos valores aparecen
entre paréntesis. Los resultados, para el modelo concreto en los errares de
p = 0.6, son
E.:`^fIMAC^IC)N [.)E (^^lJF2VA.^^ ASOC:IACIA`^, A SF RIE `^ TE MF'C)FZAI E 5
_
__
___
TABLA 5.1
Ventanas ó ptimas y ventanas obtenidas mediante validación cruzada
y errores cuadráticos asociados, para la regresión con diseño fijo
y errores correspondientes a un proceso autorregresivo de orden uno
hASE
ASE(hASE}
0.4086 (0.1742)
1.81213E-05 (0.0000127)
Vatidación cruzada
I^
0
1
2
3
4
5
6
7
8
9
10
hcv
0.0575
0.1314
0.2378
0.3284
0.3587
0.3842
0.3976
0.4225
0.4344
0.4534
0.4721
(0.0283)
( 0.1083)
( 0.1631)
( 0.1910)
( 0.2022)
( 0.1931)
(0.1921)
( 0.1927)
( 0.1866)
( 0.1837)
( 0.1828)
ASE(hcv}
8.26646E-05
5.98292E-05
4.04252E-05
3.17850E-05
2.92686E-05
2.73259E-05
2.60300E-05
2.49283E-05
2.41084E-05
2.38606E-05
2.35345E-05
( 3.32957E-05)
( 3.64693E-05)
( 3.10994E-05)
(2.59438E-05)
( 2.22908E-05)
(2.05426E-05)
( 1.94852E-05)
(1.83137E-05)
( 1.71543E-05j
(1.67913E-05)
(1.64199E-05)
Comentarios
Como puede observarse, !os resultados de las estimaciones van mejorando a
medida que el valor de In aumenta, al igual que ocurría en los casos de la
densidad y de la distribución, al ser el modelo elegido para los errores un procesa
AR(1) con dependencia más bien elevada.
Podría proponerse aqu í un criterio local, del modo visto en el caso de la
densidad, sin más que considerar como función de pesos en {39) una función
dependiente del punto considerado.
Otros valores de p para este modelo, y otros modelos, tanto para los errores
como para la función de regresión, han sido considerados en G2uintela (1992),
obteniéndose resultados del tipo de los que aqui se presentan.
t^^-^, r,^. t a ^^^-, r a^.. ^, E^> ^^^^ a r^ {. ^^_ t°^
^^ C.) 2
6.
CONCLUSIONES
Según todo lo expuesto, en la estimación no paramétrica de curvas asociadas
a series temporales, si éstas corresponden a algún tipo de proceso fuertemente
mixing, únicamente pueden utilizarse {con el respaldo de un soporte teórico)
métodos de validación cruzada para obtener el parámetro de suavización. En
ellos, es evidente que la técnica ciásica «leave-one-out» de supresión de un dato
en la muestra puede mejorarse eliminando (o ponderando con menor fuerza)
aquellos datos más próximos temporalmente entre sí {más dependientes). Como
puede comprabarse en las simulaciones aquí presentadas, y en aquellas de Hart
y Vieu { 1990), las estimaciones son mejores.
En la estimación de la regresión con diseño fijo, bajo suposiciones ligeramente
diferentes de aquellas que suponen dependencia tipo mixing, aparecen otros
métodos de selección del parámetro ventana. Los trabajos aqui señalados [Chiu
(1989), Altman ( 1990) y Chu-Marron { 1991)] utilizan, en general, la hipótesis de
dependencia tipo ARMA entre los errores de la regresión. Como ya se señaló,
la dependencia fuertemente mixing es menos restrictiva que esta última.
En los dos primeros trabajos (Chiu y Altman), la condición de dependencia es
tratada por medio de la estimación, bien del espectro ( Chiu), bien de las autocorrelaciones {Altman). En este segundo caso, la metod©logía seguida es similar a
aquella en la que se consideran, para la validación cruzada, funciones de panderación gamma que utilizan la autocorrelación muestral, como la definida
en (17).
Dentro de los métodos de validacián cruzada, sería muy interesante disponer
de algún método de decisión para elegir el valor adecuado de In, en el caso de
suprimir puntos sin más, o bien de construir una función gamma que se adecue
carrectamente a la muestra de datos de que se disponga. Un procedimiento
el de
empirico podria ser --en el caso de la densidad y de la distribución
calcular las autocorrelaciones muestrales y elegir I^ en función de que éstas sean
bajas o elevadas. En e! caso de la regresión, deberian estimarse de alguna
manera las autocorrelaciones de los errores. Esto podria hacerse calculando una
estimación de los mismos, mediante ^; = Y; - mh(X;), con mh una estimación previa
de la función m. Es evidente que seria necesario elegir una ventana piloto h para
calcular dicha estimación pero, como señala Altman (199^), sería suficiente
considerar una ventana más bien grande, que sobresuavice, para obtener buenos
resultados.
Es evidente que queda mucho trabajo por desarrollar, dentro del problema aquí
considerado, cuando se trabaja con datos dependientes. En muestras independientes, los procedimientos de validación cruzada han sido notablemente superados por otras técnicas (bootstrap, plug-in) [Cao y otros {1992a)] que deberían
E ST^IM^^.;ir>N [)E r;^JF^VAS a^^(.^C^,IAL^A^ A^^E RiF^-^ iE Pv"f^E^^^^t^t_f_^^
4 (.) : 3
ser estudiadas con detenimiento en la estimacíón de series temporafes. La mayor
compiejidad de naturaleza teórica incide radicalmente en la rnás lenta investigación en este campo, aunque es previsible, igual que ocurre con la validación
cruzada, que puedan modificarse convenientemente los otros métodos existentes, y extiendan sus buenas propiedades al conjunto de los procesos dependientes.
REFERENClAS
ALTMAN, N. S. (1990) .«Kernel smoothing of data with correlated errors» . Journal
of the American Statistical Association, 85, 749-759.
BOWMAN, A. W. (1984). «An alternative method of cross-validation for the smoothing of density estimates». Biometrika, 71, 353-360.
BRADLEY, R. (1986). «Basic properties of strong mixing condition» . I n Dependence
in probability and statistics. Ernst Eberlein, Murad S. Taqqu, ed. Birkh^user.
CAO ABAD, R., CUEVAS, A. y G©NZÁLEZ MANTEIGA, W. { 1992A). «A comparative study
of several smoothing methods in density estirnation». A aparecer en Computational Statistics and Data Analysis.
CAO ABAD, R., QUINTELA, A. y VILAR, J. M. (1992B). «Bandwidth selection in nonparametric density estimation under dependence: a simulation study». Preprint.
CASTELLANA, J. V. y LEADBETTER, M. R. (1986). «On smoothed probability density
estimation for stationary processes». Stachastic Processes and their Applications, 21, 179-193.
CHU, C. K. y MARRON, J. S. (1991). «Comparison of two bandwidth selectors with
dependent errors» . Annals of Statistics, 4, 1906-1918.
CH^u, S. T. ( 1989). «Bandwidth selection for kernel estimation with correlated
noise». Statistics and Probability Letters, 8, 347-354.
DAVYDOV, YU, A. (1968). ^<Convergence of distributions generated by stationary
stochastic processes» . Theory of Probability and its Applications, ^ 3, 691-696.
DEVROYE, L. (1987). «A course in density estimation». Birkh^user.
GASSER, T. y MI^LLER, H. G. (1979). «Kernel estimatíon of regression functions».
Smoothing techr?iques for Curve estimation, eds: Gasser y Rosenblatt. Heidelber: Springer-Verlag.
GY^RFI, L., HP^RDLE, W., SARDA, P. y VIEU, P. (1990). «Nonparametric Curve Estimation from Time Series» . Lecture Notes in Statistics. Vol. 60, Springer-Verlag.
New York/Berlin.
.1( )^^
r^ . ^ .^ ^
,F^.;r^t,^ ^,
HAL,L, P. y MARRoN, J. (1987). «On the amount of noise inherent in bandwidth
selection for kernel density estimator». Annals of Statistics, 15, 163-181.
HALL, P. y SCHUCANY ( 1989). «A lacal cross-validation algorithm». Statistics and
Probability letters, 8, 109-117.
HALL, P. y HART, J. D. (1990). { <Convergence rates in density estimation for data
from infinite-order moving average processes». Probability The©ry and Related
Fields, 87, 253-274.
Hl^RDLE, W. (1990). «Applied Nonparametric Regression». Oxford University
Press.
HARDLE, W., HALL, P. y MARRaN, J. S. (1988). «How far are automatically chosen
regression smoothing parameters from their optimum?» Journal of the American Statistical Association, 83, 86-95.
H^RDLE, W. y V^EU, P. (1990). «Kerne! Regression smoothing of time series». Core
discussion Paper, número 9031.
HART, J. y V^EU, P. (1990}. «Data-driven bandwidth choice for density estimation
based on dependent data». The Annals of Statistics, 18, 873-890.
. «Progress in data-based
bandwidth selection for kernel density estimation». Preprint.
JONES, M. C., MARRON, J. S. y SHEATHER, S. J. (1992}
MARRON, J. (1985). «An asymptotically efficient solution to the bandwidth problem
of kernel density estimation». Annals of Statistics, 13, 1011-1023.
MARRON, J. (1987). «Partitioned cross-validation». Econometric Reviews, 6, 271284
MARRON, J. {1988). «Automatic smoothing parameter selection: a survey». Econometric Reviews, 13, 187-208.
MIELNICZUK, J., SARDA, P. and V^EU, P. (1989). «Local data-driven bandwidth choice
for density estimation». Journal of Statistical Planning and Inference, 23, 53-69.
NADARAYA, E. A. (1964). «Some new estimates for distribution functions». Theory
Prob. Appl., 497-500.
PRAKASA RAO, B. L. S. {1983}. «Nonparametric functional estimati0n». New York:
Academic Press.
PRIESTLEY, M. B. y CHAO, M. T. (1972). «Nonparametric function fitting». Journal
of the Royal Statistical Society. Series B, 34, 385-92.
QUINTELA, A. (1992). «Cálcuio del parámetro de suaviZación en la estimación no
paramétrica de curvas con datos dependientes». Tesis doctoral. Universidad
de Santiago de Cornpostela.
E`^TIMA(:IC)N [^E (:tJF1VA^^, AS()C:;IADAS A SE 1=^^E ^ TE^ MfaCaF;,AI E^
_
__
4^L)
_
QUINTELA, A. y VILAR, J. (1991). «Técnicas de validación cruzada en la estimación
de la densidad bajo condiciones de dependencia». Qi^estiia, 15, 1 21-45.
QUINTELA, A. y VILAR, J. (1992). «A local cross-validation algorithm for dependent
data». Test, 1, 123-153.
RE^ss, R. D. (1981). «Nonpararnetric estimation of smooth distribution functions».
Scandinavian Journal of Statistics, 9, 65-78.
RicE, J. (1984). «Bandwidth choice for nonparametric regression». Annals of
Statistics, 12, 1215-1230 .
RoBiNSON, P. M. (1983). «Nonparametric estimators for time series». Journal of
Time Series Analysis, 3, 185-207.
ROSENBLATT, M. (1956). «A central limit theorem and a strong mixing condition».
Proc. Nat. Acad. Sci., 42, 43-47.
RoussAs, G. (1988). «Nonparametric estimation in mixing sequences of random
variables». Journal of Statistical Planning and Inference, 18, 135-149.
RoussAs, G. (1989A). «Some asymptotic properties of an estimate of the survival
function under dependence conditions». Statistics and Probability Letters, 8,
235-243.
Roussas, G. { 1989B). «Nonparametric regression estimation under mixing conditions». Preprint.
RUDEMO, M. (1982). «Empirical choices of histograrnms and kernel density estimates». Scandinavian Jaurnal of Statistics, 9, 65-78.
SARDA, P. {1990). «Smoothing parameter selection for smooth distribution functions» . Manuscrito.
SARDA, P. y ViEU, P. (1989}. «Empirical Distribution Function for Mixing Random
Variables. Application in Nonparametric Hazard Estimation». Statistics, 20,
559-571.
SILVERMAN, B. (1986). «Density estimation for statistics and data analysys». Chapman and Hall.
V^EU, P. (1991A). «Nonparametric Regression: local optimal bandwidth choice».
Journal of the Royal Statistical Society, Ser. B, 53, 453-464.
V^EU, P. (1991 B). «Quadratic errors for nonparametric estimates under dependence» . Journal af Multivariate Analysis, 39, 324-347.
VILAR FERNÁNDEZ, J. M. (1989). «Estimación no paramétrica de curvas notabfes
para datos dependientes» . Trabajos de Estadística, 2, 69-88.
VfLAR FERNÁNDEZ, J. M. (1991). «Funciones de distribución». Qiiestiio, 15, 1, 3-20.
E ^: rr.t3,^,ti^^^,,•, F ^-,F^^r,r^^c^^ r.
Va^KaNSK^^, V. A. y RoZANov, Y. A. (1959). «Some limit theorems for randam
functions I.» Theory Prob. Appi, 4, 178-197.
WAND, M. P. (199^). «Finite sample performance of density estimators under
moving average dependence». Statistics and Prvbability Letters, 13, 109-115.
WATSON, G. .^
^`^ . y LEADBETTER, M. R. (1964). «HaZard Analysis I I». Shankhya, Ser.,
A26, ^ 01-116 .
CURVE ESTIMATION FROM TIME SERIES: THE BANDWIDTH
SELECTION PROBLEM
SUMMARY
In this paper, the smoothing parameter selection problem in nonparametric
curve estimation (density, distribution and regression) with dependent data
(strong mixing} is considered. The presented methods fit, in general, to the
classical forrn of cross-validation.
For every curve, we propose a^ bandwidth selection procedure, and we study,
by simulation, the optimality of this method.
Key words: Nonparametric estimation, strong rnixing processes, cross-validation.
AMS Cfassification: 62G99.
Descargar