ESTADISTICA ESPAÑOLA Vol. 35, Núm. 133, 1993, págs. 377 a 40fi Estimación de Curvas asociadas a Series Temporales : el problema de Selección de la Ventana ALEJANDRO G2UINTELA DEL RIO Departamento de Maternáticas - Facultad de Inforrnática Universidad de La Coruña RESUMEN En este trabajo se estudian los distintos métodos existentes para obtener, de manera automática a partir de los datos, el parámetro de suavización (banda o ventana) correspondiente a la estimación no paramétrica, tipo núcleo, de curvas de probabilidad (densidad, distribución y regresión) asociadas a muestras de datos dependientes y, más en concreto, fuertemente m'rxing. Dichos métodos se ajustan, en general, al procedimiento clásico de validación cruzada. Para cada tipo de curva estudiada se propone una forma de seleccionar la ventana, y se analiza mediante simulaciones la validez de tal método. Palabras clave: Estimación no paramétrica, procesos fuertemente mixing, validación cruzada. Clasificación AMS: 62G99. . INTRODUCCION La estimación no paramétrica de curvas asociadas a modelos de probabilidad constituye, hoy en día, una metodología de trabajo muy práctica para su utilización en amplios campos de distintas ciencias (medicina, biología, economía, etc.). A la hora de aproximar una curva teórica de interés (densidad, distribución, razón de fallo...} subyacente a un conjunto de datos, la metodología no paramétrica evita el uso de la especificación concreta de una forma funcional y utiliza, ^ f'.-^ F' ^ ^^ t)! F"^ exclusivamente, las observaciones muestrales como herramienta de construcción de un estimador de dicha curva. Si se dispone de una muestra (X^,X2,...,X^,) (X; E lRP) de datos procedentes de !a observación de una variable aleatoria continua X, curvas de gran interés a estudiar sobre la misma son su función de densidad, f, y su función de distribución F. Si disponemos, en cambia, de una muestra {(X;, Y;)}^^ 1 con X; E IRp, Y E IR, una curva de surna utilidad a la hora de proporcionar información sobre la nube de puntos es !a función de regresián m(x) = E[Y/X = xj. Existen diferentes tipos de estimadores no paramétricos de !as curvas anteriormente mencionadas. Monografías muy valiosas sobre estos temas son las de Silverman (1986), para el caso concreta de ia densidad, y la de H^rdle (1990) para !a regresión, Otros libros a destacar son el de Pral^asa Rao (1983), Devroye (1987), y Gyi^rfi y otros (1990). L.a mayoría de los estimadores no paramétricos admiten un formato general, conocido como estimadores delta. Así tendríamos, para el caso de 1a densidad: ^ n fh ^x ^ - n-1 ^ Sh tX+ Xi^ i- 1 (^) siendo óh: IRPx ^P--^ IR- una función que nos indica el peso dei dato X; para la estimación en el punto x. Para la función de distribución: n n Fh ^X^ = n^1 ^ S h Cxt Xi^ i= 1 x siendo ó^ (x, U) =^ áh (t, U} dt Y, en el caso de la regresión: n n^^ ^ Yi ^n (x, Xi) ^ (x) _ i=^ _ ____ mh n n^1 ^ Yi Sn tx, Xi) i_...1 Estimadores tan conocidos como e! núclea, el histograma o el de los desarroIlos ortogonales, se adaptan a este formato. De ellos, el más utilizado, qúe trataremos en este trabajo, es el estimador núcleo, correspondiente a la elección como función delta de Sn (X^ u) = hsP K [íx--u)/h] siendo K una función de IRp con valores en IR, con j K(t)dt = (2) E ^^11M1>(;'(_)fV Uf (.IJR`vA`.^ ^^;<)(:.IAf)A^ A `;E^^.'if ^ Tf n^^!^'i ) F^^2r^^I E ^-, .. ,3i_ En cualquiera de los estimadores construidos anteriormente para alguna de las curvas en consideración, aparece como pieza fundamental de los mismos un parámetro de escala, h, Ilamado parámetro de suavización, ventana o banda, que nos indica el entorno de x en el que tomamos puntos muestrales que influyen en la esti^mación concreta en el punto x. Este parámetro ventana h controla la cantidad de suavización inherente a la estimación no paramétríca. Un valor excesivo produce estimaciones con poca varianza pero muy «distanciadas» de la verdadera función, y un valor muy pequer^o de h origina estimaciones con poco sesgo, pero demasiado variables. Es, en cambio, conocido que la elección concreta de la función K no influye demasiado en los resultados de la estimación. Una función núcleo muy utilizada es la de Epanechnikov: K(u) = 3/4(1--u2) si ^ u^ ^ 1 y 0 en otro caso (3) Por io indicado anteriormente, un problema primordial, y quizá el más importante, a la hora de realizar la estimación de una curva, consiste en la elección de un parámetro ventana o banda adecuado. EI problema de la selección automática del valor h(única y exclusivamente a partir de los datos) ha sido tratado exhaustivamente bajo la suposición de independencia de la muestra. Puede consultarse el trabajo de Marron (1988) para una revisión de las distintas técnicas disponibles en densidad y regresión. Otros trabajos importantes son !os de Jones y otros (1992), y Cao y otros (1992a), que realizan una descripción de distintas técnicas de selección de la ventana para el estimador núcleo de la densidad, y estudios de simulación comparativos de los mismos. En estos trabajos se analizan distintas metodologías (bootstrap, técnicas plug-in, puntos de ínflexión...) y se obtienen algunos resultados comparativos (prácticos y teóricos). Sin embargo, la hipótesis de independencia puede resultar errónea si, por ejemplo, Ios datos han sido recogidos de forma secuencial en el tiempo. Cuando las observaciones muestrales pertenecen a una serie temporal, la metodología no paramétrica se adapta, sin excesivos problemas, al tratamiento con las mismas. Distintos estudios, como los de Castellana y Leadbetter (1986), Robinson (1983), Roussas (1988) o Vilar Fernández (1989), entre otros, indican que los estimadores na paramétricos se comportan sensiblemente bien cuando se trabaja con series de tiempo, alcanzándose propiedades asintóticas del mismo tipo que cuando se trabaja con datos independientes. Sin embargo, los estudios existentes hasta la actualidad (tanto de tipo teórico como relativos a simulaciones) en lo tocante a la selección de la ventana bajo hipótesis de dependencia, son menos numerosos que los desarrollados bajo supuestos de independencia. Es propósito de este trabajo ei dar una visión de los distintos métodos disponibles hoy en día, bajo un contexto general de dependencia. Así, en la sección 2 introducimos las condiciones teóricas de dependencia sobre las cuales trabajar. En la sección 3 t ^^^' ^^(1^ ^^^3(_^ tratamos el problema de la selección de la ventana h en la estimación no paramétrica de la funcián de densidad. En la sección 4 se aborda ei mismo probiema cuando se estima ia función de distribución, y en la seccián 5 cuando se estima la función de regresián. Sin excesiva pérdida de generalidad {los resultados que se den son fácilmente extensibles a varias dimensiones} se tratará el caso unidimensional (p =^1). 2. CONDiCIONES DE DEPENDENCIA Y CRITERiOS DE ERROR Sea U; _(X;,Y;) una sucesión de variables aleatorias. Se dice Definición 2.1 que {U;} es ^c-mixing o fuertemente mixing (Rosenblatt, 1956) si para cada k,n E^V* y para cada conjunto A(resp. B) que es (U;,...,Uk)-med'+ble (resp. (Un+k, Un+k+^,...)-medible), se tiene ^ P(AnB) - P(A}P(B)^ <a(n), siendo a(n) una sucesión de números reales positivos que tiende a cero. Esta condición de dependencia es muy general, y engloba, como caso importante debido a su aparicián en múltiples ejemplos, a las procesos ARMA can ruido continuo [consultar, por ejemplo, Bradley (1986) para un estudio más detaliado sobre este tipo de condicián]. Consideremos ahora los criterios para la valoración del comportamiento de un estimador que utilice algún método automático de selección del parámetro ventana. Este criterio puede ser globa! o puntual, según se centre el interés en la estimación por entero de la curva o la estimación en un punto particular. Cuando consideramos la estimación en un único punto x, una medida natural es el error cuadratico medio (mean squared error), definido por MSEX (rn) = E [rn (x) - r (x)]2 {4) con rh un estimador de alguna de las curvas de interés. La forma más a menudo usada de medir el comportamiento global de nc ^omo estimador de r es el error cuadrático medio integrado (MISE), definido por MISE (rn) = E ^ jrh (x) - r(x)]2 w(x) dx (5) C^tras medidas globaies de interés son el error cuadrático promedio ( average ^ squared error) n ASE (rn) = n^1 i Lrr, (X^} -- r(X^)]2 w(X^) ^ -: ^ {6) E `; ( EM^,( .1; iCJ (^)E (..l)F^VA`.^^ ^`^`^,(!(.iA[)t^`^ A ;^E f<'It `^, f i "✓'F'^ .)F^:'1^ E `.. y el error cuadrátrco integrado ( integrated squared error) ISE (rh) = j[r h(x} - r(x)]2 w(x) dx (7) representando w(^ ) alguna función de ponderación, que puede ser idénticamente uno Otras criterios se centran en considerar errores absolutos (i.e la norma L'), o a norma del supremo. Estos dos úitimos casos han sido, en general, menos tratados en la literatura sobre estimación no paramétrica, principalmente debido a su mayor dificultad teórica. En este trabajo consideraremos los criterios de error de tipo cuadrático. Bajo la suposicián de que los datos sean fuertemente mixing, según la definición 2.1, los tres errores globales citados san asintóticamente equivalentes, en el sentido de que si d y d' son dos errores cualesquiera (ASE, ISE o MISE) se cumpte que lim sup n --> ^x^h E H^ d ^rh^ - d^ (rh^ __ d_ ^rhj_ _ _.. ^ 0 casi seguro (8) donde H^ es un conjunto de posibles parámetros h, que se detallará más adelante. Esta propiedad de equivalencia asintótica ha sido demostrada por Vieu (1991 b), y permite, en cierta forma, trabajar indistintamente con uno u otro tipo de error. Además, dichos errores son, asintáticamente, los mismos que si se trabajase con datos independientes. Más concretarnente, Vieu (1991 b) demuestra que sup ^ MISE ( rh) - M1SE o(rh) I= 0(h^k) (gi h ^ H^ con MISEo el error que se originaria si los datos en estudio fuesen independientes, k el número de derivadas de la función a estirnar, y cansiderando que h tiende a cero si n tiende a infinito. Un resultado del mismo estilo es el dado por Hall y Hart (1990}, que estudian el MISE asociado al estimador núcleo de la densidad, bajo la suposición de que la muestra (X^,...,X^) proviene de un proceso cx ^ MA: X^ =^ ak Z ^_k, (con ^k ak <^} y demuestran que k ^^ ^^ MISE (fh) ^ MISE o (fh) + Var (X) f(f^)2 siendo X la media muestral. AI n© depender de h el segundo término de esta última expresión, la mejor velocidad de convergencia alcanzable por el MISE bajo independencia no va a verse afectada por la dependencia de los datos. E`^,,I^f.:)^ST^t:,A E ^;L'AN^u^I ^r Estos resultados de tipo asintótico, sin embargo, necesitan un elevado tamaño muestral para verificarse. Así, por ejemplo, Wand ( 1992), calcula la expresión exacta del MISE para un proceso AR(1): Xt = pX t_^ + et, con densidad marginal f y núcleo K gaussianas, y obtiene que, para p= 0.9, se necesita un tamaño muestral de 486 para obtener ei mismo mínimo en la función MISE que cuando n= 5o y p= 0(independencia). En general, lo mismo va a ocurrir cuando se elija un parámetro de suavización. Aunque asintóticamente el parámetro óptimo sea el mismo, no ocurrirá lo misma para tamaños muestrales finitos, como se pondrá de manifiesto en los ejemplos de simulación que mostraremos rnás adelante. 3. SELECCION AUTOMATICA DE LA VENTANA EN LA ESTIMACION DE LA FUNCION DE DENSIDAD Supongamos una muestra X^,X2,...,Xn de datos fuertemente mixing, con densidad común f. Para elegir un parámetro de suavización para el estimador núcleo existen dos métodos, con !a denominación común de validación cruzada. EI método clásico de validación cruzada de mínimos cuadrados («least-squares cross-validation») propuesto por Rudemo (1982) y Bowman (1984), para datos independientes, consiste en efegir el h que minimice la función n n. CV (h) = j f^ ( x) w(x) dx -- 2n^^ ^ f^ (x^) w(x^) i =- ^ (10) ^ donde f^ es el estimador núclea que utiliza toda la muestra excepto el dato X^. La función CV (h) es, así definida, un estimador insesgado del MISE {salvo una constante que no depende de h). Para datos fuertemente mixing, ^y^irfi^y otros (1990} proponen la modificación consistente en redefinir el estimador f ^ de la forma siguiente: n n f^ (x) .- ^ r 1_1 ^ Kn (x -- Xi) Y ili - ^ I) i= 1 siendo y(u) una función que verifica: ^, ( u) = 0 si u= o 1 siu>In 0 <_ y (u) <_ 1 si u ^ In n Y 'Y = ^ 'Y (^i - ^ ^) (12) La razón de este estimador es ia siguiente: Si los datos están correlacionados n. positivamente, al estimar f (X^) mediante f^ (X^), los datos próximos temporalmente E.STIMA(.;IC)N [)E:: (:L^RVAS ASO(..;IADAS A SERIE ^; TE P^^tF'C)RALE`.^ _ a Xj: Xj_,,Xj_^+^,...,Xj_1,Xj+1,Xj+2, ... , Xj♦, proporcionan información sobre Xj que viene dada por la dependencia de la muestra y no por su estructura probabilistica, lo que origina que la función de validacián cruzada alcance el mínimo en bandas pequeñas y se obtengan, por lo tanto, estimaciones poco suavizadas. Si los datos están altamente correlacionados negativamente se obtienen, en cambio, estimaciones sobresuavizadas. Para evitar este problema, en ( 11) calculamos la estimación de f(Xj) ponderando los datos próximos ( en el tiempo) a Xj; en consecuencia, los que están altamente correlacionados con él, dándoles un peso inferior cuanto mayor sea su dependencia con Xj. Así, la función ^y (u) clasifica ios datos en función de su dependencia (cercanía en el tiempo), indicando cuándo dos datos pueden ser tratados como si fueran independientes [y (u} = 1]. Es importante tener en cuenta que este método es claramente una generalización del método para datos independientes, sin más que considerar la función Y (u) = 1 -- I[-i^, -^- in^ (u) (13) y elegir I^ = o. Esta última función es la utilizada por Hart y Vieu (199ó). EI segundo método estudiado [C^uintela y Vilar (1991)], asintóticamente equivalente a este último, como se detallará a continuación, es el de validación cruzada de pseudo-máxirna verosimilitud, también Ilamado de Kullback-Leibler. consiste en elegir el h que maximice n n, L(h)=rI(fñ)+(Xj) a, ^, f X,^ e`- P c X, ) (14} j= 1 donde n. ^. (f^ )+ (Xj) = max {(f^ } (Xj), 0} P(X) _,^ h K ^( Y - x ) / h] dy siendo [a,b] algún intervalo donde f(x) sea estrictamente mayor que cero. La n. utilización de la parte positiva del estimador [(fh)+] permite utilizar funciones núcleo , que tomen valores negativos. EI uso de la función indicadora 1^a,b^(-) y de !a función e-^E^^ en (14) reducen problemas que surgen en aquellos puntos en donde la densidad f es muy próxima a cero, o cuando se realiza la estimación de una densidad con colas pesadas [véase Marron (1985), para una explicación rninuciosa de la conveniencia de dichos términos en la expresión (14)]. f s1nt.,^^;r^t_^ E :,c>^r^^.^^.a 3^4 La optimalidad de estos dos métodos de validación cruzada viene dada en el siguiente teorema. Para ello son necesarias las hipótesis que se detallan a continuación: Supongamos que la función núcleo K satisface: (K.1) K es Hélder continua: ^ K(x) - K(y}I < C^) x- yI ^, ^x, y E R, C^ > 0, ^> 0 (K,2) K es de soporte compacto. (K.3) K es simétrica y de orden v, es decir: ,(K(u)du= 1,0<JxvK(x)dx<^, f xk K(x) dx = o, k= 1, ..., v- 1 (K.4) La transformada de Fourier de K es absolutamente integrable. La ventana h se elegirá dentro del intervalo: (H.1) H^ _ [An^a^, Bn-b^], o < b < 1 / (2v + 1) < a' < 2 / (1 + 4v). con A y B constantes positivas finitas. Los datos X^,X2,...,X^ son a-mixing, donde los coeficientes mixing y la sucesión tln)^ E ^v verifican: (L.1) I^ < i^ = Dn^^ para algún 0< r^ <[2 - a' (1 + 4v)] / 2(D > 0 (L.2) cz (I^) = sup a(j) = o(n- r2) 1}^;, para r2 = U+ V+(2a' + 4va') (2 + U/V), donde U= 1 +2a'+2va'-byV=2-a'{1 +4v)-2r^. n (L.3) ^, tn - k) a(k) = o (n-2vb") k-0 Sobre la función de ponderación w se supone (w.1) w es acotada de soporte compacto. Finalmente, se sup©ne sobre fa función de densidad a estimar: (F.1) f tiene v derivadas continuas en todo punto x E[a,b], v> 1. (v igual que en (K.3)). E:STIMA(;I()N UE (^1^RVAS ASOC;IAUA`^ A^^F F^IE ^; EE MF'^.iF^A^ E S 3^^ (F.2) ^C> > 0 tal que f(x) > C^ ^x E[a,b] (F.3) max [f (x), f (-x)] --^ 0 cuando x -^ ^. (F.4) f es Hólder continua: ^ f(x) -- f(Y)^ ^ C^ x- y^ b,^ x E ^, b> 0 (F.5) Existe la densidad asociada a la variable bidimensional (^C^,X^+^) con respecto a la medida de Lebesgue. Teorema 3.1 Bajo las hipótesis (H.1), (W.^1), (L.1)-(L.3), (K.1)-{K.4) y(F`.1)(F.5), si ^i es el parámetro que maximiza L(h) o minimiza CV(h), se tiene que, cuando n --^ ^ ERR (f^) ------------ _ n ^ 1 casi seguro (15) inf ERR (fh^ h E Hn sie ndo E RR(^h) = MI S E (^h), AS E (^h) o I SE (^h). La demostración de este resultado, generalizado para funciones delta no necesariamente tipo núcleo, puede verse en Quintela y Vilar ( 1991). Algunos comentarios a resaltar sobre las hipótesis serían: (i) Las hipótesis acerca de la función núcleo K son bastante corrientes y fáciles de verificar. Un caso muy concreto y que aparece comúnmente en la práctica es que v= 2, y así, un ejemplo de función núcleo verificando las hipótesis (K.1)-(K.4) es la de Epanechnikov (3). (ii) Con respecto al intervalo H^, si, por ejemplo, v= 2, podría elegirse a' = b' = 1/5, con lo que el parámetro de suavización elegido tornaría la forma clásica h = Cn-^^5, que es la forma del parámetro de suavización que minimiza el desarrollo asintótico del MISE como MISE = j Sesgo2 (^h) + j Var (^h}. (iii) La acotación I^ <_ Dnr^ (donde r^ es un número positivo menor que uno) nos garantiza que el número de puntos que ponderamos inferiormente en la validación cruzada no exceda una cantidad razonable, dependiente del tamaño de la muestra. absérvese que la hipótesis (L.1) permite elegir I^ = 0, que corresponde a la técnica de validación cruzada para datos independientes, suponiendo que la función y es de la forma (13). (iv) Las condiciones impuestas a los coeficientes oc-mixing parecen bastante complicadas, pero puede probarse con relativa sencillez que tales condiciones son verificadas por coeficientes de tipo exponencial o geométrico cx(k) = apk (0 ^ F^;T^f)i^^?ic.A E^F1AP^f)! t^ p< ^) o a(k) ^ bk-^t, que son realmente los más característicos para muestras de datos dependientes ( modelos autorregresivos, etc.). 3.1. Ejemplo de simulación Un pequeño ejemplo de simulación sería el siguiente: Se han generado 50 muestras de tamaño 10o del proceso autorregresivo de orden 1: Xt = pXt_^ + Et, con Et E N(o,1 } y p= 0.6 (16) Para cada una de las muestras se ha calculado: EI parámetro de suavización que minimiza el error cuadrático promedio ASE (h), ^IASE^ Este será el parámetro con el cual comparar la bondad de los resultados obtenidos medíante validación cruzada. EI parámetro de suavización que se obtiene por validación cruzada de máxima verosimilitud, hMV, eligiendo el intervalo [a,bj ^[-c^, +6] con 6 la desviación típica de la muestra. Ef parámetro de suavización que se obtiene por validación cruzada de mínimos cuadrados, hcv, eligiendo como función de peso w(x) = 1^^, +aa(x). En cada muestra, para cada una de estas ventanas, h,^sE, hnnv Y hcv se ha calculado el error cuadrático promedio ASE asociado. Se ha utilizado ia función núcleo de Epanechnikov (3), y función ponderadora de la dependencia ^y (u) = 1- - I^_^^,+^^^(u}. Esta función núcleo se utilizará en todas 1as simulaciones del trabajo. Los resultados que se exponen a continuación (ventanas y errores cuadráticos) corresponden a la media de 1as 50 muestras, apareciendo entre paréntesis fa desviación típica, también obtenida de las 50 replicaciones. Los resultados son: E^, 1 G^,.^. "^It., T;^ ,', c^,^'A^Jt" ;^ Ca^mentarios: Puede observarse, a partir de la tabla 3.1 y de la figura 3.1, que los mejores resultados corresponden a elecciones de I^ = 3,4,5 y 6(en cuanto a menor error ASE y menor distancia al mejor parámetro hASE) lo cual es coherente con el hecho de que la dependencia entre los datos es relativamente fuerte (el parámetro p del proces© es 4,6). En efecto, tanto en las simulaciones efectuadas por Quintela y Vilar (1991) {en las que se anafizan también valores de p= 0,0.3 y 0.9) como en las realizadas por Hart y Vieu (1990) (en las que sólo se estudia la validación cruzada minimo cuadrática, y se utilizan otros tamaños muestrales), se observa que, según se va aumentando la dependencia entre los datos, debe irse paralelamente aumentando ei valor de i^, puesto que, aunque las resultados no Ilegan a ser en exceso diferentes, sí son mejores. De la tabla 3.1 se extrae ia conclusión de que los métodos de validación cruzada poseen una alta variabilidad (desviación tipica grande} en cuanto a los valores obtenidos para las ventanas hMV y hcv, según se observa en las columnas dos y cuatro de dicha tabia. Tal efecto ya había sido puesto de manifiesto por Hárdfe y otros (1988} y por Hall y Marron (1987). Dicha variabilidad también aparece en la estimación no paramétrica de la función de distribucíón y de la función de regresión. Otra elección posible para la función y, que además evita el tener que elegir algún valor para el entero In, sería considerar la siguiente función, basada en los misrnos criterios que los test de hipótesis clásicos sobre correlación: y(u) = 1 - ^r(u 1 si (r (u)^ > 2 / ^Iñ en otro caso (17) con r(u) = autocorrelación muestral de orden u. Realizando ahora el mismo estudio anterior con esta función, y abservando los resultados para valores de p= 0, 0.3, ^.6 y 0.9, obtenemos: TAB LA 3.2 Ventanas obtenidas mediante validación cruzada y errores cuadráticos asociados, utilizando la función de ponderación (^ 7} 4^ hMV ASE (hMV) hcv 0 0.3 0.6 0.9 0.924 (0.330} 0.957 (0.366) 1.143 (0.38$) 3.712 (0.180) 0.0028 (0.0034) 0.0024 (0.0025) 0.0020 (0.0022) 0.00089 (0.0006) 0.924 (0.336) 0.927 (0.386) 1.152 (0.417) 2.544 (0.626) ASE (hcv) 0.0028 0.0027 0.0022 0.0021 (0.0031) (0.0030) (0.0026) (0.0031) 389 E;ST^iMAC^I^^^N E:)E C^:t.)RVAS ASC^C.^IAUA^^ A^^E RIE_^; TE MF'í__)f;^;^ E: ^ _ _ Podemos comprobar que, por ejempla, para p= 0.6 que corresponde al primer estudio realizado, los resultados son similares a los obtenidos escogiendo el mejor valor de I^. Una segunda consecuencia que obtenemos es que los dos métodos de validacián cruzada proporcionan prácticamente los mismos resultados, existiendo sólo diferencia, en favor del método de máxima verosimilitud, cuando la dependencia es muy fuerte (p = 0.9). Sería muy interesante poder obtener resultados del tipo de los proporcionados por Hall y Marron (1987), que calculan la distribución asintótica de la ventana de validación cruzada mínimo cuadrática, una Normal centrada en la ventana que minimiza el criterio MISE, y a la cual se acerca con velocidad de convergencia n-^^'°^ Sin embargo, la inexistencia de teoremas centraies del límite para formas cuadráticas generales sobre datos fuertemente mixing, necesarios para demostrar resultados de este tipo, imposibilitan, por el momento, la obtención de los mismos. Un estudio comparativo de simulación de diez métodos de selección de la ventana, incluyendo los de validación cruzada, diseñados para datos independientes, y aplicados a distintos modelos de datos con dependencia (autorregresivos, m-dependientes y otros) y con distintas distribuciones marginales (normal, exponencial, doble exponencial y otras) es el de Cao y otros (1992b). En este trabajo puede observarse que todos los métodos diseñados para utilizarse con datos independientes empeoran cuando esta hipótesis no se cumpie, salvo excepciones concretas en algunas distribuciones. 3.2. Criterios locales de selección de ta ventana Un criterio local será aquel que calcule el parámetro h(x) que trate de minimizar, en un punt© x de interés, el error cuadrático medio (4}. Simplemente, si en la función de validación cruzada mínimo cuadrática {10) elegimos corno función peso w(y) = W^,X(y) una función centrada en el punto en estudio x, tenemos un criterio de validación cruzada local, que consistirá en elegir, para cada x, la ventana h(x) que minimice CV ) Wn,x{y } d -W x^ n_ f^ h^x^ !) n,x^ ^) h{Y x^ h= ) y 2^ af2 ( 18 } j - ^ n con f^ dado por (11). Tendremos así para cada punto una ventana diferente a la utilizada en los restantes puntos de estimación. Este tipo de planteamiento local orígina estímadores no paramétricos que no son densidades, y en general son menos suaves que los estimadores que utilizan una ventana global para todos los puntos. .39C^ E ^TA[)1^TIC:A F `-;F'ANt_)t A Este criterio ha sida estudiado par Hall y Schucany (1989) y Mielniczuk y otros (1989) en el caso de datos independientes. Para el caso de datos dependientes fuertemente mixing, la ©ptimalidad asintótica del método ha sido demostrada por C^uintela y Vilar (1992), que prueban un resuitado similar al teorema 3.1 de! apartado anterior. Esta es Tearema 3.2 en (18) Si consideramos la ventana que minimiza el criterio definido h (x) = arg rnin CVX (h) h ^ H ^^ se tiene ER_ x [h_(x)] _ --j^ 1 casi seguro. sup x^^a, b^ inf ER X(h) h ^ H^, donde los errores ERx(h) no son más que versiones locales de !as medidas cuadráticas de error anteriormente definidas, esto es: n n ASE x(h) = n`1 ^[fh (X^) -- f CX^)]2 w^, x(X^) ^^i n ISE x(h) -- f[fh (y) - f{y)^2 Wn, x(y) dx (19) MISE x (h) = E [!SE X (h)] La equívalencia asintótica entre estos tres errores, dei tipo (8}, viene dada por: Teorema 3.3 Se verifica: sup _^ER.X__(h) -- MISE . __ X- h) MISE,^ (h) h^ H^ a casi segura siendo ERX(h) = MSEX(h}, ASEx(h) o ISEx(h) ^as condicianes bajo las cuales se verifican estos resultados son del estilo de las utilizadas en e! teorema 3.1, can la necesidad de imponer a la funcíón de peso iocal, W, las condiciones (1) W^,X (u} verifica Wn,X(u)?0, sup Wn, X( u)= O^ ( n^3), x, u J^Nn,x(u)du=1 R^ ^1 _ 1^ ^ a^& c 1 10 2 5 E.S 1 IMA(:I( )N C)E. (:^1.1f^VAS ASOC.IAC)AS A SE F^IE `^s T f MF't )RAL F`^ _ __ 39 (2) para toda función g continua se verifica J W^,X (u) g(u) du ^ g(x) uniformemente para x E[a,bJ Las hipótesis exactas necesarias, así como las demostraciones de estos teoremas, bastante técnicas y complicadas, pueden consultarse en Quintela y Vilar (1992 ) . 3.3. Ejemplo de simulación Realizando un estudio del mismo estilo que el visto en la validación global, hemos simulado 50 muestras de tamaño 200 del modefo AR(1): Xt = a.7Xt_^ + +^t, con distribución marginal de Xt una N(0,1}. Hemos estudiado la estimación de tipo local en los puntos de la forma yk =-2 + 0.25k, con k = 0,1, ...,16; esto es, en dichos puntos calculamos la ventana local utilizando ( 18), y la estimación en el mismo con dicha ventana, así como la estimación utilizando la ventana mínimo cuadrática global, según {10). A continuación, calculamos el error cuadrático promedio de ambas estimaciones, dado por 16 ^ ASE (h) = 17 -^ L [fn ( Yk) - f (Yk)^2 k=0 EI peso local utilizado fue WX{y) = 1 si ^ y-x (^ 0.5, y la función y la dada en (13), con In = 3. Los resultados, sobre las 50 rnuestras replicadas, son: TABLA 3.3.1 Comparación de errores cuadráticos en#re estimaciones con ventanas globales y locales Media Des. Típica CV global 0.002133 0.001779 CV local 0.001933 0.001777 ASE con Los resuftados indican que una estimación con bandas locales mejora, aunque no excesivamente, los resultados que proporcionan las estimaciones con banda global. En Quintela y Vilar (1992) y Vieu (1991 a), pueden verse otros estudios de simulación análogos que confirman lo expuesto en este pequeño ejemplo. EI inconveniente mayor de realizar estimaciones locales, además del ya mencionado de que un estimador con ventanas en cada punto no es una función de densidad, es que precisa minimizar la función de validación cruzada en cada punto de in#erés. EI tiempo de computación requerido es, pues, significativamente mayor. F. ^T^ ! ^} kl^:^,^ E^^^:,t^>AP^JQI 1'^ SELECCION AUTC3MATICA DE LA VENTANA EN LA ESTIMACION DE LA FUNCION DE DIsTRIBUCION 4. Propiedades del estimadar núcleo de !a función de distribución, n n K(t) dt, han sido investigadas, en- Fh (x) = n-' ^ K* [(x - X;} / h^, con K* (u) = i -= 1 -°° tre otros autores, por Nadaraya (1964), Watson y Leadbetter ( 1964) y Reiss (1981), en un contexto de datos independientes. Bajo suposiciones de dependencia tipo mixing, ha sido estudiado por Roussas ( 1989a}, Sarda y Vieu (1989}, y Vilar Fernández { 1991), entre otros. En dichos estudios se pone de manifiesto, al igual que en eí caso de la densidad, la necesidad de canstruir algún criterio que permita !a selección automática del parámetro de suavizado h. Este aspecto ha sido, al contrario que en el caso de la función de densidad, muy poca estudiado, y únicamente se han obtenido propiedades de optimalidad asintótica para el método de validación cruzada, que consiste en elegir el h que haga . m^nimo n A CVF (h) = n-^ ^ [Fñ (X^ ^ - Fn CX^}l^ W (%C^) (2^) co n ( =n^' ^ K*[{x-X;}/h] ^^ - i I > ^^ C2 n Fn = n-^ ^ I^^ x^ , (X^) ^22) j^^ la función de distribución empírica, y n^ - #^i : ^ ^-^i > In} ^ siendo I^ un entero como en la hipótesis (L.1) de! teorema 3.1. F ^ corresponde al estimador núcfeo considerando la muestra sin 21^ + 1(en general) puntos, los más cercanos temporalrnente a X^. En el caso de que I^ sea igual a cero tenemos el procedimiento de validación cruzada introducido por Sarda (1990), cuando !os datos muestrales san independientes. La relación de dependencia puede ocasionar que la banda estimada no sea muy buena si I^ = 0, por 1o que tal vez sea conveniente elegir un In mayor, de cara a evitar la influencia de ias datos más próximos temporalmente a X^ en la estimación de la distribución en dicho valor X^, exactamente igual que ocurría en el caso de la densidad. Este criterio es estudiado en Quintela {1992}, donde se demuestra. Teorema 4.1 además, Bajo las hipótesis (H.1), {W.1), (L.1)-{L.3), (F.1)-(F.5) y sí, E`;TIMAt^ION C7E (;IJRVAS ASC)(^^IAI_)AS A SE RIE ^^ TF MF'C)RAL E`^ 393 La función K* es absolutamente continua y K=(K*)' verifica: integra área 1. es Hálder con#inua. tiene soporte compacto. es de orden v. Se verifica: si ^ se elige como aquel que minimiza CVF(h), entonces , ^ lim - ---ERR - {h)- - = 1 casi seguro n -^ ^ inf ERR' (h} h E H^, Comentarios: Vieu (1991 b) muestra que MISE(h) = V^nJ^ -- V2hn^^ + B3h4 (24) donde V^, V2 y B3 son constantes positivas, correspondiendo los dos primeros términos a ia varianza y el tercero al sesgo elevado al cuadrado. EI ERR'(h) en la expresión (23) es el respectivo error cuadrático [ASE'(h), ISE'(h) o MISE'(h}^ sin el término V^n-1, es decir ERR'(h} = ERR(h) - V^n^^. Por lo tanto, el primer término de (24} no depende del parámetro h desconocido. Además, recordemos que se verifica la relación de equivalencia entre los errores cuadráticos, dada por (8), que también es válida cuando eliminamos el término V^n-^. Resultaría relativamente sencillo realizar extensiones del método para funciones de peso locales W^,x, adaptando la validación cruzada local del capítulo anterior, así como la utilización de funciones de ponderación temporales ^y(u). La demostración de este resultado es bastante densa, del estilo de la realizada por Hart y Vieu (1990), y utiliza extensiones de resultados que sirven para acotar covarianzas de variables aleatorias mixing, del tipo del lema de Volkonskii y Rozanov (1959) o Davydov (1968). Puede consultarse en Quintela (1992). 4.1. Ejemplo de simulación En este apartado hemos generado 100 muestras de 100 datos del rnismo proceso autorregresivo de orden 1 estudiado en (16). . ^ ^1^ ^ .`7T^^^_)I`7 ^ If.,i^ F `>^'H^^^()i^ia Se ha estudiado la estimación no paramétrica de la función de distribución F(x) asociada al proceso [Narmai {0,1.56252)] en el intervalo [-2.5, +2.5] haciendo el estudio en los puntos yk = 2.5 + 0.025k, can k variand0 desde 0 hasta 200. Para cada una de las muestras se ha calculado: La banda que se obtiene por validación cruzada, h^^, eligiendo coma función de peso w{x) = 1, y variando e! número de puntos que se efiminan (I„ + 1) desde 1 hasta 11. EI parámetro ventana de validación cruzada se busca como aquel que minimiza (20). La banda que minirniza el errar cuadrático promedio: Zoo „ RSE(h) _ (201)-^ ^ Fn (Yk) - F (Yk) K -- 0 que denotaremos por hASE Para cada uno de estos dos últimas parámetros se ha calculada el error cuadrática prometiio. En la tabla siguiente se exponen !os resultados obtenidos. Para cada supuesto se ha calculado la media sobre las cien muestras de las ventanas hcv Y hASE^ y la media de sus errores cuadráticos. Los números entre paréntesis indican las desviaciones típicas obtenidas sobre las 100 muestras. Puede observarse la mejora paulatina ai ir suprimiendo puntos en el métoda, igual que ocurría en el caso de la densidad. En este caso, tadavía sería necesario considerar valores de !^, mayores para obtener resultados más práximos al óptimo. Merece destacarse el hecho de que, cuando I^ = 0 ó 1, el valor obtenido para h^v sea siempre el mismo ( la desviación tipica es cero). Ocurre que, en estos dos casos, el procedimiento de validación cruzada seiecciona el parámetro más pequeño pasible dentro del intervalo en el que se está realizando la minimización de la función CVF (20). Se obtiene así un dramático efecto de infrasuavización, al tratar la muestra coma si fuese de datos independientes, y mejorándose dicha efecto cuando el valor de In aumenta pragresivamente. ESTIMA(_;IC)N [)f (.;IJRVAS A5O(:IA[)A^ r\ E RIE `, T E M^'^ )F2Al E^> __ 3y5 TA B LA 4.1 Ventanas óptimas y ventanas obtenidas mediante validación cruzada y errores cuadráticos asociados, para la distribución de un proceso autorregresivo de orden uno hASE ASE(hASE) 1.0862 (0.4168) 0.00293 (0.00395) Validación cruzada 0 1 2 4 5 6 7 8 9 10 5. ASE{hcv) hcv n 0.05000 (o.ooooo) 0.05000 0.08360 0.10340 0.21200 0.24440 0.34160 0.42020 0.44480 0.51260 0.53660 ( 0.00000) ( 0.12494) (0.15218) ( 0.28756) ( 0.32490) ( 0.38550) (0.40952) ( 0.43851) ( 0,46091) ( 0.48579) 0.00359 0.00359 0.00358 0.00357 0.00353 0.00352 0.00348 0.00344 0.00344 0.00341 0.00341 ( 0.00423) ( 0.00423) ( 0.00423) (0.00423) (0.00420) (0.00420) ( 0.00418) (0.00418) ( 0.00418) (0.00417) (0.00417) SELECCION AUTOMATICA DE LA VENTANA EN LA ESTIMACION DE LA FUNCION DE REGRESION La idea general de la regresión se sustenta en !a suavización de un conjunto de datos { (X;, Y;) }^_ ^, mediante la aproximación de la curva de respuesta media m en la relación Y; = m(X;) + ^; i = 1,2,...,n {25) En la regresión pueden considerarse dos situaciones diferentes: Primero, suponer que las dos variables X e Y son Variables Aleatorias. La curva de regresión se define entonces m{x) = E(Y^ X = x) {26) ^a curva de regresión está bien definida si TI YI < ^. Si existe la densidad conjunta f(x,y) entonces m(x) puede calcularse como m(x) = f Yf(x^Y)dY^f^(x) ,^^t.,^^,^^ ^^_ r^ ^_ ^;^^^.r^^^ ^i ,r^ 'SyE^ donde f^(x) es la densidad marginal de la variabfe X. Este caso se conoce camo modelo de diseñ© aleatorio. Cuando fas variabfes X, por el contrario, no son afeatorias, nos encontramos ante e! modelo de diseño fijo, dado en (25}, donde ios fE;^;'-_ 1 son errares aleatorios, generalmente de media cero y varianza finita. Aquí consideraremos que dichos errores no son independientes entre sí. lJn estimador clásico de la función de regresión, tant© en el modelo de diseño fijo camo en el modelo de diseña aleatorio, es el estimador de Nadaraya-Watson. n n-^ ^ Kn (x - X^) Yi ^ _ 1 n mh (X) = ^ (^7) n^^ ^ Kh ( X - X, ) ; _^ 1 En el caso del modelo de diseño fijo, uno de fos estimadores más utilizados es el de Priestley y chao (1972), que es del moda n _ mn( x) = h-^ ^, Y^^{X^^+^ - X^) r K X hX^ (^8) i == 1 Una generalización del mismo es ef estimadar de Gasser-M^iller (1979), también conocido coma estimador convolución n mh (x} = h-^ ^, Y^ ' K(cx - ^,Yf,} du j :,, 1 (29) S, -- ^ con X^_1 <_ Sj_^ ^ X^ efegido entre fos datos X ordenados de menor a mayar. cuafquiera de estos dos estimadores puede generafizarse fácilmente para la consideración de diseño aleatorio. Propiedades de consistencia y normalidad asintótica de estos estimadores, en el • supuesto de dependencia muestral fuertemente mixíng, pueden verse, por ejemplo, en Roussas {1989b), para el estimador de Nadaraya-Watson (27), y en Quintefa {1992), para el estimador de Gasser-Mi^ller (29). Principafinente, fos métodos estudiados para la seiección de la ventana h en los estimadores de la función de regresión pueden englobarse dentro de una forma genera! de validación cruzada, definida mediante penalización del error de predicción p(h) que viene dado por n n P (h) = n-1 ^ [Y^ -- mr, (X^)]^ c^) (?C^^ 1 1 (30} r Í ^ Í'^/^^_^ _I1 )^`,^ [_)E ^ I ^^^/^i`"l ^{^}( )^ _I ^^^ )^^.`^ ,^ {^sF E'^^ ^ `- E í'( .^f^,l,^ ^ ^ ^ ^.^- ,3^^ lr con c,.a una función de ponderación no negativa. De este modo, se ajusta este error de predicción mediante n n G (h^ ^ n-^ ^ [Yj _ mh (Xj)]2 ^ (nh)-' uXxj) (31} j-^ y se elige el parámetro h que mínimice esta función. La función E.(u) puede tomar distintos valores, dando lugar a distintos criterios [ver Hárdle, (1990), pág. 167]. Concretamente, si tomamos ^(n-' h-' )=[1 -- n-' h-' K(0)]^2 puede probarse que ^ obtendríamos la función de validación cruzada general n n CV (h) = n-' ^ [Yj - mh j (Xj)^2 UJ (Xj) (32) j == 1 siendo mh,j el estimador para la muestra sin ei dato (Xj, Yj). Hárdle y Vieu (1990) demuestran la optimalidad asin#ótica de este método, en el sentido (15), para el caso de que los datos (X;, Y;) sean fuertemente mixing, y de nuevo aportando la capacidad de eliminar más de un punto en la validación cruzada, con el fin de suprimir la dependencia temporal entre los datos más próximos. Es decir, en este caso el estimador mh,j sería n^ ' . ^ Kn^X - Xi) Yi ^^ - j^ >i^,__ ^ mn,j(:x. __ .___. n n^' _ __ (33) ^ Kntx - Xi) li - ^I '^^ En Gyórfi y otros ( 1990) se generaliza este estimador, de la forma (34) n ^ Yi Kn^x - Xi) y(li - jl) i -1 r n ^ KnCx - Xi) ^Y (^i -1^) i - 1 lo que permite la utilizacíón de funciones del tipo (17). Este ha sido, hasta el momento, el único método de selección de la ventana estudiado en el modelo de diseño aleatorio. EI caso del modelo de diseño fijo ha sido considerado rnás profusamente, debido posiblemente a su mayor facilidad, al obviar la condición de aleatoriedad en la variable X. Los métodos propuestos varían, según el estimador utilizado y las condiciones de^dependencia impuestas a los errores del modelo. 3^j^3 ^^,^^.^,ri^;:. ^( iI. !'^ La mayaría de los estudios se centran en la suposición de que los errores del diseño t:; pueden englobarse dentro del esquema general: (35) ^;_^ ^^Z;^^ ^ con los ^^ números reales tales que ^, ^^j^ ^^, y los z^ variables aleatorias j .^ -^^ independientes, idénticamente distribuidas y para las cuales se presupone la existencia de algunos momentos {para ver las condíciones de una forma precisa, acúdase a cada trabajo en particular). Así, Chiu { 1989), considera el estimador de Priestley-Chao (28), en el modelo de diseño fijo con puntos X; igualmente espaciados, esto es X; = i/n, y propone elegir como parámetro h para dicho estimador aquel que minimice ^2 ^ 4n ^(0) K(0} R (h }-P(h> ^ nh (36) donde p(h) es el error de predicción dado en (30), 62 es algún estimador de la varianza de los errores, y^(C}) es alguna estimación del espectro de los errores ^ en la frecuencia cero. Esta función R(h) es una generalización, para el contexto de dependencia, del criterio estudiado en Rice (1984). En Altman (1990), quien considera el mismo tipo de modelo y estizador que Chiu, se utilizan como críterios de selección de la ventana los métodos de validación cruzada (32) y validación cruzada generalizada (31), corregidos de manera que !as autocorrelacíones de los errores puedan tenerse en cuenta. Altman considera las siguientes funciones de validación cruzada a minimizar: n ^ (37) CV (h} = n^1^ _ _ _ ^^_- mh(X^}]2 j =-= 1 [nhf2] K {X^ - X^ Ih) ^ _ ^ __ .1__ _ 1 + ,^ __.. nh r - -[nh/2] ^ (validación cruzada mfnimo cuadratíca) _(X^)^2 _ GCV (} h = n-' n_ ^ ^Yi - mh i^= 1[^1 - n^^ Tr {Kn Rn)]^ {38) (validación cruzada generalizada) En estas fórmulas, pn representa la autocorrelación, por [x] denotamos la parte entera de x, Kn es !a matriz de elementos K[(X; - Xj)/h] /nh, Rn es la matriz de autocorrelaciones, y Tr representa la traza de una matriz. Altman E^ ^TIMf^(,lOPJ UE_ (,URVf^:i AS^^)C,If^DA,`.^^ A;:i^ f^:lE `; f E^F^1í'( yf^r^L E^, ,.3^^ denota estos métodos como métodos directos de corrección. En la práctica, las autocorrelaciones teóricas se estiman mediante las autocorrelaciones muestrales. Otros métodos similares son los que Altman denomina métodos indirectos de corrección, y son del estilo de los anteriores [Ver fármulas 26 y 27 de Altman (1990)]. Chu y Marron (1991) también suponen un modelo de diseño fijo, con errores verificando las condiciones de un proceso ARMA, y comparan la validación cruzada modificada para datos dependientes [utilizando el estimador mh,j según (33)], con la validación cruzáda particionada. Este método de selección de la ventana, introducido por Marron (1987) en la estimación de la densidad, consiste en dividir las n observaciones muestrales en g subgrupos, y calcular la función de validación cruzada mínimo cuadrática ordinaria (32) CVk(h) para cada subgrupo (k = 1,2,...,g). A continuación, se minimiza el promedio de dichas funciones 9 CV* (h) = g-1 ^ CVk (h) k=1 Sea ^i^v el valor de h que minimiza esta última función. Dado que ^i^v es una ventana apropiada para muestras de tamaño n/g, la ventana de validaci©n cruzada particionada se define como ^iPCV = 9-^'5 ^ ^v^ Si g= 1 estaríamos ante la validación cruzada ordinaria. En este criterio aparece un nuevo parámetro, el entero g, que viene a jugar un valor similar al del entero I^ en la validación cruzada modificada. En ambos casos, el problema de seleccionar dichos valores es un problema de mucha menor importancia que el propio de elegir el parámetro ventana, como se pone de manifiesto en los estudios de simulación efectuados por Chu y Marron (1991). Un análisis más genérico en el modelo de regresión con diseño fijo consiste en suponer que los errores del modelo ^; son una serie estacionaria de tipo fuertemente mixing, puesto que, como ya fue indicado, este tipo de procesos engloba a los utilizados en los estudios anteriores. EI estimador de GasserM^iller {29) verifica, en este supuesto, y bajo condiciones de regularidad no restrictivas en la función m, propiedades interesantes de consistencia casi segura uniforme y normalidad asintótica, como ha sido probado en Quintela {1992). En dicho trabajo se analiza el criterio de validación cruzada mínimo cuadrática (32) para la selección de la ventana en este estimador. Asi, se elegirá h que minimice n CV (h) = n-1 ^ [Yj - mh, j (Xj)]2 w (Xj) j==1 (39) ^^ oc^ F <_,r,^f^^^1r^r^^.,a F ^^^E^^>^r^i^^^ ^ definiendo como estimador mn,^ n mn j(X) _^ h^^ Y^ ^ ^y ^_- ^ S^-, K[(t - u)^] du Y(li - jl) (40) De esta forma panderamos c©n menor fuerza las observaciones Y; que son más dependientes con Y^ (tengamos en cuenta que los Y; arrastran directamente la estructura de dependencia de los errores aleatorios ^;}. La o^ ptimalidad asíntótica de este método se sigue baja condiciones del mismo estilo que las vistas en el caso de la densidad y la regresión, y que no detallamos por no alargar en exceso el trabajo. Merece destacarse que es posible demostrar dicho resultado de optimalidad asintótica sin hacer ninguna suposición de acotación en los errores s;, lo cual hace más prolija la demostración del mismo. EI resultado similar para la re+gresión en diseño aleatorio [teorema 6.5.1 de Gyórfi y otros { 1990)] precisa, en cambio, la suposición de que la variable Y esté acotada o posea momentos de todos los órdenes. 5.1. Ejemplo de simulación Como comprobación empírica de la validez del método ( 39) propuesto para la sefección del parámetro ventana en el estimador convolución, consideramos un trabajo de simulación análogo al desarrollado por Hárdle y otros (1988), y Chu y Marron ( 1991 }. Se elige el modelo m(x} = x3(1-x)3, restringido al intervalo [0,1], dividiendo é ste en 100 puntos equidístantes t;, y se obtiene ia muestra (t;,Y;} con Y; = m{t;) + E;, en donde los errores ^; corresponden a una serie de tiernpo AR(1): E; = p^ ;_ ^+ a; con distribución rnarginal normal de media cero y desviación típica 0.015. Hemos replicado este proceso 100 veces y para cada muestra hemos calculado, como en otras simulaciones anteriores: (i) La banda que minimiza el error cuadrático medio, hASE, y el error cuadrático asociado, ASE{hASE). {íi} La banda que se obtiene por validación cruzada, hcv, eligiendo coma función y(u) = 1- 1 ^_,n +^^ {u} con In variando desde 0 hasta 10. La función de peso fue w(x) = 5/3 si 1/5 < x< 4/5. como siempre, hemos calculado las medias y las desviaciones tipicas de los resultados sobre las 100 muestras replicadas. Estos últimos valores aparecen entre paréntesis. Los resultados, para el modelo concreto en los errares de p = 0.6, son E.:`^fIMAC^IC)N [.)E (^^lJF2VA.^^ ASOC:IACIA`^, A SF RIE `^ TE MF'C)FZAI E 5 _ __ ___ TABLA 5.1 Ventanas ó ptimas y ventanas obtenidas mediante validación cruzada y errores cuadráticos asociados, para la regresión con diseño fijo y errores correspondientes a un proceso autorregresivo de orden uno hASE ASE(hASE} 0.4086 (0.1742) 1.81213E-05 (0.0000127) Vatidación cruzada I^ 0 1 2 3 4 5 6 7 8 9 10 hcv 0.0575 0.1314 0.2378 0.3284 0.3587 0.3842 0.3976 0.4225 0.4344 0.4534 0.4721 (0.0283) ( 0.1083) ( 0.1631) ( 0.1910) ( 0.2022) ( 0.1931) (0.1921) ( 0.1927) ( 0.1866) ( 0.1837) ( 0.1828) ASE(hcv} 8.26646E-05 5.98292E-05 4.04252E-05 3.17850E-05 2.92686E-05 2.73259E-05 2.60300E-05 2.49283E-05 2.41084E-05 2.38606E-05 2.35345E-05 ( 3.32957E-05) ( 3.64693E-05) ( 3.10994E-05) (2.59438E-05) ( 2.22908E-05) (2.05426E-05) ( 1.94852E-05) (1.83137E-05) ( 1.71543E-05j (1.67913E-05) (1.64199E-05) Comentarios Como puede observarse, !os resultados de las estimaciones van mejorando a medida que el valor de In aumenta, al igual que ocurría en los casos de la densidad y de la distribución, al ser el modelo elegido para los errores un procesa AR(1) con dependencia más bien elevada. Podría proponerse aqu í un criterio local, del modo visto en el caso de la densidad, sin más que considerar como función de pesos en {39) una función dependiente del punto considerado. Otros valores de p para este modelo, y otros modelos, tanto para los errores como para la función de regresión, han sido considerados en G2uintela (1992), obteniéndose resultados del tipo de los que aqui se presentan. t^^-^, r,^. t a ^^^-, r a^.. ^, E^> ^^^^ a r^ {. ^^_ t°^ ^^ C.) 2 6. CONCLUSIONES Según todo lo expuesto, en la estimación no paramétrica de curvas asociadas a series temporales, si éstas corresponden a algún tipo de proceso fuertemente mixing, únicamente pueden utilizarse {con el respaldo de un soporte teórico) métodos de validación cruzada para obtener el parámetro de suavización. En ellos, es evidente que la técnica ciásica «leave-one-out» de supresión de un dato en la muestra puede mejorarse eliminando (o ponderando con menor fuerza) aquellos datos más próximos temporalmente entre sí {más dependientes). Como puede comprabarse en las simulaciones aquí presentadas, y en aquellas de Hart y Vieu { 1990), las estimaciones son mejores. En la estimación de la regresión con diseño fijo, bajo suposiciones ligeramente diferentes de aquellas que suponen dependencia tipo mixing, aparecen otros métodos de selección del parámetro ventana. Los trabajos aqui señalados [Chiu (1989), Altman ( 1990) y Chu-Marron { 1991)] utilizan, en general, la hipótesis de dependencia tipo ARMA entre los errores de la regresión. Como ya se señaló, la dependencia fuertemente mixing es menos restrictiva que esta última. En los dos primeros trabajos (Chiu y Altman), la condición de dependencia es tratada por medio de la estimación, bien del espectro ( Chiu), bien de las autocorrelaciones {Altman). En este segundo caso, la metod©logía seguida es similar a aquella en la que se consideran, para la validación cruzada, funciones de panderación gamma que utilizan la autocorrelación muestral, como la definida en (17). Dentro de los métodos de validacián cruzada, sería muy interesante disponer de algún método de decisión para elegir el valor adecuado de In, en el caso de suprimir puntos sin más, o bien de construir una función gamma que se adecue carrectamente a la muestra de datos de que se disponga. Un procedimiento el de empirico podria ser --en el caso de la densidad y de la distribución calcular las autocorrelaciones muestrales y elegir I^ en función de que éstas sean bajas o elevadas. En e! caso de la regresión, deberian estimarse de alguna manera las autocorrelaciones de los errores. Esto podria hacerse calculando una estimación de los mismos, mediante ^; = Y; - mh(X;), con mh una estimación previa de la función m. Es evidente que seria necesario elegir una ventana piloto h para calcular dicha estimación pero, como señala Altman (199^), sería suficiente considerar una ventana más bien grande, que sobresuavice, para obtener buenos resultados. Es evidente que queda mucho trabajo por desarrollar, dentro del problema aquí considerado, cuando se trabaja con datos dependientes. En muestras independientes, los procedimientos de validación cruzada han sido notablemente superados por otras técnicas (bootstrap, plug-in) [Cao y otros {1992a)] que deberían E ST^IM^^.;ir>N [)E r;^JF^VAS a^^(.^C^,IAL^A^ A^^E RiF^-^ iE Pv"f^E^^^^t^t_f_^^ 4 (.) : 3 ser estudiadas con detenimiento en la estimacíón de series temporafes. La mayor compiejidad de naturaleza teórica incide radicalmente en la rnás lenta investigación en este campo, aunque es previsible, igual que ocurre con la validación cruzada, que puedan modificarse convenientemente los otros métodos existentes, y extiendan sus buenas propiedades al conjunto de los procesos dependientes. REFERENClAS ALTMAN, N. S. (1990) .«Kernel smoothing of data with correlated errors» . Journal of the American Statistical Association, 85, 749-759. BOWMAN, A. W. (1984). «An alternative method of cross-validation for the smoothing of density estimates». Biometrika, 71, 353-360. BRADLEY, R. (1986). «Basic properties of strong mixing condition» . I n Dependence in probability and statistics. Ernst Eberlein, Murad S. Taqqu, ed. Birkh^user. CAO ABAD, R., CUEVAS, A. y G©NZÁLEZ MANTEIGA, W. { 1992A). «A comparative study of several smoothing methods in density estirnation». A aparecer en Computational Statistics and Data Analysis. CAO ABAD, R., QUINTELA, A. y VILAR, J. M. (1992B). «Bandwidth selection in nonparametric density estimation under dependence: a simulation study». Preprint. CASTELLANA, J. V. y LEADBETTER, M. R. (1986). «On smoothed probability density estimation for stationary processes». Stachastic Processes and their Applications, 21, 179-193. CHU, C. K. y MARRON, J. S. (1991). «Comparison of two bandwidth selectors with dependent errors» . Annals of Statistics, 4, 1906-1918. CH^u, S. T. ( 1989). «Bandwidth selection for kernel estimation with correlated noise». Statistics and Probability Letters, 8, 347-354. DAVYDOV, YU, A. (1968). ^<Convergence of distributions generated by stationary stochastic processes» . Theory of Probability and its Applications, ^ 3, 691-696. DEVROYE, L. (1987). «A course in density estimation». Birkh^user. GASSER, T. y MI^LLER, H. G. (1979). «Kernel estimatíon of regression functions». Smoothing techr?iques for Curve estimation, eds: Gasser y Rosenblatt. Heidelber: Springer-Verlag. GY^RFI, L., HP^RDLE, W., SARDA, P. y VIEU, P. (1990). «Nonparametric Curve Estimation from Time Series» . Lecture Notes in Statistics. Vol. 60, Springer-Verlag. New York/Berlin. .1( )^^ r^ . ^ .^ ^ ,F^.;r^t,^ ^, HAL,L, P. y MARRoN, J. (1987). «On the amount of noise inherent in bandwidth selection for kernel density estimator». Annals of Statistics, 15, 163-181. HALL, P. y SCHUCANY ( 1989). «A lacal cross-validation algorithm». Statistics and Probability letters, 8, 109-117. HALL, P. y HART, J. D. (1990). { <Convergence rates in density estimation for data from infinite-order moving average processes». Probability The©ry and Related Fields, 87, 253-274. Hl^RDLE, W. (1990). «Applied Nonparametric Regression». Oxford University Press. HARDLE, W., HALL, P. y MARRaN, J. S. (1988). «How far are automatically chosen regression smoothing parameters from their optimum?» Journal of the American Statistical Association, 83, 86-95. H^RDLE, W. y V^EU, P. (1990). «Kerne! Regression smoothing of time series». Core discussion Paper, número 9031. HART, J. y V^EU, P. (1990}. «Data-driven bandwidth choice for density estimation based on dependent data». The Annals of Statistics, 18, 873-890. . «Progress in data-based bandwidth selection for kernel density estimation». Preprint. JONES, M. C., MARRON, J. S. y SHEATHER, S. J. (1992} MARRON, J. (1985). «An asymptotically efficient solution to the bandwidth problem of kernel density estimation». Annals of Statistics, 13, 1011-1023. MARRON, J. (1987). «Partitioned cross-validation». Econometric Reviews, 6, 271284 MARRON, J. {1988). «Automatic smoothing parameter selection: a survey». Econometric Reviews, 13, 187-208. MIELNICZUK, J., SARDA, P. and V^EU, P. (1989). «Local data-driven bandwidth choice for density estimation». Journal of Statistical Planning and Inference, 23, 53-69. NADARAYA, E. A. (1964). «Some new estimates for distribution functions». Theory Prob. Appl., 497-500. PRAKASA RAO, B. L. S. {1983}. «Nonparametric functional estimati0n». New York: Academic Press. PRIESTLEY, M. B. y CHAO, M. T. (1972). «Nonparametric function fitting». Journal of the Royal Statistical Society. Series B, 34, 385-92. QUINTELA, A. (1992). «Cálcuio del parámetro de suaviZación en la estimación no paramétrica de curvas con datos dependientes». Tesis doctoral. Universidad de Santiago de Cornpostela. E`^TIMA(:IC)N [^E (:tJF1VA^^, AS()C:;IADAS A SE 1=^^E ^ TE^ MfaCaF;,AI E^ _ __ 4^L) _ QUINTELA, A. y VILAR, J. (1991). «Técnicas de validación cruzada en la estimación de la densidad bajo condiciones de dependencia». Qi^estiia, 15, 1 21-45. QUINTELA, A. y VILAR, J. (1992). «A local cross-validation algorithm for dependent data». Test, 1, 123-153. RE^ss, R. D. (1981). «Nonpararnetric estimation of smooth distribution functions». Scandinavian Journal of Statistics, 9, 65-78. RicE, J. (1984). «Bandwidth choice for nonparametric regression». Annals of Statistics, 12, 1215-1230 . RoBiNSON, P. M. (1983). «Nonparametric estimators for time series». Journal of Time Series Analysis, 3, 185-207. ROSENBLATT, M. (1956). «A central limit theorem and a strong mixing condition». Proc. Nat. Acad. Sci., 42, 43-47. RoussAs, G. (1988). «Nonparametric estimation in mixing sequences of random variables». Journal of Statistical Planning and Inference, 18, 135-149. RoussAs, G. (1989A). «Some asymptotic properties of an estimate of the survival function under dependence conditions». Statistics and Probability Letters, 8, 235-243. Roussas, G. { 1989B). «Nonparametric regression estimation under mixing conditions». Preprint. RUDEMO, M. (1982). «Empirical choices of histograrnms and kernel density estimates». Scandinavian Jaurnal of Statistics, 9, 65-78. SARDA, P. {1990). «Smoothing parameter selection for smooth distribution functions» . Manuscrito. SARDA, P. y ViEU, P. (1989}. «Empirical Distribution Function for Mixing Random Variables. Application in Nonparametric Hazard Estimation». Statistics, 20, 559-571. SILVERMAN, B. (1986). «Density estimation for statistics and data analysys». Chapman and Hall. V^EU, P. (1991A). «Nonparametric Regression: local optimal bandwidth choice». Journal of the Royal Statistical Society, Ser. B, 53, 453-464. V^EU, P. (1991 B). «Quadratic errors for nonparametric estimates under dependence» . Journal af Multivariate Analysis, 39, 324-347. VILAR FERNÁNDEZ, J. M. (1989). «Estimación no paramétrica de curvas notabfes para datos dependientes» . Trabajos de Estadística, 2, 69-88. VfLAR FERNÁNDEZ, J. M. (1991). «Funciones de distribución». Qiiestiio, 15, 1, 3-20. E ^: rr.t3,^,ti^^^,,•, F ^-,F^^r,r^^c^^ r. Va^KaNSK^^, V. A. y RoZANov, Y. A. (1959). «Some limit theorems for randam functions I.» Theory Prob. Appi, 4, 178-197. WAND, M. P. (199^). «Finite sample performance of density estimators under moving average dependence». Statistics and Prvbability Letters, 13, 109-115. WATSON, G. .^ ^`^ . y LEADBETTER, M. R. (1964). «HaZard Analysis I I». Shankhya, Ser., A26, ^ 01-116 . CURVE ESTIMATION FROM TIME SERIES: THE BANDWIDTH SELECTION PROBLEM SUMMARY In this paper, the smoothing parameter selection problem in nonparametric curve estimation (density, distribution and regression) with dependent data (strong mixing} is considered. The presented methods fit, in general, to the classical forrn of cross-validation. For every curve, we propose a^ bandwidth selection procedure, and we study, by simulation, the optimality of this method. Key words: Nonparametric estimation, strong rnixing processes, cross-validation. AMS Cfassification: 62G99.