CLASIFICACIÓN NO PARAMETRICA DE SERIES DE TIEMPO. APLICACIÓN A LAS COTIZACIONES DEL SECTOR BANCARIO ESPAÑOL. VILAR FERNÁNDEZ, Juan M. Departamento de Matemáticas Universidade da Coruña correo-e: [email protected] VILAR FERNÁNDEZ, José A. Departamento de Matemáticas Universidade da Coruña correo-e: [email protected] PERTEGA DÍAZ, Sonia Unidad de Epidemiología Clínica y Bioestadística Complejo Hospitalario Juan Canalejo correo-e: [email protected] RESUMEN Se realiza un análisis estadístico de 15 series semanales de cotización de bancos en la bolsa española durante los años 2001 y 2002 utilizando solamente procedimientos no paramétricos. El análisis consiste en estimar, clasificar y testar la igualdad de las tendencias de estas series. Una vez estimadas las tendencias y eliminadas del modelo se agrupan las series de los residuos utilizando métodos de conglomerados no paramétricos específicamente diseñados para aplicar en el contexto de las series de tiempo. Las tendencias se estiman por regresión polinómica local y son comparadas utilizando estadísticos no paramétricos cuya distribución se aproxima por la distribución asintótica o por métodos bootstrap. El hecho de que las observaciones sean dependientes es fundamental y se tiene en cuenta en todo el desarrollo del trabajo. Palabras clave: Métodos no paramétricos, análisis de conglomerados, test de hipótesis, series de tiempo. 1 INTRODUCCIÓN Los métodos no paramétricos de estimación de curvas son una importante herramienta estadística para explorar y analizar el modelo que se ajusta a una nube de observaciones. Son métodos versátiles, adecuados para el estudio de problemas locales y válidos en situaciones muy generales que permiten su aplicación en muchos problemas de diferentes campos de investigación. En este trabajo se proponen diferentes procedimientos no paramétricos, tipo núcleo (kernel), para estudiar un conjunto de series de tiempo observadas simultáneamente. En este caso un problema importante es conocer el grado de similitud de las series o, dicho de otra forma, ¿puede suponerse que las series se ajustan al mismo modelo estadístico?. Este es el objetivo de este trabajo que se aborda desde un punto de vista no paramétrico. En una primera etapa, las series se descomponen en su parte determinística (tendencia) y su parte aleatoria (con dependencia). Estas dos componentes son estudiadas de forma independiente. Las tendencias de las series de tiempo se estiman utilizando el estimador de regresión polinómica local ponderada (RPL) bajo la única hipótesis de que son funciones suaves (diferenciables). Posteriormente, las tendencias estimadas se clasifican en grupos utilizando técnicas de análisis de conglomerados clásicas y se chequea la hipótesis de igualdad de tendencias en cada grupo utilizando contrastes no paramétricos que tienen en cuenta la dependencia de las series en estudio. En una segunda etapa, se estudian las componentes aleatorias a partir de las series residuales obtenidas como la diferencia entre las series originales y las tendencias estimadas. El objetivo es encontrar similitudes y diferencias entre estas series residuales para clasificarlas en un número pequeño de grupos. Esta clasificación es útil para detectar unos pocos modelos representativos, hacer predicciones, cuantificar el grado de afinidad, ... Por todo ello, el problema de clasificar series de tiempo tiene interés en muchos campos como la física, economía, medicina e ingeniería, entre otros. Estudios relacionados con este tema son los de clasificación de series de producción industrial (Piccolo (1990)), la comparación de datos sismológicos (Kakizawa, Shumway y Taniguchi (1998)), un estudio con datos industriales (Galbraith y Jiaqing (1999)), y un estudio sobre la clasificación de niños en base a su conducta (Hirsch y DuBois (1991)). El conjunto de series estudiado en este trabajo está formado por quince series financiares, cada una de las cuales indica el precio semanal en euros de la cotización de 2 las acciones en la bolsa de un banco español en un período de dos años (2001 y 2002). Los quince bancos estudiados son: Andalucía, Atlántico, BBVA, Banesto, Bankinter, BSCH, Castilla, Crédito-Balear, Galicia, Guipuzcoano, Pastor, Popular, Valencia, Vasconia y Zaragozano. Estos bancos representan todo el sector bancario español y cinco de ellos (Banesto, Bankinter, BBVA, BSCH y Popular) pertenecen al IBEX-35. Las observaciones eran recogidas en los mismos instantes de tiempo para todas las series, de las que se obtienen 103 observaciones semanales y cada observación indica el valor de cotización de las acciones el jueves, si el jueves era festivo se utilizaba la cotización del miércoles. No se utilizaba la cotización de los viernes para evitar el denominado efecto de fin de semana. Para hacer las comparaciones, las series observadas deben estar en la misma escala, por este motivo las series son estandarizadas a series de media cero y varianza uno. El gráfico de las quince series estandarizadas se presenta en la Figura 1. Figura 1. Precios de cotización semanal (en euros) estandarizados de los quince bancos en la bolsa española durante los años 2001 y 2002. 3 La Figura 1 sugiere una fuerte afinidad entre algunas series (por ejemplo, BBVA y BSCH tienen una forma decreciente similar) y claras diferencias entre otras (por ejemplo, BBVA y Andalucía muestran tendencias opuestas). Dado que las observaciones son observadas en los mismos instantes, se les puede ajustar un modelo de regresión de diseño fijo observado en puntos equiespaciados en el intervalo [0,1]. Esto es Yl ,t ml ( xt ) l ,t , l 1, 2,...,15, (1) donde ml es la tendencia de la serie l, xt t /103 y l ,t es la componente aleatoria que es un proceso estacionario pero con estructura de dependencia. El estudio realizado en este trabajo consiste en estimar, clasificar y testar la igualdad de las tendencias ml . Una vez eliminadas las tendencias de las series se agrupan las series residuales utilizando métodos de conglomerados específicamente desarrollados para aplicar a series de tiempo. En todo el trabajo se tiene en cuenta la dependencia de las observaciones, hecho que influye decisivamente en el estudio realizado. El trabajo está organizado como sigue: en la Sección 2 se estiman y comparan las tendencias de las quince series. La estimación se realiza utilizando el estimador de regresión polinómica local ponderada y estas estimaciones se utilizan para identificar grupos de tendencias y chequear la hipótesis de igualdad de las tendencias. Los estadísticos de estos contrastes se basan en estimadores no paramétricos y sus distribuciones exactas son desconocidas pero pueden aproximarse por su distribución asintótica o utilizando aproximaciones obtenidas por métodos de remuestreo (bootstrap). En la Sección 3 se realiza la clasificación de las series residuales, para ello se utiliza un algoritmo de conglomerados basado en una medida de disparidad entre los espectros de las series residuales. Los resultados de este análisis de conglomerados son examinados y se comparan con los obtenidos cuando se utiliza un algoritmo de conglomerados clásico que no tiene en cuenta la dependencia de las observaciones. Finalmente, en la Sección 4 se presentan algunas de las conclusiones del estudio. Indicar que los datos para la realización de este estudio eran obtenidos de la web www.josera.com. 4 2 ANÁLISIS DE LAS TENDENCIAS De la Figura 1 se deduce la existencia de tendencias en las series observadas. Por ello en esta Sección se estiman, clasifican y comparan las tendencias de las quince series, denotadas por ml , l 1, 2,...,15 . El método de suavizado elegido para realizar este trabajo ha sido la regresión polinómica local ponderada porque presenta importantes ventajas sobre otros estimadores tipo núcleo: un mejor comportamiento en la frontera, se adapta para estimar las derivadas de la función de regresión, fácil de implementar y tiene buenas propiedades mínimales. Ver la monografía de Fan y Gijbels (1996) y las referencias allí citadas para un completo estudio de este estimador. El estimador polinómico local (RPL) se obtiene al ajustar un polinomio de grado p a las observaciones por mínimos cuadrados locales ponderados y, como en cualquier procedimiento de suavización, es necesario elegir un parámetro de suavizado o banda (h) que controla el la cantidad de suavización que se introduce. Esto es, dada la muestra ( xt , Yt ) : t 1, 2,..., n generada del modelo Yt m( xt ) t y suponiendo que la (p+1)- derivada de m en el punto x existe y es continua, haciendo un ajuste polinómico local se puede estimar el vector ( x) ( 0 ( x), 1 ( x),..., p ( x))t , donde j ! j ( x) m( j ) ( x) , con j=0,1,2,...,p. Siendo el estimador el vector que minimiza la siguiente función 2 p ( ( x)) Yt j ( x)( xt x) j n,t t 1 j 0 n (2) donde n ,t son unos pesos dados por n,t (nh)1 K (( xt x) / h) , con K una función núcleo, normalmente una función de densidad simétrica respecto al cero y, en muchos casos, de soporte acotado, h hn es el parámetro de suavizado o banda del estimador. El estimador RPL obtenido de minimizar la función dada en (2) tiene la siguiente forma en notación matricial, ( n ) ( x) X tp ,( n )W( n ) X p,( n) X tp,( n)W( n) Y ( n ) 1 5 (3) donde Y ( n ) (Y1 , Y2 ,...., Yn )t , X p ,( n ) es la matriz de orden n ( p 1) cuyo (i,j) elemento es xi x , para i 1, 2,..., n y j 0,1,..., p, y W( n) diag n,1 ,..., n, n es la matriz j diagonal de pesos. Ahora, el estimador RPL de la j-ésima derivada de la función de ( j) regresión es: m ( x) j ! j ( x) , siendo j ( x ) la componente (j+1) del vector ( n ) ( x ) dado en (3), con j 0,1,..., p. En este trabajo se utilizó el estimador RPL con p=1 (estimador local lineal) para estimar cada una de las tendencias individuales, ml , a partir de los datos de las series observadas. La banda hn utilizada en cada caso se obtenía por un algoritmo ``plug-in” adecuado para el contexto de datos dependientes. Este algoritmo se basa calcular la banda óptima en el sentido que minimiza el error cuadrático medio integrado asintótico del estimador y sustituir las cantidades desconocidas de esta expresión por estimadores de la misma. La banda óptima depende de la suma de covarianzas de la serie de residuos y, por tanto, se obtienen bandas muy diferentes si se supone que las observaciones son independientes, lo que llevaría a la obtención de malas estimaciones de la tendencia. Un estudio detallado del estimador RPL en este contexto de dependencia y del algoritmo ``plug-in” de selección de la banda utilizado puede verse en los trabajos de Francisco-Fernández and Vilar-Fernández (2001), (2004). Las bandas obtenidas se presentan en la Tabla 1. Banco Andalucía Atlántico BBVA Banesto Bankinter h 0.1342 0.0877 0.1672 0.1755 0.1758 Banco BSCH Castilla Crédito-Balear Galicia Guipúzcoano h 0.1785 0.1119 0.0801 0.0929 0.1146 Banco Pastor Popular Valencia Vasconia Zaragozano h 0.1154 0.1361 0.1583 0.1129 0.1674 Tabla 1. Bandas ``plug-in” utilizadas en la estimación de las tendencias. 6 También se estimó la tendencia media mc de las quince series. Esta curva representa el precio semanal medio (en euros) de las acciones del sector bancario español. Esta curva se estimaba por el método RPL a partir de la nube x ,Y : t 1,...,103 , donde t .,t 15 Y .,t (1/15) Yl ,t . El gráfico de las series observadas y de las tendencias individuales y l 1 media es representado en la Figura 2. Figura 2. Gráfico de las series observadas (en negro), tendencia estimada (en rojo) y tendencia media (en azul). De esta figura se deduce que la tendencia media no se puede considerar un modelo que siguen todas las series estudiadas ya que existen claras diferencias entre las tendencias individuales estimadas. Por este motivo se ha realizado un contraste de hipótesis de igualdad de tendencias. Esto es H 0 : m1 ... m15 mc 7 (4) frente a la alternativa H1 : ``de que al menos existen dos tendencias mi y m j tales que mi m j con i, j 1, 2,...,15. ” El problema de testar la igualdad de k funciones de regresión utilizando técnicas no paramétricas ha sido ampliamente estudiado en la reciente literatura estadística. Algunas referencias sobre este problema son: Hall y Hart (1990), King, Hart y Werhly (1991), Kulasekera (1995), Koul y Schick (1997), Dette y Neumeyer (2001) y Neumeyer y Dette (2003), entre otros. En todos estos trabajos se asume la independencia de las observaciones, hipótesis que no se verifica en las series de nuestro estudio. Por este motivo se ha utilizado un contraste estadístico estudiado recientemente por VilarFernández y González-Manteiga (2004) en un contexto de dependencia y que puede aplicarse a un número de curvas k 2 . El estadístico del contraste se basa en calcular la distancia funcional tipo Crámer-von-Mises entre los estimadores núcleo de las funciones de regresión desconocidas, ml . El estadístico del contraste tiene la forma k l 1 Q n ml ,h x m s ,h x x dx, (1) l 2 s 1 2 donde x es una función peso definido sobre el soporte de la variable de diseño, C 0,1 , y, para cada l=1,…,k, ml ,h x es un estimador núcleo de ml ( x) obtenido con banda h y núcleo K. (1) Básicamente Q n es un estimador consistente de k l 1 Q ml ,h x ms ,h x x dx, 2 l 2 s 1 (1) por tanto, la hipótesis nula es falsa sí y solo sí Q>0. La distribución asintótica de Q n era estudiada por Vilar-Fernández y González-Manteiga (2004) bajo condiciones generales de dependencia. En este trabajo se obtenía que si la función de autocovarianza de cada proceso de errores en el modelo (1), l ( ) E ( l ,t , l ,t ) , verificaba la condición ( ) , l 8 para l 1,..., k , entonces el teorema 3 de Vilar-Fernández y González-Manteiga (2004) establece que, bajo la hipótesis nula de igualdad de curvas de regresión, k (1) k 1 n2 hn Q n I CK l N 0, Q2 (1) nhn l 1 donde l ( ) , para l 1,..., k , l Q2 2 (1) K *K 2 en distribución, (6) I , CK K 2 y la varianza es 2 k 1 2 k k j l l l 1 j 1 l j k donde * denota el operador convolución. La expresión (6) incluye parámetros desconocidos, l , por lo que, en la práctica, es necesario sustituirlos por estimadores razonables de los mismos, l . En el Teorema 2 de Vilar-Fernández y González-Manteiga (2004) se obtiene que el resultado (6) permanece válido si se sustituye l por un estimador consistente del mismo, l , para l 1,..., k . Por tanto, se rechazará la hipótesis nula de igualdad de las tendencias de las series a un nivel de significación cuando k (1) (1) k 1 Q n n2 hn Q1(1) Q n I CK l z , nhn l 1 (7) donde z es tal que z 1 , siendo ( ) la función de distribución de una normal estándar. El criterio dado en (7) era utilizado para chequear la igualdad de la tendencia de las quince series en estudio. Como estimador no paramétrico se utilizaba el estimador de Nadaraya-Watson (se corresponde con el estimador RPL con p=0) con núcleo gaussiano y la función de peso utilizada para evitar el efecto frontera era ( x) 1/ 0.8 en 0.1;0.9 y 0 en otro caso,. Los parámetros l , para l 1,..., k , se estimaban a partir de los residuos no paramétricos l ,t Yl ,t ml ,h xt . El estadístico Q n se calculaba para (1) un rango de valores de hn y los resultados obtenidos así como de los p-valores asociados son presentados en la Tabla 2, además, la gráfica del estadístico escalado (1) Q n 102 y el p-valor como funciones de hn se presentan en la Figura 3. 9 hn (1) Qn p-valor 0.100 0.200 0.300 0.350 0.400 0.500 68.126 32.574 13.091 8.085 5.005 3.135 0.000 0.000 0.000 0.001 0.081 0.390 (1) Tabla 2. Test de igualdad de tendencias para las quince series basado en Q n . Figura 3. Gráfico del estadístico del test escalado (en rojo) y de los p-valores asociados en función de la banda h utilizada. Como era de esperar, de la Figura 3 se deduce claramente un rechazo de la igualdad de tendencias para valores razonables de hn , solo si la banda es muy grande (próximo a 0.5) el test tiende a aceptar la hipótesis nula, ello es debido a que al suavizar tanto, los estimadores no paramétricos de la tendencia son próximos a la media de la serie, que es (1) cero en todos los casos porque son series estandarizadas. Por tanto Q n tiende a cero cuando hn crece y se acepta H 0 . Como conclusión se tiene que la banda hn tiene una gran influencia en el resultado del contraste y debe de seleccionarse cuidadosamente. El rechazo de la igualdad de tendencias motiva a realizar un análisis de conglomerados con las quince estimaciones no paramétricas de las tendencias individuales para obtener grados de afinidad y agrupar las tendencias en unas pocas categorías. Por tanto, los estimadores RPL de las tendencias, ml ,hl , son agrupados por 10 algoritmos jerárquicos de agrupación, utilizando la distancia euclídea como medida de disparidad entre dos tendencias. De esta forma la distancia entre dos tendencias ml ,hl y ms,hs , l , s 1, 2,....,15 viene dada por 103 d ml ,hl , m s ,hs ml ,hl xt m s ,hs xt t 1 2 . Varios métodos de aglomeración (incluyendo el método Ward, el método del centroide, el método de encadenamiento simple, completo y promedio) fueron utilizados para determinar cuando dos grupos debían unirse en cada una de las etapas del proceso jerárquico y, básicamente, se llegaba a conclusiones parecidas en todos los casos. En las Figuras 4 y 5 se muestran los dendrogramas de identificación de grupos cuando se utilizó el método de encadenamiento promedio y el de Ward, respectivamente Figura 4. Dendrograma de las tendencias estimadas de las quince series utilizando la distancia euclídea y el método de encadenamiento en promedio. 11 Figura 5. Dendrograma de las tendencias estimadas de las quince series utilizando la distancia euclídea y el método de Ward. Los dendrogramas de las Figuras 4 y 5 nos indican una solución de cinco grupos. En una primera clasificación el grupo de bancos {BBVA, BSCH, Bankinter, Atlántico, Banesto} es apartada del resto. Dentro de este primer grupo, C1= {BBVA, BSCH, Bankinter, Atlántico} forman un grupo compacto, con tendencias decrecientes y sin muchas oscilaciones, mientras que C2= {Banesto} aparece aislado hasta el final del proceso porque su tendencia es aproximadamente constante hasta las últimas 25 semanas en que tiene un decrecimiento notable. Respecto al resto de bancos, tres grupos secundarios se deducen de las figuras: C3= {Andalucía, Valencia, Galicia}, C4= {Guipuzcoano, Zaragozano} y C5= {Castilla, Popular, Crédito-Balear, Pastor, Vasconia}. En contraste con C1, los bancos de C3 tienen tendencia creciente. La tendencia de los del grupo C5 es una curva ruidosa con dos modas en torno a las semanas 25 y 70. Finalmente, la tendencia de los banco del grupo C4 es parecida a los del C5, pero en este grupo la primera moda desaparece (la tendencia es muy suave o constante en el período inicial) y la segunda moda es más remarcada que en los bancos 12 de C4. Destacar que aunque el Banco Popular pertenece al IBEX-35, su tendencia no pertenece al grupo C1 que si incluye al resto de bancos del IBEX-35 (BBVA, BSCH, Bankinter y Banesto) excepto el Banesto que aunque no está en C1 si está próximo a este grupo. En base a la solución de agrupamiento obtenida se procedió a contrastar la igualdad (1) de tendencias de los bancos de cada grupo. Para ello el estadístico Q n era calculado para cada uno de los cuatro grupos de tendencias: C1, C3, C4 y C5. En la Figura 6 se representan los gráficos de los p-valores de los contrastes para cada grupo en función de hn , y en ella se observa que para todo el rango de valores de hn los p-valores son mayores que 0.7 y, por tanto, es razonable aceptar la hipótesis de igualdad de tendencias de los bancos en cada uno de los cuatro grupos. Figura 6. Gráfico de los p-valores de los contrastes de igualdad de medias en función de hn y en cada uno de los cuatro grupos obtenidos. También es interesante contrastar la igualdad de dos tendencias, esto es, hacer k=2 en el contraste (4): H 0 : ml ms frente H1 : ml ms . Para contrastes de igualdad de dos curvas de regresión hay en la reciente literatura estadística varios métodos basados en estimadores no paramétricos, aunque éstos han sido estudiados en un contexto de independencia de las observaciones, en estos trabajos se obtenía la distribución asintótica del estadístico del contraste propuesto y, en algunos 13 casos, dado que la convergencia a la distribución asintótica es muy lenta y depende de parámetros desconocidos que había que estimar, se proponía aproximar la distribución del estadístico del contraste por métodos de remuestreo. En este trabajo se han utilizado cuatro estadísticos de contraste distintos basados en la metodología no paramétrica para hacer el contraste de hipótesis dado en (8) con los pares de tendencias de los cinco bancos incluidos en el IBEX-35: BBVA, Banesto, Bankinter, BSCH y Popular. Estos contrastes se han aplicado teniendo en cuenta la (1) estructura de dependencia de las observaciones. Además del estadístico Q n dado en (2) (3) (4) (7), otros tres estadísticos eran utilizados y se denotan por Q n , Q n y Q n . Estos tres estadísticos son descritos brevemente a continuación. (2) El estadístico Q n se define como la diferencia entre un estimador no paramétrico de la varianza obtenido a partir de la muestra conjunta de las dos series y una combinación convexa de estimadores no paramétricos de la varianza obtenidos a partir de las muestras de cada serie, esto (2) 2 Qn P 2 2 1 l s 206 con 1 103 2 t 1 2 103 2 P Yl ,t m p , g xt Ys ,t m p , g xt 2 t 1 y, para k l , s, 2 1 103 Yk ,t mk ,hk xt , 103 t 1 2 k donde m p , g es un estimador núcleo con banda g obtenido de la muestra combinada de las dos series en estudio y mk ,hk es un estimador núcleo de la tendencia con banda hk obtenido a partir de cada una de las dos series individuales para k l , s . El contraste (2) que se basa en el estadístico Q n fue estudiado en un contexto de independencia de las observaciones por Dette y Neumeyer (2001). 14 (3) El tercer estadístico, Qn es un estadístico tipo ANOVA, está motivado por el clásico Análisis de la Varianza de un Factor (one-way) y fue introducido por Young y Bowman (1995). Su expresión es la siguiente (3) Qn 103 1 103 m x m x m p , g xt m s ,hs xt p , g l , h l t t 206 t 1 t 1 2 , 2 siendo m p , g , ml ,hl y ms ,hs los estimadores núcleo de la tendencia utilizados en el (2) cálculo de Q n . (4) ZZ El último estadístico de contraste estudiado, Q n , fue introducido por Neumeyer y Dette (2003), se basa en calcular la diferencia de los procesos empíricos marcados construidos a partir de los residuos no paramétricos obtenidos bajo la hipótesis nula de igualdad de las dos tendencias en estudio. Por tanto, se obtienen los residuos como k ,t Yk ,t m p , g xt , k l , s , y la diferencia entre los correspondientes procesos empíricos marcados viene dada por R r donde r 0,1 e I 103 1 103 l ,t I xt r s ,t I xt r 206 t 1 t 1 (4) es la función indicadora. El estadístico Q n se define como 2 Q n R r dr . (4) 1 0 Con estos cuatro estadísticos de contraste se seguirá el mismo criterio: ``rechazar la hipótesis nula de igualdad de tendencias de las dos series cuando el estadístico tome valores altos”. Los valores críticos de los contrates se calcularon aproximando la (k ) distribución muestral de Q n , k 1, 2,3, 4 , por medio de un algoritmo de remuestreo (naive bootstrap) que tiene en cuenta la dependencia de las observaciones. Este algoritmo se basa en obtener remuestras a partir de los residuos obtenidos bajo la hipótesis nula, k ,t Yk ,t m p , g xt , k l , s , pero suponiendo que el error sigue una determinada estructura autorregresiva. Para más detalles ver Vilar-Fernández et al. (2004), en este trabajo se describen detalladamente los algoritmos utilizados y se presenta un amplio estudio de simulación en el que se compara el comportamiento de 15 (k ) diferentes estadísticos de contraste, incluyendo Q n , k 1, 2,3, 4 , y utilizando diferentes métodos de remuestreo con observaciones dependientes. Los p-valores obtenidos en los contrastes de igualdad de dos tendencias en todos los pares de los cinco bancos del IBEX-35 se presentan en la Tabla 3. Los p-valores se obtenían por aproximaciones de remuestreo para los cuatro estadísticos de contraste (1) (columnas 3-6), y para Q n también se obtenía el p-valor utilizando la distribución asintótica dada en (6) (columna 2). Pares Bancos (1) (1) (2) (3) (4) BBVA/Banesto 0.103 0.048 0.008 0.024 0.258 BBVA/Bankinter 0.738 0.782 0.332 0.924 0.934 BBVA/Popular 0.000 0.000 0.000 0.000 0.016 BBVA/BSCH 0.854 0.960 0.644 0.994 0.998 Banesto/Bankinter 0.072 0.034 0.004 0.022 0.192 Banesto/Popular 0.436 0.204 0.014 0.132 0.190 Banesto/BSCH 0.208 0.094 0.028 0.078 0.282 Bankinter/Popular 0.000 0.002 0.000 0.000 0.008 Bankinter/BSCH 0.718 0.702 0.434 0.850 0.932 Popular/BSCH 0.000 0.002 0.000 0.000 0.024 Q n asint Q n rem Q n rem Q n rem Q n rem Tabla 3. p-valores en los contrastes de igualdad de dos tendencias en todos los pares de los cinco bancos del IBEX-35. De la Tabla 3 se deduce que no hay diferencias significativas en las tendencias de las series de cotización semanal de las acciones del BBVA, Bankinter y BSCH porque los 16 p-valores obtenidos por todos los procedimientos son muy grandes. Esto constituye una nueva prueba de la homogeneidad del grupo C1 obtenido en el estudio de conglomerados realizado anteriormente. Por otra parte, las filas 4, 9 y 11 de la Tabla 3 indican la existencia de diferencias significativas en los contrastes de igualdad de tendencias de los bancos BBVA, Bankinter y BSCH, hecho que se verifica con todos los procedimientos de contraste utilizados. Por tanto, se deduce de forma clara que aunque el banco Popular pertenece al IBEX-35, su tendencia es significativamente distinta de la de los otros bancos del IBEX-35. Por ello, en nuestro análisis de conglomerados aparece en el grupo C5, el más alejado de C1. Por lo que respecta a la tendencia del Banesto, los contrastes realizados no llevan a conclusiones definitivas ya que no hay una evidencia suficiente que permita rechazar la hipótesis nula o, al menos, no es uniforme en todos los procedimientos de contraste utilizados. También se han realizado otros contrastes de igualdad de dos tendencias con otros pares de bancos y los resultados obtenidos son concordantes con los grupos obtenidos en el análisis de conglomerados realizado. 3 ANÁLISIS CLUSTER DE LAS COMPONENTES ALEATORIAS El siguiente paso en nuestro estudio consistió en eliminar las tendencias estimadas de las series originales estandarizadas para obtener las series de ruido estimado, esto es, las series de los residuos no paramétricos, l ,t dados por l ,t Yl ,t ml ,h xt , t 1, 2,...,103, l 1, 2,...,15. (9) Las quince series de residuos son representadas en la Figura 7. De esta figura se deduce que todas las series son aparentemente estacionarias en media y varianza, pero no hay un modelo común para la estructura de dependencia de las quince series. Este hecho lo confirma la Figura 8 en la que se representan las funciones de autocorrelación muestral de las quince series. 17 An dalu cia Atl antico Ba nes to Ba nkin ter BBVA BSCH Ca still a Credito -Ba lear Ga licia Gu ipuzcoan o Pa stor Po pula r Va lencia Va scon ia Za rago zano 1 0 -1 -2 1 0 -1 -2 1 0 -1 -2 0 50 100 0 50 100 0 50 100 0 50 100 0 50 Figura 7. Gráficos de las series de residuos no paramétricos. Andalucia BSCH Pastor Atlantico Castilla Popular BBV A Credito-Balear V alencia Banesto Galicia V asconia Figura 8. Gráficos de las funciones de autocorrelación . 18 Bankinter Zaragozano 100 Con ayuda de un paquete computacional estadístico clásico se han chequeado las quince series de residuos y se comprobó que pueden ser ajustadas de forma razonable por un proceso autorregresivo o por un proceso en medias móviles, pero en este trabajo el interés no se centra en el ajuste de las series sino en clasificarlas en grupos similares. Se debe tener en cuenta que las técnicas clásicas de análisis de conglomerados no proporcionan resultados aceptables porque se basan en medidas de disparidad que no tienen en cuenta el modelo de dependencia probabilística que siguen las series. No son muchos los trabajos que hay en la literatura estadística acerca del análisis de conglomerados de series de tiempo a pesar de sus importantes aplicaciones prácticas en diversas áreas, sobre todo en economía. Un trabajo interesante y motivador sobre este problema es el de Tong y Dabas (1990) que muestran como varias medidas de similaridad y disimilaridad entre series de tiempo llevan a soluciones de agrupaciones muy diferentes, algunas de las cuales son extrañas, este hecho lleva a afirmar a los autores que el problema de medir el grado de afinidad entre varias series ajustadas es un problema básico que merece ser tratado en detalle en futuras investigaciones. Algunos trabajos recientes que tratan este problema son los siguientes: Piccolo (1990), Maharaj (1996),(2000), Kakizawa, Shumway y Taniguchi (1998) y Vilar-Fernández y Pértega (2004), entre otros. El punto fundamental en el desarrollo de estos trabajos consiste en introducir una distancia apropiada entre dos modelos de series de tiempo ajustados. Por ejemplo, en Piccolo (1990) la distancia entre dos modelos ARIMA se define como la distancia euclídea entre los coeficientes de sus correspondientes expansiones autorregresivas. A partir de esta distancia de Piccolo se desarrolla un algoritmo automático de conglomerados para series de tiempo utilizando los modelos AR ajustados a las series observadas. Más tarde, Maharaj (1996) utilizando la distancia de Piccolo desarrolla un nuevo contraste de hipótesis para determinar si dos series son generadas por modelos significativamente diferentes. Además, como los p-valores asociados a este contraste se pueden utilizar para medir la cantidad de similaridad entre las dos series estudiadas, Maharaj (1996) propone un nuevo procedimiento de análisis de conglomerados basado en estos p-valores. En Kakizawa, Shumway y Taniguchi (1998) y Vilar-Fernández y Pértega (2004) se proponen algunas soluciones en el dominio frecuencia, lo que es una interesante alternativa porque el problema de la dimensionalidad, normalmente alta en el campo de las series de tiempo, se elimina al reemplazar la matriz de covarianzas por la densidad 19 espectral. En Kakizawa, Shumway y Taniguchi (1998) una medida general de disparidad entre los espectros de dos procesos se define DW ( f , g ) siendo f 1 4 W f g d , 1 (10) y g las densidades espectrales de cada uno de los dos procesos y W es una función de divergencia que satisface ciertas condiciones regularidad adecuadas para que DW ( f , g ) tenga la propiedad de cuasi-distancia. En base a medidas de este tipo (10), los autores proponen algoritmos de discriminante y conglomerados para procesos estocásticos estacionarios. En la práctica los espectros f y g son generalmente desconocidos y es necesario estimarlos previamente, de forma paramétrica o no paramétrica, y a partir de las estimaciones utilizar los algoritmos de discriminante y/o conglomerados. Vilar-Fernández and Pértega (2004) utilizan la via no paramétrica y estudian el comportamiento de estos algoritmos que se basan en la distancia DW ( f , g ) calculada sobre estimadores no paramétricos de la densidad espectral del tipo de regresión polinómica local (RPL). De hecho, en el trabajo mencionado, se utilizaron tres estimadores no paramétricos diferentes de la densidad espectral calculados por RPL, estos tres estimadores del espectro son estudiados y comparados en Fan y Kreutzberger (1998). A continuación y utilizando la metodología descrita en Vilar-Fernández y Pértega (2004) se han realizado diferentes análisis de conglomerados de las quince series de residuos en estudio. Las distintas etapas del algoritmo de conglomerados se puede esquematizar como sigue: Etapa 1. El periodograma asociado a cada serie de residuos es calculado en las frecuencias de Fourier. Esto es, para la l-ésima serie, l 1, 2,...,15 se calcula la función I l , n ( ) 1 2 n 2 n l ,t exp it , t 1 , Siendo las frecuencias k 2 k / n , con k N ,..., N , n 103 es el tamaño muestral. 20 N n 1 / 2 , y Etapa 2. Se estima la densidad espectral, fl , para el l-ésimo proceso de error, con l 1, 2,...,15 utilizando la técnica de ajuste lineal local. Este paso puede hacerse de tres formas diferentes: 1. Se calcula el suavizador lineal local del l-ésimo periodograma calculado en la Etapa 1, calculando el ajuste lineal local por mínimos cuadrados ordinarios. Esto es, se aplica el ajuste lineal local a la nube de observaciones , I k l ,n k . El estimador resultante se denota por f l ,DLS , l 1, 2,...,15 . 2. Se calcula un suavizador lineal local del l-ésimo log-periodograma utilizando mínimos cuadrados. Esto es, se suaviza la muestra ,log I k l ,n k y, a continuación, se hace la transformación exponencial para obtener el suavizado del log-espectro. Este estimador se denota por f l ,LS , l 1, 2,...,15 . 3. El tercer estimador se denota por f l , LK , l 1, 2,...,15 , se construye de manera similar a f l ,LS excepto en que el ajuste lineal local del l- ésimo log-periodograma se obtiene utilizando máxima verosimilitud local en lugar de mínimos cuadrados. En este caso el suavizado del log-espectro se calcula por algún procedimiento numérico (en este trabajo se utilizó el algoritmo de Newton-Raphson). El análisis de las propiedades asintóticas de estos estimadores espectrales y un estudio comparativo de los mismos puede verse en Fan y Kreutzberger (1998) o en Fan y Gjibels (1996). En estos trabajos se muestra que, desde un punto de vista asintótico, el estimador f l , LK es el mejor porque tiene una varianza asintótica menor que la de los estimadores f l ,DLS y f l ,LS , manteniendo el mismo sesgo asintótico. y Etapa 3. Se calcula la distancia entre cada par de series residuales l ,t , l, s 1, 2,...,15 , utilizando una modificación de la medida de disparidad l ,s DW , dada en (10) y que tiene la siguiente forma: 21 DW f l , f s DW f l , f s DW f s , f l 1 4 f s fl W W f f d , l s donde f r es cualquiera de los tres estimadores del definidos en la etapa 2, con r l , s . W este caso se utilizó W ( x) log Téngase en cuenta que DW , r-ésimo espectro, es una medida de divergencia, en x 1 1 log x . 2 2 no se utiliza directamente para medir la distancia entre dos espectros porque la forma de W no asegura que DW , sea simétrica, condición que es necesaria para hacer el análisis por conglomerados. La sencilla modificación de DW , es suficiente para obtener una medida simétrica. Etapa 4. A partir de la matriz de disimilaridades entre las series residuales que se basa en D W y utilizando los métodos de Ward y del encadenamiento promedio se aplica el algoritmo de conglomerados. En la Figura 9 se presenta el dendrograma obtenido al utilizar como estimador no paramétrico espectral f l ,DLS y el algoritmo del encadenamiento promedio como criterio para evaluar la proximidad entre grupos en las etapas intermedias. En la Figura 10 se presenta el dendrograma cuando se utiliza el estimador f l , LK . Los dendrogramas de las Figuras 9 y 10 muestran soluciones en los agrupamientos muy parecidas. En ambos casos, una primera clasificación lleva a una solución con tres grupos que son: S1= {Vasconia, Castilla, Crédito-Balear, Popular}, S2= {Valencia, Andalucía, Atlántico} y S3= {Zaragozano, Pastor, Bankinter, BBVA, BSCH, Galicia, Guipuzcoano}, con Banesto en S2 o S3, dependiendo del suavizador que se utilice: f l , LK o f l ,DLS . También es razonable una solución con cinco grupos, siendo los grupos nuevos S4= {Banesto} y S5= {Galicia, Guipuzcoano}. 22 Figura 9. Dendrograma de las quince series de residuos, utilizando f l ,DLS . Figura 10. Dendrograma de las quince series de residuos, utilizando f l , LK . 23 Algunas conclusiones que se derivan de los dendrogramas obtenidos son las siguientes: (i) Una vez eliminadas las tendencias de las series en estudio, tres modelos (o cinco si se adopta la segunda solución) son suficientes para describir la estructura de dependencia de las quince series de residuos. Por tanto, el comportamiento de futuros valores como función de su pasado será similar en los bancos del mismo grupo y diferente en bancos de grupos distintos. Este tipo de información puede ser de gran interés para los mercados de valores. (ii) Si se ajusta un modelo paramétrico a las series y se restringe al conjunto de modelos ARMA, entonces las series residuales se pueden ajustar razonablemente por un proceso AR(1), esto es, l ,t g l ,t 1 al ,t , con g 1 y al ,t es un proceso iid con distribución N 0, g 2 y donde los parámetros y g dependen del grupo particular 2 g en que está la serie l-ésima. Además, si se considera la solución con cinco grupos, se observa que en el grupo S1 el modelo tiene el parámetro S1 0.4 más pequeño y la desviación típica más grande S1 0.33 . El modelo que se ajusta a la serie del Crédito-Balear tiene el coeficiente autorregresivo estimado más pequeño, 0.26, y el del banco Popular tiene la varianza estimada ligeramente mayor, 0.4, estos son los puntos más alejados del centroide de S1. Esto se ilustra bien en la Figura 9 y con menor claridad en el dendrograma de la Figura 10, donde el Vasconia se incluye en S1 después que el Crédito-Balear. Las series de S2 forman un grupo compacto con S 2 0.6 y S 2 0.13 , mientras que para las series del grupo S3 la estimación del parámetro S 3 está entre 0.64 y 0.74 y la desviación típica es S 3 0.24 en todos los casos. Los valores estimados para Banesto fueron S 4 0.74 y S 4 0.23 , por lo tanto, su grupo más próximo es S3 si se utiliza la representación ARMA como criterio de proximidad. Este hecho se refleja, nuevamente, mejor en la figura 9 que en la Figura 10. Finalmente el grupo S5 contiene a las series de residuos de los bancos Guipuzcoano y Galicia, que se juntan en la última parte del proceso y pueden ser considerados puntos aislados de forma similar que el Banesto. 24 En resumen, nuestro procedimiento de conglomerados permite agrupar las series residuales en concordancia con los modelos ARMA ajustados. Esto se podía suponer ya que el algoritmo se basa en una medida de discrepancia entre los espectros o, equivalentemente, entre las estructuras de covarianzas. En todo caso, se debe destacar que nuestro algoritmo de conglomerados no necesita ninguna hipótesis previa acerca de estructura de probabilidad de las series porque se calcula a partir de estimadores no paramétricos de la densidad espectral. Por tanto y, desde un punto de vista teórico, las únicas hipótesis que se necesitan en nuestro algoritmo son hipótesis de regularidad de los procesos estocásticos en estudio, bajo las cuales los suavizadores espectrales verifican propiedades de consistencia (ver Fan y Gijbels (1996)). (iii) Una comparación entre los análisis de conglomerados realizados con las series residuales y con las tendencias (Sección 2, Figuras 4 y 5) nos permite concluir que hay algunas similitudes entre la clasificación de los residuos y la clasificación de las tendencias pero también hay alguna diferencia importante. Por ejemplo, las series de tendencias y de residuos de los bancos Bankinter, BBVA y BSCH se agrupan en las primeras etapas del proceso de conglomerados. Por tanto, es evidente que estos tres bancos tienen en el mismo comportamiento tanto en su componente determinística como en su componente aleatoria. Por el contrario, se observa que la serie de residuos del banco Atlántico está en el grupo S2 junto a los bancos Valencia y Andalucía, aunque la tendencia de estos dos bancos es creciente en contraste con la tendencia decreciente del banco Atlántico. (iv) Como ya se indicado previamente, un algoritmo de agrupación de series de tiempo debe de tener en cuenta la existencia de la estructura probabilística de las series porque en caso contrario no se obtienen soluciones adecuadas. Para comprender mejor este punto nosotros hemos aplicado un algoritmo de conglomerados clásico a nuestro conjunto de series de residuos, utilizando la distancia euclídea y el método de encadenamiento promedio, en este caso los resultados obtenidos eran sustancialmente diferentes de los obtenidos por los métodos propuestos en este trabajo. Así, series con distinta estructura autorregresiva se juntaban en el mismo grupo, por ejemplo, los residuos de los bancos Galicia y Andalucía, sorprendentemente, se juntaban muy pronto, en la tercera etapa del proceso inmediatamente después de Bankinter, BBVA y BSCH, que sí se mantenían juntos. Nótese que en nuestro procedimiento los bancos Galicia y Andalucía pertenecen a grupos distintos y solo se juntan al final del proceso. 25 (v) La selección del suavizador espectral no tiene un papel fundamental y se obtienen resultados parecidos utilizando los tres estimadores lineales locales propuestos: f l ,DLS , f l ,LS y f l , LK . De hecho, las principales diferencias se presentan en la localización de los bancos que están más alejados de un modelo común (por ejemplo, Banesto), en las últimas etapas del procedimiento de agrupación. Por tanto, no hay diferencias importantes en la solución de agrupamientos que se obtiene. En este punto también conviene destacar que las ventajas teóricas que presenta el estimador basado en la verosimilitud, f l , LK , son de tipo asintótico y pueden no existir al trabajar con muestras finitas. 4 CONCLUSIONES Uno de los objetivos de este trabajo consistía en mostrar que la metodología no paramétrica proporciona un amplio abanico de procedimientos para realizar un completo análisis estadístico de un conjunto de series observadas. Aquí se presentan métodos para estimar la tendencia de las series, contrastar hipótesis acerca de la igualdad de las tendencias de dos o más series y presentar nuevos procedimientos de agrupación. Estos métodos tienen la ventaja de que no dependen de rígidas hipótesis paramétricas y que se pueden adaptar perfectamente para estudiar observaciones dependientes, teniendo en cuenta la estructura de dependencia, tal y como se ha mostrado a lo largo del trabajo. Se ha analizado el conjunto de las quince series de cotización semanal en euros de las acciones de los bancos en el mercado de valores español durante los años 2001 y 2002. Un objetivo de este análisis era clasificar a los bancos en unas pocas categorías, de tal forma, que los bancos que pertenecen a la misma categoría deben seguir modelos similares. Y, aunque no era un objetivo básico del trabajo, el ajustar un modelo particular a cada una de las series, se ha encontrado que existen similitudes y diferencias entre las series analizadas. Para hacer el estudio estadístico de estas series es necesario estudiar por separado la tendencia y la componente estocástica de las mismas. Los estimadores por ajuste lineal local permiten estimar las tendencias y a la vista de este conjunto de componentes determinísticas (ver Figura 2) se deduce la existencia de diferentes patrones entre las quince tendencias estimadas. La aplicación de un reciente 26 contraste estadístico nos permite rechazar la hipótesis de igualdad de tendencias tal y como se intuía al observar la Figura 2. Un análisis clásico de conglomerados de las tendencias ajustados sugiere una solución de cinco grupos de tendencias, que son los siguientes: C1= {BBVA, BSCH, Bankinter, Atlántico}, C2= {Banesto}, C3= {Andalucía, Valencia, Galicia}, C4= {Guipuzcoano, Zaragozano} y C5= {Castilla, Popular, Crédito-Balear, Pastor, Vasconia}. En base a este resultado y a las tendencias ajustadas puede obtenerse el patrón de la tendencia de cada grupo. También se realizaron distintos contrastes no paramétricos en los que se contrastaba la igualdad de pares de tendencias (de los bancos del IBEX-35) o la igualdad de tendencias de los bancos que pertenecían al mismo grupo del análisis de conglomerados. Los resultados obtenidos en estos contrastes avalaban el resultado obtenido en el análisis de agrupamiento y confirmaban la clasificación de las tendencias obtenida. En el trabajo se proporcionan cuatro estadísticos de contraste no paramétricos diferentes para contrastar la hipótesis de igualdad de dos tendencias. Su distribución se aproximaba utilizando métodos de remuestreo que tienen en cuenta la estructura de dependencia de las observaciones. Una vez que las componentes determinísticas fueron clasificadas y caracterizadas, nuestra atención se centraba en el estudio de las componentes aleatorias, esto es, de las series de residuos obtenidas como la diferencia entre la series observadas y sus tendencias. El problema era en este caso clasificar series de tiempo estacionarias de media cero, por tanto, las similitudes y diferencias deben de ser determinadas en términos de la cantidad de afinidad de sus estructuras de covarianzas. Por tanto, el procedimiento de clasificación debe de utilizar distancias entre las matrices de covarianzas, pero esto en el campo de las series de tiempo presenta el problema de una alta dimensionalidad. Para evitar este problema las series de los residuos son agrupadas en el dominio frecuencia, esto es, la disparidad entre dos estructuras de covarianza es medido en términos de la disparidad entre las correspondientes representaciones espectrales. Para hacer esto, en primer lugar, se obtenían estimaciones no paramétricas del espectro y, a continuación, se utilizaba una medida de distancias entre espectros cuyas propiedades teóricas han sido estudiadas por los autores en un trabajo previo. El resultado del análisis de agrupamiento de las series de residuos también identificaba cinco grupos: S1= {Vasconia, Castilla, Crédito-Balear, Popular}, S2= {Valencia, Andalucía, Atlántico}, S3= {Zaragozano, Pastor, BBVA, BSCH, 27 Bankinter}, S4= {Banesto} y S5= {Galicia, Guipuzcoano}. Esta clasificación parece ser consistente con los correspondientes modelos ARMA ajustados. Por tanto, nuestro procedimiento de conglomerados ha sido capaz de agrupar las series de acuerdo con sus estructuras de dependencia. Este es un aspecto importante ya que no se ha supuesto ningún modelo de dependencia de las series para aplicar el algoritmo, en contraste con otros métodos existentes en la literatura que han sido específicamente diseñados para tratar series de tiempo pero siempre suponiendo que estas siguen unos determinados modelos de dependencia. En resumen, los procedimientos no paramétricos presentados y, en particular, los algoritmos de clasificación, además de tener buenas propiedades asintóticas, también parecen presentar un comportamiento razonable con muestras finitas y pueden ser utilizados con ciertas garantías de éxito en otros conjuntos de series de tiempo de datos reales Agradecimientos: Este trabajo está parcialmente financiado por el proyecto DGICYT BFM 2002-002665 (European FEDER incluído) y los proyectos XUGA PGIDT01PXI10505PR y PGIDT03PXIC10505PN. BIBLIOGRAFÍA 1. Aczél, J. (1987): A Short Course on Functional Equations, Reidel, Dordrech. 2. Clark, S. A. (1993): “The Valuation Problem in Arbitrage Price Theory”. Journal of Mathematical Economics , 22, pp. 463-478. 1. Dette, H. and Neumeyer, N. (2001): ``Nonparametric analysis of covariance”. Ann. Stat., 29, 5, 1361-1400. 2. Fan, J. and Gijbels, I. (1996): Local Polynomial Modelling and Its Applications. Chapman and all. London. 3. Fan, J. and Kreutzberger, E. (1998): ``Automatic local smoothing for spectral density estimation”. Scand. J. Stat., 25, 359-369. 28 4. Francisco-Fernández, M. and Vilar-Fernández, J.M. (2001): ``Local polynomial regression estimation with correlated errors”. Commun. Statist. Theory Meth., 30, 7, 1271-1293. 5. Francisco-Fernández, M. and Vilar-Fernández, J.M. (2004): ``Weighted local nonparametric regression with dependent errors: study of real private residential fixed investment in the USA”. Statistical Inference for Stochastic Processes, 7, 1, 69-93. 6. Galbraith, J.K. and Jiaqing, L. (1999): ``Cluster and discriminant analysis on Time Series as a reserach tool”. UTIP Working Paper Number 6, Austin: Lyndon B. Johnson School of Public Affairs. The Uiversity of Texas at Austin. 7. Hall, P. and Hart, J.D. (1990): ``Bootstrap test for difference between means in nonparametric regression”. J. Am. Stat. Assoc., 85, 412, 1039-1049. 8. Hirsch, B. and DuBois, D. (1991): ``Self-Esteem in early adolescence: The identification and prediction of contrasting longitudinal trajectories”. Journal of Youth and Adolescence, 20, 1, 53-72. 9. Kakizawa, Y., Shumway, R.H. and Taniguchi, M. (1998): ``Discrimination and clustering for multivariate time series”. J. Am. Stat. Assoc., 93, 328-340. 10. King, E.C., Hart, J.D. and Wehrly, T.E. (1991): ``Testing the equality of two regression curves using linear smoothers”. Stat. Probab. Lett., 12, 3, 239-247. 11. Koul, H. L. and Schick, A. (1997): ``Testing for the equality of two nonparametric regression curves”. J. Stat. Plan. Infer., 65, 293-314. 12. Kulasekera, K.B. (1995): ``Comparison of regression curves using quasiresiduals”. J. Am. Stat. Assoc., 431, 90, 1085-1093. 13. Maharaj, E.A. (1996): ``A significance test for classifying ARMA models”. J. Statist. Comput. Simul., 54, 305-331. 14. Maharaj, E.A. (2000): ``Clusters of time series”. J. Classification, 17, 297--314. 15. Neumeyer, N. and Dette, H. (2003): ``Nonparametric comparison of regression curves: an empirical process approach”. Ann. Stat., 31, 3, 880-920. 16. Piccolo, D. (1990): ``A distance measure for classifying ARIMA models”. J. Time Series Anal., 11, 2, 153-164. 29 17. Tong, H. and Dabas, P. (1990): ``Cluster of time series models: an example”. J. Appl. Stat., 17, 187-198. 18. Vilar Fernández, J.A. and Pértega, S. (2004): ``Discriminant and cluster analysis for Gaussian stationary processes: Local linear fitting approach”. Aparecerá en J. Nonparametr. Stat. 19. Vilar Fernández, J.M. and González Manteiga, W. (2004): ``Nonparametric comparison of curves with dependent errors”. Aparecerá en Statistics. 20. Vilar Fernández, J.M., Vilar Fernández J.A. and González Manteiga, W. (2004): ``Bootstrap tests for nonparametric comparison of regression curves with dependent”. En proceso de revisión en Comput. Stat. Data Anal. 21. Young, S.G. and Bowman, A.W. (1995): ``Nonparametric analysis of covariance”. Biometrics, 51, 920-931. 30