CLASIFICACIÓN NO PARAMETRICA DE SERIES DE SECTOR BANCARIO ESPAÑOL.

Anuncio
CLASIFICACIÓN NO PARAMETRICA DE SERIES DE
TIEMPO. APLICACIÓN A LAS COTIZACIONES DEL
SECTOR BANCARIO ESPAÑOL.
VILAR FERNÁNDEZ, Juan M.
Departamento de Matemáticas
Universidade da Coruña
correo-e: [email protected]
VILAR FERNÁNDEZ, José A.
Departamento de Matemáticas
Universidade da Coruña
correo-e: [email protected]
PERTEGA DÍAZ, Sonia
Unidad de Epidemiología Clínica y Bioestadística
Complejo Hospitalario Juan Canalejo
correo-e: [email protected]
RESUMEN
Se realiza un análisis estadístico de 15 series semanales de cotización de bancos
en la bolsa española durante los años 2001 y 2002 utilizando solamente procedimientos
no paramétricos. El análisis consiste en estimar, clasificar y testar la igualdad de las
tendencias de estas series. Una vez estimadas las tendencias y eliminadas del modelo se
agrupan las series de los residuos utilizando métodos de conglomerados no paramétricos
específicamente diseñados para aplicar en el contexto de las series de tiempo. Las
tendencias se estiman por regresión polinómica local y son comparadas utilizando
estadísticos no paramétricos cuya distribución se aproxima por la distribución asintótica
o por métodos bootstrap. El hecho de que las observaciones sean dependientes es
fundamental y se tiene en cuenta en todo el desarrollo del trabajo.
Palabras clave: Métodos no paramétricos, análisis de conglomerados, test de hipótesis, series de tiempo.
1 INTRODUCCIÓN
Los métodos no paramétricos de estimación de curvas son una importante
herramienta estadística para explorar y analizar el modelo que se ajusta a una nube de
observaciones. Son métodos versátiles, adecuados para el estudio de problemas locales
y válidos en situaciones muy generales que permiten su aplicación en muchos
problemas de diferentes campos de investigación. En este trabajo se proponen diferentes
procedimientos no paramétricos, tipo núcleo (kernel), para estudiar un conjunto de
series de tiempo observadas simultáneamente. En este caso un problema importante es
conocer el grado de similitud de las series o, dicho de otra forma, ¿puede suponerse que
las series se ajustan al mismo modelo estadístico?. Este es el objetivo de este trabajo
que se aborda desde un punto de vista no paramétrico.
En una primera etapa, las series se descomponen en su parte determinística
(tendencia) y su parte aleatoria (con dependencia). Estas dos componentes son
estudiadas de forma independiente. Las tendencias de las series de tiempo se estiman
utilizando el estimador de regresión polinómica local ponderada (RPL) bajo la única
hipótesis de que son funciones suaves (diferenciables). Posteriormente, las tendencias
estimadas se clasifican en grupos utilizando técnicas de análisis de conglomerados
clásicas y se chequea la hipótesis de igualdad de tendencias en cada grupo utilizando
contrastes no paramétricos que tienen en cuenta la dependencia de las series en estudio.
En una segunda etapa, se estudian las componentes aleatorias a partir de las series
residuales obtenidas como la diferencia entre las series originales y las tendencias
estimadas. El objetivo es encontrar similitudes y diferencias entre estas series residuales
para clasificarlas en un número pequeño de grupos. Esta clasificación es útil para
detectar unos pocos modelos representativos, hacer predicciones, cuantificar el grado de
afinidad, ... Por todo ello, el problema de clasificar series de tiempo tiene interés en
muchos campos como la física, economía, medicina e ingeniería, entre otros. Estudios
relacionados con este tema son los de clasificación de series de producción industrial
(Piccolo (1990)), la comparación de datos sismológicos (Kakizawa, Shumway y
Taniguchi (1998)), un estudio con datos industriales (Galbraith y Jiaqing (1999)), y un
estudio sobre la clasificación de niños en base a su conducta (Hirsch y DuBois (1991)).
El conjunto de series estudiado en este trabajo está formado por quince series
financiares, cada una de las cuales indica el precio semanal en euros de la cotización de
2
las acciones en la bolsa de un banco español en un período de dos años (2001 y 2002).
Los quince bancos estudiados son: Andalucía, Atlántico, BBVA, Banesto, Bankinter,
BSCH, Castilla, Crédito-Balear, Galicia, Guipuzcoano, Pastor, Popular, Valencia,
Vasconia y Zaragozano. Estos bancos representan todo el sector bancario español y
cinco de ellos (Banesto, Bankinter, BBVA, BSCH y Popular) pertenecen al IBEX-35.
Las observaciones eran recogidas en los mismos instantes de tiempo para todas las
series, de las que se obtienen 103 observaciones semanales y cada observación indica el
valor de cotización de las acciones el jueves, si el jueves era festivo se utilizaba la
cotización del miércoles. No se utilizaba la cotización de los viernes para evitar el
denominado efecto de fin de semana.
Para hacer las comparaciones, las series observadas deben estar en la misma escala,
por este motivo las series son estandarizadas a series de media cero y varianza uno. El
gráfico de las quince series estandarizadas se presenta en la Figura 1.
Figura 1. Precios de cotización semanal (en euros) estandarizados de los quince
bancos en la bolsa española durante los años 2001 y 2002.
3
La Figura 1 sugiere una fuerte afinidad entre algunas series (por ejemplo, BBVA y
BSCH tienen una forma decreciente similar) y claras diferencias entre otras (por
ejemplo, BBVA y Andalucía muestran tendencias opuestas).
Dado que las observaciones son observadas en los mismos instantes, se les puede
ajustar un modelo de regresión de diseño fijo observado en puntos equiespaciados en el
intervalo [0,1]. Esto es
Yl ,t  ml ( xt )   l ,t ,
l  1, 2,...,15,
(1)
donde ml es la tendencia de la serie l, xt  t /103 y  l ,t es la componente aleatoria que
es un proceso estacionario pero con estructura de dependencia.
El estudio realizado en este trabajo consiste en estimar, clasificar y testar la igualdad
de las tendencias ml . Una vez eliminadas las tendencias de las series se agrupan las
series residuales utilizando métodos de conglomerados específicamente desarrollados
para aplicar a series de tiempo. En todo el trabajo se tiene en cuenta la dependencia de
las observaciones, hecho que influye decisivamente en el estudio realizado.
El trabajo está organizado como sigue: en la Sección 2 se estiman y comparan las
tendencias de las quince series. La estimación se realiza utilizando el estimador de
regresión polinómica local ponderada y estas estimaciones se utilizan para identificar
grupos de tendencias y chequear la hipótesis de igualdad de las tendencias. Los
estadísticos de estos contrastes se basan en estimadores no paramétricos y sus
distribuciones exactas son desconocidas pero pueden aproximarse por su distribución
asintótica o utilizando aproximaciones obtenidas por métodos de remuestreo
(bootstrap). En la Sección 3 se realiza la clasificación de las series residuales, para ello
se utiliza un algoritmo de conglomerados basado en una medida de disparidad entre los
espectros de las series residuales. Los resultados de este análisis de conglomerados son
examinados y se comparan con los obtenidos cuando se utiliza un algoritmo de
conglomerados clásico que no tiene en cuenta la dependencia de las observaciones.
Finalmente, en la Sección 4 se presentan algunas de las conclusiones del estudio.
Indicar que los datos para la realización de este estudio eran obtenidos de la web
www.josera.com.
4
2 ANÁLISIS DE LAS TENDENCIAS
De la Figura 1 se deduce la existencia de tendencias en las series observadas. Por
ello en esta Sección se estiman, clasifican y comparan las tendencias de las quince
series, denotadas por ml , l  1, 2,...,15 .
El método de suavizado elegido para realizar este trabajo ha sido la regresión
polinómica local ponderada porque presenta importantes ventajas sobre otros
estimadores tipo núcleo: un mejor comportamiento en la frontera, se adapta para estimar
las derivadas de la función de regresión, fácil de implementar y tiene buenas
propiedades mínimales. Ver la monografía de Fan y Gijbels (1996) y las referencias allí
citadas para un completo estudio de este estimador.
El estimador polinómico local (RPL) se obtiene al ajustar un polinomio de grado p a
las observaciones por mínimos cuadrados locales ponderados y, como en cualquier
procedimiento de suavización, es necesario elegir un parámetro de suavizado o banda
(h) que controla el la cantidad de suavización que se introduce. Esto es, dada la muestra
( xt , Yt ) : t  1, 2,..., n
generada del modelo Yt  m( xt )   t y suponiendo que la (p+1)-
derivada de m en el punto x existe y es continua, haciendo un ajuste polinómico local se
puede estimar el vector  ( x)  (  0 ( x), 1 ( x),...,  p ( x))t , donde j !  j ( x)  m( j ) ( x) , con
j=0,1,2,...,p. Siendo el estimador el vector que minimiza la siguiente función
2
p


(  ( x))    Yt    j ( x)( xt  x) j   n,t
t 1 
j 0

n
(2)
donde  n ,t son unos pesos dados por n,t  (nh)1 K (( xt  x) / h) , con K una función
núcleo, normalmente una función de densidad simétrica respecto al cero y, en muchos
casos, de soporte acotado, h  hn es el parámetro de suavizado o banda del estimador.
El estimador RPL obtenido de minimizar la función dada en (2) tiene la siguiente
forma en notación matricial,
 ( n ) ( x)   X tp ,( n )W( n ) X p,( n)  X tp,( n)W( n) Y ( n )
1
5
(3)
donde Y ( n )  (Y1 , Y2 ,...., Yn )t , X p ,( n ) es la matriz de orden n  ( p  1) cuyo (i,j) elemento
es  xi  x  , para i  1, 2,..., n y j  0,1,..., p, y W( n)  diag n,1 ,..., n, n  es la matriz
j
diagonal de pesos. Ahora, el estimador RPL de la j-ésima derivada de la función de
( j)
regresión es: m ( x)  j !  j ( x) , siendo  j ( x ) la componente (j+1) del vector  ( n ) ( x )
dado en (3), con j  0,1,..., p.
En este trabajo se utilizó el estimador RPL con p=1 (estimador local lineal) para
estimar cada una de las tendencias individuales, ml , a partir de los datos de las series
observadas. La banda hn utilizada en cada caso se obtenía por un algoritmo ``plug-in”
adecuado para el contexto de datos dependientes. Este algoritmo se basa calcular la
banda óptima en el sentido que minimiza el error cuadrático medio integrado asintótico
del estimador y sustituir las cantidades desconocidas de esta expresión por estimadores
de la misma. La banda óptima depende de la suma de covarianzas de la serie de residuos
y, por tanto, se obtienen bandas muy diferentes si se supone que las observaciones son
independientes, lo que llevaría a la obtención de malas estimaciones de la tendencia.
Un estudio detallado del estimador RPL en este contexto de dependencia y del
algoritmo ``plug-in” de selección de la banda utilizado puede verse en los trabajos de
Francisco-Fernández and Vilar-Fernández (2001), (2004). Las bandas obtenidas se
presentan en la Tabla 1.
Banco
Andalucía Atlántico
BBVA
Banesto
Bankinter
h
0.1342
0.0877
0.1672
0.1755
0.1758
Banco
BSCH
Castilla
Crédito-Balear Galicia
Guipúzcoano
h
0.1785
0.1119
0.0801
0.0929
0.1146
Banco
Pastor
Popular
Valencia
Vasconia
Zaragozano
h
0.1154
0.1361
0.1583
0.1129
0.1674
Tabla 1. Bandas ``plug-in” utilizadas en la estimación de las tendencias.
6
También se estimó la tendencia media mc de las quince series. Esta curva representa
el precio semanal medio (en euros) de las acciones del sector bancario español. Esta
curva se estimaba por el método RPL a partir de la nube
 x ,Y  : t  1,...,103 , donde
t
.,t
15
Y .,t  (1/15) Yl ,t . El gráfico de las series observadas y de las tendencias individuales y
l 1
media es representado en la Figura 2.
Figura 2. Gráfico de las series observadas (en negro), tendencia estimada (en rojo) y
tendencia media (en azul).
De esta figura se deduce que la tendencia media no se puede considerar un modelo
que siguen todas las series estudiadas ya que existen claras diferencias entre las
tendencias individuales estimadas. Por este motivo se ha realizado un contraste de
hipótesis de igualdad de tendencias. Esto es
H 0 : m1  ...  m15  mc
7
(4)
frente a la alternativa H1 : ``de que al menos existen dos tendencias mi y m j tales que
mi  m j con i, j 1, 2,...,15. ”
El problema de testar la igualdad de k funciones de regresión utilizando técnicas no
paramétricas ha sido ampliamente estudiado en la reciente literatura estadística. Algunas
referencias sobre este problema son: Hall y Hart (1990), King, Hart y Werhly (1991),
Kulasekera (1995), Koul y Schick (1997), Dette y Neumeyer (2001) y Neumeyer y
Dette (2003), entre otros. En todos estos trabajos se asume la independencia de las
observaciones, hipótesis que no se verifica en las series de nuestro estudio. Por este
motivo se ha utilizado un contraste estadístico estudiado recientemente por VilarFernández y González-Manteiga (2004) en un contexto de dependencia y que puede
aplicarse a un número de curvas k  2 . El estadístico del contraste se basa en calcular la
distancia funcional tipo Crámer-von-Mises entre los estimadores núcleo de las
funciones de regresión desconocidas, ml . El estadístico del contraste tiene la forma
k
l 1


Q n    ml ,h  x   m s ,h  x    x  dx,
(1)
l  2 s 1
2
donde   x  es una función peso definido sobre el soporte de la variable de diseño,
C  0,1 , y, para cada l=1,…,k, ml ,h  x  es un estimador núcleo de ml ( x) obtenido con
banda h y núcleo K.
(1)
Básicamente Q n es un estimador consistente de
k
l 1
Q     ml ,h  x   ms ,h  x     x  dx,
2
l  2 s 1
(1)
por tanto, la hipótesis nula es falsa sí y solo sí Q>0. La distribución asintótica de Q n
era estudiada por Vilar-Fernández y González-Manteiga (2004) bajo condiciones
generales de dependencia. En este trabajo se obtenía que si la función de autocovarianza
de cada proceso de errores en el modelo (1),  l ( )  E ( l ,t ,  l ,t  ) , verificaba la
condición

   ( )  ,
 
l
8
para l  1,..., k ,
entonces el teorema 3 de Vilar-Fernández y González-Manteiga (2004) establece que,
bajo la hipótesis nula de igualdad de curvas de regresión,
k
 (1) k  1

n2 hn  Q n 
I CK  l   N 0,  Q2 (1)
nhn
l 1



donde l 

  ( ) , para l  1,..., k ,

l

 Q2  2
(1)

K *K 
2

en distribución,
(6)
I    , CK   K 2 y la varianza es
  

2
   k 1
2
k
k



 j l 


l
l 1
j 1 l  j

k
donde * denota el operador convolución.
La expresión (6) incluye parámetros desconocidos,  l , por lo que, en la práctica, es
necesario sustituirlos por estimadores razonables de los mismos,  l . En el Teorema 2
de Vilar-Fernández y González-Manteiga (2004) se obtiene que el resultado (6)
permanece válido si se sustituye  l por un estimador consistente del mismo,  l , para
l  1,..., k . Por tanto, se rechazará la hipótesis nula de igualdad de las tendencias de las
series a un nivel de significación  cuando
k
(1)
 (1) k  1

Q n  n2 hn  Q1(1)  Q n 
I CK  l   z ,
nhn
l 1


(7)
donde z es tal que   z   1   , siendo ( ) la función de distribución de una
normal estándar.
El criterio dado en (7) era utilizado para chequear la igualdad de la tendencia de las
quince series en estudio. Como estimador no paramétrico se utilizaba el estimador de
Nadaraya-Watson (se corresponde con el estimador RPL con p=0) con núcleo gaussiano
y la función de peso utilizada para evitar el efecto frontera era  ( x)  1/ 0.8 en
0.1;0.9 y 0 en otro caso,. Los parámetros
 l , para l  1,..., k , se estimaban a partir de
los residuos no paramétricos  l ,t  Yl ,t  ml ,h  xt  . El estadístico Q n se calculaba para
(1)
un rango de valores de hn y los resultados obtenidos así como de los p-valores
asociados son presentados en la Tabla 2, además, la gráfica del estadístico escalado
(1)
Q n 102 y el p-valor como funciones de hn se presentan en la Figura 3.
9
hn
(1)
Qn
p-valor
0.100
0.200
0.300
0.350
0.400
0.500
68.126
32.574
13.091
8.085
5.005
3.135
0.000
0.000
0.000
0.001
0.081
0.390
(1)
Tabla 2. Test de igualdad de tendencias para las quince series basado en Q n .
Figura 3. Gráfico del estadístico del test escalado (en rojo) y de los p-valores
asociados en función de la banda h utilizada.
Como era de esperar, de la Figura 3 se deduce claramente un rechazo de la igualdad
de tendencias para valores razonables de hn , solo si la banda es muy grande (próximo a
0.5) el test tiende a aceptar la hipótesis nula, ello es debido a que al suavizar tanto, los
estimadores no paramétricos de la tendencia son próximos a la media de la serie, que es
(1)
cero en todos los casos porque son series estandarizadas. Por tanto Q n tiende a cero
cuando hn crece y se acepta H 0 . Como conclusión se tiene que la banda hn tiene una
gran influencia en el resultado del contraste y debe de seleccionarse cuidadosamente.
El rechazo de la igualdad de tendencias motiva a realizar un análisis de
conglomerados con las quince estimaciones no paramétricas de las tendencias
individuales para obtener grados de afinidad y agrupar las tendencias en unas pocas
categorías. Por tanto, los estimadores RPL de las tendencias, ml ,hl , son agrupados por
10
algoritmos jerárquicos de agrupación, utilizando la distancia euclídea como medida de
disparidad entre dos tendencias. De esta forma la distancia entre dos tendencias ml ,hl y
ms,hs , l , s 1, 2,....,15 viene dada por


103

d ml ,hl , m s ,hs   ml ,hl  xt   m s ,hs  xt 
t 1

2
.
Varios métodos de aglomeración (incluyendo el método Ward, el método del
centroide, el método de encadenamiento simple, completo y promedio) fueron utilizados
para determinar cuando dos grupos debían unirse en cada una de las etapas del proceso
jerárquico y, básicamente, se llegaba a conclusiones parecidas en todos los casos. En las
Figuras 4 y 5 se muestran los dendrogramas de identificación de grupos cuando se
utilizó el método de encadenamiento promedio y el de Ward, respectivamente
Figura 4. Dendrograma de las tendencias estimadas de las quince series utilizando la
distancia euclídea y el método de encadenamiento en promedio.
11
Figura 5. Dendrograma de las tendencias estimadas de las quince series utilizando la
distancia euclídea y el método de Ward.
Los dendrogramas de las Figuras 4 y 5 nos indican una solución de cinco grupos. En
una primera clasificación el grupo de bancos {BBVA, BSCH, Bankinter, Atlántico,
Banesto} es apartada del resto. Dentro de este primer grupo, C1= {BBVA, BSCH,
Bankinter, Atlántico} forman un grupo compacto, con tendencias decrecientes y sin
muchas oscilaciones, mientras que C2= {Banesto} aparece aislado hasta el final del
proceso porque su tendencia es aproximadamente constante hasta las últimas 25
semanas en que tiene un decrecimiento notable. Respecto al resto de bancos, tres grupos
secundarios se deducen de las figuras: C3= {Andalucía, Valencia, Galicia}, C4=
{Guipuzcoano, Zaragozano} y C5= {Castilla, Popular, Crédito-Balear, Pastor,
Vasconia}. En contraste con C1, los bancos de C3 tienen tendencia creciente. La
tendencia de los del grupo C5 es una curva ruidosa con dos modas en torno a las
semanas 25 y 70. Finalmente, la tendencia de los banco del grupo C4 es parecida a los
del C5, pero en este grupo la primera moda desaparece (la tendencia es muy suave o
constante en el período inicial) y la segunda moda es más remarcada que en los bancos
12
de C4. Destacar que aunque el Banco Popular pertenece al IBEX-35, su tendencia no
pertenece al grupo C1 que si incluye al resto de bancos del IBEX-35 (BBVA, BSCH,
Bankinter y Banesto) excepto el Banesto que aunque no está en C1 si está próximo a
este grupo.
En base a la solución de agrupamiento obtenida se procedió a contrastar la igualdad
(1)
de tendencias de los bancos de cada grupo. Para ello el estadístico Q n era calculado
para cada uno de los cuatro grupos de tendencias: C1, C3, C4 y C5. En la Figura 6 se
representan los gráficos de los p-valores de los contrastes para cada grupo en función de
hn , y en ella se observa que para todo el rango de valores de hn los p-valores son
mayores que 0.7 y, por tanto, es razonable aceptar la hipótesis de igualdad de tendencias
de los bancos en cada uno de los cuatro grupos.
Figura 6. Gráfico de los p-valores de los contrastes de igualdad de medias en función
de hn y en cada uno de los cuatro grupos obtenidos.
También es interesante contrastar la igualdad de dos tendencias, esto es, hacer k=2 en
el contraste (4):
H 0 : ml  ms
frente
H1 : ml  ms .
Para contrastes de igualdad de dos curvas de regresión hay en la reciente literatura
estadística varios métodos basados en estimadores no paramétricos, aunque éstos han
sido estudiados en un contexto de independencia de las observaciones, en estos trabajos
se obtenía la distribución asintótica del estadístico del contraste propuesto y, en algunos
13
casos, dado que la convergencia a la distribución asintótica es muy lenta y depende de
parámetros desconocidos que había que estimar, se proponía aproximar la distribución
del estadístico del contraste por métodos de remuestreo.
En este trabajo se han utilizado cuatro estadísticos de contraste distintos basados en
la metodología no paramétrica para hacer el contraste de hipótesis dado en (8) con los
pares de tendencias de los cinco bancos incluidos en el IBEX-35: BBVA, Banesto,
Bankinter, BSCH y Popular. Estos contrastes se han aplicado teniendo en cuenta la
(1)
estructura de dependencia de las observaciones. Además del estadístico Q n dado en
(2)
(3)
(4)
(7), otros tres estadísticos eran utilizados y se denotan por Q n , Q n y Q n . Estos tres
estadísticos son descritos brevemente a continuación.
(2)
El estadístico Q n se define como la diferencia entre un estimador no paramétrico de
la varianza obtenido a partir de la muestra conjunta de las dos series y una combinación
convexa de estimadores no paramétricos de la varianza obtenidos a partir de las
muestras de cada serie, esto
(2)
2
Qn   P 

2
2
1
 l  s
206

con
1  103
2  t 1


2
103


 
2
 P   Yl ,t  m p , g  xt    Ys ,t  m p , g  xt  
2
t 1

y, para k  l , s,


2
1 103
 
 Yk ,t  mk ,hk  xt  ,
103 t 1
2
k
donde m p , g es un estimador núcleo con banda g obtenido de la muestra combinada de
las dos series en estudio y mk ,hk es un estimador núcleo de la tendencia con banda hk
obtenido a partir de cada una de las dos series individuales para k  l , s . El contraste
(2)
que se basa en el estadístico Q n fue estudiado en un contexto de independencia de las
observaciones por Dette y Neumeyer (2001).
14
(3)
El tercer estadístico,
Qn
es un estadístico tipo ANOVA, está motivado por el
clásico Análisis de la Varianza de un Factor (one-way) y fue introducido por Young y
Bowman (1995). Su expresión es la siguiente
(3)
Qn 
103
1  103
m
x

m
x

m p , g  xt   m s ,hs  xt 
p
,
g
l
,
h





l

t
t
206  t 1
t 1


2


  ,
2

siendo m p , g , ml ,hl y ms ,hs los estimadores núcleo de la tendencia utilizados en el
(2)
cálculo de Q n .
(4)
ZZ El último estadístico de contraste estudiado, Q n , fue introducido por Neumeyer
y Dette (2003), se basa en calcular la diferencia de los procesos empíricos marcados
construidos a partir de los residuos no paramétricos obtenidos bajo la hipótesis nula de
igualdad de las dos tendencias en estudio. Por tanto, se obtienen los residuos como
 k ,t  Yk ,t  m p , g  xt  , k  l , s , y la diferencia entre los correspondientes procesos
empíricos marcados viene dada por
R r  
donde r  0,1 e I 

103
1  103

  l ,t I  xt  r     s ,t I  xt  r  
206  t 1
t 1

(4)
es la función indicadora. El estadístico Q n se define como
2
Q n   R  r  dr .
(4)
1
0
Con estos cuatro estadísticos de contraste se seguirá el mismo criterio: ``rechazar la
hipótesis nula de igualdad de tendencias de las dos series cuando el estadístico tome
valores altos”. Los valores críticos de los contrates se calcularon aproximando la
(k )
distribución muestral de Q n , k  1, 2,3, 4 , por medio de un algoritmo de remuestreo
(naive bootstrap) que tiene en cuenta la dependencia de las observaciones. Este
algoritmo se basa en obtener remuestras a partir de los residuos obtenidos bajo la
hipótesis nula,  k ,t  Yk ,t  m p , g  xt  , k  l , s , pero suponiendo que el error sigue una
determinada estructura autorregresiva. Para más detalles ver Vilar-Fernández et al.
(2004), en este trabajo se describen detalladamente los algoritmos utilizados y se
presenta un amplio estudio de simulación en el que se compara el comportamiento de
15
(k )
diferentes estadísticos de contraste, incluyendo Q n , k  1, 2,3, 4 , y utilizando
diferentes métodos de remuestreo con observaciones dependientes.
Los p-valores obtenidos en los contrastes de igualdad de dos tendencias en todos los
pares de los cinco bancos del IBEX-35 se presentan en la Tabla 3. Los p-valores se
obtenían por aproximaciones de remuestreo para los cuatro estadísticos de contraste
(1)
(columnas 3-6), y para Q n
también se obtenía el p-valor utilizando la distribución
asintótica dada en (6) (columna 2).
Pares Bancos
(1)
(1)
(2)
(3)
(4)
BBVA/Banesto
0.103
0.048
0.008
0.024
0.258
BBVA/Bankinter
0.738
0.782
0.332
0.924
0.934
BBVA/Popular
0.000
0.000
0.000
0.000
0.016
BBVA/BSCH
0.854
0.960
0.644
0.994
0.998
Banesto/Bankinter
0.072
0.034
0.004
0.022
0.192
Banesto/Popular
0.436
0.204
0.014
0.132
0.190
Banesto/BSCH
0.208
0.094
0.028
0.078
0.282
Bankinter/Popular
0.000
0.002
0.000
0.000
0.008
Bankinter/BSCH
0.718
0.702
0.434
0.850
0.932
Popular/BSCH
0.000
0.002
0.000
0.000
0.024
Q n asint Q n rem Q n rem Q n rem Q n rem
Tabla 3. p-valores en los contrastes de igualdad de dos tendencias en todos los pares
de los cinco bancos del IBEX-35.
De la Tabla 3 se deduce que no hay diferencias significativas en las tendencias de las
series de cotización semanal de las acciones del BBVA, Bankinter y BSCH porque los
16
p-valores obtenidos por todos los procedimientos son muy grandes. Esto constituye una
nueva prueba de la homogeneidad del grupo C1 obtenido en el estudio de
conglomerados realizado anteriormente. Por otra parte, las filas 4, 9 y 11 de la Tabla 3
indican la existencia de diferencias significativas en los contrastes de igualdad de
tendencias de los bancos BBVA, Bankinter y BSCH, hecho que se verifica con todos
los procedimientos de contraste utilizados. Por tanto, se deduce de forma clara que
aunque el banco Popular pertenece al IBEX-35, su tendencia es significativamente
distinta de la de los otros bancos del IBEX-35. Por ello, en nuestro análisis de
conglomerados aparece en el grupo C5, el más alejado de C1. Por lo que respecta a la
tendencia del Banesto, los contrastes realizados no llevan a conclusiones definitivas ya
que no hay una evidencia suficiente que permita rechazar la hipótesis nula o, al menos,
no es uniforme en todos los procedimientos de contraste utilizados.
También se han realizado otros contrastes de igualdad de dos tendencias con otros
pares de bancos y los resultados obtenidos son concordantes con los grupos obtenidos
en el análisis de conglomerados realizado.
3 ANÁLISIS CLUSTER DE LAS COMPONENTES
ALEATORIAS
El siguiente paso en nuestro estudio consistió en eliminar las tendencias estimadas de
las series originales estandarizadas para obtener las series de ruido estimado, esto es, las
series de los residuos no paramétricos,  l ,t dados por
 l ,t  Yl ,t  ml ,h  xt  , t  1, 2,...,103,
l  1, 2,...,15.
(9)
Las quince series de residuos son representadas en la Figura 7. De esta figura se
deduce que todas las series son aparentemente estacionarias en media y varianza, pero
no hay un modelo común para la estructura de dependencia de las quince series. Este
hecho lo confirma la Figura 8 en la que se representan las funciones de autocorrelación
muestral de las quince series.
17
An dalu cia
Atl antico
Ba nes to
Ba nkin ter
BBVA
BSCH
Ca still a
Credito -Ba lear
Ga licia
Gu ipuzcoan o
Pa stor
Po pula r
Va lencia
Va scon ia
Za rago zano
1
0
-1
-2
1
0
-1
-2
1
0
-1
-2
0
50
100
0
50
100
0
50
100
0
50
100
0
50
Figura 7. Gráficos de las series de residuos no paramétricos.
Andalucia
BSCH
Pastor
Atlantico
Castilla
Popular
BBV A
Credito-Balear
V alencia
Banesto
Galicia
V asconia
Figura 8. Gráficos de las funciones de autocorrelación .
18
Bankinter
Zaragozano
100
Con ayuda de un paquete computacional estadístico clásico se han chequeado las
quince series de residuos y se comprobó que pueden ser ajustadas de forma razonable
por un proceso autorregresivo o por un proceso en medias móviles, pero en este trabajo
el interés no se centra en el ajuste de las series sino en clasificarlas en grupos similares.
Se debe tener en cuenta que las técnicas clásicas de análisis de conglomerados no
proporcionan resultados aceptables porque se basan en medidas de disparidad que no
tienen en cuenta el modelo de dependencia probabilística que siguen las series.
No son muchos los trabajos que hay en la literatura estadística acerca del análisis de
conglomerados de series de tiempo a pesar de sus importantes aplicaciones prácticas en
diversas áreas, sobre todo en economía. Un trabajo interesante y motivador sobre este
problema es el de Tong y Dabas (1990) que muestran como varias medidas de
similaridad y disimilaridad entre series de tiempo llevan a soluciones de agrupaciones
muy diferentes, algunas de las cuales son extrañas, este hecho lleva a afirmar a los
autores que el problema de medir el grado de afinidad entre varias series ajustadas es un
problema básico que merece ser tratado en detalle en futuras investigaciones. Algunos
trabajos recientes que tratan este problema son los siguientes: Piccolo (1990), Maharaj
(1996),(2000), Kakizawa, Shumway y Taniguchi (1998) y Vilar-Fernández y Pértega
(2004), entre otros. El punto fundamental en el desarrollo de estos trabajos consiste en
introducir una distancia apropiada entre dos modelos de series de tiempo ajustados. Por
ejemplo, en Piccolo (1990) la distancia entre dos modelos ARIMA se define como la
distancia euclídea entre los coeficientes de sus correspondientes expansiones
autorregresivas. A partir de esta distancia de Piccolo se desarrolla un algoritmo
automático de conglomerados para series de tiempo utilizando los modelos AR
ajustados a las series observadas. Más tarde, Maharaj (1996) utilizando la distancia de
Piccolo desarrolla un nuevo contraste de hipótesis para determinar si dos series son
generadas por modelos significativamente diferentes. Además, como los p-valores
asociados a este contraste se pueden utilizar para medir la cantidad de similaridad entre
las dos series estudiadas, Maharaj (1996) propone un nuevo procedimiento de análisis
de conglomerados basado en estos p-valores.
En Kakizawa, Shumway y Taniguchi (1998) y Vilar-Fernández y Pértega (2004) se
proponen algunas soluciones en el dominio frecuencia, lo que es una interesante
alternativa porque el problema de la dimensionalidad, normalmente alta en el campo de
las series de tiempo, se elimina al reemplazar la matriz de covarianzas por la densidad
19
espectral. En Kakizawa, Shumway y Taniguchi (1998) una medida general de
disparidad entre los espectros de dos procesos se define
DW ( f , g ) 
siendo f
1
4
  W  f    g    d  ,

1
(10)

  y g   las densidades espectrales de cada uno de los dos procesos y W  
es una función de divergencia que satisface ciertas condiciones regularidad adecuadas
para que DW ( f , g ) tenga la propiedad de cuasi-distancia. En base a medidas de este
tipo (10), los autores proponen algoritmos de discriminante y conglomerados para
procesos estocásticos estacionarios. En la práctica los espectros f

y g

son
generalmente desconocidos y es necesario estimarlos previamente, de forma
paramétrica o no paramétrica, y a partir de las estimaciones utilizar los algoritmos de
discriminante y/o conglomerados. Vilar-Fernández and Pértega (2004) utilizan la via no
paramétrica y estudian el comportamiento de estos algoritmos que se basan en la
distancia DW ( f , g ) calculada sobre estimadores no paramétricos de la densidad
espectral del tipo de regresión polinómica local (RPL). De hecho, en el trabajo
mencionado, se utilizaron tres estimadores no paramétricos diferentes de la densidad
espectral calculados por RPL, estos tres estimadores del espectro son estudiados y
comparados en Fan y Kreutzberger (1998).
A continuación y utilizando la metodología descrita en Vilar-Fernández y Pértega
(2004) se han realizado diferentes análisis de conglomerados de las quince series de
residuos en estudio. Las distintas etapas del algoritmo de conglomerados se puede
esquematizar como sigue:
 Etapa 1. El periodograma asociado a cada serie de residuos es calculado en las
frecuencias de Fourier. Esto es, para la l-ésima serie, l  1, 2,...,15 se calcula
la función
I l , n ( ) 
1
2 n
2
n

l ,t
exp  it  ,
t 1
    , 
Siendo las frecuencias k  2 k / n , con k   N ,..., N ,
n  103 es el tamaño muestral.
20
N   n  1 / 2 , y
 Etapa 2. Se estima la densidad espectral, fl    , para el l-ésimo proceso de
error, con l  1, 2,...,15 utilizando la técnica de ajuste lineal local. Este paso
puede hacerse de tres formas diferentes:
1. Se calcula el suavizador lineal local del l-ésimo periodograma
calculado en la Etapa 1, calculando el ajuste lineal local por mínimos
cuadrados ordinarios. Esto es, se aplica el ajuste lineal local a la nube
de observaciones
  , I
k
l ,n
 k   .
El estimador resultante se denota
por f l ,DLS , l  1, 2,...,15 .
2. Se calcula un suavizador lineal local del l-ésimo log-periodograma
utilizando mínimos cuadrados. Esto es, se suaviza la muestra
  ,log I
k
l ,n
 k  
y, a continuación, se hace la transformación
exponencial para obtener el suavizado del log-espectro. Este
estimador se denota por f l ,LS , l  1, 2,...,15 .
3. El tercer estimador se denota por f l , LK , l  1, 2,...,15 , se construye de
manera similar a
f l ,LS excepto en que el ajuste lineal local del l-
ésimo log-periodograma se obtiene utilizando máxima verosimilitud
local en lugar de mínimos cuadrados. En este caso el suavizado del
log-espectro se calcula por algún procedimiento numérico (en este
trabajo se utilizó el algoritmo de Newton-Raphson).
El análisis de las propiedades asintóticas de estos estimadores espectrales y un
estudio comparativo de los mismos puede verse en Fan y Kreutzberger (1998) o en Fan
y Gjibels (1996). En estos trabajos se muestra que, desde un punto de vista asintótico,
el estimador f l , LK es el mejor porque tiene una varianza asintótica menor que la de los
estimadores f l ,DLS y f l ,LS , manteniendo el mismo sesgo asintótico.
 y
 Etapa 3. Se calcula la distancia entre cada par de series residuales  l ,t
  , l, s  1, 2,...,15 , utilizando una modificación de la medida de disparidad
l ,s
DW  ,
 dada en (10) y que tiene la siguiente forma:
21






DW f l , f s  DW f l , f s  DW f s , f l 
1
4

 f s 
  fl 

W

W



   f   f d  ,
 l 
  s

donde f r es cualquiera de los tres estimadores del
definidos en la etapa 2, con r  l , s . W 
este caso se utilizó W ( x)  log
Téngase en cuenta que DW  ,


r-ésimo espectro,
es una medida de divergencia, en
x 1 1
 log x .
2
2
no se utiliza directamente para medir la distancia
entre dos espectros porque la forma de W 

no asegura que DW  ,

sea simétrica,
condición que es necesaria para hacer el análisis por conglomerados. La sencilla
modificación de DW  ,

es suficiente para obtener una medida simétrica.
 Etapa 4. A partir de la matriz de disimilaridades entre las series residuales que
se basa en
D W y utilizando los métodos de Ward y del encadenamiento
promedio se aplica el algoritmo de conglomerados.
En la Figura 9 se presenta el dendrograma obtenido al utilizar como estimador no
paramétrico espectral
f l ,DLS y el algoritmo del encadenamiento promedio como
criterio para evaluar la proximidad entre grupos en las etapas intermedias. En la
Figura 10 se presenta el dendrograma cuando se utiliza el estimador f l , LK .
Los dendrogramas de las Figuras 9 y 10 muestran soluciones en los
agrupamientos muy parecidas. En ambos casos, una primera clasificación lleva a una
solución con tres grupos que son: S1= {Vasconia, Castilla, Crédito-Balear, Popular},
S2= {Valencia, Andalucía, Atlántico} y S3= {Zaragozano, Pastor, Bankinter, BBVA,
BSCH, Galicia, Guipuzcoano}, con Banesto en S2 o S3, dependiendo del suavizador
que se utilice: f l , LK o
f l ,DLS . También es razonable una solución con cinco grupos,
siendo los grupos nuevos S4= {Banesto} y S5= {Galicia, Guipuzcoano}.
22
Figura 9. Dendrograma de las quince series de residuos, utilizando f l ,DLS .
Figura 10. Dendrograma de las quince series de residuos, utilizando f l , LK .
23
Algunas conclusiones que se derivan de los dendrogramas obtenidos son las
siguientes:
(i) Una vez eliminadas las tendencias de las series en estudio, tres modelos (o cinco si
se adopta la segunda solución) son suficientes para describir la estructura de
dependencia de las quince series de residuos. Por tanto, el comportamiento de futuros
valores como función de su pasado será similar en los bancos del mismo grupo y
diferente en bancos de grupos distintos. Este tipo de información puede ser de gran
interés para los mercados de valores.
(ii) Si se ajusta un modelo paramétrico a las series y se restringe al conjunto de
modelos ARMA, entonces las series residuales se pueden ajustar razonablemente por un
proceso AR(1), esto es,  l ,t   g  l ,t 1  al ,t , con  g  1 y al ,t es un proceso iid con

distribución N 0, g
2
 y donde los parámetros 
y  g dependen del grupo particular
2
g
en que está la serie l-ésima.
Además, si se considera la solución con cinco grupos, se observa que en el grupo S1
el modelo tiene el parámetro   S1  0.4 más pequeño y la desviación típica más
grande    S1  0.33 . El modelo que se ajusta a la serie del Crédito-Balear tiene el
coeficiente autorregresivo estimado más pequeño, 0.26, y el del banco Popular tiene la
varianza estimada ligeramente mayor, 0.4, estos son los puntos más alejados del
centroide de S1. Esto se ilustra bien en la Figura 9 y con menor claridad en el
dendrograma de la Figura 10, donde el Vasconia se incluye en S1 después que el
Crédito-Balear. Las series de S2 forman un grupo compacto con   S 2  0.6 y
   S 2  0.13 , mientras que para las series del grupo S3 la estimación del parámetro
  S 3 está entre 0.64 y 0.74 y la desviación típica es    S 3  0.24 en todos los
casos. Los valores estimados para Banesto fueron   S 4  0.74 y    S 4  0.23 , por
lo tanto, su grupo más próximo es S3 si se utiliza la representación ARMA como
criterio de proximidad. Este hecho se refleja, nuevamente, mejor en la figura 9 que en la
Figura 10. Finalmente el grupo S5 contiene a las series de residuos de los bancos
Guipuzcoano y Galicia, que se juntan en la última parte del proceso y pueden ser
considerados puntos aislados de forma similar que el Banesto.
24
En resumen, nuestro procedimiento de conglomerados permite agrupar las series
residuales en concordancia con los modelos ARMA ajustados. Esto se podía suponer ya
que el algoritmo se basa en una medida de discrepancia entre los espectros o,
equivalentemente, entre las estructuras de covarianzas. En todo caso, se debe destacar
que nuestro algoritmo de conglomerados no necesita ninguna hipótesis previa acerca de
estructura de probabilidad de las series porque se calcula a partir de estimadores no
paramétricos de la densidad espectral. Por tanto y, desde un punto de vista teórico, las
únicas hipótesis que se necesitan en nuestro algoritmo son hipótesis de regularidad de
los procesos estocásticos en estudio, bajo las cuales los suavizadores espectrales
verifican propiedades de consistencia (ver Fan y Gijbels (1996)).
(iii) Una comparación entre los análisis de conglomerados realizados con las series
residuales y con las tendencias (Sección 2, Figuras 4 y 5) nos permite concluir que hay
algunas similitudes entre la clasificación de los residuos y la clasificación de las
tendencias pero también hay alguna diferencia importante. Por ejemplo, las series de
tendencias y de residuos de los bancos Bankinter, BBVA y BSCH se agrupan en las
primeras etapas del proceso de conglomerados. Por tanto, es evidente que estos tres
bancos tienen en el mismo comportamiento tanto en su componente determinística
como en su componente aleatoria. Por el contrario, se observa que la serie de residuos
del banco Atlántico está en el grupo S2 junto a los bancos Valencia y Andalucía,
aunque la tendencia de estos dos bancos es creciente en contraste con la tendencia
decreciente del banco Atlántico.
(iv) Como ya se indicado previamente, un algoritmo de agrupación de series de
tiempo debe de tener en cuenta la existencia de la estructura probabilística de las series
porque en caso contrario no se obtienen soluciones adecuadas. Para comprender mejor
este punto nosotros hemos aplicado un algoritmo de conglomerados clásico a nuestro
conjunto de series de residuos, utilizando la distancia euclídea y el método de
encadenamiento promedio, en este caso los resultados obtenidos eran sustancialmente
diferentes de los obtenidos por los métodos propuestos en este trabajo. Así, series con
distinta estructura autorregresiva se juntaban en el mismo grupo, por ejemplo, los
residuos de los bancos Galicia y Andalucía, sorprendentemente, se juntaban muy
pronto, en la tercera etapa del proceso inmediatamente después de Bankinter, BBVA y
BSCH, que sí se mantenían juntos. Nótese que en nuestro procedimiento los bancos
Galicia y Andalucía pertenecen a grupos distintos y solo se juntan al final del proceso.
25
(v) La selección del suavizador espectral no tiene un papel fundamental y se obtienen
resultados parecidos utilizando los tres estimadores lineales locales propuestos: f l ,DLS ,
f l ,LS y
f l , LK . De hecho, las principales diferencias se presentan en la localización de
los bancos que están más alejados de un modelo común (por ejemplo, Banesto), en las
últimas etapas del procedimiento de agrupación. Por tanto, no hay diferencias
importantes en la solución de agrupamientos que se obtiene. En este punto también
conviene destacar que las ventajas teóricas que presenta el estimador basado en la
verosimilitud, f l , LK , son de tipo asintótico y pueden no existir al trabajar con muestras
finitas.
4 CONCLUSIONES
Uno de los objetivos de este trabajo consistía en mostrar que la metodología no
paramétrica proporciona un amplio abanico de procedimientos para realizar un
completo análisis estadístico de un conjunto de series observadas. Aquí se presentan
métodos para estimar la tendencia de las series, contrastar hipótesis acerca de la
igualdad de las tendencias de dos o más series y presentar nuevos procedimientos de
agrupación. Estos métodos tienen la ventaja de que no dependen de rígidas hipótesis
paramétricas y que se pueden adaptar perfectamente para estudiar observaciones
dependientes, teniendo en cuenta la estructura de dependencia, tal y como se ha
mostrado a lo largo del trabajo.
Se ha analizado el conjunto de las quince series de cotización semanal en euros de las
acciones de los bancos en el mercado de valores español durante los años 2001 y 2002.
Un objetivo de este análisis era clasificar a los bancos en unas pocas categorías, de tal
forma, que los bancos que pertenecen a la misma categoría deben seguir modelos
similares. Y, aunque no era un objetivo básico del trabajo, el ajustar
un modelo
particular a cada una de las series, se ha encontrado que existen similitudes y diferencias
entre las series analizadas. Para hacer el estudio estadístico de estas series es necesario
estudiar por separado la tendencia y la componente estocástica de las mismas.
Los estimadores por ajuste lineal local permiten estimar las tendencias y a la vista de
este conjunto de componentes determinísticas (ver Figura 2) se deduce la existencia de
diferentes patrones entre las quince tendencias estimadas. La aplicación de un reciente
26
contraste estadístico nos permite rechazar la hipótesis de igualdad de tendencias tal y
como se intuía al observar la Figura 2. Un análisis clásico de conglomerados de las
tendencias ajustados sugiere una solución de cinco grupos de tendencias, que son los
siguientes: C1= {BBVA, BSCH, Bankinter, Atlántico}, C2= {Banesto}, C3=
{Andalucía, Valencia, Galicia}, C4= {Guipuzcoano, Zaragozano} y C5= {Castilla,
Popular, Crédito-Balear, Pastor, Vasconia}. En base a este resultado y a las tendencias
ajustadas puede obtenerse el patrón de la tendencia de cada grupo. También se
realizaron distintos contrastes no paramétricos en los que se contrastaba la igualdad de
pares de tendencias (de los bancos del IBEX-35) o la igualdad de tendencias de los
bancos que pertenecían al mismo grupo del análisis de conglomerados. Los resultados
obtenidos en estos contrastes avalaban el resultado obtenido en el análisis de
agrupamiento y confirmaban la clasificación de las tendencias obtenida. En el trabajo se
proporcionan cuatro estadísticos de contraste no paramétricos diferentes para contrastar
la hipótesis de igualdad de dos tendencias. Su distribución se aproximaba utilizando
métodos de remuestreo que tienen en cuenta la estructura de dependencia de las
observaciones.
Una vez que las componentes determinísticas fueron clasificadas y caracterizadas,
nuestra atención se centraba en el estudio de las componentes aleatorias, esto es, de las
series de residuos obtenidas como la diferencia entre la series observadas y sus
tendencias. El problema era en este caso clasificar series de tiempo estacionarias de
media cero, por tanto, las similitudes y diferencias deben de ser determinadas en
términos de la cantidad de afinidad de sus estructuras de covarianzas. Por tanto, el
procedimiento de clasificación debe de utilizar distancias entre las matrices de
covarianzas, pero esto en el campo de las series de tiempo presenta el problema de una
alta dimensionalidad. Para evitar este problema las series de los residuos son agrupadas
en el dominio frecuencia, esto es, la disparidad entre dos estructuras de covarianza es
medido en términos de la disparidad entre las correspondientes representaciones
espectrales. Para hacer esto, en primer lugar, se obtenían estimaciones no paramétricas
del espectro y, a continuación, se utilizaba una medida de distancias entre espectros
cuyas propiedades teóricas han sido estudiadas por los autores en un trabajo previo.
El resultado del análisis de agrupamiento de las series de residuos también
identificaba cinco grupos: S1= {Vasconia, Castilla, Crédito-Balear, Popular}, S2=
{Valencia, Andalucía, Atlántico}, S3= {Zaragozano, Pastor, BBVA, BSCH,
27
Bankinter}, S4= {Banesto} y S5= {Galicia, Guipuzcoano}. Esta clasificación parece ser
consistente con los correspondientes modelos ARMA ajustados. Por tanto, nuestro
procedimiento de conglomerados ha sido capaz de agrupar las series de acuerdo con sus
estructuras de dependencia. Este es un aspecto importante ya que no se ha supuesto
ningún modelo de dependencia de las series para aplicar el algoritmo, en contraste con
otros métodos existentes en la literatura que han sido específicamente diseñados para
tratar series de tiempo pero siempre suponiendo que estas siguen unos determinados
modelos de dependencia. En resumen, los procedimientos no paramétricos presentados
y, en particular, los algoritmos de clasificación, además de tener buenas propiedades
asintóticas, también parecen presentar un comportamiento razonable con muestras
finitas y pueden ser utilizados con ciertas garantías de éxito en otros conjuntos de series
de tiempo de datos reales
Agradecimientos: Este trabajo está parcialmente financiado por el proyecto DGICYT
BFM
2002-002665
(European
FEDER
incluído)
y
los
proyectos
XUGA
PGIDT01PXI10505PR y PGIDT03PXIC10505PN.
BIBLIOGRAFÍA
1. Aczél, J. (1987): A Short Course on Functional Equations, Reidel, Dordrech.
2. Clark, S. A. (1993): “The Valuation Problem in Arbitrage Price Theory”. Journal of
Mathematical Economics , 22, pp. 463-478.
1. Dette, H. and Neumeyer, N. (2001): ``Nonparametric analysis of covariance”. Ann.
Stat., 29, 5, 1361-1400.
2. Fan, J. and Gijbels, I. (1996): Local Polynomial Modelling and Its Applications.
Chapman and all. London.
3. Fan, J. and Kreutzberger, E. (1998): ``Automatic local smoothing for spectral density
estimation”. Scand. J. Stat., 25, 359-369.
28
4. Francisco-Fernández, M. and Vilar-Fernández, J.M. (2001): ``Local polynomial
regression estimation with correlated errors”. Commun. Statist. Theory Meth., 30, 7,
1271-1293.
5. Francisco-Fernández, M. and Vilar-Fernández, J.M. (2004): ``Weighted local
nonparametric regression with dependent errors: study of real private residential fixed
investment in the USA”. Statistical Inference for Stochastic Processes, 7, 1, 69-93.
6. Galbraith, J.K. and Jiaqing, L. (1999): ``Cluster and discriminant analysis on Time
Series as a reserach tool”. UTIP Working Paper Number 6, Austin: Lyndon B. Johnson
School of Public Affairs. The Uiversity of Texas at Austin.
7. Hall, P. and Hart, J.D. (1990): ``Bootstrap test for difference between means in
nonparametric regression”. J. Am. Stat. Assoc., 85, 412, 1039-1049.
8. Hirsch, B. and DuBois, D. (1991): ``Self-Esteem in early adolescence: The
identification and prediction of contrasting longitudinal trajectories”. Journal of Youth
and Adolescence, 20, 1, 53-72.
9. Kakizawa, Y., Shumway, R.H. and Taniguchi, M. (1998): ``Discrimination and
clustering for multivariate time series”. J. Am. Stat. Assoc., 93, 328-340.
10. King, E.C., Hart, J.D. and Wehrly, T.E. (1991): ``Testing the equality of two
regression curves using linear smoothers”. Stat. Probab. Lett., 12, 3, 239-247.
11. Koul, H. L. and Schick, A. (1997): ``Testing for the equality of two nonparametric
regression curves”. J. Stat. Plan. Infer., 65, 293-314.
12. Kulasekera, K.B. (1995): ``Comparison of regression curves using quasiresiduals”. J. Am. Stat. Assoc., 431, 90, 1085-1093.
13. Maharaj, E.A. (1996): ``A significance test for classifying ARMA models”. J. Statist.
Comput. Simul., 54, 305-331.
14. Maharaj, E.A. (2000): ``Clusters of time series”. J. Classification, 17, 297--314.
15. Neumeyer, N. and Dette, H. (2003): ``Nonparametric comparison of regression
curves: an empirical process approach”. Ann. Stat., 31, 3, 880-920.
16. Piccolo, D. (1990): ``A distance measure for classifying ARIMA models”. J. Time
Series Anal., 11, 2, 153-164.
29
17. Tong, H. and Dabas, P. (1990): ``Cluster of time series models: an example”. J.
Appl. Stat., 17, 187-198.
18. Vilar Fernández, J.A. and Pértega, S. (2004): ``Discriminant and cluster analysis for
Gaussian stationary processes: Local linear fitting approach”. Aparecerá en J.
Nonparametr. Stat.
19. Vilar Fernández, J.M. and González Manteiga, W. (2004): ``Nonparametric
comparison of curves with dependent errors”. Aparecerá en Statistics.
20. Vilar Fernández, J.M., Vilar Fernández J.A. and González Manteiga, W. (2004):
``Bootstrap tests for nonparametric comparison of regression curves with dependent”.
En proceso de revisión en Comput. Stat. Data Anal.
21. Young, S.G. and Bowman, A.W. (1995): ``Nonparametric analysis of covariance”.
Biometrics, 51, 920-931.
30
Descargar