Predicción del Ibex 35 con un modelo estocástico de salto de

Anuncio
Predicción del Ibex 35 con un modelo
estocástico de salto de Poisson compuesto
Trabajo Fin de Máster
Máster en Dirección Financiera y Fiscal
Presentado por: Oscar Monzó Chafer
Profesores tutores: Dr. Juan Carlos Cortés López
Dra. Ana Marı́a Debón Aucejo
Universitat Politècnica de València, febrero 2014
Facultad de Administración y Dirección de Empresas
Índice
Índice de Tablas
7
Índice de Figuras
10
1 Resumen del Trabajo
11
2 Objeto del Trabajo Fin de Máster y justificación de las asignaturas relacionadas
15
3 Objetivos del Trabajo
17
4 Antecedentes. Evolución histórica, situación actual y funcionamiento del Ibex 35
21
4.1
Evolución histórica y composición del Ibex 35 . . . . . . . . . .
22
4.2
Cálculo del Ibex 35 . . . . . . . . . . . . . . . . . . . . . . . . .
24
4.3
Necesidad de predicción del Ibex 35 . . . . . . . . . . . . . . .
25
4.4
Análisis técnico bursátil como método de predicción . . . . . .
26
5 Formulación del modelo econométrico. Regresión no lineal y
ajuste por mı́nimos cuadrados
29
5.1
Modelización econométrica
. . . . . . . . . . . . . . . . . . . .
30
5.1.1
Formulación del modelo . . . . . . . . . . . . . . . . . .
30
5.1.2
Hipótesis del modelo . . . . . . . . . . . . . . . . . . . .
32
3
Índice
5.1.3
Estimación de parámetros del modelo y de la varianza de
la perturbación. Mı́nimos Cuadrados Ordinarios (MCO)
33
Intervalos de confianza de los parámetros y de la varianza
de la perturbación . . . . . . . . . . . . . . . . . . . . .
34
Coeficiente de determinación y coeficiente de determinación corregido . . . . . . . . . . . . . . . . . . . . . .
36
Contraste de hipótesis sobre los parámetros del modelo
mediante la utilización del estadı́stico F . . . . . . . . .
37
Predicción . . . . . . . . . . . . . . . . . . . . . . . . . .
40
5.2
Diagnosis y validación del modelo de regresión . . . . . . . . .
42
5.3
Descripción de los análisis estadı́sticos utilizados . . . . . . . .
46
5.3.1
Regresión no lineal . . . . . . . . . . . . . . . . . . . . .
46
5.3.2
Ajuste de funciones no lineales en R . . . . . . . . . . .
48
5.3.3
Técnicas de suavizado de datos . . . . . . . . . . . . . .
49
5.1.4
5.1.5
5.1.6
5.1.7
6 El modelo ARIMA. Análisis y descripción de series temporales
53
6.1
Introducción e ideas básicas . . . . . . . . . . . . . . . . . . . .
54
6.2
Series temporales univariantes . . . . . . . . . . . . . . . . . . .
55
6.2.1
Modelo clásico de descripción de series temporales . . .
55
6.2.2
Procesos estocásticos . . . . . . . . . . . . . . . . . . . .
60
6.2.3
Procesos estacionarios . . . . . . . . . . . . . . . . . . .
63
6.2.4
Procesos integrados
65
6.3
6.4
. . . . . . . . . . . . . . . . . . . .
Análisis y predicción de series temporales univariantes. Metodologı́a
Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.3.1
Modelos para procesos estacionarios . . . . . . . . . . .
68
6.3.2
Modelos para procesos integrados . . . . . . . . . . . . .
72
6.3.3
Metodologı́a de Box-Jenkins . . . . . . . . . . . . . . . .
72
Identificación y predicción del modelo ARIMA . . . . . . . . .
73
6.4.1
Identificación de la estructura no estacionaria . . . . . .
74
6.4.2
Identificación de la estructura ARMA . . . . . . . . . .
74
6.4.3
Estimación del modelo ARIMA . . . . . . . . . . . . . .
75
6.4.4
Predicción automática. El paquete de predicción para R
75
4
Índice
6.5
Validación del modelo ARIMA . . . . . . . . . . . . . . . . . .
79
6.5.1
Contrastes sobre los parámetros
. . . . . . . . . . . . .
79
6.5.2
Contrastes sobre el error . . . . . . . . . . . . . . . . . .
79
6.5.3
Contrastes sobre el modelo. Reformulación y sobreajuste 81
7 Predicción del Ibex 35 con un modelo estocástico de salto de
Poisson compuesto
83
7.1
7.2
7.3
Introducción. Selección y correcciones sobre la serie de datos .
84
7.1.1
La serie de datos . . . . . . . . . . . . . . . . . . . . . .
84
7.1.2
Ajustes realizados sobre la serie de datos . . . . . . . . .
88
7.1.3
Descripción estadı́stica de la serie de datos corregida . .
92
7.1.4
Descomposición detallada de la serie de datos corregida
95
Elaboración del modelo del Ibex 35 . . . . . . . . . . . . . . . .
96
7.2.1
Ajuste del modelo del Ibex 35. Parte determinista . . .
98
7.2.2
Modelo ARIMA para la componente irregular. Parte
aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Validación del modelo del Ibex 35 . . . . . . . . . . . . . . . . . 105
7.3.1
Contrastes sobre los parámetros
. . . . . . . . . . . . . 106
7.3.2
Contrastes sobre el error . . . . . . . . . . . . . . . . . . 106
7.4
Modelo para los residuos . . . . . . . . . . . . . . . . . . . . . . 112
7.5
Validación total del modelo del Ibex 35
7.6
Predicciones con el modelo. Aplicación de técnica Monte Carlo 121
8 Conclusiones. Propuestas de actuación
Bibliografı́a
. . . . . . . . . . . . . 118
125
129
5
Índice de Tablas
5.1
Modelo de tabla ANOVA para el análisis de la varianza . . . .
39
6.1
Similitudes y diferencias en la FAS y la FAP de los modelos
AR(p), MA(q) y ARMA(p,q) . . . . . . . . . . . . . . . . . . .
71
6.2
Medidas de bondad del ajuste obtenidas con el modelo ARIMA
78
7.1
Parámetros principales de la serie de datos corregida . . . . . .
93
7.2
Resultados del ajuste del modelo tendencia-ciclo . . . . . . . . 100
7.3
Resultados del ajuste del modelo estacional . . . . . . . . . . . 104
7.4
Resultados del ajuste del modelo ARIMA (1,0,2) . . . . . . . . 106
7.5
Ajuste del cuadrado de los residuos frente al tiempo . . . . . . 109
7.6
Ajuste del cuadrado de los residuos frente a la variable observada109
7.7
Resumen del proceso de filtrado de los residuos . . . . . . . . . 114
7.8
Datos descriptivos de los saltos . . . . . . . . . . . . . . . . . . 117
7.9
Medidas de bondad del ajuste del modelo con logaritmos . . . . 121
7.10 Medidas de bondad del ajuste del modelo mediante técnica
Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.11 Medidas de bondad del ajuste de la predicción a 9 meses mediante técnica Monte Carlo . . . . . . . . . . . . . . . . . . . . . 124
7
Índice de Figuras
5.1
Ejemplo de papel probabilı́stico normal . . . . . . . . . . . . .
43
5.2
Ejemplo de salida en pantalla de análisis tsdiag de un modelo
correctamente especificado . . . . . . . . . . . . . . . . . . . . .
45
5.3
Salida de pantalla del análisis stl . . . . . . . . . . . . . . . . .
50
5.4
Ejemplo de suavizado loess . . . . . . . . . . . . . . . . . . . .
51
6.1
Ejemplo de proceso con tendencia creciente . . . . . . . . . . .
57
6.2
Ejemplo de proceso con variaciones cı́clicas . . . . . . . . . . .
58
6.3
Ejemplo de proceso con estacionalidad . . . . . . . . . . . . . .
59
6.4
Ejemplo de proceso con comportamiento irregular
. . . . . . .
60
6.5
Realizaciones de la variable Zt y distribución en cada instante
de tiempo t . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
6.6
Relación entre los valores de un proceso estacionario . . . . . .
65
6.7
Diferenciación de un proceso no estacionario . . . . . . . . . . .
66
6.8
FAS de una serie con tendencia . . . . . . . . . . . . . . . . . .
66
6.9
Relación entre valores de un AR (1) . . . . . . . . . . . . . . .
69
6.10 Relación entre valores de un AR (2) . . . . . . . . . . . . . . .
70
7.1
7.2
Evolución del Ibex 35 desde el 1 de enero de 1998 al 31 de
diciembre de 2012 . . . . . . . . . . . . . . . . . . . . . . . . . .
86
Rentabilidad promedio histórica de los dı́as de la semana . . . .
88
9
Índice de Figuras
7.3
Gráfico Box-Whisker del logaritmo de los datos . . . . . . . . .
90
7.4
Logaritmo de los datos semanales corregidos desde el 1 de enero
de 1998 hasta el 31 de diciembre de 2012 . . . . . . . . . . . . .
91
7.5
Histograma de los datos del Ibex 35 . . . . . . . . . . . . . . .
93
7.6
Histograma del logaritmo de los datos del Ibex 35 . . . . . . . .
94
7.7
Descomposición de la serie completa del Ibex 35 (1998-2012)
97
7.8
Ajuste del modelo tendencia-ciclo a los datos corregidos . . . . 101
7.9
Serie de datos corregidos sin tendencia ni ciclo . . . . . . . . . 101
.
7.10 Ajuste del modelo estacional anual . . . . . . . . . . . . . . . . 103
7.11 Serie descontada de tendencia, ciclo y estacionalidad anual . . . 103
7.12 FAS y FAP de la componente irregular . . . . . . . . . . . . . . 105
7.13 Residuos frente a la variable (a) y frente al tiempo (b) . . . . . 108
7.14 Resultados del análisis tsdiag . . . . . . . . . . . . . . . . . . . 110
7.15 Gráfico Q-Q de normalidad de los residuos estandarizados . . . 111
7.16 Serie de residuos del modelo . . . . . . . . . . . . . . . . . . . . 112
7.17 Histograma de los residuos . . . . . . . . . . . . . . . . . . . . . 113
7.18 Histograma de los residuos filtrados . . . . . . . . . . . . . . . . 115
7.19 Histograma de los saltos . . . . . . . . . . . . . . . . . . . . . . 116
7.20 Histograma de los saltos negativos (a) y positivos (b) . . . . . . 116
7.21 Ajuste del modelo completo del Ibex 35 descompuesto en parte
determinista y la suma de la parte determinista y la estocástica 119
7.22 Ajuste del modelo completo del Ibex 35 . . . . . . . . . . . . . 120
7.23 Histograma de los residuos del modelo del Ibex 35 . . . . . . . 120
7.24 Ajuste del modelo completo al logaritmo del Ibex 35 y predicción
a 9 meses mediante técnica Monte Carlo . . . . . . . . . . . . . 122
10
Capı́tulo 1
Resumen del Trabajo
El Ibex 35 es el principal ı́ndice de referencia del mercado bursátil español,
compuesto por las 35 empresas cotizadas con más liquidez de nuestra economı́a.
Su valor es un reflejo de la situación económica del paı́s y de la perspectiva
que tienen los inversores de la misma. Por este hecho, estudiar su evolución y
tratar de predecir su valor futuro es de gran interés económico, especialmente
en el entorno actual en el que los mercados son altamente volátiles y se maneja
gran cantidad de información.
El mercado bursátil tiene una serie de particularidades que lo definen y lo
caracterizan. En este mercado se negocian valores de las empresas cotizadas
por los miembros del mercado, bien sea por cuenta propia o por orden de
sus clientes. Mediante esta negociación, basándose en la ley de la oferta y
la demanda se establece el precio de mercado. Este precio es el de la última
transacción realizada, que es el punto en el que el precio de demanda y oferta
han coincidido y se ha producido el intercambio de valores. Esto conlleva que
siempre exista una contraparte con la que se produce el intercambio, no se
trata de un “almacén” ficticio donde se cogen o dejan tı́tulos. Por ello mismo
influye notablemente la psicologı́a de masas y las grandes corporaciones, y por
éste y múltiples motivos, la bolsa sigue al ciclo económico siempre de forma
anticipada. En los próximos capı́tulos se tratarán con más detalle estos puntos.
11
Capı́tulo 1
Modelo de predicción del Ibex 35
Ası́ pues, para controlar de mejor forma los riesgos y poder prever de forma
general el comportamiento de los precios en cualquier mercado se hace necesario elaborar modelos matemáticos y estadı́sticos, que ayuden a las usuarios
en la toma de decisiones en ambientes de incertidumbre, como es el caso del
mercado bursátil. Si bien, en economı́a la toma de decisiones ha estado frecuentemente influida por la experiencia de los agentes de un mercado o por
las opiniones de expertos (las denominadas técnicas cualitativas). Es por ello
que cada vez se hace más necesaria la aplicación de técnicas multidisciplinares
de distinta ı́ndole de forma que las empresas tengan una visión global y de
conjunto de los problemas y retos a los que se enfrentan.
Las técnicas matemáticas empleadas en la elaboración del modelo que nos
ocupa son, por un lado, la modelización econométrica clásica, es decir, el ajuste
de curvas por regresión y, por otro lado, las técnicas estadı́sticas de análisis y
modelización de series temporales mediante los modelos denominados ARIMA.
La justificación del empleo de estas dos técnicas es la existencia a su vez de
dos partes diferenciadas en el modelo: una parte determinista, cuyo comportamiento puede ser replicado por funciones lineales y trigonométricas, y una
parte aleatoria, para la cual ha sido necesario recurrir al modelo ARIMA y al
modelo de saltos Poisson compuesto.
En este trabajo se presenta un modelo del ı́ndice español Ibex 35 basado
en técnicas analı́ticas y estadı́sticas, elaborado a partir de los datos de cierre
semanales del mercado desde el 1 de enero de 1998 hasta el 31 de diciembre
de 2012.
En primer lugar, se ha identificado la existencia de un “comportamiento
regular” en los datos del Ibex 35, necesario para determinar la posibilidad de
modelizar dichos datos siguiendo el modelo clásico de descripción de series
temporales, es decir, descomponiendo la serie en sus elementos: tendencia,
ciclo, estacionalidad y componente irregular.
En segundo lugar, se han realizado las correcciones que se consideran habituales en el campo estadı́stico sobre los datos, como son la eliminación de
valores extremos y sustitución por otros más adecuados si los hubiera (no ha
sido necesario dada su inexistencia) o la aplicación de logaritmos en los datos
previamente a la modelización.
En tercer lugar, se realiza el ajuste de la parte determinista, dividida en
varias partes. La primera de ellas recoge las componentes tendencia-ciclo a
12
Modelo de predicción del Ibex 35
Capı́tulo 1
partir de la combinación de una función lineal para la tendencia y una función
trigonométrica para el ciclo. La segunda, modeliza la componente estacional
anual, con una función coseno con frecuencia de un año.
La componente irregular (parte aleatoria del modelo) requerirá de un tratamiento especial, puesto que no será una serie estacionaria, siendo necesario entonces aplicar técnicas estadı́sticas de modelización y predicción. En este caso
se ha empleado un modelo ARIMA para recoger el comportamiento de la componente irregular de los precios, siendo necesario emplear series estocásticas
para obtener una explicación más precisa. Para la modelización de los saltos
extremos que se producen en el Ibex 35 a lo largo del tiempo se ha empleado
un proceso de Poisson compuesto.
Finalmente, se realiza una validación del modelo completo para comprobar su idoneidad y la bondad del ajuste sobre la serie de datos que se desea
modelizar. También se obtienen predicciones de forma puntual y mediante la
técnica Monte Carlo, junto con una evaluación de las mismas, estableciéndose
en su caso las correcciones necesarias a tal efecto y las propuestas de mejora
para el modelo elaborado.
13
Capı́tulo 2
Objeto del Trabajo Fin de
Máster y justificación de las
asignaturas relacionadas
El presente trabajo se divide en dos partes bien diferenciadas. La primera,
desde el capı́tulo 4 hasta el capı́tulo 6, recoge de forma teórica y descriptiva
tanto el funcionamiento del Ibex 35 y el mercado bursátil en España, como de
las técnicas empleadas en la modelización, la regresión no lineal y el modelo
ARIMA. La segunda parte, el capı́tulo 7, es eminentemente práctica, ya que
consiste en aplicar los conocimientos expuestos en los anteriores capı́tulos en
la elaboración de un modelo de predicción semanal del Ibex 35.
El objetivo principal de este trabajo, por lo tanto, es la descripción del
mercado bursátil español a través del ı́ndice Ibex 35 y la aplicación de técnicas
analı́ticas y estadı́sticas para tratar de predecir su comportamiento semanal.
En cuanto a las asignaturas relacionadas, en el Máster en Dirección Financiera y Fiscal se han estudiado asignaturas de distinta ı́ndole dirigidas a
dotar de las herramientas necesarias en el mundo del ejercicio financiero, las
cuales, en buena medida, se han tratado de aplicar a la hora de realizar la
presente TFM.
15
Capı́tulo 2
Modelo de predicción del Ibex 35
• Modelización y Valoración de Opciones Financieras: En esta asignatura se estudian diferentes métodos de valoración y predicción para los
precios de distintos subyacentes financieros. Los métodos aplicados son
principalmente analı́ticos, destacando los modelos discretos basados en
árboles binomiales y modelos continuos fundamentados en el modelo Lognormal para valorar primas de opciones, como el modelo de Black-Scholes
de valoración de opciones o los basados en el movimiento brownianogeométrico. La aplicación de diversos métodos analı́ticos es una de las
partes fundamentales del presente trabajo.
• Mercados Financieros y Valoración de Empresas: En esta asignatura se estudian métodos de valoración de empresas y análisis de diferentes activos financieros empleando técnicas de análisis sectorial (dentro
del análisis fundamental de empresas) y el análisis técnico o chartista,
basado en la observación de tendencias a partir de los gráficos de cotizaciones. Además, se realiza una introducción a la aplicación de modelos econométricos y estadı́sticos para la predicción del valor de diferentes activos financieros, principalmente acciones de empresas cotizadas.
Tanto los conceptos del análisis sectorial y técnico como las técnicas
econométricas y estadı́sticas de predicción se han aplicado en las dos
partes de este trabajo.
A parte de las asignaturas señaladas anteriormente, también cabe hacer
mención a los conocimientos adquiridos durante la Licenciatura de Administración y Dirección de Empresas, los cuales han sido utilizados tanto para describir el contexto en el que se encuadra el Ibex 35 como reflejo de la economı́a
española, como para comprender el funcionamiento del mercado bursátil en sı́.
Finalmente, se debe señalar que el aprendizaje del programa estadı́stico
con el que se ha desarrollado el modelo del Ibex 35, denominado R, ha sido
principalmente debido a la dedicación de los tutores del Trabajo, además del
empleo del mismo a lo largo del trabajo.
16
Capı́tulo 3
Objetivos del Trabajo
Los objetivos del trabajo son acordes a aquellos que establece la normativa
de la Facultad de Administración y Dirección de Empresas de la Universitat
Politècnica de València respecto a las TFM (Facultad de Administración y
Dirección de Empresas, 2010), es decir:
• Debe estar orientado a la aplicación y evaluación de competencias asociadas al tı́tulo.
• Debe ser original y quedar de manifiesto los conocimientos, habilidades
y competencias adquiridas en el tı́tulo.
Por extensión de los Trabajos Final de Carrera, también se ha tratado de
que cumpla los siguientes requisitos:
• Debe estar basado en problemas reales.
• Debe ser fundamentalmente práctico y aplicado.
• Debe apoyarse en las asignaturas cursadas y relacionadas con la naturaleza del trabajo.
17
Capı́tulo 3
Modelo de predicción del Ibex 35
• Debe estar relacionado con el trabajo profesional.
• Debe tender un puente hacia el ejercicio profesional habitual.
A los efectos del cumplimiento de los puntos arriba señalados, se describen
a continuación cuáles son los objetivos del presente trabajo.
El trabajo se ha dividido en dos partes con el objeto de separar, por un
lado, el estudio de las herramientas empleadas en la elaboración de un modelo
de predicción del Ibex 35 y, por otro lado, la elaboración del propio modelo.
Por esta razón, en primer lugar se estudia el marco teórico del mercado bursátil
español y las técnicas matemáticas y estadı́sticas que serán empleadas en la
modelización. El análisis que se plantea en esta primera parte abarca varios
objetivos. En primer lugar, la descripción del funcionamiento del mercado
bursátil español, posteriormente las técnicas de modelización matemática y,
por último, la revisión del modelo ARIMA.
Por lo que respecta al mercado bursátil español, los objetivos que se han
establecido están relacionados con su descripción y funcionamiento.
Al realizar una revisión de las técnicas de modelización matemática y del
modelo ARIMA, se pretende recoger los conocimientos que sobre estas materias
se han estudiado en la Licenciatura de Administración y Dirección de Empresas
y en el Máster en Dirección Financiera y Fiscal, ası́ como profundizar en los
mismos a los efectos de disponer de una mayor variedad y amplitud de herramientas que puedan ser utilizadas en la elaboración del modelo. Otro de los
objetivos que este trabajo pretende alcanzar es el planteamiento y resolución
de un problema mediante técnicas multidisciplinares, el cual se ha abordado
con una revisión de los contenidos adecuados pertenecientes a tres disciplinas
aplicadas: finanzas, matemáticas y estadı́stica.
Como segunda parte del trabajo, se propone el estudio y modelización de
datos semanales del Ibex 35 desde 1998 hasta 2012. Para ello se han empleado
los datos de cierre semanal del Ibex 35. El primer fin del modelo es poder
explicar el comportamiento semanal del ı́ndice Ibex 35. Se han escogido intervalos semanales porque son datos más fiables para una predicción teniendo
en cuenta ciclos económicos, ya que los datos diarios sufren de una volatilidad mayor y no son adecuados para contemplar adecuadamente un periodo de
tiempo tan largo.
18
Modelo de predicción del Ibex 35
Capı́tulo 3
Los objetivos planteados en la elaboración del modelo son los siguientes:
en primer lugar, analizar en detalle el comportamiento de la serie de datos
para establecer de forma preliminar los patrones que dominan su dinámica;
en segundo lugar, cuando se disponga de la descripción básica de los patrones
de la serie, se propondrá un modelo basado en las técnicas estudiadas en la
primera parte del trabajo.
El punto de partida del modelo propuesto consiste en la aplicación de
técnicas analı́ticas en aquellas componentes de la serie que presenten un comportamiento determinista. Posteriormente, aquella parte de los datos que no
pueda ser explicada por la componente determinista, requerirá de la aplicación
de técnicas estadı́sticas, debido a la aleatoriedad que suele caracterizar buena
parte de la dinámica de las series temporales de variables financieras.
El segundo fin que se persigue con el modelo es poder realizar predicciones
razonables sobre un periodo de tiempo. No obstante su valor numérico no deja
de ser aproximado y por ello es conveniente una valoración de su error y la
obtención de un intervalo de confianza para la estimación obtenida. Además,
la predicción del Ibex 35 debe llevarse a cabo mediante la construcción de intervalos de confianza para las estimaciones obtenidas puesto que de esta forma
tenemos la medición, mediante la confianza, en términos de probabilidad de la
incertidumbre que rodea a dicha estimación. Estas predicciones se realizarán
de forma puntual y mediante la aplicación de la técnica Monte Carlo, la cual
se describirá más adelante.
19
Capı́tulo 4
Antecedentes. Evolución
histórica, situación actual y
funcionamiento del Ibex 35
En este capı́tulo del trabajo se introduce el ı́ndice Ibex 35 en sı́ y el mercado
bursátil español (Dı́az, 2012), con especial incidencia en por qué el método
propuesto es válido para la predicción del Ibex 35 desde un punto de vista de
análisis técnico bursátil.
21
Capı́tulo 4
4.1
Modelo de predicción del Ibex 35
Evolución histórica y composición del Ibex 35
Como se ha adelantado anteriormente, el Ibex 35 es el principal ı́ndice de
referencia del mercado bursátil español. Está compuesto por las 35 empresas
cotizadas con más liquidez del Sistema de Interconexión Bursátil Electrónico
(SIBE) en las cuatro bolsas españolas (Madrid, Barcelona, Bilbao y Valencia).
Se elabora por la empresa Bolsas y Mercados Españoles, operador de todos los
mercados de valores y sistemas financieros de España. Esta empresa además es
la encargada de la gestión y funcionamiento del SIBE y de la gestión, cálculo,
composición y difusión del Ibex 35.
Aparte del Ibex 35, existen homólogos en todos los paı́ses desarrollados,
como son el Dow Jones en EE.UU., el DAX 30 en Alemania, el FTSE 100 en
Reino Unido o el CAC 40 en Francia.
Los valores que componen el Ibex 35 varı́an con el tiempo, en función de
la decisión del Comité Asesor Técnico, un grupo de expertos que se reúne
dos veces al año ordinariamente y determinan la entrada/salida de empresas
en el ı́ndice. La reunión ordinaria no supone necesariamente la modificación
del ı́ndice, pudiendo mantenerse con los valores anteriores. Asimismo, no es
necesaria la reunión ordinaria para realizar modificaciones en el Ibex 35 en
caso de que el Comité Asesor Técnico ası́ lo decida.
Para valorar la liquidez de los valores que componen el Ibex 35 el Comité
Asesor Técnico se basa en distintas cuestiones plasmada en las Normas Técnicas
para la Composición y Cálculo de los Índices de Sociedad de Bolsas, S.A., que
son:
• El volumen de negociación en el mercado.
• La suspensión de la cotización durante un periodo que pueda considerarse
significativo.
• La calidad del volumen. Se descontará el volumen que se haya producido
por:
– Consecuencia de operaciones que conlleven un cambio importante
en el accionariado de la empresa.
22
Modelo de predicción del Ibex 35
Capı́tulo 4
– Haya sido producido por un único miembro del mercado, realizado
en pocas negociaciones o en un espacio de tiempo considerado poco
representativo.
– Que el efectivo negociado sufra un descenso tal que se considere que
la liquidez del valor está gravemente afectada.
No importa el sector al que pertenece la empresa ni su dimensión para
poder formar parte del Ibex 35. Tampoco influye el comportamiento de los
precios, únicamente su liquidez, es decir, el volumen negociado.
Si bien existen una serie de requisitos que atender para la inclusión o exclusión de un valor en el ı́ndice, el Comité Asesor Técnico dispone de libertad
para, a su juicio, llevarla a cabo incumpliendo los requisitos establecidos.
Ası́ pues, este ı́ndice es técnicamente un ı́ndice de precios de los valores que
lo componen, ponderados en función de su capitalización bursátil, que queda
reflejado en un valor numérico. Este valor numérico se inició en 3.000 puntos. Este inicio se remonta al 14 de enero de 1992. Sin embargo, se pueden
obtener cotizaciones anteriores desde 1989 mediante estimaciones que se realizaron posteriormente. Desde este punto inicial, el Ibex 35 osciló entre los
3.000 y 4.000 puntos aproximadamente hasta finales de 1996, momento en el
que rompe con fuerza al alza por la fuerte especulación que tuvo lugar con
las empresas de telecomunicaciones e internet, alcanzando los 10.000 puntos
en año y medio, a principios de 1998. A partir de este año sufre oscilaciones
hasta alcanzar su primer máximo cerca de los 12.500 puntos a principios del
año 2000, punto desde el que baja rápidamente hasta los 5.400 puntos a finales
de 2002. Nuevamente a finales de 2007 alcanza un máximo todavı́a superior,
cercano a los 16.000 puntos, tras una subida con pocos descensos. En este año,
al estallar la crisis financiera y pincharse la burbuja inmobiliaria, el ı́ndice se
hunde hasta los 7.600 puntos en 2009, mı́nimo del que intenta repuntar pero
sin éxito, descendiendo hasta los 6.000 puntos en 2012, marcando un mı́nimo
desde los 5.400 de 2002. Actualmente, después de un año 2012 de gran volatilidad, el Ibex 35 cotiza en torno a los 10.000 puntos, en un claro sı́ntoma de
recuperación sostenida en los últimos meses.
A continuación se explicará cómo se calcula el Ibex 35.
23
Capı́tulo 4
4.2
Modelo de predicción del Ibex 35
Cálculo del Ibex 35
Para el cálculo del Ibex 35 se utiliza una fórmula matemática que recoge
la capitalización bursátil (precio por número de acciones) de las 35 empresas
que compongan el Ibex 35, aplicando además un coeficiente de ajuste.
Por esta forma de cálculo las empresas con mayor capitalización tendrán
más peso en el ı́ndice y sus oscilaciones afectarán en mayor medida al mismo.
En consecuencia, únicamente las empresas Santander, Telefónica, BBVA, Inditex, Iberdrola y Repsol ya representan cerca del 70% del ı́ndice, siendo tan
sólo 6 de 35.
La fórmula matemática para el cálculo es:
Ibex 35(t) = Ibex 35(t − 1) ·
35
X
Capi (t)
i=1
35
X
i=1
,
(4.1)
Capi (t − 1) + J
siendo:
• t, instante de cálculo del ı́ndice.
• Capi (t), capitalización de la compañı́a i incluida en el ı́ndice en el instante
t, es decir, S(t) × P (t).
• S(t), número acciones computables para el cálculo del valor del ı́ndice
en el instante t.
• P (t), precio de las acciones de la compañı́a incluida en el ı́ndice en el
instante t.
•
P35
i=1 Capi (t),
suma de la capitalización de todas las compañı́as incluidas
en el ı́ndice en el instante t.
• J, cantidad utilizada para ajustar el valor del ı́ndice.
24
Modelo de predicción del Ibex 35
Capı́tulo 4
El valor del coeficiente J representa la capitalización de ajuste para asegurar la continuidad del ı́ndice. Esta cantidad J es introducida con motivo
de determinadas operaciones financieras definidas de acuerdo a las Normas
Técnicas de Composición y Cálculo del Índice. El objetivo es asegurar que el
ı́ndice no se vea alterado por las operaciones financieras indicadas, como:
• Dividendos ordinarios y similares.
• Dividendos extraordinarios y similares.
• Ampliaciones y reducciones de capital.
• Emisión de instrumentos financieros convertibles o canjeables.
• Variaciones del valor nominal.
• Fusiones y absorciones.
• Segregación patrimonial o escisión societaria con retribución a los accionistas.
Con carácter general, se toma como precio el de la última transacción
realizada en el SIBE. El número de acciones para el cálculo dependerá del
capital flotante (que varı́a en función de las operaciones financieras arriba
indicadas que tengan lugar). Sin embargo, el Comité Asesor Técnico podrá
tomar otras decisiones en ambos sentidos, justificando sus decisiones en base
a criterios objetivos y publicándolas con la antelación oportuna suficiente.
4.3
Necesidad de predicción del Ibex 35
En la actualidad la economı́a es cada vez más competitiva y existen múltiples factores de riesgo que afectan a la toma de decisiones. Por ello, los métodos
de decisión y predicción cobran especial relevancia, y más concretamente en
la predicción de la economı́a en su conjunto. Esto no sólo es útil en términos
macroeconómicos, ya que si lo trasladamos al objeto del presente trabajo, la
predicción de un ı́ndice bursátil puede suponer un beneficio significativo en el
corto y medio plazo mediante la especulación con los valores.
25
Capı́tulo 4
Modelo de predicción del Ibex 35
Ası́ pues, el uso de métodos matemáticos, estadı́sticos y econométricos es
necesario para reducir y acotar el intervalo de variación de las variables que se
analizan en cada caso. Por ende, es imprescindible el conocimiento de técnicas
y métodos concretos que faciliten la determinación de hipótesis o predicciones
acerca de la evolución futura de determinadas variables. En función de las
necesidades de cada caso, se requerirá una aproximación cualitativa o bien el
uso de sofisticadas técnicas estadı́sticas y matemáticas que ofrezcan un intervalo con una confianza concreta.
La necesidad de la predicción, como ya se ha adelantado, resulta obvia. Por
ello, es ineludible un conocimiento del comportamiento que presentan las series
temporales asociadas a las magnitudes analizadas, ası́ como de los modelos
estadı́sticos que se han mostrado eficaces en la tarea de predecir los valores
futuros de variables similares.
Conseguir modelar la evolución del Ibex 35 nos proporcionarı́a una fuente
muy importante de información sobre las perspectivas que tienen los inversores
respecto a la actividad económica del paı́s y, aplicado en términos bursátiles,
una orientación estimada de la dirección que tomará el Ibex 35 a efectos de
invertir en un sentido u otro (Hernández, 1999).
4.4
Análisis técnico bursátil como método de predicción
Dada la importancia del mercado bursátil, desde su inicio se han estudiado diversas herramientas para su predicción. En la actualidad, existen dos
tendencias principales: análisis fundamental y análisis técnico. Ambos tipos
de herramientas son ampliamente explicados en diversa bibliografı́a (Mateu,
2003) (Pring, 1989) y son complementarias, pero difieren notablemente una de
otra en su fundamento,
El análisis fundamental trata de determinar el valor real del tı́tulo bursátil,
llamado valor fundamental, y que no tiene por qué corresponder con el valor
de mercado. Para ello se realiza un estudio en profundidad de la empresa, del
sector al que pertenece y de los paı́ses en los que opera. Con dicho estudio
se realizan proyecciones financieras con un escenario probable y en base a los
26
Modelo de predicción del Ibex 35
Capı́tulo 4
resultados esperados de la empresa se determina su valor real. Este valor puede
diferir con el valor en el parqué bursátil, de modo que el mercado tenderá, en
un plazo indeterminado de tiempo, hacia el valor real, ya que las perspectivas
actuales están sobrevaloradas o infravaloradas, según el caso.
Este método es absolutamente lógico, pero tiene una serie de inconvenientes: se realizan predicciones, con sus consecuentes errores, y pueden producirse hechos significativos que automáticamente cambien el valor real. Dado
que se trata de una inversión a largo plazo hasta que alcance el valor real,
estos inconvenientes pueden suponer cambios drásticos en la rentabilidad de
la inversión.
Por su parte, el análisis técnico se trata de una herramienta para corto y
medio plazo. La Teorı́a de Dow (Murphy, 2007), que debe su nombre a su
creador, Dow Jones, es el origen de este tipo de análisis. El análisis técnico estudia las gráficas del valor de la acción y el volumen de negociación, basándose
en una serie de premisas:
• Los movimientos del mercado lo descuentan todo: esta afirmación
hace referencia a que cualquier hecho que pueda afectar al valor, bien sea
de origen económico, polı́tico, psicológico o cualquier otra causa, se refleja
siempre en el precio de negociación.
• Los precios se mueven por tendencias: entendiendo las tendencias
como la existencia de una mayor probabilidad de que siga una dirección
que otra. El análisis técnico trata de detectar estas tendencias y seguirlas.
• La historia se repite: el mercado bursátil se mueve por las masas, y
por lo tanto se mueve por la “psicologı́a de masas” (Tvede, 1990). Esta
psicologı́a es aplicable tanto en la actualidad como en el pasado, por
lo que los patrones identificados son válidos para predecir movimientos
futuros.
Este método de análisis también tiene sus inconvenientes: actualmente el
mercado es muy volátil y está muy manipulado por las grandes instituciones
y fondos de inversión y en muchas ocasiones los patrones son difı́ciles de identificar o se transforman en otros conforme avanza el tiempo.
Dado que el presente trabajo está enfocado a una predicción del valor
del Ibex 35 en parte basando la modelización en funciones deterministas que
27
Capı́tulo 4
Modelo de predicción del Ibex 35
consideran la ciclicidad, el análisis técnico es mucho más aplicable. Este
planteamiento también tiene que ver con el ciclo económico. El ciclo económico
y el mercado bursátil tienen una relación muy estrecha, en tanto que el mercado
aglutina las expectativas de la economı́a y “lo descuenta todo”, anticipándose
al mismo.
El ciclo económico es como se denomina a las oscilaciones recurrentes de
la economı́a, en las que una fase de expansión es seguida de una fase de contracción, que a su vez precede a una de expansión y ası́ sucesivamente. Las
fases del ciclo económico se resumen brevemente en:
• Depresión: la economı́a se encuentra en su punto más bajo. Existen
elevadas tasas de desempleo y la economı́a se reduce, debido a una baja
demanda en comparación con la oferta existente. En este punto los tipos
de interés son bajos para fomentar la inversión y evitar la deflación, lo que
lleva a los inversores especuladores a invertir en bolsa, la cual comienza
a dar señales positivas antes que la propia economı́a.
• Recuperación: poco a poco la economı́a se recupera y comienza a
generarse empleo, se incrementa la confianza y se vuelve a tasas positivas de crecimiento. El tipo de interés se mantiene bajo, fomentando
esta recuperación, pero comenzando a subir, y la bolsa sigue subiendo
a medida que aumenta la confianza de los consumidores, sumándose los
pequeños inversores que ven una oportunidad en el mercado bursátil.
• Auge: la economı́a llega a su punto álgido. Existe pleno empleo y
crecimiento positivo. Los tipos de interés suben para evitar una inflación
excesiva de precios y los inversores, que en su dı́a invirtieron en la fase
de depresión o recuperación, venden con beneficios e invierten en renta
fija o depósitos, dada la baja rentabilidad de la bolsa frente a este otro
tipo de inversiones. La bolsa comienza ası́ a descender, adelantándose a
la economı́a real.
• Recesión: cae la inversión y progresivamente el empleo y la producción.
Los tipos de interés se mantienen elevados, pero comienzan a tender a la
baja, y la bolsa ya ha caı́do significativamente ante las malas expectativas
de la economı́a.
Como se ha contrastado la economı́a es cı́clica y este patrón va estrechamente
ligado al mercado bursátil.
28
Capı́tulo 5
Formulación del modelo
econométrico. Regresión no
lineal y ajuste por mı́nimos
cuadrados
En este capı́tulo se describirán las bases teóricas para la formulación del
modelo econométrico que se empleará en la parte determinista del modelo
desarrollado. Se describirán los principales métodos de modelización por regresión lineal, ası́ como los métodos de regresión no lineal utilizados en el
modelo. Asimismo, se describirá el ajuste por mı́nimos cuadrados, la técnica
utilizada en el modelo y una de las más comunes para la regresión de un modelo frente a unos datos dados. Por último, se introduce al programa estadı́stico
de software libre R y las técnicas de suavizado utilizadas.
29
Capı́tulo 5
5.1
Modelo de predicción del Ibex 35
Modelización econométrica
La Econometrı́a pretende dar respuesta, entre otras, a la relación que
liga a una determinada variable económica con los valores de otras variables
económicas (Greene, 2000). Para ello utiliza la regresión, una metodologı́a
que sirve para contrastar las teorı́as económicas con la realidad económica.
En el caso del ı́ndice español Ibex 35, existen algunos modelos económicos
para predecir la realidad de un mercado altamente volátil (Cortés y otros,
2014). A pesar de ello todavı́a queda mucho por hacer para reflejar la realidad convenientemente. Por este motivo es necesaria la utilización de la
modelización econométrica para formular un modelo estadı́stico, estimar los
parámetros, medir su utilidad y definir las pruebas de hipótesis que determinen la bondad de las estimaciones realizadas y ası́ poder realizar predicciones
con el modelo resultante.
5.1.1
Formulación del modelo
En lo que sigue se describirán una serie de resultados estadı́sticos clásicos
sobre los cuales se basará el modelo propuesto para describir la dinámica del
Ibex 35. Pueden consultarse los fundamentos y detalles técnicos de dichos
métodos para la regresión (Greene, 2000) (Hair, 1995) y para las series temporales (Hyndman y otros, 2012) (Trapletti y Hornik, 2012) en diversas referencias bibliográficas.
En primer lugar, se debe formular el modelo que se quiere contrastar. La
formulación de un modelo econométrico parte de una o varias ecuaciones en
las que se relaciona la variable explicada (Y ) con las variables explicativas
(Xi ), cuantificándose su relación mediante parámetros (βj ). Se debe tener en
cuenta, además, que tanto la variable explicada como las variables explicativas son variables aleatorias, por lo que se produce el denominado error
experimental, es decir, que los resultados de cada experimento realizado son
diferentes. A este efecto hay que añadirle que el modelo no recoge todas las
variables de poca importancia, pero que en conjunto podrı́an afectar a los resultados del modelo. Ambas cuestiones suponen la necesidad de añadir un
término al modelo denominado perturbación aleatoria (U ).
30
Modelo de predicción del Ibex 35
Capı́tulo 5
De este modo, el modelo de regresión básico, se formula como se observa
en (5.1):
Y = β0 + β1 X1 + . . . + βk Xk + U.
(5.1)
El valor medio (o esperado) y la varianza de la distribución condicional (Y /X)
son:
E(Y /X) = β0 + β1 X1 + . . . + βk Xk .
Var(Y /X) = σ 2 .
La dificultad radica en estimar los parámetros βj de la regresión y la varianza de la distribución condicional. Para ello hay que utilizar los datos de que se
dispone, la observación de n valores de la variable explicada y las explicativas.
De la sustitución de los valores se obtiene la expresión (5.2):
Y1 = β0 + β1 X11 + β2 X21 + ... + βk Xk1 + U1 ,
Y2 = β0 + β1 X12 + β2 X22 + ... + βk Xk2 + U2 ,
..
..
..
.
.
.
Yn = β0 + β1 X1n + β2 X2n + ... + βk Xkn + Un .
(5.2)
Si se sustituye el modelo se tiene un sistema de n ecuaciones con n + k + 1
incógnitas (k + 1 incógnitas βj y n incógnitas Uj ) que no tiene una única
solución. Como es necesario tener más ecuaciones (k + 1) para resolver el
problema, habrá que focalizarse en la perturbación U para hallarlas.
A la variable U se le denomina perturbación, pero es además un error,
dado que es la diferencia entre el valor real de la variable y su valor esperado.
Despejando en la ecuación (5.2), se obtiene U como error, tal y como se muestra
en (5.3):
Y − (β0 + β1 X1 + ... + βk Xk ) = Y − Yb = U.
31
(5.3)
Capı́tulo 5
Modelo de predicción del Ibex 35
De acuerdo a esta última definición, serı́a lógico que el error fuera lo menor
posible para que las estimaciones fueran óptimas. Dado que el error se trata de
una variable aleatoria, lo menor posible se traduce en que su valor medio sea
cero y su varianza lo más pequeña posible. De la minimización de esa varianza
se obtendrán las k + 1 ecuaciones que faltan. De aquı́ el nombre de método
de los mı́nimos cuadrados ordinarios (MCO).
5.1.2
Hipótesis del modelo
Es necesario establer una serie de hipótesis que simplifiquen a fin de poder
estimar los parámetros del modelo. Estas hipótesis se definirán respecto a la
perturbación, a las variables explicativas y explicada y a los parámetros βj .
Si no se establecieran estas hipótesis, estimar los parámetros se convertirı́a en
una tarea inaccesible. Las hipótesis son las siguientes:
• Las perturbaciones Uj son variables aleatorias de media nula, E(Uj ) = 0.
• Todas las perturbaciones tienen la misma varianza, Var(Uj ) = σ 2 .
• Las perturbaciones están incorrelacionadas entre sı́, Cov(Ui , Uj ) = 0.
• Las perturbaciones tienen una distribución conjunta Normal, cuestión
que, junto a la hipótesis anterior, concluye que las perturbaciones son
independientes.
• La perturbación no depende de las variables explicativas Xi .
• Las variables explicativas, Xi , y la explicada, Y , se obtienen sin error de
observación.
• Las variables explicativas Xi son no aleatorias, se puede fijar su valor a
voluntad, son controlables.
• Yj es el valor observado de una variable aleatoria cuyo valor medio es
una combinación lineal de los valores de Xi .
• Entre las variables explicativas Xi no deben existir relaciones lineales
exactas.
32
Modelo de predicción del Ibex 35
Capı́tulo 5
• Los parámetros βj del modelo son constantes en todas las muestras y
forman parte del modelo de forma lineal.
Cabe destacar que la última de las hipótesis formará parte del modelo de
forma lineal en tanto que la función que se ajuste a los datos observados sea
una función lineal. En el caso del modelo del Ibex 35, el modelo propuesto es
no lineal y, por lo tanto, esta hipótesis pierde su validez.
5.1.3
Estimación de parámetros del modelo y de la varianza de
la perturbación. Mı́nimos Cuadrados Ordinarios (MCO)
El método de los Mı́nimos Cuadrados Ordinarios (MCO) consiste en determinar un vector b de estimadores de los parámetros que cumpla (5.4):
Y = Xb + e = Yb + e,
(5.4)
donde Yb es la estimación de Y y e es el valor aproximado de U , el error que
se comete al tomar Yb como Y .
Entrando en detalle, el método de los MCO consiste en la obtención de
una recta de forma que se minimice la suma de los cuadrados de las distancias
(ei ) entre cada una de las observaciones de la variable y dicha recta. A las
distancias ei se les denominan residuos. La expresión vectorial de los residuos
se obtiene de despejar la ecuación (5.4), dando como resultado (5.5):
e = Y − Xb.
(5.5)
Se debe minimizar entonces la suma de cuadrados de los residuos (SCR)
porque son el error que se comete en el ajuste (distancia de cada observación
a la recta ajustada). Al elevarlos al cuadrado se pierde el signo, y al sumarlos
se acumulan los errores, como se expresa en (5.6):
33
Capı́tulo 5
SCR =
n
X
j=1
Modelo de predicción del Ibex 35
e2j
n
n
X
X
2
b
(Yj − (b0 + b1 xij + ... + bk xkj ))2 . (5.6)
(Yj − Yj ) =
=
j=1
j=1
Al minimizar la expresión (5.6) se obtiene el resto de (k + 1) de ecuaciones
necesarias para estimar los parámetros del modelo y finalmente la expresión de
los estimadores b. Su forma matricial es más compacta, y es la que se presenta
en (5.7):
b = (X ′ X)−1 X ′ Y,
(5.7)
donde Y es el vector de la variable a explicar y X es la matriz de datos, como
se ha visto anteriormente. Para que el sistema de ecuaciones tenga solución
única, es decir, no sea indeterminado, el producto de matrices X ′ X debe ser
invertible, y para ello debe cumplirse que, en primer lugar, el número de datos
sea superior que el de los parámetros a estimar, n > k + 1; y, en segundo lugar,
no deben existir relaciones exactas entre las variables explicativas Xi .
Por otra parte, para estimar la varianza de la perturbación, σ 2 , hay que
utilizar la SCR. Se puede demostrar que el estimador de la varianza de la
perturbación sigue la expresión (5.8), también denominada cuadrado medio
residual. Dado que la SCR ha sido minimizada, es obvio que la varianza del
error también es mı́nima, tal y como se exigı́a en las hipótesis.
σ2 =
5.1.4
SCR
.
n−k−1
(5.8)
Intervalos de confianza de los parámetros y de la varianza
de la perturbación
Cualquier estimación que se realice debe venir acompañada del error que
se comete al utilizar esa estimación en vez del valor verdadero. La forma de
expresar ese error es a través de la varianza de la estimación. Sin embargo, existen formas más elaboradas de expresar dicho error. Una de las más habituales
es mediante los intervalos de confianza.
34
Modelo de predicción del Ibex 35
Capı́tulo 5
Un intervalo de confianza es un intervalo que contiene al valor verdadero y desconocido del parámetro a estimar, con una cierta probabilidad
(1-α) fijada. El valor α se denomina nivel de significación, y corresponde
al porcentaje de veces en que se está dispuesto a aceptar equivocarse, esto es,
el intervalo que no contiene al valor verdadero y desconocido del parámetro.
Intervalos de confianza para uno de los parámetros βi
La distribución del estimador bi menos el valor del parámetro βi dividido
por el error en la estimación sbi sigue una distribución t de Student, cuyos
grados de libertad son los residuales (5.9):
bi − βi
≡ tn−k−1 .
sbi
(5.9)
A partir de ella, se calcula el intervalo de confianza para el parámetro βi cuya
expresión es la siguiente (5.10):
h
bi −
α/2
tn−k−1 sbi , bi
i
α/2
+ tn−k−1 sbi ,
(5.10)
o bien se puede expresar como la estimación más/menos el error, como en
(5.11)
α/2
bi ± tn−k−1 sbi .
(5.11)
Intervalo de confianza para la varianza σ 2
Conocida la distribución de la suma de cuadrados de los residuos dividido
por la varianza de la perturbación, como se indica en (5.12):
SCR
≡ χ2n−k−1 ,
σ2
(5.12)
se tiene el intervalo de confianza para la varianza residual, como se expresa en
(5.13)
35
Capı́tulo 5
Modelo de predicción del Ibex 35
σ
b2 (n − k − 1)
2(α/2)
χn−k−1
5.1.5
≤ σ2 ≤
σ
b2 (n − k − 1)
2(1−α/2)
χn−k−1
.
(5.13)
Coeficiente de determinación y coeficiente de determinación corregido
La suma de cuadrados de Y puede dividirse en dos partes, una suma
de cuadrados explicada debida al efecto de las variables explicativas en la
variable a explicar, y otra, la suma de los cuadrados de los residuos, ya
vista. Esta descomposición se justifica con la expresión (5.14):
(Yi − Y ) = (Ybi − Y ) + (Yi − Ybi ),
(5.14)
elevando al cuadrado y sumando para todas las observaciones disponibles, se
tiene la expresión (5.15), si se tiene en cuenta la independencia entre los dos
sumandos de (5.14).
n
n
n
X
X
X
(Ybi − Y )2 +
(Yi − Ybi )2 ≡ SCT = SCE + SCR
(Yi − Y )2 =
i=1
i=1
(5.15)
i=1
Las expresiones que se obtienen al desarrollar la suma de cuadrados anterior
reciben las siguientes denominaciones:
• Suma de cuadrados total (SCT): Suma del cuadrado de las diferencias entre cada valor observado de la variable y la media de los mismos.
Indicarı́a si los valores están muy alejados del valor medio.
• Suma de cuadrados explicada (SCE): Suma de los cuadrados de las
diferencias entre las estimaciones y el valor medio de las observaciones.
Indicarı́a si las estimaciones están muy alejadas de la media de los valores
observados.
36
Modelo de predicción del Ibex 35
Capı́tulo 5
• Suma de cuadrados del residuo (SCR): Suma de los cuadrados de
las diferencias entre los valores observados y los estimados. Como se ha
señalado, es una medida en el error que se comete al tomar el uno por el
otro, puesto que al elevar al cuadrado se pierde el signo de la diferencia.
Al sumarlos se acumulan.
La relación entre los tres es, por lo tanto, SCT = SCE + SCR. Si un
modelo explicara completamente a la variable, su SCR deberı́a ser cero, y las
SCT y SCE iguales. Si, por el contrario, no existiera relación entre las variables
explicada y explicativa, la SCE deberı́a valer cero, y la SCR igual a la SCT.
Como la SCE toma valores entre 0 y SCT, el cociente SCE/SCT toma valores
ente 0 y 1, con lo que podrı́a ser un buen indicador de la bondad del ajuste
realizado.
El cociente SCE/SCT se denomina coeficiente de determinación (R2 )
y se emplea para saber si un modelo es adecuado, es decir, si explica suficientemente a la variable objeto de estudio. Por su definición, el coeficiente de
determinación siempre toma valores entre cero y uno (0 ≤ R2 ≤ 1) por lo que
se trata de una escala que mide lo adecuado del ajuste, o dicho de otra forma,
mide el porcentaje de la variable Y explicado por el modelo propuesto.
La raı́z cuadrada de dicho coeficiente recibe el nombre de coeficiente de
correlación múltiple, y es el coeficiente de relación lineal simple entre la
variable y su estimación, es decir, entre Y e Yb .
5.1.6
Contraste de hipótesis sobre los parámetros del modelo
mediante la utilización del estadı́stico F
En este apartado se presentan las pruebas de hipótesis para contrastar si
un parámetro, un conjunto de ellos, e incluso todos ellos, son igual a cero.
Con la prueba de hipótesis sobre un parámetro se comprobará si una variable
explicativa del modelo es realmente explicativa o no. Con la prueba sobre
todos los parámetros del modelo se comprobará si el modelo resulta adecuado.
Y por último, con la prueba sobre un conjunto de parámetros, se estudian las
restricciones que la teorı́a económica puede imponer a sus valores.
37
Capı́tulo 5
Modelo de predicción del Ibex 35
Hipótesis sobre todos los parámetros del modelo
La primera prueba se refiere a todos los parámetros del modelo, excepto
al término constante β0 . La hipótesis nula es que todos los parámetros son
iguales a cero, o lo que es lo mismo, que el modelo no resulta adecuado. La
hipótesis alternativa es que al menos uno de los parámetros es distinto de cero,
o que el modelo podrı́a ser adecuado. El estadı́stico que sirve para contrastar
la hipótesis nula sigue una distribución F de Snedecor con grados de libertad
k y n − k − 1, siendo su expresión (5.16)
Fcalc =
SCE/k
CME
≡
≡ Fk,n−k−1 .
SCR/(n − k − 1)
CMR
(5.16)
En la elaboración del modelo se emplea el programa estadı́stico R, ya que
la prueba de hipótesis se realiza sobre el nivel de significación, denominado pvalor. El nivel de significación, para esta prueba, es la probabilidad de que una
variable con distribución Fk,n−k−1 sea mayor que el estadı́stico Fcalc calculado.
Por lo tanto, si p − valor ≥ α entonces se acepta H0 y el modelo no resulta
adecuado. La información necesaria para realizar esta prueba de hipótesis se
encuentra recogida en lo que se conoce como tabla ANOVA (tabla 5.1) que es
la forma en la que suelen presentar la información la inmensa mayorı́a de los
programas estadı́sticos. El programa R también emplea esta tabla de análisis.
Como aclaración, las siglas que se representan tienen el siguiente significado:
• SC: Suma de Cuadrados.
• SCE: Suma de Cuadrados Explicada.
• SCR: Suma de Cuadrados Residual.
• SCT: Suma de Cuadrados Total, siendo SCT = SCE + SCR.
• CM: Cuadrado Medio.
• CME: Cuadrado Medio Explicado, siendo CME = SCE/k.
• CMR: Cuadrado Medio Residual, siendo CMR = SCR/(n − k − 1).
• k: número de parámetros.
• n: número de datos.
38
Modelo de predicción del Ibex 35
Capı́tulo 5
Tabla 5.1: Modelo de tabla ANOVA para el análisis de la varianza
Origen
SC GDL CM
F ratio
p-valor
Modelo
SCE
k
CME CME/CMR
α
Residuos SCR n-k-1 CMR
Total
SCT
n-1
Fuente: Elaboración propia
• GDL: Grados De Libertad.
Hipótesis sobre un parámetro individual
En esta segunda prueba se trata de contrastar si un parámetro cualquiera
del modelo, βi , es igual a cero o distinto de cero. Si se ha realizado la prueba
sobre todos los parámetros del modelo y el resultado ha sido que al menos uno
de ellos es distinto de cero, es necesario entonces determinar cuál o cuáles son
distintos de cero.
Lo más importante de esta prueba es que, en el caso de que el parámetro
acompañe a una variable explicativa y se admita que su valor es cero, la conclusión es que dicha variable no es realmente explicativa. Si por el contrario
se admite que ese parámetro es distinto de cero, entonces se tienen dos conclusiones: la variable en cuestión ayuda a explicar a la variable estudiada y la
estimación realizada resulta adecuada.
La prueba de hipótesis se realiza mediante el calculo de un estadı́stico Fcalc ,
el cociente del cuadrado de la estimación del parámetro y su desviación tı́pica.
Este estadı́stico se distribuye como una F de Snedecor, con grados de libertad
1 y n − k − 1. La hipótesis nula es que el parámetro vale cero, frente a la
alternativa que su valor es distinto de cero. El estadı́stico se calcula como se
expresa en (5.17), por ser el cuadrado de la expresión (5.9) bajo la hipótesis
de que βi es cero, al ser el el cuadrado de una t de Student se distribuye F de
Snedecor con los correspondientes grados de libertad.
Fcalc =
b2i
≡ F1,n−k−1 .
s2bi
39
(5.17)
Capı́tulo 5
Modelo de predicción del Ibex 35
De la misma forma que con la prueba para todos los parámetros, se puede
emplear el p-valor para realizar el contraste. Si p − valor ≥ α se acepta H0 y
en caso contrario se rechaza.
No obstante, lo más habitual (ası́ lo realiza R) es realizar una prueba t
calculando el siguiente estadı́stico, expresado en (5.18), proveniente de tomar
raı́ces cuadradas en Fcalc :
tcalc =
bi
≡ tn−k−1 .
sbi
(5.18)
Hipótesis sobre un subconjunto de parámetros del modelo
La última prueba de hipótesis se refiere a un subconjunto de parámetros del
modelo. Como hipótesis nula se propone que un subconjunto de parámetros
toma unos valores determinados o que existe algún tipo de relación entre ellos.
La teorı́a económica impone a menudo que los coeficientes de un modelo deban
cumplir una cierta restricción lineal.
Para realizar la prueba de hipótesis se debe, en primer lugar, ajustar el
modelo sin las restricciones y obtener su suma de cuadrados residual (SCRc ).
En segundo lugar, se ajusta el modelo con las s restricciones que se desean
comprobar y se obtiene una segunda suma de cuadrados residual (SCRr ). La
prueba se basa en el cálculo de un estadı́stico Fcalc efectuado como se muestra
en (5.19):
Fcalc =
5.1.7
∆SCR/s
(SCRr − SCRc )/s
=
≡ Fs,n−k−1 .
SCRc /(n − k − 1)
SCRc /(n − k − 1)
(5.19)
Predicción
Uno de los objetivos que se persiguen al realizar modelos económicos es el
de poder hacer predicciones de los valores de la variable, si bien en realidad lo
que permite el modelo ajustado es predecir el valor medio de dicha variable,
o encontrar un intervalo que contenga con una probabilidad determinada al
40
Modelo de predicción del Ibex 35
Capı́tulo 5
valor real. Existen dos formas de realizar predicciones, puntualmente o por
intervalos de confianza.
Predicción puntual
Si se pretende obtener el valor esperado de la variable estudiada Y asociado
a unos determinados valores de las variables explicativas, lo único que se debe
hacer es sustituir los valores de las variables explicativas en el modelo ajustado
y calcular la estimación de Y que corresponde a su valor medio condicionado
E(Y /x1 , ..., xk ), como se expresa en (5.20):
Yb = b0 + b1 X1 + b2 X2 + ... + bk Xk .
(5.20)
Si el modelo ajustado explica el logaritmo de la variable, como sucederá
con el modelo del Ibex 35, Y es log(Ibex 35).
Predicción por intervalos de confianza
La predicción puntual debe complementarse con la varianza de la estimación, para conocer ası́ el error en la predicción. La manera de presentar
ambos valores es el intervalo de confianza que, a su vez, se realiza sobre el
valor de Y y para E(Y |x1 , . . . , xn ). El intervalo de confianza a nivel α para la
estimación de Y es el que se muestra en (5.21):
α/2
Yb ± tn−k−1 s
p
1 + R(X ′ X)−1 R′ .
(5.21)
Para su cálculo es necesario construir la matriz de datos X y el vector de valores
de las variables explicativas R para el que se pretende realizar la predicción.
Por su parte, el intervalo de confianza para el promedio de la variable Y ,
es decir, E(Y |x1 , . . . , xn ), a nivel α es el de la expresión (5.22):
α/2
Yb ± tn−k−1 s
p
R(X ′ X)−1 R′ .
(5.22)
Esta expresión difiere de la anterior en que no se debe sumar el 1 dentro
de la raı́z, con lo que el intervalo es más estrecho. Esto es consistente con el
hecho de que el intervalo se hace sobre un valor promedio, no sobre su valor
41
Capı́tulo 5
Modelo de predicción del Ibex 35
verdadero, lo cual limita el rango de valores entre los cuales se encuentra dicho
promedio.
5.2
Diagnosis y validación del modelo de regresión
En este apartado se describen las pruebas para determinar la idoneidad
del modelo propuesto mediante los residuos del ajuste. No basta con que las
pruebas de hipótesis realizadas sobre los parámetros indiquen que el modelo
resulta adecuado. También se establecieron unas hipótesis sobre el modelo
que es necesario verificar. Aquellas restricciones que se deben cumplir son las
relativas a la perturbación, descritas en el apartado 5.1.2.
Para la comprobación de dichas hipótesis, la literatura (Thode, 2002) propone la realización de una serie de gráficos de los residuos del ajuste, en los
que se podrán determinar si se satisfacen o no las hipótesis del modelo. Pese a
la gran cantidad de información que pueda extraerse de un gráfico de residuos,
el uso de los mismos puede suponer una frustración puesto que es necesario
un cierto “entrenamiento” para poder aprovecharlos en toda su extensión. Los
gráficos que se emplearán en la validación del modelo del Ibex 35 son el papel
probabilı́stico normal y el comando tsdiag del programa estadı́stico R en su
librerı́a tseries (Trapletti y Hornik, 2012), que incluye un gráfico de los residuos estandarizados, la FAS de los residuos y los p-valores para el estadı́stico
de Ljung-Box.
El primer gráfico, el papel probabilı́stico normal, deriva del gráfico
Q-Q, el cual compara dos distribuciones a partir de sus cuartiles. El papel
probabilı́stico normal no es más que un gráfico Q-Q adaptado a la distribución
Normal, con el objeto de comparar si los residuos se distribuyen normalmente.
El cumplimiento de la hipótesis de normalidad es indispensable para poder
realizar los contrastes de significación y obtener los intervalos de confianza que
permitan realizar predicciones. Además, si esta hipótesis no se cumple, los estimadores dejan de ser máximo-verosı́miles. Como apoyo al papel probabilı́stico
normal, se puede representar el histograma de los residuos, para observar si
tienen la forma de la campana de Gauss.
El papel probabilı́stico normal ofrece una mayor cantidad de información
42
Modelo de predicción del Ibex 35
Capı́tulo 5
sobre la distribución de los residuos que cualquier otro gráfico o prueba numérica
y se hace imprescindible cuando existe falta de normalidad de los residuos,
puesto que permite tomar decisiones sobre la forma de transformar el modelo
para conseguir la normalidad. En la figura 5.1 se puede ver un ejemplo de
papel probabilı́stico normal.
Figura 5.1: Ejemplo de papel probabilı́stico normal
Fuente: Thode (2002)
Cuando los puntos representados en el gráfico Q-Q quedan casi todos muy
cerca de la lı́nea diagonal, se acepta la normalidad. De este modo, cuando
las pruebas indiquen que no existe normalidad, esto será debido bien a que la
asimetrı́a es muy grande o bien a que existen punto anómalos. Si los residuos
no son normales, se puede hacer lo siguiente:
• Comprobar si existe linealidad en el modelo. Si es éste el caso, se elige una
transformación adecuada, y lo más probable es que los residuos puedan
aceptarse como normales.
• Renunciar a los contrastes de significación limitando el análisis al cálculo
de los parámetros, y dar como medida descriptiva del ajuste el coeficiente de determinación corregido, lo cual, en general, no es una buena
“solución”.
• Deducir, de la distribución de los residuos, un modelo de distribución de
la perturbación y construir contrastes para determinar la validez de los
parámetros.
El segundo análisis se realiza con el comando tsdiag de R y se compone
de tres gráficos, a saber:
43
Capı́tulo 5
Modelo de predicción del Ibex 35
• El primero representa los residuos estandarizados de la serie.
• El segundo es la FAS (Función de Autocorrelación Simple) de los residuos. En este gráfico se deberı́a observar que tan sólo el primer coeficiente
de correlación es significativo, ya que eso indica que el residuo tan sólo
está relacionado consigo mismo.
• El tercer gráfico representa los p-valores del estadı́stico de Ljung-Box,
que se explica a continuación.
La prueba de Ljung-Box sirve para determinar la existencia de autocorrelación en los residuos, siendo muy útil cuando se dispone de una muestra grande
(n grande), como es el caso de la variable objeto de estudio, los datos de cierre
semanal del Ibex 35. Se denomina et a la secuencia de los residuos en el tiempo
y se calculan los coeficientes de autocorrelación ρh como se indica en (5.23):
ρh =
n
X
et et+h
t=h+1
n
X
.
(5.23)
e2t
t=1
Se define el estadı́stico de Ljung-Box como (5.24):
Q = n(n + 2)
n
X
ρ2h
≡ χ2n−k−1 ,
n−k
(5.24)
h=1
donde n es el número de coeficientes de la suma y k + 1 es el número de
parámetros estimados para calcular los residuos.
Este estadı́stico permite plantear una prueba en la que como hipótesis
nula se tiene que los n primeros coeficientes de autocorrelación son cero si
2(α)
Q < χn−k−1 . Por lo tanto, este estadı́stico contrasta la hipótesis nula de la
distribución aleatoria de los residuos. Si los principales p-valores (los primeros
del gráfico) son mayores que α, entonces no podemos rechazar la hipótesis, o lo
que es lo mismo, considerar que el modelo está correctamente especificado. La
figura 5.2 es un ejemplo de salida en pantalla del análisis tsdiag de un modelo
correctamente especificado.
44
Modelo de predicción del Ibex 35
Capı́tulo 5
Figura 5.2: Ejemplo de salida en pantalla de análisis tsdiag de un modelo
correctamente especificado
Fuente: Thode (2002)
45
Capı́tulo 5
Modelo de predicción del Ibex 35
Cabe subrayar que en el caso concreto del modelo del Ibex 35, tanto el
papel probabilı́stico normal como el comando tsdiag se han empleado después
de ajustar el modelo ARIMA, que debe cumplir unas hipótesis muy similares
a las del modelo de regresión, por lo que se pueden emplear estas mismas
herramientas, como bien se señala en el apartado 6.5.
5.3
Descripción de los análisis estadı́sticos utilizados
En el presente epı́grafe se exponen las técnicas de regresión no lineal y
suavizado de datos que, como derivaciones de la regresión lineal, son la metodologı́a empleada en la modelización de los datos del Ibex 35. La regresión
no lineal emplea las mismas pruebas y tests que la regresión lineal para verificar la significatividad de los parámetros y del modelo. Puesto que ya han
sido explicados con anterioridad, no se profundizará en estos aspectos nuevamente, simplemente se explican sus fundamentos y la forma de realizarlo con
el programa estadı́stico R.
5.3.1
Regresión no lineal
Los modelos no lineales surgen ante la dificultad o imposibilidad de asumir
la relación por regresión lineal entre variables económicas. Sin embargo, esta
nueva metodologı́a genera nuevos tipos de problemas y dificultades para la
resolución del modelo. En primer lugar, decidir una función no lineal adecuada
suele ser difı́cil. En segundo lugar, existen una serie de dificultades implı́citas
en la interpretación de la estimación de los parámetros y el análisis de las
estimaciones.
A pesar de la existencia de dichas dificultades, hay cada vez más evidencias
empı́ricas que demuestran que muchas relaciones económicas son no lineales,
tal y como ocurre con el Ibex 35.
La regresión no lineal consiste en estimar los parámetros de una función no
lineal que se ajusta a unos datos observados. En la regresión no lineal se realiza
46
Modelo de predicción del Ibex 35
Capı́tulo 5
un ajuste de parámetros frente a una serie de datos que sigue una curvatura
arbitraria. Con el desarrollo de paquetes estadı́sticos de fácil utilización para
el usuario, su empleo se ha vuelto bastante común, como es el caso de R.
El ajuste realizado es el que se expresa en la ecuación (5.25):
y = f (x, θ) + ε,
(5.25)
donde f es una función no lineal respecto a algunos parámetros desconocidos
θ. Como mı́nimo, se pretende obtener los valores de los parámetros asociados
con la mejor curva de ajuste (habitualmente con el método de los mı́nimos
cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser
necesario utilizar conceptos de inferencia estadı́stica tales como los intervalos
de confianza para los parámetros, ası́ como pruebas de bondad de ajuste.
Algunos problemas de regresión no lineal pueden linealizarse mediante una
transformación en la formulación del modelo. Por ejemplo, considerando el
problema de regresión no lineal propuesto en la ecuación (5.26) (ignorando el
término del error):
y = a · ebx .
(5.26)
Aplicando logaritmos a ambos lados de la ecuación se obtiene la Ecuación
(5.27):
ln(y) = ln(a) + bx.
(5.27)
Esto sugiere una estimación de los parámetros desconocidos a través de
un modelo de regresión lineal de ln(y) con respecto a x, un cálculo que no
requiere procedimientos de optimización iterativa. De todas formas, dado que
la influencia de los datos en el modelo cambia, ası́ como la estructura del error
del modelo y la interpretación e influencia de los resultados, la linealización
debe usarse con cuidado. Éstos pueden ser resultados no muy convenientes
(Greene, 2000).
Para el caso concreto del Ibex 35, es habitual tomar logaritmos antes de
modelizar los datos (Benth y Saltyte Benth, 2013), sobre todo con el objeto de
47
Capı́tulo 5
Modelo de predicción del Ibex 35
conseguir la normalidad en los residuos de la serie. En la modelización propuesta en el presente trabajo también se han tomado logaritmos, obteniéndose
con ello mejores resultados que sin su aplicación.
5.3.2
Ajuste de funciones no lineales en R
El programa empleado en la elaboración del modelo completo es el software estadı́stico R. Es un poderoso y flexible ambiente de programación para
el análisis de datos y la elaboración de gráficas de gran calidad. Es un software libre de alta calidad, libre y gratuito en el que colaboran expertos internacionales en programación, estadı́stica y matemáticas. Al tratarse de un
entorno de programación los procesos repetitivos pueden ser fácilmente automatizados. Este tipo de planteamiento estimula el pensamiento crı́tico para la
solución de problemas, en contraposición al enfoque “apriete el botón”.
El programa base de R contiene funciones para un gran número de procedimientos estadı́sticos. Además, existen módulos adicionales escritos por otros
usuarios que extienden las capacidades de R. En el presente trabajo, R ha sido
ampliamente utilizado para la descripción estadı́stica de la serie de datos, para
elaborar el modelo ajustando las distintas funciones que lo componen y para
realizar representaciones gráficas de los resultados.
El comando nls es el acrónimo de Nonlinear Least Squares (mı́nimos cuadrados para regresión no lineal). Este comando realiza estimaciones automáticas
del valor de los parámetros, pudiéndose obtener una pantalla de resultados con
la tabla de estimación de los parámetros. Para operar con nls se necesitan los
siguientes argumentos:
• Fórmula que se quiere ajustar.
• Valores iniciales para los parámetros. Esto es aconsejable cuando el
programa supera el lı́mite de iteraciones necesarias para hacer el ajuste
y no encuentra una solución adecuada.
• Una lista opcional de criterios de control para las iteraciones.
La aplicación de nls presenta los mismos problemas que cualquier algoritmo
para ajuste de funciones no lineales. Como se ha descrito en el apartado 5.3.1,
48
Modelo de predicción del Ibex 35
Capı́tulo 5
al realizar el ajuste de una función no lineal cabe la posibilidad de que el
resultado obtenido no sea un óptimo global, sino un óptimo local. Por ello,
para asegurarse de que la iteración proporciona un modelo correcto, se deben
fijar valores a los parámetros ajustados, como puntos iniciales para el ajuste.
En el caso del modelo del Ibex 35, el valor de los parámetros de la función lineal
se ha obtenido mediante la regresión lineal de la función frente al tiempo. Los
parámetros de la función trigonométrica se han ido introduciendo paso a paso,
es decir, primero se ajusta la función con un parámetro fijándo un valor a
dicho parámetro y, cuando se tiene el valor ajustado y significativo del primer
parámetro, se introduce un segundo parámetro siguiendo los mismos pasos. De
esta forma se van estimando todos los parámetros hasta que el modelo queda
completamente especificado.
5.3.3
Técnicas de suavizado de datos
El suavizado de datos consiste en la obtención de una función que recoja el
“comportamiento general” de los datos, dejando de lado el ruido. Los métodos
de suavizado de datos son necesarios cuando los datos observados de una serie presentan muchos valores extremos, que pueden distorsionar la regresión
que se realice. El método más habitual de suavizado son las medias móviles,
empleadas para captar tendencias generales en las variables económicas.
Concretamente, para el presente trabajo se ha utilizado la técnica loess,
implementada en el programa estadı́stico R, obteniéndose una gráfica en la
que se representa la tendencia general del Ibex 35, entre otros indicadores.
Esta gráfica que se consigue con la función stl, sirve para descomponer series
temporales de datos, como es el caso del Ibex 35. La figura 5.3 es un ejemplo
de salida de pantalla del análisis obtenido con el comando stl, cuyos gráficos
se describen a continuación:
• Gráfico data: representa los datos observados, sin ninguna modificación.
• Gráfico seasonal: representa la estacionalidad detectada para la serie,
medida con ı́ndices de estacionalidad.
• Gráfico trend: muestra la tendencia y el ciclo de la serie, obtenida mediante técnicas loess.
49
Capı́tulo 5
Modelo de predicción del Ibex 35
• Gráfico remainder : representa los residuos de la serie después de descontar la estacionalidad, la tendencia y el ciclo.
Figura 5.3: Salida de pantalla del análisis stl
Fuente: Zucchini y Nenadic (2008)
La idea básica de loess (en terminologı́a anglosajona local regression, regresión local) es construir un modelo basado en ajustes locales a pequeños
grupos de datos utilizando mı́nimos cuadrados, de forma que se simplifica
el proceso de modelización. Con esto se consigue formular una función que
recoge el comportamiento de una serie con muchas variaciones pero de forma
más suavizada. Como ejemplo de suavizado, se muestra la figura 5.4, en la que
50
Modelo de predicción del Ibex 35
Capı́tulo 5
se observa una serie de datos con bastante dispersión a los que se ajusta una
función que recoge su comportamiento general, mucho más suavizado.
Figura 5.4: Ejemplo de suavizado loess
Fuente: Zucchini y Nenadic (2008)
Es habitual confundir el suavizado (o smoothing) con un concepto relacionado y que se suele solapar, la regresión no lineal. La principal diferencia
entre una y otra técnica es que en el caso de la regresión no lineal, se emplea una función explı́cita para ajustar una serie de datos, mientras que el
smoothing tiene como resultado una serie de datos suavizados, no una función.
Además, la regresión no lineal tiene como objetivo el ajuste más exacto posible
a los datos empleados, cuando el smoothing se utiliza para recoger el comportamiento general de los mismos.
Ası́ pues, lo más usual es que, en primer lugar, se apliquen técnicas de
suavizado a los datos para, en segundo lugar, ajustar una función mediante
técnicas de regresión no lineal. Como se ha señalado anteriormente, la técnica
51
Capı́tulo 5
Modelo de predicción del Ibex 35
loess se ha empleado en el presente trabajo para determinar la existencia de
tendencias y ciclos en el comportamiento del Ibex 35.
52
Capı́tulo 6
El modelo ARIMA. Análisis y
descripción de series
temporales
Como se ha avanzado anteriormente, para la parte aleatoria del modelo del
Ibex 35 se ha utilizado el modelo ARIMA, del cual describimos los fundamentos
teóricos en este capı́tulo. Además, se introducen los conceptos básicos de series
temporales en base a la descripción clásica de las mismas, la cual descompone
la serie en cuatro elementos: tendencia, ciclo, estacionalidad y componente
irregular. En lo que respecta a las técnicas ARIMA, se explicarán los pasos
para la construcción del modelo mediante la metodologı́a Box-Jenkins y las
herramientas de validación de la bondad del modelo.
53
Capı́tulo 6
6.1
Modelo de predicción del Ibex 35
Introducción e ideas básicas
George E. P. Box, profesor de estadı́stica de la Universidad de Wisconsin,
y Gwilym M. Jenkins, profesor de ingenierı́a de sistemas de la Universidad de
Lancaster, introdujeron en la década de los 70 un nuevo enfoque en el análisis
de series temporales, en sus trabajos sobre el comportamiento de la contaminación en la bahı́a de San Francisco. Su finalidad era establecer mejores
herramientas de pronóstico y control. Sus investigaciones se publicaron en el
libro Time Series Analysis: Forecasting and Control (1976) en el que describen
la metodologı́a. Este manuscrito se ha convertido en un clásico gracias al amplio abanico de posibilidades que abrió en diversas ramas de las matemáticas,
la economı́a, la ingenierı́a o la estadı́stica. Por sus autores, la metodologı́a
descrita en el presente capı́tulo se conoce como modelos ARIMA o modelos de
Box-Jenkins. Esta metodologı́a y la implementación del análisis de series temporales en R son analizados en diversa bibliografı́a (Chirivella, 2008) (Shumway
y Stoffer, 2006).
Un requisito para este tipo de modelos es que la serie de observaciones
sea una serie estacionaria, motivo por el cual se deben realizar una serie de
transformaciones. Que una serie sea estacionaria significa que ni la media,
ni la varianza, ni la autocorrelación entre las observaciones dependan del
tiempo. De esta forma la serie está “estabilizada”, pudiendo entonces estudiar la presencia de comportamientos regulares que permitan proponer
un modelo matemático. Las herramientas que se emplean para ello son la
Función de Autocorrelación Simple (FAS) y la Función de Autocorrelación Parcial (FAP), comparándose la forma obtenida en las mismas
para las observaciones con el catálogo de patrones gráficos, que son tı́picos de
los diferentes modelos propuestos. Se selecciona aquél que mejor se adecúe a
la forma de las FAS y FAP obtenida con las observaciones empleadas.
Una vez escogida la forma del modelo, se realiza una estimación de los
coeficientes del mismo. Seguidamente se debe efectuar un análisis de los
residuos (entendidos como la diferencia entre el valor observado y el valor
previsto por el modelo), con el fin de comprobar si el ajuste del modelo a las
observaciones es adecuado. Si no fuera el caso, se volverı́a a repetir el proceso
estudiando la aplicación de otros modelos posibles.
Cuando se ha determinado un modelo suficientemente válido, que explique
de forma adecuada el comportamiento de la serie estacionaria, se deshacen los
54
Modelo de predicción del Ibex 35
Capı́tulo 6
ajustes aplicados anteriormente y se comprueba si los pronósticos obtenidos con
el modelo se corresponden significativamente con las observaciones iniciales,
volviendo a comenzar la búsqueda de un nuevo modelo si ello no ocurriera.
Los pasos mencionados en la elaboración de un modelo ARIMA se pueden
considerar, por tanto, como un método iterativo de prueba-error, por cuanto
que se busca la mejora continua del ajuste del modelo a las observaciones
mediante la aplicación de unas herramientas y el filtrado de datos.
6.2
Series temporales univariantes
El análisis univariante es aquel que utiliza como única información para
predecir los valores futuros de una variable sus propios valores pasados (historia de la serie). Los modelos univariantes parten de la hipótesis de que el
comportamiento pasado de la serie se repetirá en el futuro, por lo que son
relativamente útiles en predicciones a corto plazo. Sin embargo, al no considerar otras variables que puedan afectar a la variable observada, a medio y
largo plazo no suelen ser útiles. Por ello, para realizar pronósticos a medio y
largo plazo son más útiles los modelos multivariantes, que tienen en cuenta la
interacción de otras variables que afecten a la observada.
6.2.1
Modelo clásico de descripción de series temporales
La necesidad de predecir los valores futuros de determinadas variables a
partir de la identificación de comportamientos regulares en el pasado dio origen
a las series temporales. En el presente trabajo se utilizó para la primera aproximación a la identificación de estos comportamientos regulares el denominado
modelo clásico de descripción de series temporales, que se analiza a
continuación.
Previamente al análisis clásico de series temporales se debe definir el concepto de serie temporal, ası́ como el conjunto de datos empleados para llevarlo
a cabo. Una serie temporal es una secuencia de datos, observaciones o valores,
medidos en determinados momentos del tiempo, ordenados cronológicamente
y, habitualmente, espaciados entre sı́ de una forma regular. En el caso concreto
55
Capı́tulo 6
Modelo de predicción del Ibex 35
del presente trabajo, los datos de que se dispone son los valores semanales del
Ibex 35. El periodo considerado para la toma de datos es desde el 1 de enero
de 1998 hasta el 31 de diciembre de 2012, último año cerrado disponible en el
momento de iniciar la elaboración del presente trabajo. Se ha preferido tomar
años naturales debido a la estacionalidad que tiene la bolsa en determinadas
épocas del año. La obtención del dato de cierre semanal corresponde al viernes
o último dı́a hábil de la semana natural, porque de igual forma que la estacionalidad durante el año, el dato de cierre, ya sea horario, diario, semanal o
mensual, es un factor clave en el análisis técnico de la bolsa, y por lo tanto
aquel que debe tenerse en cuenta para el presente trabajo (Velez y Capra,
2011). Con estos 15 años de datos disponibles, a 52 por año, supone un total
de 780 datos sobre los cuales se formulará el modelo. Los primeros datos de
2013 se utilizarán para validar el modelo mediante predicciones.
La caracterı́stica observada a través de las series temporales tiene, a su vez,
distinta naturaleza temporal, pudiéndose hablar de magnitudes de flujo y de
magnitudes de stock :
• Magnitudes de flujo: son aquellas que se miden acumulando el valor
de la variable desde la última observación realizada, como es el caso del
número mensual de inquilinos en un hotel. Estas magnitudes presentan
el inconveniente de que, como están definidas en un intervalo de tiempo,
aunque éste se mantenga constante, puede que se estén midiendo valores
no homogéneos. En el caso mencionado, el número mensual de inquilinos
de un hotel, la base temporal no es homogénea, ya que está compuesta
de diferente número de dı́as y no todos los dı́as pueden considerarse
iguales (fin de semana, festivo, vacaciones, etc) ni aparecen en la misma
proporción todos los meses.
• Magnitudes de stock: son aquellas que toman valores concretos en
instantes concretos del tiempo, como es el caso de la cantidad del activo
circulante de una compañı́a. Su observación también se realiza a intervalos de tiempo regulares, como en el caso anterior, pero no se ve afectada
por el problema de la falta de homogeneidad.
Al respecto de la clasificación anterior, se puede afirmar que los datos de
cierre semanales del Ibex 35 constituyen una serie temporal calificada como
magnitud de stock, dado que toma un valor concreto en cada instante temporal
fijado.
56
Modelo de predicción del Ibex 35
Capı́tulo 6
Por su parte, la descripción de series temporales siguiendo el modelo clásico
propone que toda serie está formada por cuatro componentes teóricas: tendencia, variación cı́clica (ciclo), variación estacional (estacionalidad) y variación
irregular (residual). La definición de cada una de las componentes se detalla
a continuación:
• Tendencia, T(t): muestra el movimiento de la serie a largo plazo, esto
es, indica si el valor de la variable aumenta o disminuye con el tiempo. La
figura 6.1 muestra un proceso de tendencia creciente. Tanto la definición
como el cálculo de la tendencia son cuestiones delicadas en cuanto a su
definición precisa. En el primer caso, debido al significado de la expresión
“largo plazo”, que está relacionado con el incremento del tiempo de las
observaciones y el cual es muy difı́cil delimitar. Generalmente, se establece el largo plazo como un periodo de entre 3 y 10 años, aunque esto
depende de la naturaleza del problema. En el segundo caso, el cálculo,
porque resulta complicado identificar la tendencia al estar generalmente
confundida con otra de las componentes, la cı́clica.
Figura 6.1: Ejemplo de proceso con tendencia creciente
Fuente: Elaboración propia
57
Capı́tulo 6
Modelo de predicción del Ibex 35
• Variaciones cı́clicas, C(t): son oscilaciones con un periodo de tiempo
superior a las variaciones estacionales, como las representadas en la figura
6.2. Son también debidas a la naturaleza de la variable (el ciclo del agua,
por ejemplo) y generalmente resulta complicado observarlas porque el
periodo del ciclo puede ser variable y porque habitualmente no suele
aparecer un ciclo completo en los datos con los que se trabaja. Ésta es una
de las razones por las que se ha escogido una serie de datos tan amplia.
En el caso concreto del Ibex 35, se ha delimitado el largo plazo entre 8
y 10 años. Son una de las componentes principales cuando se estudian
datos económicos como es el Ibex 35, dado el conocido comportamiento
cı́clico de la economı́a.
Figura 6.2: Ejemplo de proceso con variaciones cı́clicas
Fuente: Elaboración propia
• Variaciones estacionales (estacionalidad), E(t): son oscilaciones
que se producen en un periodo de tiempo menor al año y que se repiten
de forma más o menos regular a lo largo del tiempo, como se muestra en
la figura 6.3. Son debidas al efecto que tienen los meses, los trimestres o
cualquier otro periodo interanual sobre la variable estudiada.
58
Modelo de predicción del Ibex 35
Capı́tulo 6
Figura 6.3: Ejemplo de proceso con estacionalidad
Fuente: Elaboración propia
• Variaciones irregulares, residuales o erráticas, I(t): son movimientos que no muestran una estructura reconocible, como las que se representan en la figura 6.4. Se considera que estas variaciones son originadas
por hechos puntuales, como puede ser un cambio en la legislación vigente, un cambio en la polı́tica fiscal de un paı́s o una noticia que afecta
drásticamente a la economı́a o las empresas. Esta última componente se
obtiene haciendo la diferencia entre la serie original y el resto de componentes descritas anteriormente y, por definición, deberı́a ser una variable
aleatoria. El hecho de que los residuos sigan un comportamiento identificable y no aleatorio, ha sido el origen de las nuevas técnicas de descripción
de series temporales (ARIMA y procesos estocásticos).
59
Capı́tulo 6
Modelo de predicción del Ibex 35
Figura 6.4: Ejemplo de proceso con comportamiento irregular
Fuente: Elaboración propia
6.2.2
Procesos estocásticos
Un proceso estocástico es una sucesión de variables aleatorias que evolucionan con el tiempo. Cada una de las variables aleatorias del proceso tiene
su propia función de distribución de probabilidad y, entre ellas, pueden estar
correlacionadas o no.
El modelo estadı́stico que se propone para describir una serie temporal es el
denominado proceso estocástico. A modo de explicación, se considera una
serie observada compuesta por n datos, que constituirá una muestra de un
vector de n variables aleatorias ordenadas en el tiempo (Z1 , Z2 , Z3 , ..., Zn ). Se
denomina proceso estocástico al conjunto de esas variables {Zt }, siendo t=1,
2, 3, ..., n y la serie observada se considera una realización o trayectoria del
proceso estocástico. Una representación de la idea de proceso estocástico se
muestra en la figura 6.5.
La estructura probabilı́stica de cualquier proceso estocástico queda determinada cuando se conoce la distribución conjunta de las n variables aleatorias
Zt . La determinación de la distribución conjunta del proceso (o de un sub60
Modelo de predicción del Ibex 35
Capı́tulo 6
Figura 6.5: Realizaciones de la variable Zt y distribución en cada instante de
tiempo t
Fuente: Chirivella (2008)
conjunto del mismo) requiere observar un gran número de realizaciones. Esta
estimación se simplifica en gran medida cuando se puede suponer que la distribución conjunta es una Normal multivariada, ya que la distribución quedará
determinada por las medias, las varianzas y las covarianzas. A continuación
se explican las funciones que describen las caracterı́sticas de un proceso estocástico.
La función de medias proporciona las medias de las distribuciones marginales Zt en cada instante del tiempo, siendo su ecuación la que se muestra
en (6.1):
µt = E(Zt ).
(6.1)
Se dice que el proceso es estable en la media si la función de medias es constante, es decir, todas las variables tienen la misma media.
La función de varianzas proporciona la distribución de varianzas de las
distribuciones marginales Zt en cada instante del tiempo, representada por la
ecuación (6.2):
σt2 = Var(Zt ).
61
(6.2)
Capı́tulo 6
Modelo de predicción del Ibex 35
Se dice que el proceso es estable en la varianza si ésta es constante a lo largo
del tiempo.
La estructura de dependencia lineal entre las variables aleatorias del proceso se representa por las funciones de covarianza y correlación. La función
de autocovarianzas del proceso describe las covarianzas en dos instantes del
tiempo cualesquiera, siendo su ecuación la que aparece en (6.3):
Cov(Zt ) = E[(Zt − µt )(Zt+k − µt+k )].
(6.3)
Como se observa en (6.3), la covarianza depende de los parámetros t y k, siendo
t el instante inicial y k el intervalo de tiempo entre las observaciones.
Una condición de estabilidad que aparece en diversos fenómenos dinámicos
es que la dependencia entre dos observaciones sólo depende de la longitud del
intervalo de tiempo entre ellas y no del origen considerado, lo cual se expresa
en la ecuación (6.4), donde k = 0, ±1, ±2, . . ..
Cov(Zt1 , Zt1 +k ) = Cov(Zt2 , Zt2 +k ) = γk .
(6.4)
La Función de Autocorrelación se define como se muestra en (6.5). Cabe
hacer una puntualización al respecto de la expresión (6.5), y es que la segunda
igualdad se cumplirá en tanto en cuanto el proceso estudiado sea estable en la
función de autocorrelación, no en general:
ρt,t+k =
Cov(Zt1 , Zt1 +k )
= ρk .
σt σt+k
(6.5)
En el estudio de una serie temporal, el proceso estocástico existe conceptualmente, pero sólo se dispone de un valor observado para cada instante (en un
conjunto finito de ellos). Para poder estimar las caracterı́sticas “transversales”
(medias, varianzas y covarianzas) del proceso a partir de su evolución “longitudinal” (o a partir de una trayectoria), se debe suponer que las propiedades
“transversales” son estables a lo largo del tiempo, lo cual conduce al concepto
de estacionariedad, el cual se define en el siguiente apartado.
62
Modelo de predicción del Ibex 35
6.2.3
Capı́tulo 6
Procesos estacionarios
Si se pretende estudiar una serie a lo largo del tiempo y se dispone de
una sola observación para cada instante de tiempo t, resulta muy complicado
estimar las caracterı́sticas “transversales” del proceso (media, varianza y covarianza) a partir de su evolución “longitudinal” (valores a lo largo del tiempo),
y es necesario suponer que las caracterı́sticas transversales son estables a lo
largo del tiempo. Un caso particular de estabilidad de estas caracterı́sticas
transversales es que la media y la varianza sean constantes y que la covarianza dependa del retardo entre observaciones y no del instante del tiempo. Un
proceso que cumple estas caracterı́sticas es un proceso estocástico estacionario en sentido débil, expresado como se expresa en (6.6):

µt = µ = cte,

σt2 = σ 2 = cte,

Cov(t, t + k) = Cov(t, t − k) = γk .
(6.6)
En caso de no cumplirse estas caracterı́sticas el proceso se denomina evolutivo, lo cual complicarı́a en exceso la predicción de los valores futuros respecto
a un proceso estacionario.
Los procesos que representan sistemas económicos no se ajustan a las condiciones de estacionariedad expuestas, pero es posible eliminar sus tendencias y
estabilizar sus varianzas para transformarlos en otros procesos que sean aproximadamente estacionarios, lo cual simplifica y permite describirlos y realizar
predicciones. La condición impuesta sobre la covarianza suele cumplirse en la
realidad y no es necesario hacer nada para comprobarlo. Es posible exigir una
condición más al proceso estacionario, en este caso a la distribución del proceso
estacionario. Se dice que un proceso es estacionario en sentido estricto cuando
las distribuciones marginales y las de cualquier subconjunto de variables tienen
la misma distribución, con los mismos parámetros. Lo habitual será admitir
que un proceso estocástico tenga distribución Normal multivariante, y que la
distribución para cada instante de tiempo sea también Normal.
Finalmente hay que señalar que lo que realmente caracteriza a un proceso
estacionario es la relación existente entre la variable en el instante de tiempo
actual y las variables en instantes de tiempo anteriores. Por ello, de todos los
parámetros anteriores, el que define realmente a un proceso estacionario (serie
63
Capı́tulo 6
Modelo de predicción del Ibex 35
temporal), es la función de autocovarianza, con mayor precisión de su valor
medio o su varianza. Ahora bien, la función de autocovarianza no es el único ni
el mejor parámetro que mide el grado de relación lineal entre dos variables, ya
que depende de las unidades de medida de la variable y no constituye una escala
para medir el grado de relación. Una forma de solucionar estos problemas es
utilizar el coeficiente de autocorrelación lineal simple, el cual mide el
grado de relación total existente entre dos variables. Por su parte, si se quisiera
medir el grado de relación directa entre dos variables, eliminando el efecto de
variables intermedias se deberı́a calcular el coeficiente de autocorrelación
parcial.
Cuando se quiere analizar una serie temporal es necesario identificar la
estructura que la genera, es decir, se debe determinar cómo influyen las observaciones del pasado en las observaciones del futuro. Para identificar esta
dependencia se emplean dos herramientas definidas anteriormente, la FAS y la
FAP.
Función de Autocorrelación Simple (FAS)
La FAS es la representación gráfica de los coeficientes de autocorrelación
simple de un proceso, que miden el grado de relación total existente entre dos
variables separadas en el tiempo por cierto retardo k.
Si la dependencia (correlación ρk ) de las observaciones tiende a cero cuando
aumenta el retardo, entonces el proceso estacionario recibe el nombre de ergódico. La ergodicidad es una cualidad necesaria para poder estimar las caracterı́sticas del proceso a partir de una única realización, ya que en caso contrario,
al aumentar el tamaño de la muestra no se adquiere información adicional por
ser todas las observaciones muy dependientes entre sı́. A los efectos del trabajo,
se considerará que todos los procesos estacionarios son también ergódicos.
Función de Autocorrelación Parcial (FAP)
La FAP mide el grado de relación directa existente entre observaciones
separadas k periodos, sin considerar el efecto de los valores intermedios.
La relación entre dos variables separadas con un cierto retardo k puede ser
directa o indirecta. Por lo tanto, para una serie temporal observada compuesta
por n datos (Z1 , Z2 , Z3 , ..., Zn ), la variable Z1 está directamente relacionada
con Z2 y entre ellas no existe otro tipo de relación. En el caso de la relación
entre Z1 y Z3 , ésta se produce a través de Z2 , por lo que serı́a indirecta.
64
Modelo de predicción del Ibex 35
Capı́tulo 6
La relación de una variable con sus anteriores también podrı́a ser como
la que se muestra en la figura 6.6, donde el efecto de Z2 se transmite a Z4
directamente y a través de Z3 . Por lo tanto, en la relación de Z2 con Z4
hay una relación directa, que se medirı́a con el coeficiente de autocorrelación
parcial, y una relación total (directa e indirecta) que medirı́a el coeficiente de
autocorrelación simple.
Figura 6.6: Relación entre los valores de un proceso estacionario
Fuente: Elaboración propia
6.2.4
Procesos integrados
La mayorı́a de procesos económicos son no estacionarios, ya que es habitual que presenten tendencia a lo largo del tiempo. También es habitual que
presenten estacionalidad y que su varianza no sea constante, tal y como ocurre
con el Ibex 35. Ası́ pues, en la mayorı́a de los casos es posible eliminar de ellos
los efectos de tendencia y estacionalidad, estabilizar la varianza y de esta manera transformarlos en otros procesos que sean aproximadamente estacionarios.
La forma para conseguir estas transformaciones es la integración.
Si el proceso tiene tendencia, es posible que se convierta en estacionario
al tomar diferencias, como se representa en la figura 6.7. Esto es, restar a
todos los valores de la serie su anterior. Una vez diferenciado se representa
gráficamente para observar si los nuevos valores oscilan alrededor de un valor
central. Si no es ası́, la tendencia no se ha eliminado, o no ha desaparecido del
todo y se tomará una segunda diferencia del proceso Zt .
Se dice que un proceso estocástico es integrado de orden h cuando es necesario diferenciarlo h veces para conseguir un proceso estacionario.
Una propiedad importante de los procesos estacionarios es tener incrementos estacionarios. Ası́, si el proceso Zt es estacionario, entonces el proceso
65
Capı́tulo 6
Modelo de predicción del Ibex 35
Figura 6.7: Diferenciación de un proceso no estacionario
Fuente: Elaboración propia
ωt = Zt − Zt−1 , es a su vez estacionario, por lo que se deduce que diferenciar
en exceso no tiene, en principio, consecuencias negativas para la serie.
Para identificar la existencia de tendencia y/o estacionalidad se debe recurrir a la FAS. La tendencia se observa si los valores de los coeficientes de
autocorrelación decrecen lentamente con el retardo (gráfica derecha de la figura
6.8) o tienen un decrecimiento lineal (gráfica izquierda de la figura 6.8)
Figura 6.8: FAS de una serie con tendencia
Fuente: Chirivella (2008)
66
Modelo de predicción del Ibex 35
Capı́tulo 6
Si el proceso tiene estacionalidad, también se suele solucionar mediante la
diferenciación de la serie, aunque en este caso se debe hacer una diferenciación
estacional. Con ello, la serie desestacionalizada Zt se calcula como se muestra
en (6.7):
Zt = ∇s Yt = Yt − Yt−s ,
(6.7)
donde s es el periodo estacional del proceso, por ejemplo tomando el valor 12
para periodos mensuales.
La representación gráfica de la serie transformada permite determinar si
la componente estacional ha sido eliminada, pudiéndose aplicar diferencias
estacionales tantas veces como sea necesario. La estacionalidad se observa en
la FAS cuando aparecen unas oscilaciones en los valores de los coeficientes de
autocorrelación simple o unos picos equiespaciados en el retardo.
Si el proceso tiene varianza no constante también se realizan una serie de
transformaciones que la estabilizan. Si la varianza es proporcional al valor
medio de la misma, la forma de resolver el problema consiste en realizar la
transformación logarı́tmica de la serie, que conduce a valores más o menos
constantes. También se puede tomar la raı́z cuadrada de sus valores. Tomar
diferencias también podrı́a estabilizar la varianza, pero es una transformación
menos potente.
A veces es necesario recurrir a más de una transformación para obtener
una serie estacionaria. El orden en que se realicen estas transformaciones es
relevante, siendo preferible hacer primero las transformaciones logarı́tmicas o
las raı́ces cuadradas, ya que al tomar diferencias se pueden obtener valores negativos, por lo que una segunda transformación no permitirı́a tomar logaritmos
ni raı́ces cuadradas.
La varianza no constante puede observarse mediante la representación
gráfica de la serie. Se puede determinar comparando la distancia vertical entre
picos del primer y último dato de la serie. Si esa distancia no es la misma, la
varianza no es constate. Se dice que una serie es homocedástica cuando su
variabilidad (volatilidad) es constante a lo largo del tiempo. Cuando la volatilidad varı́a a lo largo del tiempo, la serie es heterocedástica. La variabilidad
se refiere al “grosor” de la serie y una serie puede tener varianza constante
aunque sea muy “gruesa”.
67
Capı́tulo 6
6.3
Modelo de predicción del Ibex 35
Análisis y predicción de series temporales univariantes. Metodologı́a Box-Jenkins
A diferencia de lo que ocurre con los modelos de regresión, los modelos de
series temporales no tienen una teorı́a económica que los respalde, sino que se
proponen y se ajustan según las exigencias de la propia serie, por lo cual se denominan modelos ateóricos. Existen tres modelos fundamentales definidos para
procesos estacionarios y, a partir de ellos, se obtienen modelos más elaborados
y que se ajustan mejor a la realidad. Éstos son los modelos Autorregresivos
Integrados de Media Móvil (ARIMA) que se utilizan para describir aquellos
procesos no estacionarios pero que pueden serlo tras su diferenciación.
6.3.1
Modelos para procesos estacionarios
Se trata de modelos lineales cuyos componentes son la variable que se pretende estudiar y sus valores anteriores, ası́ como una perturbación y sus valores
anteriores. Los modelos propuestos son Autorregresivo (AR), Media Móvil
(MA) y la combinación de ambos, Autorregresivo de Media Móvil (ARMA).
Procesos Autorregresivos (AR)
Se supone que el valor actual de una variable Zt está relacionado de forma
lineal con su valor anterior Zt−1 , o con un cierto número de valores anteriores
al actual, más el efecto de una variable aleatoria. Esta forma de dependencia
se relaciona como se muestra en (6.8):
Zt = α + φ1 Zt−1 + εt ,
(6.8)
donde α y φ1 son constantes a determinar, |φ| < 1 y εt es un proceso de ruido
blanco. A este proceso se le denomina proceso autorregresivo de primer orden
AR(1).
Generalizando el modelo, de forma que no incluya sólo el valor en el instante
de tiempo anterior, sino que, de forma general, incluya ρ instantes anteriores,
se obtiene la ecuación (6.9)
68
Modelo de predicción del Ibex 35
◦
Capı́tulo 6
◦
◦
Z t = φ1 Z t−1 +... + φρ Z t−ρ +εt ,
(6.9)
donde
• φ1 , φ2 , ..., φρ , son constantes a determinar.
◦
• εt es un proceso de ruido blanco independiente de Z t−1 ∀h ≥ 1.
◦
◦
• Z t es una variable centrada, la variable menos su media, Z t = Zt − µ.
Determinar el orden de un proceso autorregresivo a partir de su FAS es
difı́cil, ya que no presenta rasgos fácilmente identificables con el orden del
proceso. Es por ello que un proceso AR se debe identificar con su FAP.
Si se considera un AR(1), el efecto de Zt−2 sobre Zt es a través de Zt−1 , y
conocido el valor de Zt−1 es irrelevante conocer el valor de Zt−2 para obtener
el de Zt , como se observa en la figura 6.9
Figura 6.9: Relación entre valores de un AR (1)
Fuente: Elaboración propia
En un AR(2), figura 6.10, el efecto de Zt−2 se transmite a Zt directamente
y a través de Zt−1 , por lo que es necesario conocer ambos para obtener el valor
de Zt . En este caso, la FAS indica que la pareja de valores Zt y Zt−2 están
relacionados en ambos procesos AR(1) y AR(2), pero si se mide la relación
directa entre Zt y Zt−2 (eliminando la relación existente a través Zt−1 ), resulta
que para un AR(1) esta relación no existe, mientras que para un AR(2) sı́.
En general, para un AR(ρ), las observaciones separadas por 1, 2, ..., ρ retardos presentan relación directa con el valor actual y para el resto de retardos
(ρ + 1, ρ + 2,...) no existe relación.
El coeficiente de autocorrelación parcial de orden k es una medida de la
relación lineal directa entre observaciones separadas k periodos, y se denomina
69
Capı́tulo 6
Modelo de predicción del Ibex 35
Figura 6.10: Relación entre valores de un AR (2)
Fuente: Elaboración propia
Función de Autocorrelación Parcial (FAP) al conjunto de los coeficientes de
autocorrelación αij . De esta definición se deduce que un proceso autorregresivo de orden ρ tendrá los ρ primeros coeficientes de autocorrelación parcial
distintos de cero, y por lo tanto el número de coeficientes distintos de cero en
la FAP indica el orden del proceso AR.
Procesos de Media Móvil (MA)
El modelo autorregresivo no describe correctamente algunas series temporales por la razón de que esas series no parecen depender de sus valores
anteriores. En algunos procesos el valor de la variable parece depender de un
gran número de variables de poca importancia individual y sin relación entre
sı́, que constituirı́an el “entorno” de la variable y de los valores anteriores de
dicho entorno.
Se denomina proceso de media móvil de orden q, MA(q), a un proceso en
el que el valor actual de la variable depende del valor actual de otra variable,
εt y de sus q valores pasados. Esta forma de dependencia se expresa en (6.10):
◦
Z t = εt − θ1 εt−1 − θ2 εt−2 − ... − θq εt−q .
(6.10)
La FAP de un proceso MA(q) tiene todos los coeficientes no nulos que
decrecen con el retardo de forma exponencial y senoidal, por lo que para identificar su grado se debe recurrir a la FAS, donde el número de los coeficientes
no nulos indica el grado del proceso MA.
70
Modelo de predicción del Ibex 35
Capı́tulo 6
Procesos Autorregresivos de Media Móvil (ARMA)
Algunas series temporales presentan un comportamiento más complejo que
los AR o MA. El modelo que surge para describirlas es una mezcla entre ambos,
esto es, el valor presente de la variable depende tanto de sus propios valores
como del “entorno” de la variable en el momento actual y pasado. A estos
procesos se les denomina ARMA.
En un proceso ARMA, se puede observar en la FAP que los primeros coeficientes dependen de la parte AR y que luego se produce un decrecimiento en
los valores que dependen de la parte MA. Por su parte, en la FAS se observa
que los primeros coeficientes dependen de la parte MA y posteriormente se
produce un decrecimiento de los valores que dependen de la parte AR.
Un ARMA(p,q) se expresa como se muestra en (6.11):
◦
◦
◦
Z t = φ1 Z t−1 +... + φρ Z t−ρ = εt − θ1 εt−1 − ... − θq εt−q .
(6.11)
En la tabla 6.1 se muestran las diferencias entre la FAS y la FAP de los tres
procesos descritos hasta el momento, a saber, AR(p), MA(q) y ARMA(p,q).
Tabla 6.1: Similitudes y diferencias en la FAS y la FAP de los modelos AR(p),
MA(q) y ARMA(p,q)
Proceso
AR(p)
FAS
Muchos coeficientes no nulos
que decrecen con el retardo
de forma exponencial y sinusoidal
MA(q)
q primeros coeficientes no nulos y el resto nulos
ARMA(p,q)
Decrecimiento a cero
FAP
ρ primeros coeficientes no nulos y el resto nulos
Muchos coeficientes no nulos
que decrecen con el retardo
de forma exponencial y sinusoidal
Decrecimiento a cero
Fuente: Elaboración propia
71
Capı́tulo 6
6.3.2
Modelo de predicción del Ibex 35
Modelos para procesos integrados
Al igual que se pueden formular modelos para procesos estacionarios, como
se ha visto anteriormente, también existen modelos para procesos no estacionarios, pero que mediante diferenciación pueden llegar a serlo. A estos procesos se les denomina Autorregresivos Integrados de Medias Móviles (ARIMA),
los cuales se dividen en regulares y estacionales.
Los procesos ARIMA regulares explican aquellas series que tienen tendencia. Los procesos ARIMA son procesos tipo ARMA aplicados a la serie diferenciada para eliminar su tendencia. Su notación es ARIMA (p,d,q), siendo d
las diferencias regulares tomadas, p el orden del proceso autorregresivo y q el
orden del proceso de media móvil.
Por su parte, los procesos ARIMA estacionales explican las series que presentan estacionalidad. Se tiene con esto un proceso Autorregresivo Integrado
de Media Móvil Estacional (SARIMA). Si el proceso seguido es un ARMA (el
caso más general), el modelo se denomina ARIMA (P ,D,Q) debido al número
de diferencias estacionales tomadas (D), y a los órdenes de la parte autorregresiva (P ) y de media móvil (Q).
6.3.3
Metodologı́a de Box-Jenkins
El modelo ARIMA es lo bastante flexible y potente como para poder ajustarse a casi cualquier serie temporal, pero precisamente a esa flexibilidad y
potencia se debe que la FAS y la FAP sean realmente complejas y los procesos
contenidos sean de todo punto irreconocibles. La metodologı́a Box-Jenkins es
la utilizada para solucionar el problema de la identificación de las funciones
de autocorrelación, la cual permite identificar los modelos que describen de
forma más o menos adecuada el comportamiento de la serie temporal objeto
de estudio. Esta metodologı́a consta de los siguientes pasos:
• Estacionariedad: se aplican las transformaciones a la serie de forma
que se consiga que sea estacionaria en caso de no serlo, lo cual es habitual.
• Identificación: se determina el orden de diferenciación para conseguir
72
Modelo de predicción del Ibex 35
Capı́tulo 6
la estacionariedad de la serie y los órdenes correspondientes a las partes
autorregresiva y media móvil, tanto para el proceso estacional como para
el regular. A partir de este paso se determina el modelo ARIMA (p, d, q)×
(P, D, Q)s , cuyos valores se explican al final de 6.3.2.
• Estimación: se estiman los valores de los parámetros ϕ de las partes
autorregresivas y φ de las partes de media móvil para el modelo ARIMA
(p, d, q) × (P, D, Q)s identificado.
• Validación: mediante las hipótesis adecuadas se comprueban todas las
hipótesis relativas al error y se comprueba que son significativas las estimaciones de los parámetros. De esta forma se acepta o se rechaza el
modelo estimado. Si los resultados conducen al rechazo del modelo, éste
se debe reformular. Si el modelo resulta adecuado, se pueden realizar
predicciones con el mismo.
• Reformulación: si el modelo no es adecuado, hay que plantearse qué
errores se han cometido en la fase de identificación. Se debe entonces
identificar un modelo complementario que sea capaz de explicar lo que
el primero no ha conseguido.
• Explotación: cuando se ha formulado un modelo adecuado se efectúan
predicciones, que pueden ser puntuales o por medio de intervalos de confianza, como corresponde a un modelo de tipo estocástico. Los valores de
ambas partes del modelo (autorregresiva y de medias móviles) ayudarán
a entender el proceso y cuál es el peso de la “historia” en sus valores
futuros.
6.4
Identificación y predicción del modelo ARIMA
La identificación del modelo ARIMA requiere, en primer lugar, decidir las
transformaciones que se deben aplicar a la serie para que ésta sea estacionaria
(número de diferencias d y D) y, en segundo lugar, determinar los órdenes p y
q del ARMA (p,q) de la parte regular y, si el proceso es estacional, los órdenes
P y Q de la estructura ARMA (P, Q)s estacional.
73
Capı́tulo 6
6.4.1
Modelo de predicción del Ibex 35
Identificación de la estructura no estacionaria
La identificación de la estructura no estacionaria consiste en llevar a cabo
los siguientes pasos:
• Determinar si es necesario transformar la serie para que tenga varianza
constante (la denominada transformación de Box-Cox).
• Determinar el número d de diferencias regulares. Si la serie estudiada
tiene tendencia es necesario diferenciarla para transformarla en estacionaria. Una vez diferenciada debe observarse la ausencia de tendencia
y, en caso de no ser ası́, volver a diferenciar. Si la serie se ha diferenciado
en d ocasiones, se dice que el orden de diferenciación regular es d.
• Determinar el número D de diferencias estacionales. La diferenciación
estacional elimina la componente determinista de estacionalidad presente
en la serie. Si se ha diferenciado en D ocasiones, entonces el orden de
diferenciación estacional es D.
6.4.2
Identificación de la estructura ARMA
La identificación de la estructura ARMA, es decir, las partes autorregresiva
y de media móvil, los órdenes p y q de la parte regular del modelo ARMA (p,q),
y los órdenes P y Q de la parte estacional del modelo ARMA (P, Q)s , que
juntos forman el modelo ARIMA (p, d, q) × (P, D, Q)s , se realiza presentando
la FAS y la FAP muestrales del proceso estudiado y observando determinados
coeficientes de autocorrelación en las funciones. Una vez obtenidos los modelos
(órdenes) de la parte regular y estacional por separado, el modelo ARIMA final
se obtiene combinando los modelos propuestos para ambas partes.
Estudio de la parte regular
Para identificar la parte regular de la serie hay que fijarse únicamente en
los 6-8 primeros coeficientes de autocorrelación, tanto simples como parciales
de la FAS y FAP originales. Para identificar el orden del proceso se utilizarán
únicamente aquellos coeficientes que sean significativos, y para confirmar el
74
Modelo de predicción del Ibex 35
Capı́tulo 6
modelo se tendrán en cuenta los 4-6 primeros coeficientes, sean o no significativos.
Estudio de la parte estacional
Para identificar la parte estacional, hay que fijarse únicamente en los coeficientes de autocorrelación estacionales, tanto los simples como los parciales.
Para identificar el orden del proceso se utilizarán aquellos coeficientes estacionales que sean significativos. Para confirmar el modelo propuesto se tienen
en cuenta los primeros coeficientes de autocorrelación estacionales sean o no
significativos.
6.4.3
Estimación del modelo ARIMA
Para la estimación de los parámetros del modelo ARIMA se obtiene la
función de verosimilitud, que es función de los parámetros que deben estimarse
y de los valores observados de la serie. Derivando la función de verosimilitud
con respecto a cada parámetro a estimar, se obtiene un sistema de ecuaciones
cuya solución, por métodos de optimización no lineal, permite obtener las
estimaciones de los parámetros.
Los estimadores obtenidos mediante estos procedimientos son máximo verosı́miles, lo cual significa que son insesgados uniformemente de mı́nima varianza
y que su varianza disminuye al aumentar el número de datos.
Mediante este método se obtienen las estimaciones de los parámetros para
el modelo o los modelos ARIMA propuestos, ası́ como la estimación de la
desviación tı́pica del error del modelo. En el caso de proponer más de un
modelo, el que tenga menor varianza y estimaciones de los parámetros más
significativas será el modelo elegido, a falta de comprobar su validez.
6.4.4
Predicción automática. El paquete de predicción para R
Las predicciones automáticas de largas series temporales univariantes se
utilizan en el mundo financiero y en muchos otros ámbitos. Las empresas
75
Capı́tulo 6
Modelo de predicción del Ibex 35
poseen cientos de lı́neas de productos y necesitan predicciones de almacenaje,
ventas, etc. Incluso cuando se trata de series más pequeñas también se requiere la realización de predicciones. No muchas personas están capacitadas
para usar series temporales y predecir valores, por cuanto que se pueden cometer numerosos errores de apreciación o de cálculo. En estas circunstancias, un
paquete de predicción algorı́tmico, como es el paquete de predicción para R,
se configura como una herramienta esencial. El paquete de predicción para
R forecast (Hyndman y otros, 2005) determina el modelo más adecuado para
una serie temporal concreta, estimando los parámetros y calculando las predicciones. La popular predicción algorı́tmica automática se basa en cualquier
suavizado exponencial o modelos ARIMA.
Para la parte aleatoria del modelo del Ibex 35 se ha empleado el módulo
forecast, el cual no está contenido en el programa básico y que abre las posibilidades para ajustar el modelo ARIMA (Hyndman y otros, 2005). La predicción
automática sigue los pasos que a continuación se describen:
• Para cada serie, se aplican los modelos que se consideran apropiados,
optimizando los parámetros del modelo para cada caso.
• Se selecciona el mejor modelo de acuerdo al AIC (Akaike’s Information
Criterion, o criterio de verificación de Akaike, en castellano).
El AIC proporciona un método de selección entre el error del modelo aditivo
y multiplicativo. Las predicciones puntuales de ambos modelos son idénticas
a la predicción estándar medida con exactitud como en el MSE o el MAPE.
El AIC es capaz de seleccionar ambos tipos de errores porque está basado en
predicciones en más de un solo paso.
La principal tarea de predicción automática del modelo ARIMA es seleccionar el orden apropiado del modelo, que son los valores de p, q, P , Q, d, D
mediante un criterio de selección como es el AIC, calculándose éste como se
muestra en (6.12)
AIC = −2 log(L) + 2(p + q + P + Q + k),
(6.12)
donde k=1 si c 6= 0, (p + q + P + Q + k) es el número de parámetros en el
modelo ARIMA y L es el máximo valor de la función de log-verosimilitud para
el modelo ARIMA estimado.
76
Modelo de predicción del Ibex 35
Capı́tulo 6
De esta forma:
• Se producen predicciones puntuales al utilizar el mejor modelo (con los
parámetros optimizados).
• Se obtienen predicciones mediante intervalos de confianza del mejor modelo utilizando la función de ajuste automático del modelo ARIMA, el
comando auto.arima (Hyndman y otros, 2005) o mediante simulación de
futuras muestras {yn+1 , ..., yn+h } y localizando los percentiles α2 y 1−α
2 de
los datos de la simulación para cada horizonte de predicción. Si se utiliza
la simulación, el camino de muestras pueden ser generadas utilizando la
distribución Normal para los errores (bootstrap paramétrico) o usando el
remuestreo de errores (bootstrap ordinario).
Para muchos investigadores resulta un obstáculo el utilizar el modelo ARIMA para realizar predicciones debido al difı́cil proceso de selección del orden
(estructura ARMA), ya que se considera subjetivo y complejo en su aplicación.
Aunque no tiene porqué ser ası́, porque los modelos ARIMA se han automatizado hasta tal nivel que la utilización de algoritmos garantiza la elección de
un modelo válido dentro de un número infinito de modelos y, como mı́nimo,
uno de los modelos se aceptará.
Para la ejecución del modelo se utilizan los siguientes comandos de la librerı́a forecast:
• La función auto.arima ajusta de forma automática el mejor modelo.
• La función forecast, para realizar las predicciones.
• La función plot, para obtener los gráficos.
La salida de pantalla de la función auto.arima proporciona el valor estimado, el error estándar cometido y el t-valor para la prueba de contraste de
cada parámetro. Pero además, la función calcula las medidas de bondad del
ajuste que se detallan en la tabla 6.2, y que sirven para comprobar la idoneidad
del modelo a partir de distintas medidas del error.
77
Capı́tulo 6
Modelo de predicción del Ibex 35
Tabla 6.2: Medidas de bondad del ajuste obtenidas con el modelo ARIMA
Medida
ME
Descripción
Fórmula
T
1X
ǫi
T
Media del residuo
i=1
RMSE
MAE
Raı́z del
medio
error
cuadrático
v
u T
u1X
t
(ǫt − ǫ)2
T
i=1
T
1X
|ǫi |
T
Error absoluto medio
i=1
MPE
Error porcentual medio
T
1 X f t − at
T
at
i=1
MAPE
Error porcentual
medio
absoluto
T 1 X ft − at at T
i=1
Fuente: Elaboración propia
78
Modelo de predicción del Ibex 35
6.5
Capı́tulo 6
Validación del modelo ARIMA
Para comprobar la validez del modelo propuesto se emplean diversos estadı́sticos de contrastes. La idea general es comprobar que se han elegido de
forma correcta los órdenes d y D de la transformación estacionaria de la serie y
los órdenes p, q, P y Q de la estructura ARMA del modelo, es decir, comprobar
que se ha identificado correctamente el modelo ARIMA.
6.5.1
Contrastes sobre los parámetros
En primer lugar debe comprobarse la significatividad de los parámetros.
El método analı́tico para realizarlo es la prueba t. Mediante el software R, la
significación de los parámetros se realiza con la siguiente prueba.
Si p − valor > α, siendo α = 0, 05, se acepta H0 (Ψi = 0), donde Ψi
representa a cada uno de los parámetros del modelo, es decir, si se acepta
la hipótesis nula de que cada parámetro es no significativamente diferente de
cero. En caso contrato, si p − valor < α se rechaza la hipótesis nula y, por lo
tanto, se puede suponer que los parámetros son significativamente distintos de
cero.
El estadı́stico de contraste es el que se muestra en (6.13):
tcalc =
Ψi
≡ tgdlr .
s Ψi
(6.13)
donde se divide la estimación del parámetro por su desviación tı́pica, expresión
similar a (5.18) pero calculada para un modelo ARIMA.
6.5.2
Contrastes sobre el error
La diagnosis del modelo requiere comprobar que las hipótesis básicas realizadas con respecto al error son aceptables, esto es:
79
Capı́tulo 6
Modelo de predicción del Ibex 35
Media cero: E(εt ) = 0
Los residuos estimados de un modelo ARIMA no están sujetos a esta restricción debido a la parte autorregresiva. El contraste para aceptar que el valor
medio del error es cero es el que se expresa en (6.14):
Si ε ∈
H0 : E(εt ) = 0,
H
h 1 : E(εt ) 6= 0,
−z α/2 √σbεT
, z α/2 √σbεT
i
(6.14)
,
donde T es un número de datos empleados en el ajuste (T = n − d − sD, es el
número de observaciones de la serie estacionaria), y el promedio y la varianza
de los residuos se calculan mediante las expresiones (6.15) y (6.16):
ǫ=
σ
bǫ2
=
P
T
ǫi
,
P
(ǫt − ǫ)2
.
T −p−q−P −Q
(6.15)
(6.16)
Varianza constante: Var(εt ) = cte
La homocedasticidad del error se comprueba estudiando el gráfico de los
residuos frente al tiempo o frente a la propia variable estudiada. De forma
numérica, se pueden tomar los residuos del ajuste, elevarlos al cuadrado y
realizar el ajuste por MCO de los modelos, según las expresiones (6.17) y
(6.18):
e2t = ϑ0 + ϑ1 t + U,
(6.17)
si se postula que la varianza depende del tiempo.
e2t = ϑ0 + ϑ1 Zt + U,
si se postula que la varianza depende del valor de la variable.
80
(6.18)
Modelo de predicción del Ibex 35
Capı́tulo 6
La hipótesis nula ϑ1 = 0 indica que no existe heterocedasticidad en los
residuos y la prueba t correspondiente permitirá aceptarla o rechazarla.
Incorrelación para cualquier retardo: Cov(εt , εt−k ) = 0
Mediante la observación
de la FAS y la FAP, añadiendo los lı́mites de
√
significación ±2/ T y comprobando que para valores altos del retardo los coeficientes se encuentran dentro de los lı́mites de confianza (95%), se comprueba
si el modelo es correcto según esta última hipótesis. La herramienta que se
emplea para verificar esta hipótesis es el comando tsdiag de R descrito en el
apartado 5.2 Diagnosis y validación del modelo de regresión.
Normalidad
La normalidad de los residuos se comprueba con el papel probabilı́stico
normal, descrito en el apartado 5.2 Diagnosis y validación del modelo de regresión.
6.5.3
Contrastes sobre el modelo.
juste
Reformulación y sobrea-
El modelo ajustado también debe ser contrastado ya que no hay ninguna
teorı́a económica que respalde el modelo seleccionado.
La prueba de reformulación consiste en modificar el modelo original. La
forma de hacerlo es considerar que los residuos son una serie temporal y analizando su estructura. En el caso de que existiera una nueva estructura,
se producirı́a una reformulación del modelo incluyendo en el mismo la nueva
estructura.
La técnica del sobreajuste consiste en estimar un modelo de orden mayor al
obtenido y comprobar si se obtienen coeficientes negativos. Si se ha ajustado
un modelo ARIMA (p,d,q) el sobreajuste se aplica estimando los modelos con
un orden superior de p ó q, pero no de los dos a la vez, ya que se podrı́an
compensar sus efectos. Los modelos a estudiar serı́an ARIMA (p + 1,d,q)
y ARIMA (p,d,q + 1), comprobando en ambos casos si los parámetros son
significativos.
81
Capı́tulo 7
Predicción del Ibex 35 con un
modelo estocástico de salto de
Poisson compuesto
En este capı́tulo se elabora el modelo del Ibex 35. En primer lugar, se
realiza un análisis descriptivo de la serie histórica del Ibex 35, con el objetivo de comprender mejor su comportamiento. En segundo lugar, se hace la
descomposición de la serie siguiendo el modelo clásico de descripción de series temporales, que servirá como base para proponer un modelo adecuado.
Éste está compuesto por los cuatro elementos, tendencia, ciclo, estacionalidad
y componente irregular, habiéndose modelizado las tres primeras con técnicas
analı́ticas para obtener una parte determinista y la última con técnicas ARIMA
y procesos estocásticos de tipo Poisson compuesto para completar el modelo
con una componente aleatoria. Por último, se lleva a cabo la validación del
modelo para comprobar su adecuación a la serie histórica y medir su capacidad
predictiva.
83
Capı́tulo 7
7.1
Modelo de predicción del Ibex 35
Introducción. Selección y correcciones sobre la
serie de datos
El mercado bursátil es un elemento fundamental en la economı́a moderna.
Se trata de un mercado que evoluciona y madura conforme se desarrollan las
empresas negociantes y los sistemas financieros. A su vez, determina el futuro
de compañı́as y paı́ses, mediante el valor de las acciones, futuros y demás
derivados financieros. Estos valores reflejan las expectativas que los inversores
tienen sobre el activo subyacente en el que invierten.
En el caso de los ı́ndices bursátiles como el Ibex 35, que nos ocupa en el
presente trabajo, reflejan las expectativas económicas de las principales empresas del paı́s, y por tanto, de la economı́a de dicho paı́s en su conjunto. Los
grandes fondos de inversión invierten en los 35 valores que componen el Ibex 35
o bien en el propio ı́ndice, mediante derivados financieros. Por estos motivos
y los ya explicados anteriormente se hace necesario conocer las caracterı́sticas
de este mercado y tener una herramienta que apoye a la decisión a la hora de
invertir, en este caso una herramienta basada en el análisis de series temporales. Y como suele ser habitual en este tipo de análisis, se debe seleccionar
la parte de la serie más adecuada para elaborar un modelo y sobre dicha serie
seleccionada es necesario realizar determinadas correcciones con el objeto de
eliminar las posibles distorsiones por observaciones extremas que perjudiquen
a la estimación de los parámetros del modelo.
7.1.1
La serie de datos
Los valores que componen el Ibex 35 se negocian todos los dı́as hábiles de
la Comunidad de Madrid de 9h de la mañana a 17:30h de la tarde. Durante
este horario los valores se negocian según los principios básicos de la oferta
y la demanda. Existe además una subasta de apertura media hora previa al
horario de mercado abierto, ası́ como una subasta de cierre 5 minutos después.
En estos intervalos los valores se negocian sin traslado efectivo en la cotización
real. La variación real del dato se plasma en el momento de apertura a las 9h
de la mañana.
Los datos más importantes desde el punto de vista de análisis técnico
84
Modelo de predicción del Ibex 35
Capı́tulo 7
bursátil son los datos de apertura y cierre. El dato de cierre es más significativo pues es el que define cómo ha finalizado la “batalla” del dı́a entre los
alcistas y bajistas, es decir, los compradores y los vendedores. En toda bibliografı́a de análisis técnico podemos encontrar esta afirmación. Si bien, también
tienen importancia los valores del máximo y mı́nimo del dı́a y el precio de apertura, el precio de cierre es el que cierra el gráfico y marca el punto de partida
del dı́a siguiente. Por poner un ejemplo, si un valor abre a 99, durante el dı́a
alcanza 104 sin descender de 99 pero en la última hora de negociación cierra en
98, es una clara señal de debilidad. A partir de 100 los inversores consideran
que el precio está sobrevalorado y venden para obtener beneficios, motivo por
el cual cierra en 98 al finalizar el dı́a. Aunque el rango diario es importante, el
precio de cierre es el más significativo y marca la tendencia del dı́a siguiente.
Ası́ sucede en múltiples ejemplos. El tipo de gráfico más habitual es el de velas
japonesas, que representa gráficamente los cuatro valores indicados (máximo,
mı́nimo, apertura y cierre).
En cuanto al dato utilizado para la elaboración de los gráficos, en el análisis
técnico se utilizan rangos de todas las amplitudes: minutos, horas, dı́as, semanas, etc. Para el análisis a medio plazo se utiliza normalmente el periodo
semanal, pues tiene un movimiento más suave y con una representación del
largo plazo mucho más apropiada que los datos diarios. Por este motivo se han
utilizado en el presente trabajo los datos de cierre semanal. El dato de cierre
semanal es el que se utiliza normalmente en el análisis técnico para realizar las
proyecciones a medio y largo plazo.
Se han tomado los datos de cierre del último dı́a hábil de la semana de
los últimos 15 años naturales disponibles, es decir, de 1998 a 2012, con una
frecuencia de 52 semanas cada uno. Se han utilizado 15 años porque antes de
1998 los datos no serı́an válidos para la realización del modelo, pues se produjeron oscilaciones incongruentes y una volatilidad casi nula caracterı́sticos del
inicio de cotización de cualquier ı́ndice o valor bursátil. Ası́ pues, el total de
datos históricos disponibles son 780. Cabe señalar, no obstante, que también
se recogieron los datos de los primeros 9 meses de 2013 para contrastar las
predicciones que se realizaban con el modelo, pero éstas no se incluyen en la
serie objeto de modelización.
Respecto al número de semanas, en caso de que por circunstancias un año
tuviera 53 últimos dı́as hábiles de semana, se han promediado los dos últimos
para mantener la frecuencia constante.
85
Capı́tulo 7
Modelo de predicción del Ibex 35
Por otro lado, la serie presenta variaciones de tipo cı́clico, es decir, con
duración mayor al año. En la figura 7.1 se observa una subida desde el punto
inicial en 1998 junto a una bajada en 2003. Posteriormente otra subida cuyo
pico está en 2008 que vuelve a bajar a mı́nimos a mediados de 2012, para
recuperarse en la segunda mitad de este mismo año. Este ciclo que se repite
es caracterı́stico de la economı́a y actualmente sufre de importantes saltos y
mayor volatilidad, de ahı́ que se produzcan picos importantes dentro del mismo
ciclo.
4000 6000 8000 10000 12000 14000
Logaritmo del Ibex
Figura 7.1: Evolución del Ibex 35 desde el 1 de enero de 1998 al 31 de
diciembre de 2012
2000
2005
2010
Tiempo (semanas)
Fuente: Elaboración propia a partir de datos de cierre diarios del Ibex 35
Sin embargo, para precisar en la descripción de la serie de datos semanales
del Ibex 35, se ha realizado una descomposición de la misma siguiendo el
esquema clásico de descripción de series temporales descrito en el apartado
6.2.1, el cual servirá como base para la construcción del modelo.
Siguiendo el esquema indicado, se van a describir las caracterı́sticas de
la serie de estudio. En cuanto a la presencia de tendencia, T (t), se puede
observar en la figura 7.1 que no existe una tendencia clara a simple vista. Se
podrı́a decir que se observa una ligera tendencia creciente porque se puede
detectar que el mı́nimo de 2012 es mayor que el de 2003, ası́ como el máximo
de 2008 es superior al del año 2000. Más adelante se corroborará si existe o
86
Modelo de predicción del Ibex 35
Capı́tulo 7
no tendencia.
Por lo que se refiere a los ciclos, C(t), observados en la serie objeto de
estudio, se puede considerar la existencia ciclos de 8-9 años. Siguiendo la serie
de datos analizada de 15 años puede observarse que el ciclo para que el Ibex
35 retorne al momento inicial es de aproximadamente esta cantidad de años, lo
cual se demostrará posteriormente usando técnicas estadı́sticas. Por ejemplo,
partiendo de 2001 el Ibex se encuentra en torno a 10.000 puntos y en 2010-2011
retorna a la misma cifra.
Por lo que respecta a las variaciones estacionales, E(t), numerosos autores coinciden la existencia de estacionalidad en los mercados bursátiles en
determinados meses del año. Según datos históricos, durante los últimos 50
años la bolsa subió en los periodos de marzo-abril y octubre-enero, bajando
notablemente en junio y septiembre. Esto ha dado lugar a citas conocidas
como “sell in May and go away”, pues el periodo mayo-septiembre suele ser
muy volátil y negativo. Además, dado que los mercados se guı́an por el denominado “sentimiento del mercado” o “psicologı́a de masas” y la repetición
histórica, es algo a tener en cuenta. Por ejemplo, es conocido que el verano es
un periodo volátil porque los responsables de las grandes firmas de inversión
se van de vacaciones y dejan a cargo a trabajadores sin poder para tomar
decisiones importantes, que desestabilizan el mercado pero no toman posiciones claras en una dirección u otra. O por ejemplo la semana de Navidad es
históricamente alcista. Otro ejemplo claro y comúnmente conocido es que los
lunes son negativos y los viernes positivos. En la figura 7.2 se puede observar
la rentabilidad promedio de estos dı́as en el periodo analizado que demuestra
esta estacionalidad.
Es importante recalcar de nuevo que el análisis técnico se basa en la psicologı́a de masas, por lo que los patrones que se identifican repetidas veces
se asume que se repetirán en el futuro. De aquı́ que estos datos históricos de
rentabilidad promedio haya que tenerlos en cuenta.
Por último, las variaciones irregulares, I(t), se pueden observar a lo
largo de toda la serie, siendo esta componente de especial relevancia para
la modelización del comportamiento actual del Ibex 35. Las variaciones irregulares se observan principalmente por incrementos y descensos bruscos y
repentinos del ı́ndice.
Ası́ pues, las conclusiones que se pueden extraer del presente apartado son
87
Capı́tulo 7
Modelo de predicción del Ibex 35
Figura 7.2: Rentabilidad promedio histórica de los dı́as de la semana
Fuente: Elaboración propia a partir de los datos diarios de la serie histórica
la presencia de una serie de componentes en el comportamiento del ı́ndice Ibex
35, que deben ser recogidos en la elaboración del modelo y que son: la presencia
de tendencia, la existencia de ciclos y la existencia de una estacionalidad anual
en los datos del Ibex 35, además de la presencia de una componente irregular
en el comportamiento de los mismos.
7.1.2
Ajustes realizados sobre la serie de datos
Otro de los pasos habituales en la modelización matemática de series temporales es la realización de una serie de correcciones sobre los datos observados.
La motivación de este hecho no es más que la eliminación y/o sustitución de
datos que pueden no ser representativos de la serie general, es decir, son datos
anómalos, y que pueden interferir en la estimación de los parámetros del modelo, produciendo en consecuencia distorsiones en el modelo construido.
La primera de las correcciones consiste en considerar años con 52 cierres semanales. Las razones que justifican esta decisión se deben a los criterios del análisis técnico bursátil ya comentados anteriormente. Se han selec88
Modelo de predicción del Ibex 35
Capı́tulo 7
cionado los cierres semanales, independientemente del número de dı́as hábiles
o el dı́a natural en el que se produzca el cierre semanal (por ejemplo si el
viernes es festivo, se toma el jueves). Por otra parte, esto supone que en varios
casos los años tengan 53 cierres semanales. En estos casos se han promediado
los dos últimos datos disponibles a fin de contar con únicamente 52 datos en
un año. Esto se realiza para facilitar la modelización.
La segunda corrección que se ha realizado ha sido la de tomar logaritmos naturales. Esto es bastante usual al trabajar con series temporales
puesto que, entre otros problemas, se elimina la heterocedasticidad (varianza
no constante) y se aproxima la distribución de los datos a una distribución
Normal, lo cual facilita en gran medida el proceso de modelización posterior.
Múltiple bibliografı́a refuerza la decisión de la toma de logaritmos (Benth y
Saltyte Benth, 2013).
La última corrección se ocupa de eliminar la presencia de los denominados outliers, o datos extremos. Los outliers están representados por
fuertes spikes (picos en la terminologı́a anglosajona) hacia arriba y hacia abajo.
Estos picos pueden influir de manera determinante en el análisis de la tendencia
y de la estacionalidad de las series temporales que definen los datos y que
se desea modelizar. Por ello, es conveniente eliminar estos outliers antes de
proceder a estimar los parámetros del modelo.
Las explicaciones que se dan sobre la existencia de outliers son muy variadas, pero normalmente se deben a noticias económicas que afectan gravemente
a los mércados bursátiles. Por ejemplo, recientemente las noticias de la quiebra
de la banca o los rescates a los paı́ses en crisis de la eurozona, son motivos de
graves descensos, o bien las medidas de fuerte estı́mulo de la FED (EE.UU.) o
datos macroeconómicos muy buenos de determinadas economı́as, son motivos
de importantes ascensos.
Para detectar los outliers se calculan el cuartil inferior y superior y el rango
intercuartı́lico para la serie de datos transformados logarı́tmicamente. Estos
conceptos se definen de la siguiente manera:
• Cuartil inferior (Q1 ): ordenados todos los datos de mayor a menor,
Q1 es el valor a partir del cual se sitúa el 75% de los datos mayores que
él mismo y por debajo del que está el 25% de los datos. El valor de la
serie utilizada es 9, 0084.
89
Capı́tulo 7
Modelo de predicción del Ibex 35
• Cuartil superior (Q3 ): de nuevo considerando los datos ordenados, Q3
es el valor a partir del cual se sitúa el 25% de los datos mayores que él
mismo y por debajo del que está el 75% de los datos. El valor que se
obtiene en la serie empleada es 9, 3118.
• Rango intercuartı́lico, IRQ (Q3 − Q1 ): diferencia entre el cuartil
superior y el cuartil inferior. El valor obtenido para el caso de la serie
utilizada es 0, 3034.
El criterio que se utiliza de forma usual para determinar la existencia de
outliers es considerar que una observación es un outlier si se queda fuera del
intervalo determinado por [Q1 −1.5×IRQ; Q3 +1.5×IRQ]. En el caso concreto
de la serie empleada, el rango resultante es [8, 5532; 9, 7670], no obteniéndose
ningún outlier.
Figura 7.3: Gráfico Box-Whisker del logaritmo de los datos
Fuente: Elaboración propia
La serie definitiva, una vez realizados estos ajustes, queda tal y como se
90
Modelo de predicción del Ibex 35
Capı́tulo 7
representa en la figura 7.4, que es la que servirá para ajustar el modelo propuesto. Con todas las correcciones, el número de datos que tiene la serie es de
780 datos de cierre semanales.
Figura 7.4: Logaritmo de los datos semanales corregidos desde el 1 de enero
de 1998 hasta el 31 de diciembre de 2012
Fuente: Elaboración propia a partir de los datos diarios de la serie histórica
De la observación de la serie corregida se pueden extraer cuatro componentes principales, ya descritas en el apartado del modelo clásico de descripción
de series temporales:
• Tendencia. En el tramo de datos seleccionado no se observa una tendencia clara en sentido creciente o decreciente, desde el 1 de enero de
1998 hasta el 31 de diciembre de 2012. Si bien, como se ha comentado,
el mı́nimo de 2012 es mayor que el de 2003 y el máximo de 2008 mayor
al del 2000, lo que indica una tendencia ligeramente creciente.
• Evolución cı́clica. La duración del ciclo es de unos 8-9 años aproximadamente. Como se puede observar en la figura 7.1, el ciclo de esta
duración se modelizará con una función trigonométrica apropiada, como
más adelante se mostrará, y encaja con los ciclos económicos reflejados
en el ı́ndice bursátil.
91
Capı́tulo 7
Modelo de predicción del Ibex 35
• Estacionalidad anual. Como más adelante se detalla, tras descontar
las dos componentes anteriores de la serie, se observa con claridad la
estacionalidad anual existente.
• Componente irregular. Esta componente sigue un comportamiento
para cuya modelización se utilizaran técnicas de procesos estocásticos.
Estas cuatro componentes son los elementos básicos del modelo, correspondiendo las tres primeras (tendencia, ciclo y estacionalidad) a la parte determinista, y la última (componente irregular), a la parte aleatoria del modelo.
A lo largo del apartado 7.2 se explica en detalle la forma de modelizar cada
una de estas componentes.
7.1.3
Descripción estadı́stica de la serie de datos corregida
Para realizar un análisis descriptivo de la serie de datos se ha recurrido a
las herramientas habituales en estadı́stica descriptiva, esto es, el cálculo de los
parámetros que caracterizan a los datos y a sus transformados logarı́tmicamente,
los de posición (media y mediana), dispersión (desviación tı́pica), y los de curtosis y asimetrı́a, junto con la representación gráfica del histograma y el gráfico
de caja y bigotes (Box-Whisker en terminologı́a anglosajona).
En la tabla 7.1 se puede observar el resultado obtenido para el cálculo de los
parámetros anteriormente señalados. De los datos calculados se deben realizar
algunos comentarios. Primero en lo que respecta a los logaritmos, la media y la
mediana están bastante próximas, como ocurre en las distribuciones próximas
a la Normal, pero no son iguales. En efecto, la mediana es ligeramente mayor
que la media. Por otro lado, los valores de la curtosis y del coeficiente de
asimetrı́a se sitúan en el intervalo [−2; 2], que es el que se admite como usual
para dichos valores en una distribución Normal. De todo lo anterior parece
que a primera vista la distribución del logaritmo de los datos es similar a una
Normal.
En las figuras 7.5 y 7.6 se representan los histogramas del Ibex 35 antes y
después de tomar los logaritmos, respectivamente. La lı́nea discontinua de color
negro representa la densidad de la distribución del Ibex 35 y, como claramente
se observa, se aproxima a la Normal.
92
Modelo de predicción del Ibex 35
Capı́tulo 7
Tabla 7.1: Parámetros principales de la serie de datos corregida
Parámetro
No de datos
Media
Mediana
Varianza
Desviación tı́pica
Curtosis
Asimetrı́a
Valor sin logaritmos
780
9.830
9.680
5.108.883
2.260
−0, 075
0, 0565
Valor con logaritmos
780
9, 167
9, 178
0, 052
0, 228
−0, 418
0, 026
Fuente: Elaboración propia
Figura 7.5: Histograma de los datos del Ibex 35
Fuente: Elaboración propia
93
Capı́tulo 7
Modelo de predicción del Ibex 35
Figura 7.6: Histograma del logaritmo de los datos del Ibex 35
Fuente: Elaboración propia
El objetivo que se perseguı́a con la toma de logaritmos era aproximar la
distribución de los datos a una Normal y hacer la serie homocedástica. Esto se
consigue en cierta medida, aunque para asegurar este extremo, se ha realizado
el test de Kolmogorov-Smirnov. El test de Kolmogorov-Smirnov se emplea para
contrastar si la distribución de probabilidad de los datos corregidos proviene
de una Normal. El contraste de hipótesis es el siguiente, tomando los valores
de media y desviación tı́pica de la tabla 7.1:
H0 : La distribución de probabilidad es Normal(9, 1672; 0, 2278)
H1 : La distribución de probabilidad no es Normal(9, 1672; 0, 2278)
El estadı́stico del contraste de Kolmogorov-Smirnov (Dn ) es la máxima distancia vertical entre la función de distribución formada por los datos corregidos
(Fn (x)) y la función de distribución teórica con la que se quieren contrastar
los datos (F (x)), como se expresa a continuación:
Dn =
max
−∞<x<∞
|Fn (x) − F (x)|.
94
Modelo de predicción del Ibex 35
Capı́tulo 7
El número de datos se denota por n. Cuando n > 30, el valor crı́tico del
estadı́stico para un nivel de significación del 5% es el siguiente (Dcrit ):
Dn
Dcrit = √ .
n
Siempre que se obtenga un valor para Dn menor que Dcrit , no se podrá
rechazar la hipótesis nula. En términos de p-valor, si éste toma un valor mayor
que el nivel de significación (5%), la hipótesis nula igualmente no se rechaza.
El programa R permite hacer el test con el comando ks.test, siguiendo el
razonamiento anteriormente descrito y utilizando como argumentos las propias
series de datos (original y corregida) y sus medias y desviaciones tı́picas. El
resultado se expresa en términos de p-valor, tomando éste en la serie de datos
original un valor de 0, 01843, por lo que se rechaza la hipótesis nula a un 5% de
significación, es decir, la distribución de los datos no puede considerarse una
distribución Normal con la media y la desviación tı́pica especificadas. Si bien,
tras la toma de logaritmos, el test ofrece un p-valor de 0, 4097, por lo que se
acepta la hipótesis nula con un 5% de significación, en este caso, la distribución
de los datos se puede considerar una distribución Normal.
7.1.4
Descomposición detallada de la serie de datos corregida
Como base para proponer un modelo del Ibex 35 se va a descomponer la
serie corregida en sus componentes, pero de una forma más detallada, ya que
hasta este punto sólo se ha hecho una descripción general de las mismas. Para
poder hacer una descomposición completa, se ha recurrido al comando stl del
programa estadı́stico R, el cual ha permitido generar la figura 7.7. Ésta se
divide en cuatro gráficas que se describen a continuación.
La gráfica superior (data) representa la serie de datos corregida, es decir,
se muestran los mismos datos que se han podido observar en la figura 7.4.
En cuanto a la segunda gráfica (seasonal), muestra la estacionalidad detectada en cada uno de los años observados. En el extremo derecho de esta
gráfica se pueden ver valores entre −0, 03 y 0, 03, que pueden ser interpretados como los ı́ndices de estacionalidad. Un ı́ndice estacional es la variación
relativa que sufre el dato de una semana concreta con respecto a la media
95
Capı́tulo 7
Modelo de predicción del Ibex 35
de toda la serie de datos. Por ejemplo, si el ı́ndice de estacionalidad de la
primera semana de enero es 0, 03 significa que, de media, el dato del Ibex 35
de esa semana (sea el año que sea) es un 3% superior al dato medio del año.
La estacionalidad observada consiste en niveles máximos del Ibex 35 en abril
de todos los años, caı́da de los mismos hasta el mı́nimo en septiembre para
una posterior subida progresiva hasta abril. Esta estacionalidad encaja con la
indicada anteriormente según los datos históricos que se utilizan en el análisis
técnico.
En la tercera gráfica (trend) se representa la tendencia de la serie corregida de datos. En esta gráfica también se pueden ver las variaciones cı́clicas
que experimenta la serie, observándose un ciclo de alrededor de 8-9 años de
duración.
Finalmente, la gráfica inferior (remainder ), representa los coeficientes de
correlación de los residuos de la serie. Se deberı́a observar comportamiento
aleatorio en los residuos y por tanto que no existe regularidad en los coeficientes. Sin embargo esto no es ası́ en este caso, ya que se ven oscilaciones
de grupos de coeficientes positivos y negativos, de lo que se deduce que existe
regularidad.
Del análisis de la serie corregida se deduce la presencia de cuatro componentes, cuyo comportamiento es el objeto de la modelización posterior: tendencia, ciclo, estacionalidad y la componente irregular. Como se ha señalado, las
tres primeras componentes son deterministas y se modelizan combinando funciones lineales y trigonométricas, y la última se modeliza con técnicas ARIMA
y procesos estocásticos.
7.2
Elaboración del modelo del Ibex 35
Los pasos seguidos en la elaboración del modelo del Ibex 35 semanal se
han basado, con las adaptaciones pertinentes que recogen las caracterı́sticas
intrı́nsecas de dicho mercado (Benth y Saltyte Benth, 2013). Después de
realizar todas las correcciones descritas en los apartados precedentes, ya se
dispone de los datos adecuados para poder ajustar un modelo que, a priori,
puede reflejar de forma fiel el comportamiento del logaritmo de los datos del
Ibex 35. El modelo propuesto es aditivo, y cada una de las componentes se
96
Modelo de predicción del Ibex 35
Capı́tulo 7
Figura 7.7: Descomposición de la serie completa del Ibex 35 (1998-2012)
Fuente: Elaboración propia
97
Capı́tulo 7
Modelo de predicción del Ibex 35
ajusta una vez ha sido obtenida y descontada (restada) la anterior, comenzando por la componente tendencia-ciclo y acabando con la estacionalidad,
que completa la parte determinista del modelo. Con los residuos de la parte
determinista, se ajustará un modelo ARIMA, ya que se supone que la componente irregular es aleatoria. Con estos pasos se combinan las dos técnicas
descritas en los capı́tulos 5 y 6, respectivamente.
7.2.1
Ajuste del modelo del Ibex 35. Parte determinista
El modelo completo se puede observar en (7.1), en la cual se incluyen las
diferentes componentes que se deben modelizar. La modelización, no obstante,
se realizará por partes, recogiéndose en primer lugar el comportamiento a largo
plazo (ciclo y tendencia) y posteriormente el comportamiento en el corto plazo
(estacionalidad e irregularidad),
P (t) = PT C (t) + PEA (t) + I(t),
(7.1)
donde P (t) = log(p(t)), siendo p(t) el valor de cierre del Ibex 35 en la semana
t.
Se ha partido de un modelo para la tendencia T (t) y el ciclo C(t), denotado como PT C (t), basado en una función lineal y una curva trigonométrica
(mediante la función coseno), respectivamente. Las razones que justifican esta
decisión son la sencillez de la función coseno, su comportamiento periódico y
su fácil interpretación, además de que la tendencia se modeliza de forma adecuada con una función lineal. La frecuencia seleccionada para el coseno ha
sido de 468 semanas (9 años), ya que el ciclo observado en el perı́odo considerado tiene una duración entre 8 y 9 años y se ha comprobado cómo la función
coseno se adapta mejor al ciclo de 9 años. Por todo ello, el modelo del Ibex
35 basado en el modelo de Fourier con un armónico y una componente lineal
y del cual se parte como primera propuesta, es el que se muestra en (7.4),
agregando las dos componentes detalladas en (7.2) y (7.3), correspondientes a
las componente tendencia y ciclo, respectivamente.
T (t) = b0 + b1 · t,
98
(7.2)
Modelo de predicción del Ibex 35
C(t) = b2 · cos
Capı́tulo 7
2 · π · (t − b3 )
,
468
PT C (t) = T (t) + C(t).
(7.3)
(7.4)
Los parámetros del modelo tendencia-ciclo son los siguientes:
• PT C (t) denota el logaritmo del dato del Ibex 35 en la semana t.
• t representa las semanas transcurridas desde el 1 de enero de 1998.
• b0 representa la parte fija o autónoma del logaritmo del dato del Ibex 35.
• b1 puede interpretarse como la tendencia o drift del logaritmo del dato
del Ibex 35.
• b2 representa la amplitud del coseno. Proporciona una medida de las
oscilaciones cı́clicas de los datos.
• b3 denota el desfase del coseno con respecto al 1 de enero de 1998 en
semanas.
Para determinar el modelo tendencia-ciclo, los parámetros que se deben
calcular son b0 , b1 , b2 y b3 . Todos los parámetros se calculan mediante el
ajuste no lineal que se va a realizar.
El primer ajuste se realiza con el programa R empleando la función nls,
que sirve, en este caso, para ajustar la función trigonométrica propuesta a la
serie de datos. En primer lugar, se introducen todos los datos observados y
corregidos (años de 52 semanas y eliminación de outliers). En este punto se
debe recordar el problema que presentan los algoritmos de ajuste de funciones
no lineales, y es que los resultados dependen del punto inicial de partida y, en
ocasiones, los óptimos obtenidos no son óptimos globales.
Por ello, el siguiente paso consiste en buscar un punto inicial para el ajuste
del modelo dado en (7.2)–(7.4) a las observaciones de los datos corregidos.
Los valores iniciales de b0 y b1 se obtienen a partir de la regresión lineal de
P (t) sobre t. Posteriormente se ajusta el modelo partiendo de una semilla con
b0 = 1 para encontrar el valor inicial de b2 . A partir de este último punto se
99
Capı́tulo 7
Modelo de predicción del Ibex 35
calcula el valor inicial para b3 . Finalmente se toma este punto como inicial del
ajuste definitivo del modelo (7.2)–(7.4) completo. El punto inicial obtenido es
b0 = 9, 011, b1 = 0, 0004, b2 = 0, 259 y b3 = 43, 24.
Los valores de los parámetros obtenidos de este ajuste son los que se muestran en la tabla 7.2. En ella se observa que todos los parámetros son significativamente distintos de 0, a un nivel de confianza del 95%, dado que el
p-valor correspondiente a cada parámetro es menor que 5%1 . Como comentario
adicional, cabe señalar que se observa la existencia de tendencia ligeramente
creciente con el valor positivo del parámetro b1 , tal y como se adelantaba
anteriormente.
Tabla 7.2: Resultados del ajuste del modelo tendencia-ciclo
Parámetro
b0
b1
b2
b3
Estimado
9, 011
0, 0003943
0, 2586
43, 24
Error estándar
0, 01002
0, 00002232
0, 006832
2, 103
t-valor
899, 23
17, 67
37, 85
20, 56
p-valor
0
0
0
0
Fuente: Elaboración propia
Si se representa el modelo tendencia-ciclo se obtienen los resultados de la
figura 7.8.
Con el modelo cı́clico se recogen las oscilaciones regulares en los datos que
se producen a lo largo de más de un año además de la tendencia, por lo que
descontando estas componentes se obtiene una nueva serie de datos que no tiene
ni ciclo ni tendencia, permitiendo de esta manera ajustar un modelo que recoja
las variaciones interanuales o estacionales. Esta serie de datos obtenida como
la diferencia entre los datos observados y el modelo tendencia-ciclo ajustado
de puede observar en la figura 7.9.
En un primer análisis descriptivo de la serie descontada se pueden observar
oscilaciones anuales. Esto se ha comprobado en la figura 7.7, en la que se
observaban los picos en abril y los valles en septiembre. Las razones de estas
oscilaciones no se conocen con exactitud, si bien es lo que se produce según
1
Realmente, los parámetros son significativamente distintos de cero para cualquier nivel
de significación, puesto que los p-valores toman valores muy cercanos a cero, como ocurre en
los ajustes realizados posteriormente.
100
Modelo de predicción del Ibex 35
Capı́tulo 7
Figura 7.8: Ajuste del modelo tendencia-ciclo a los datos corregidos
Fuente: Elaboración propia
Figura 7.9: Serie de datos corregidos sin tendencia ni ciclo
Fuente: Elaboración propia
101
Capı́tulo 7
Modelo de predicción del Ibex 35
muestran los datos históricos. Dado que la bolsa se mueve por los sentimientos
de los inversores y se trata de un “movimiento de masas”, es probable que
determinados factores psicológicos influyan en los motivos que provocan estas
oscilaciones.
De esta forma, primero se ajusta el modelo estacional anual denotado por
PEA (t) en la ecuación (7.5), para el cual se ha tomado una frecuencia de 52
semanas para el coseno. En la ecuación (7.6) se expresa la operación que se
realiza en este segundo paso, ajustándose el modelo estacional anual sobre la
serie de datos y descontando la componente tendencia-ciclo modelizada anteriormente.
Antes de entrar en los detalles del cálculo, cabe señalar que se realizó una
comprobación de la inexistencia de tendencia lineal mediante la inclusión de
un parámetro que multiplicaba al tiempo, el cual, al realizar el ajuste lineal,
resultó ser significativamente igual a cero.
2 · π · (t − a2 )
,
PEA (t) = a1 · cos
52
(7.5)
2 · π · (t − a2 )
.
P (t) − PT C (t) = a1 · cos
52
(7.6)
Los parámetros que se deben estimar son a1 , que es el que determina la
amplitud del coseno, y a2 , que representa el desfase del coseno frente a la
primera semana de enero de 1998, siempre teniendo en cuenta que ahora se
trabaja con los datos sin tendencia ni ciclo. Al igual que en el modelo anterior,
se debe realizar una primera estimación de los valores de a1 y a2 . Para estimar
los dos parámetros del modelo estacional anual se han fijado los valores a1 = 1
y a2 = 0, obteniendo los resultados de la tabla 7.3, en la que se puede observar
que ambos parámetros son significativamente distintos de cero a un nivel de
significación del 5%.
Se ha representado el ajuste del modelo estacional anual en la figura 7.10,
y la serie después de haberle descontado las componentes tendencia, ciclo y
estacionalidad anual en la figura 7.11.
Con el ajuste de las componentes tendencia-ciclo y estacionalidad anual
finaliza la parte determinista del modelo. El siguiente paso consiste en el
ajuste de un modelo ARIMA a la componente irregular, que constituirá la
102
Modelo de predicción del Ibex 35
Capı́tulo 7
Figura 7.10: Ajuste del modelo estacional anual
Fuente: Elaboración propia
Figura 7.11: Serie descontada de tendencia, ciclo y estacionalidad anual
Fuente: Elaboración propia
103
Capı́tulo 7
Modelo de predicción del Ibex 35
Tabla 7.3: Resultados del ajuste del modelo estacional
Parámetro
a1
a2
Estimado
0, 018353
10, 465435
Error estándar
0, 006741
3, 039692
t-valor
2, 723
3, 443
p-valor
0, 006621
0, 000606
Fuente: Elaboración propia
parte aleatoria del modelo del Ibex 35. El modelo determinı́stico completo se
expresa en (7.7).
P (t) = 9, 011 + 0, 0004 · t
2 · π · (t − 43, 24)
+ 0, 2586 · cos
468
(7.7)
2 · π · (t − 10, 4654)
.
+ 0, 0184 · cos
52
7.2.2
Modelo ARIMA para la componente irregular. Parte
aleatoria
La última componente de la serie de datos, la componente irregular I(t),
deberı́a ser una serie estacionaria, es decir, sin tendencia ni estacionalidad, ya
que, por definición, la componente irregular no debe obedecer a ningún comportamiento identificable. En caso de tener un comportamiento identificable,
implicarı́a que existe alguna componente que el modelo no recoge. Para comprobar la estacionariedad de la componente irregular, se representan la FAS y
la FAP de la serie descontando tendencia, ciclo y estacionalidad en la figura
7.12.
Como se puede ver, en la FAS se produce un descenso de los coeficientes
de autocorrelación, en el periodo objeto de estudio, de lo cual se deduce que se
ha eliminado la tendencia. Por su parte, en la FAP se observa un coeficiente
claramente significativo, el primero de ellos. A medida que se alarga el retardo,
104
Modelo de predicción del Ibex 35
Capı́tulo 7
hay ligeras oscilaciones de coeficientes positivos y negativos y dos coeficientes
significativos aunque en escasa medida. Todo esto implica la necesidad de
construir otro modelo para la componente irregular.
Figura 7.12: FAS y FAP de la componente irregular
Fuente: Elaboración propia
Con todo ello, se ha procedido a ajustar un modelo ARIMA (1, 0, 2) para
recoger el comportamiento que siguen los residuos. Este modelo se ha realizado
con el comando auto.arima del software R. En el siguiente apartado se procede
a la validación del modelo ARIMA obtenido.
7.3
Validación del modelo del Ibex 35
La validación del modelo es una parte esencial para comprobar la idoneidad
del mismo a los efectos de conseguir el propósito indicado al principio del
presente trabajo, esto es, recoger el comportamiento de los datos semanales
del Ibex 35. Para realizar la validación se han seguido los puntos indicados en
el apartado 6.5.
105
Capı́tulo 7
7.3.1
Modelo de predicción del Ibex 35
Contrastes sobre los parámetros
En primer lugar, se debe comprobar que todos los parámetros son significativamente distintos de cero, para lo cual se emplea la prueba t-Student:
tcalc =
Ψi
≡ tgdlr .
s Ψi
(7.8)
De la tabla 7.4 se obtiene el t-valor calculado de cada uno de los parámetros
en el ajuste del modelo ARIMA, cumpliéndose que son mayores en valor absoluto a 1, 96, salvo el correspondiente a MA(1), que aunque no lo es está
muy próximo, por lo que puede considerarse también significativo. Este valor
1, 96 es el máximo para un intervalo de confianza del 95% en una distribución
N(0, 1), que es la aproximación de la distribución t-Student con elevado número
de grados de libertad en (7.8). Ası́ puedes, podemos suponer que todos los
parámetros estimados son significativamente distintos de cero.
Tabla 7.4: Resultados del ajuste del modelo ARIMA (1,0,2)
Estimado
Error estándar
t-valor
Parámetro Parámetro
AR(1)
MA(1)
0, 9693
−0, 0680
0, 0095
0, 0366
102, 03
−1, 86
ME = 0,0002036901
Parámetro
MA(2)
0, 0962
0, 0375
2, 57
Fuente: Elaboración propia
7.3.2
Contrastes sobre el error
Por su parte, del error, ǫt , se debe comprobar que se cumplen las siguientes
hipótesis:
• Media cero, E(εt ) = 0.
106
Modelo de predicción del Ibex 35
Capı́tulo 7
• Varianza constante, Var(εt ) = cte.
• Incorrelación para cualquier retardo, Cov(εt , εt−k ) = 0.
• Distribución Normal, εt ≡ N(0, σ).
Media cero.
El contraste para aceptar que el valor de la media del error es cero es el
especificado en (7.9), aceptándose la hipótesis nula si εt está en el intervalo
definido, rechazándose en caso contrario:
−z
α/2
σ
bε α/2 σ
bε
√ ,z √
.
T
T
(7.9)
Los parámetros necesarios para hacer este test son ±z α/2 = ±1, 96, la
desviación tı́pica del error σ
bε y T , que es el número de datos (780). El valor
de σ
bε se obtiene calculando la desviación tı́pica de los residuos, resultando un
valor de σ̂ǫ = 0, 0332052. Con estos valores, se calcula el intervalo expresado
a continuación:
[−0, 002330316; 0, 002330316].
Al comparar el valor de la media del error (ME en la tabla 7.4), 0, 0002036901,
con el intervalo, se concluye que no se puede rechazar la hipótesis nula, puesto
que la media del error está dentro del intervalo, admitiendo entonces que no
toma un valor significativamente distinto de cero.
Varianza constante.
La homocedasticidad del error (varianza constante) se debe comprobar estudiando el gráfico de los residuos frente al tiempo o frente a la propia variable
estudiada. No obstante, existe una prueba numérica, también descrita en el
apartado 6.5 Validación del modelo ARIMA, que puede aportar una mayor
objetividad y fiabilidad al contraste.
En primer lugar, se representa el gráfico de los residuos frente al tiempo
y frente a la variable estudiada (el logaritmo de los datos del Ibex 35) en la
107
Capı́tulo 7
Modelo de predicción del Ibex 35
figura 7.13. En las figuras no se aprecia a primera vista la existencia de heterocedasticidad, ya que la variabilidad de los residuos parece constante frente
a la variable estudiada y a lo largo del tiempo. Debido a que las conclusiones
a partir de los gráficos parten de apreciaciones subjetivas, se recurre a los
contrastes que se muestran a continuación.
Figura 7.13: Residuos frente a la variable (a) y frente al tiempo (b)
Fuente: Elaboración propia
Para confirmar la apreciación gráfica de existencia de heterocedasticidad,
se ha realizado la prueba numérica señalada anteriormente, que consiste en
realizar una regresión lineal entre el error al cuadrado y el tiempo, si se piensa
que la varianza depende del tiempo, o bien realizar una regresión lineal entre
el error al cuadrado y la variable estudiada, en caso de que se piense que la
varianza depende de ésta, tal y como se define en las expresiones (7.10) y
(7.11), respectivamente:
e2t = ϑ0 + ϑ1 t + U,
(7.10)
e2t = ϑ0 + ϑ1 Zt + U.
(7.11)
108
Modelo de predicción del Ibex 35
Capı́tulo 7
Los resultados de ambas regresiones se muestran en las tablas 7.5 y 7.6.
Como se puede ver, del primer ajuste resulta que el parámetro que depende del
tiempo (ϑ1 ), no es significativamente distinto de cero a un nivel de confianza
del 95%, puesto que su p-valor es mayor que 0, 05. En cuanto al segundo
ajuste, el parámetro que depende de la variable estudiada (el logaritmo del
Ibex 35) sı́ es significativamente distinto de cero, ya que su p-valor es menor
que 0, 05. Del análisis de estos ajustes se puede deducir que la varianza del
residuo depende de la variable pero no del tiempo, por lo que no es posible
admitir la inexistencia de heterocedasticidad, incumpliéndose ası́ una de las
hipótesis del modelo.
Tabla 7.5: Ajuste del cuadrado de los residuos frente al tiempo
Parámetro
Constante
Tiempo
Estimado
0, 0008418
6, 642e − 07
Error estándar
0, 0002048
4, 543e − 07
t-valor
4, 111
1, 462
p-valor
0, 0000436
0, 144
Fuente: Elaboración propia
Tabla 7.6: Ajuste del cuadrado de los residuos frente a la variable observada
Parámetro
Constante
Logdato
Estimado
0, 0159558
−0, 0016204
Error estándar
0, 0040923
0, 0004463
t-valor
3, 899
−3, 631
p-valor
0, 000105
0, 000301
Fuente: Elaboración propia
Incorrelación para cualquier retardo.
Esta hipótesis se comprueba mediante la observación de la FAS de los
residuos. Para ello, se ha representado la figura 7.14, en la que se muestra el
análisis realizado con el comando de R tsdiag.
En el primer gráfico se representan los residuos estandarizados (los residuos
divididos por su desviación tı́pica) de la serie ARIMA. En la FAS debe observarse que los residuos no tienen autocorrelación, como ası́ sucede, pues sólo el
primero de los coeficientes de autocorrelación es 1, mostrando la relación del
residuo consigo mismo. Finalmente, el test de Box-Pierce contrasta la hipótesis
nula de la distribución aleatoria de los residuos. Esto proviene de la idea de
109
Capı́tulo 7
Modelo de predicción del Ibex 35
que unos residuos de un modelo correctamente especificado se distribuyen independientemente. Como puede deducirse de la observación del tercer gráfico,
el modelo puede admitirse como correctamente especificado pues los p-valores
por encima del nivel de significación (5%) llevan a no poder rechazar esta
hipótesis.
Figura 7.14: Resultados del análisis tsdiag
−6 −2
2
Standardized Residuals
0
200
400
600
800
Time
0.6
0.0
ACF
ACF of Residuals
0
5
10
15
20
25
Lag
0.0 0.4 0.8
p value
p values for Ljung−Box statistic
2
4
6
8
10
lag
Fuente: Elaboración propia
Distribución Normal.
La última de las hipótesis que debe cumplir el modelo se comprueba mediante el gráfico Q-Q, que muestra el grado en que los residuos del modelo
obtenido se ajustan a una distribución Normal. La representación del gráfico
110
Modelo de predicción del Ibex 35
Capı́tulo 7
Q-Q de los residuos estandarizados2 se puede observar en la figura 7.15. En
dicha figura la mayorı́a de los residuos están alineados, aunque en los extremos
inferior y superior hay un ligero alejamiento de la diagonal. Se ha recurrido al
test de Kolmogorov-Smirnov para comprobar numéricamente la normalidad de
los residuos y el p-valor obtenido en la prueba es de 0, 001746, lo cual significa
que se rechaza la hipótesis nula y no se admite la normalidad de los residuos.
Figura 7.15: Gráfico Q-Q de normalidad de los residuos estandarizados
Fuente: Elaboración propia
Dado que se incumplen dos de las hipótesis que se establecen para la validación del modelo, la normalidad de los residuos y la inexistencia de heterocedasticidad, se ha realizado un análisis separado de los residuos para profundizar en
la comprensión de su comportamiento y, por extensión, tratar de modelizarlos.
2
Se trata de los residuos divididos por su desviación tı́pica, gracias a lo cual su distribución
se puede comparar con una N(0, 1).
111
Capı́tulo 7
7.4
Modelo de predicción del Ibex 35
Modelo para los residuos
Para realizar un análisis y posterior modelización de los residuos, en primer
lugar se debe comprender su comportamiento a lo largo del tiempo. Para ello,
se ha representado en la figura 7.16 la serie de los residuos, definidos como el
logaritmo del Ibex 35 menos todas las componentes modelizadas en los apartados anteriores (tendencia, ciclo, estacionalidad y componente irregular). En
esta figura se observa que los residuos tienen fluctuaciones de distinta intensidad alrededor del cero, pero cada cierto tiempo aparecen saltos relativamente
extremos. Este hecho motiva que se aı́slen esos saltos extremos para modelizarlos por separado de los residuos.
−0.1
−0.2
Residuos
0.0
0.1
Figura 7.16: Serie de residuos del modelo
0
200
400
600
800
Tiempo (semanas)
Fuente: Elaboración propia
Descriptivamente, los residuos no se aproximan a una distribución Normal,
dado que, como se puede ver en la figura 7.17, las observaciones de mayor frecuencia (alrededor de 250) son aquellas que están en torno al cero, pero hay un
pequeño número de observaciones que toma valores extremos, principalmente
valores negativos.
Para aislar los saltos extremos se ha empleado una metodologı́a (Benth y
112
Modelo de predicción del Ibex 35
Capı́tulo 7
Figura 7.17: Histograma de los residuos
Fuente: Elaboración propia
Saltyte Benth, 2013) que se describe en detalle a continuación. El primer paso
consiste en calcular la media y la desviación tı́pica de los residuos con el objeto
de establecer unos lı́mites inferior y superior a partir de los cuales se considere
que existe un salto. La media de los residuos es igual a µ = 0, 0002036901
y su desviación tı́pica toma un valor de σ = 0, 0332052. El lı́mite que se
toma habitualmente viene determinado por la media más/menos dos veces la
desviación tı́pica. Este hecho tiene su explicación en que para una distribución
Normal el 95% de los valores de la misma se sitúa entre dichos lı́mites. Con los
valores concretos para los residuos del modelo, el intervalo es el que se expresa
a continuación:
[−0, 0662067099; 0, 0666140901].
Cuando se han fijado los lı́mites, se realiza el primer “filtrado”, considerando que existe un salto cuando un residuo particular sobrepasa los lı́mites
fijados. Si esto sucede, se sustituye el residuo por el lı́mite correspondiente.
Una vez se han localizado todos los saltos del primer filtrado y han sido sustituidos tal como se ha descrito, se cuenta el número de saltos y se vuelve a
113
Capı́tulo 7
Modelo de predicción del Ibex 35
calcular la media y la desviación tı́pica de los residuos para formar unos nuevos
lı́mites y volver a contar y sustituir los saltos. Este procedimiento se realiza
cuantas veces sea necesario hasta que el número de saltos no aumente. El
resumen de este proceso se muestra en la tabla 7.7.
Tabla 7.7: Resumen del proceso de filtrado de los residuos
Iteración
1
2
3
4
5
Desviación
tı́pica
0, 0332
0, 0292
0, 0282
0, 0279
0, 0279
Saltos
acumulados
35
52
60
61
61
Frecuencia de
saltos semanal
0, 04487
0, 06667
0, 07692
0, 07821
0, 07821
Fuente: Elaboración propia
Cabe hacer una serie de comentarios respecto a la tabla 7.7. El número
total de iteraciones necesarias para que no se detectaran más saltos fue de 5.
Nótese cómo la desviación tı́pica disminuye con cada una de las iteraciones,
algo lógico por otra parte, dado que la mecánica de este filtrado consiste en
la eliminación de los saltos extremos. En la columna “Saltos acumulados” se
ha ido sumando el número de saltos que se producı́an en los pasos anteriores
ya que, si existı́a un salto en un paso previo, también existirá en un paso
posterior, en el que los lı́mites son más estrechos por la disminución progresiva
de la desviación tı́pica. Por último, se ha calculado la frecuencia de saltos
semanal como el cociente entre el número de saltos acumulado y el número de
datos totales, que son 780.
Tras realizar este procedimiento, se toman los residuos en los que se han
localizado saltos y se separan de la serie de residuos. A esta nueva serie sin los
saltos se le ha denominado “residuos filtrados”, cuyo histograma está representado en la figura 7.18. Se puede observar que los residuos filtrados presentan
una distribución mucho más similar a la Normal, extremo éste que se confirma
tras realizar el test de Kolmogorov-Smirnov, para el cual se obtiene un p-valor
de 0, 2296, claramente superior al nivel de significación del 5%. Asimismo,
los valores de los coeficientes de curtosis y asimetrı́a se encuentran entre los
esperados para una distribución Normal, siendo −0, 5070 y −0, 1621, respectivamente.
114
Modelo de predicción del Ibex 35
Capı́tulo 7
Figura 7.18: Histograma de los residuos filtrados
Fuente: Elaboración propia
Por lo que respecta a los saltos se puede ver su histograma en la figura 7.19.
Para comprobar que no siguen una distribución Normal, se ha realizado el test
Kolmogorov-Smirnov obteniéndose un p-valor de 0, 0002453, menor que el nivel
de significación del 5%, por lo que no se puede admitir que los saltos sigan
una distribución Normal. El tratamiento que se propone es el de dividir los
saltos en valores positivos y valores negativos y modelizarlos como se describe
seguidamente, para los cuales se ha representado su histograma en la figura
7.20.
A continuación se muestra en la tabla 7.8 los datos descriptivos de los saltos
positivos y negativos, ası́ como de los saltos conjuntos, entendiendo éstos como
los saltos observados en valor absoluto y las observaciones sin saltos con valor
cero.
Para modelizar los saltos, se ha propuesto un modelo S(t) definido mediante la suma de dos procesos de Poisson compuestos, los cuales describen por
separado los saltos positivos y negativos. Se define el proceso S(t) como se
expresa en (7.12):
115
Capı́tulo 7
Modelo de predicción del Ibex 35
Figura 7.19: Histograma de los saltos
Fuente: Elaboración propia
Función de densidad de los residuos
Función de densidad de Normal (−0,0004; 0,0814)
200
150
100
50
0
Frecuencia absoluta
250
300
Figura 7.20: Histograma de los saltos negativos (a) y positivos (b)
−0.2
−0.1
0.0
Residuos
Fuente: Elaboración propia
116
0.1
Modelo de predicción del Ibex 35
Capı́tulo 7
Tabla 7.8: Datos descriptivos de los saltos
Número datos
Media
Desv. tı́pica
Saltos
positivos
24
0, 0742
0, 0203
Saltos
negativos
37
−0, 0835
0, 0350
Saltos
conjuntos
780
0, 0062
0, 0230
Fuente: Elaboración propia
S(t) = S + (t) + S − (t),
(7.12)
donde S ± (t) se definen tal y como se muestra en (7.13):
N ± (t)
±
S (t) =
X
Ji± ,
(7.13)
i=1
siendo N + (t) y N − (t) procesos de Poisson cuyas intensidades son λ+ y λ− ,
respectivamente. En (7.12), Ji± son dos secuencias de variables aleatorias
independientes e idénticamente distribuidas (i.i.d.) con las que se modeliza el
tamaño de los saltos. Los pasos que se han dado para simular el proceso S(t)
se detallan a continuación.
De los resultados del filtrado realizado sobre los residuos, se obtienen las
intensidades λ+ y λ− , las cuales se calculan como el número de saltos positivos
(24) y negativos (37), respectivamente, divididos entre el número de datos
totales. Los valores calculados son,
λ+ = 0, 03076923,
λ− = 0, 0474359,
respectivamente. Como se puede ver, los saltos negativos (descensos repentinos
del Ibex 35) son ligeramente más probables y más homogéneos que los saltos
positivos.
En primer lugar, se debe definir la función de distribución más adecuada
117
Capı́tulo 7
Modelo de predicción del Ibex 35
para los saltos. La observación del histograma de los saltos negativos (véase
figura 7.20, gráfico (a)) sugiere el empleo de una distribución exponencial
para modelizar los tamaños de los saltos (obviamente utilizando la misma
distribución para generar la longitud de saltos positivos). La longitud de ambos saltos ha sido determinada por la media que se muestra en la tabla 7.8 en
la columna de saltos conjuntos, cuya función de densidad de probabilidad es
de la forma dada en (7.14):
fExp (z) =
1
exp(−z/µJ ),
µJ
(7.14)
donde el parámetro µJ es el tamaño medio del salto. La estimación del
parámetro µJ para la distribución de los saltos tanto positivos como negativos se ha hecho utilizando el enfoque de máxima verosimilitud mediante la
muestra de saltos conjuntos, obteniéndose el valor µ
bJ = 0, 0062. A partir de
la distribución exponencial cuyo parámetro ha sido estimado se genera la longitud los saltos Ji+ y Ji− de la expresión (7.12), teniendo en cuenta que en el
caso de los negativos han de considerarse con dicho signo.
De esta forma se tiene una especificación completa del proceso estocástico
que gobierna la dinámica de los datos semanales del Ibex 35 en el periodo
considerado.
7.5
Validación total del modelo del Ibex 35
Para realizar la validación final del modelo propuesto se deben cumplir dos
condiciones para corroborar la normalidad de los residuos. Antes de realizar
los contrastes necesarios, se muestra a continuación en la figura 7.21 el ajuste
del modelo completo descomponiendo la parte determinista y estocástica.
Como puede observarse, la parte determinista acompaña la evolución del
Ibex 35 de una forma más suavizada. Si bien, la parte estocástica es la que
sigue más fielmente la evolución real, aportando al modelo la aleatoriedad del
ı́ndice bursátil.
A continuación se muestra el ajuste del modelo con ambas partes sumadas,
118
Modelo de predicción del Ibex 35
Capı́tulo 7
9.2
8.8
9.0
Log(Ibex−35)
9.4
9.6
Figura 7.21: Ajuste del modelo completo del Ibex 35 descompuesto en parte
determinista y la suma de la parte determinista y la estocástica
Parte determinista
8.6
Parte determinista+Parte estocástica
2000
2005
2010
Tiempo (semanas)
Fuente: Elaboración propia
en la figura 7.22.
En este caso puede observarse que el modelo recoge el comportamiento
cı́clico pero no es capaz de predecir adecuadamente los picos más pronunciados,
como es el caso de las bajadas de los primeros años, el brusco descenso de 2008
y 2012 y los picos del año 2000 y de 2007.
Ası́ pues, como se indicaba al inicio del apartado, es necesario que se cumplan dos condiciones para la validación final del modelo, en definitiva, para
demostrar la normalidad de los residuos.
En primer lugar, se muestra a continuación la distribución de la diferencia
de los datos reales frente a los datos del modelo en la figura 7.23. Visualmente
se puede comprobar que sı́ se ajusta a una distribución Normal, ya que la
función de densidad de los residuos se ajusta notablemente a la función de
densidad Normal.
En segundo lugar, el test de Kolmogorov-Smirnov, ya utilizado previamente
en el presente trabajo, ofrece un p-valor de 0, 0562, superior al 5% del nivel
119
Capı́tulo 7
Modelo de predicción del Ibex 35
9.5
9.0
8.5
Logaritmo del Ibex
10.0
Figura 7.22: Ajuste del modelo completo del Ibex 35
2000
2005
2010
Tiempo (semanas)
Fuente: Elaboración propia
Figura 7.23: Histograma de los residuos del modelo del Ibex 35
Fuente: Elaboración propia
120
Modelo de predicción del Ibex 35
Capı́tulo 7
de significación. Este resultado corrobora lo que se observaba visualmente, es
decir, que la distribución puede considerarse una distribución Normal. Por
este motivo, el modelo puede considerarse correcto.
Por último, las medidas de bondad del ajuste, descritas en el apartado 6.4.4,
calculadas para el modelo construido, se muestran en la tabla 7.9. A continuación se comentan los valores obtenidos de las distintas medidas señaladas.
Cabe destacar que las medidas MPE y MAPE son las más objetivas por cuanto
que se expresan en valores relativos (porcentajes) y, por tanto, sirven para
comparar con otros modelos incluso aplicados a otros datos.
Tabla 7.9: Medidas de bondad del ajuste del modelo con logaritmos
Medida
ME
RMSE
MAE
MPE
MAPE
Valor
−0, 0818
0, 1744
0, 1016
−0, 8938%
1, 1109%
Fuente: Elaboración propia
Puede observarse que las pruebas de bondad de ajuste ofrecen resultados
muy bajos, corroborando que el error del modelo es aceptable y el modelo en
sı́ es estadı́sticamente correcto, tal y como se observa en las gráficas.
7.6
Predicciones con el modelo. Aplicación de técnica Monte Carlo
El último apartado del presente capı́tulo aborda el estudio gráfico y analı́tico
del ajuste del modelo a los datos observados y la realización de predicciones
con el mismo mediante la técnica Monte Carlo. El método Monte Carlo se
trata de una herramienta no determinı́stica usada para aproximar expresiones
matemáticas complejas y costosas de evaluar con exactitud. Su aplicación
consiste en la generación del modelo una cantidad determinada de veces (en
nuestro caso 1.000), cuyos resultados son promediados y, en principio, deberı́a
121
Capı́tulo 7
Modelo de predicción del Ibex 35
aproximarse más a la realidad que una predicción puntual. Al añadirle un
intervalo de confianza consistente en los percentiles que mantengan el 95% de
las predicciones realizadas dentro del intervalo, tendremos el resultado final
del modelo gráficamente, es decir, si la predicción se ajusta a lo acontecido en
la realidad y, por lo tanto, es capaz de predecir el comportamiento del Ibex 35.
Para ello, se han agregado todas las partes del modelo, la determinista (7.7)
y la aleatoria dividida en tres partes, un modelo ARIMA, un residuo filtrado
generado a partir de la N(0, 00204; 0, 00057) y el proceso descrito para los saltos
(7.12). La parte determinista como su concepto indica es fija, mientras que
las tres partes aleatorias son generadas cada vez manteniendo constantes los
parámetros estimados originalmente. El modelo hasta las 819 semanas se ha
generado 1.000 veces de esta forma y se ha obtenido la media. A los datos
se les ha aplicado un intervalo de confianza mediante los cuartiles 0, 025 y
0, 975, para desestimar el 5% de datos extremos. El resultado gráfico se puede
observar la figura 7.24.
Figura 7.24: Ajuste del modelo completo al logaritmo del Ibex 35 y predicción
a 9 meses mediante técnica Monte Carlo
Fuente: Elaboración propia
En el gráfico anterior se muestra el resultado de la aplicación de la técnica
Monte Carlo anteriormente descrita, para el modelo sin saltos y con saltos.
Como puede observarse, el modelo propuesto recoge adecuadamente el reco122
Modelo de predicción del Ibex 35
Capı́tulo 7
rrido del Ibex 35 y logra captar en los intervalos la mayorı́a de observaciones,
a excepción de los picos inferiores de 1999 y 2008.
Las diferencias principales entre el modelo con y sin saltos son dos:
• En primer lugar, el modelo con saltos reduce el valor de la estimación,
como puede observarse en el gráfico que sigue aproximadamente la misma
pauta pero ligeramente por debajo. Esto se debe a que existen más
saltos negativos que positivos en el modelo planteado, por lo que éstos
se producen con más frecuencia y reducen el valor del Ibex.
• En segundo lugar, los saltos son más frecuentes conforme más se prolonga
en el tiempo la estimación. Esto se debe al proceso de Poisson utilizado.
Por este motivo la diferencia entre el intervalo sin saltos y el intervalo
con saltos es mayor en los últimos años que en los iniciales.
Finalmente, y al igual que se ha realizado anteriormente para la validación
del modelo, se han calculado las medidas de bondad del ajuste tanto con
los datos obtenidos de la simulación Monte Carlo como de los datos de la
predicción a 9 meses mediante la simulación Monte Carlo. Los resultados
obtenidos son los que se muestran en la tabla 7.10 y la tabla 7.1. Como puede
comprobarse, las pruebas de bondad de ajuste ofrecen resultados muy bajos,
corroborando nuevamente que el error es aceptable estadı́sticamente con la
técnica Monte Carlo tanto en el modelo en sı́ como en la predicción realizada.
Tabla 7.10: Medidas de bondad del ajuste del modelo mediante técnica Monte
Carlo
Medida
ME
RMSE
MAE
MPE
MAPE
Valor
0
0, 1330
0, 1024
0, 0210%
1, 1189%
Fuente: Elaboración propia
Tras haber finalizado el presente Trabajo Fin de Máster, habiendo desarrollado a nivel teórico y práctico el modelo estocástico de salto de Poisson
123
Capı́tulo 7
Modelo de predicción del Ibex 35
Tabla 7.11: Medidas de bondad del ajuste de la predicción a 9 meses mediante
técnica Monte Carlo
Medida
ME
RMSE
MAE
MPE
MAPE
Valor
−0, 1084
0, 0442
0, 1084
1, 2029%
1, 2029%
Fuente: Elaboración propia
compuesto para la predicción del Ibex 35 y validado el mismo, en el siguiente
capı́tulo se exponen las conclusiones finales y las propuestas de actuación.
124
Capı́tulo 8
Conclusiones. Propuestas de
actuación
En el presente trabajo se ha realizado, en primer lugar, una descripción del
mercado bursátil español y, posteriormente, se ha propuesto un modelo basado
en técnicas estadı́sticas para tratar de describir y estimar el comportamiento
del Ibex 35 en dicho mercado. Según los objetivos especificados en el capı́tulo
3, el trabajo se ha estructurado en dos partes, la primera de ellas dedicada al
marco teórico y la segunda al modelo del Ibex 35.
En la primera parte del trabajo, se han descrito las principales caracterı́sticas del mercado bursátil español, ası́ como su funcionamiento y los agentes
que participan en el mismo. Finalmente, esta primera parte se completa con
una revisión de las técnicas estadı́sticas empleadas en la elaboración del modelo.
Existen diversos hechos que motivan la elaboración de un modelo de predicción del Ibex 35. El primero de ellos es el alto grado de volatilidad que
se ha alcanzado en los mercados. El segundo, la propia adaptación de las
herramientas cuantitativas al análisis económico tradicional, lo cual amplı́a
en gran medida el conocimiento sobre los fenómenos económicos y facilita la
posibilidad de realizar predicciones sobre los mismos. El tercero y último,
125
Capı́tulo 8
Modelo de predicción del Ibex 35
mucho más genérico, la creciente tendencia observada en las empresas a combinar equipos multidisciplinares en los procesos directivos de análisis y toma
de decisiones, siendo necesario que los integrantes de dichos equipos conozcan
los campos de conocimiento aplicados, en este caso finanzas, matemáticas y
estadı́stica.
En la segunda parte, se ha analizado de forma empı́rica el comportamiento del Ibex 35 desde 1998 hasta 2012. Del análisis se han podido extraer
las principales caracterı́sticas del Ibex 35.
El modelo propuesto parte de la descripción clásica de series temporales
agregando las cuatro componentes: tendencia, ciclo, estacionalidad y componente irregular. Para las tres primeras se ha propuesto una combinación de
una función lineal y funciones trigonométricas de distintas frecuencias. La
parte irregular se ha modelizado combinando un modelo ARIMA con técnicas
estadı́sticas basadas en procesos estocásticos.
Las principales conclusiones que se pueden extraer tras la elaboración del
modelo y la obtención de predicciones son las que se señalan a continuación.
En primer lugar se ha determinado la existencia de cuatro fases en
el comportamiento del Ibex 35: la primera desde 1998 hasta el 2000 con un
comportamiento de subida inicial; la segunda que muestra una bajada significativa hasta 2003; la tercera desde el 2003 hasta el 2008 siendo observable un
incremento significativo del Ibex 35; y la última desde 2008 hasta mediados de
2012, en el cual se produce un descenso a prácticamente niveles de 2003 con
un comportamiento altamente volátil. Siguiendo la metodologı́a estadı́stica
propia para la elaboración de modelos basados en series temporales, a esta
serie se le han aplicado una corrección únicamente: toma de logaritmos naturales. Se estableció un criterio para la eliminación de outliers, pero no se
localizó ninguna observación extrema en el periodo especificado.
En la parte determinista del modelo se ha establecido la presencia de
dos componentes. La primera, una combinación de tendencia y ciclo. La
tendencia observada en la serie de datos modelizada es ligeramente creciente,
y la duración del ciclo observado es de 468 semanas (9 años), como demuestra
la estimación de los parámetros asociados a dichas componentes. La segunda es
la estacionalidad anual, con una frecuencia de 52 semanas (un año). Los tests
de hipótesis sobre los parámetros tuvieron como resultado la significatividad
de los mismos.
126
Modelo de predicción del Ibex 35
Capı́tulo 8
En cuanto a la parte aleatoria, se ha propuesto un modelo ARIMA sobre
los residuos de la parte determinista tras la identificación de estacionariedad en
los mismos, obteniéndose un ARIMA (1,0,2). Al proceder a la validación del
mismo se incumplieron las hipótesis de homocedasticidad y normalidad de los
residuos, por lo que ha sido necesario profundizar en el estudio de los residuos.
Los residuos del ARIMA fluctúan en torno al cero, pero con saltos extremos
cada cierto tiempo. Para modelizar los residuos se ha recurrido a la realización
de un filtrado para separar dichos saltos, siendo el resultado de ello que estos
residuos filtrados siguen una distribución N (0, 0020; 0, 0239). Para reproducir
el comportamiento de los saltos, se ha propuesto un proceso estocástico combinando dos procesos de Poisson compuestos, distribuidos simétricamente, para
los saltos positivos y negativos, respectivamente.
La volatilidad a la que se ha hecho referencia durante todo el trabajo y la dificultad para representarla con el modelo puede observarse gráficamente donde
el modelo sobreestima el valor del Ibex 35 en los picos más bajos y subestima en
los picos más altos, junto con la dificultad de predecir los movimientos bruscos
que sufre el Ibex 35 entre dichos picos, limitación intrı́nseca a la modelización
financiera.
Ası́ pues, por lo que se puede extraer de los gráficos y datos resultantes, el
modelo elaborado ha sido validadado correctamente pero no alcanza a realizar
una predicción puntual fiable del Ibex 35, ya que no logra recoger adecuadamente los saltos ni los datos más extremos del ciclo. Si bien, dado que los ciclos
económicos afectan también al mercado bursátil, podrı́a utilizarse el modelo
para detectar los puntos mı́nimos y máximos del Ibex 35, a fin de no confundir
un movimiento brusco como un punto de inflexión del ciclo. De este modo, la
aplicación a priori del modelo estudiado es útil para la inversión a largo plazo,
con la premisa hasta ahora correcta de que el mercado bursátil sigue el patrón
ciclı́co.
Los estudios posteriores sobre el trabajo realizado deberı́an contemplar un
modelo distinto que permita recoger mejor la parte aleatoria de saltos. A
continuación se señalan las propuestas de actuación que, a la vista de los
resultados del presente trabajo, pueden ser tenidas en consideración para el
futuro.
La primera de ellas y más evidente, es la continuación en la toma de datos
del Ibex 35 con el objeto de actualizar la estimación de los parámetros y deter127
Capı́tulo 8
Modelo de predicción del Ibex 35
minar, en su caso, posibles cambios en las distintas componentes observadas.
En segundo lugar, debido a la importancia de la parte aleatoria en el comportamiento del Ibex 35, se podrı́a recurrir a otros métodos de modelización
propuestos en distintos trabajos sobre la materia. Cabe señalar que la componente determinista consigue recoger las componentes clásicas de la serie, pero
es claramente insuficiente en la modelización de la parte irregular, para lo cual,
siguiendo el modelo de Schwarz (Benth y Saltyte Benth, 2013), se propone la
aplicación de la distribución Normal Inversa Gaussiana (NIG), que profundiza
en el empleo de los procesos estocásticos de la componente irregular.
Como tercer punto, hay que señalar las subestimaciones y sobreestimaciones que realiza el modelo en ciertos lapsos temporales, una de sus principales
debilidades. Son tal vez debidas a los periodos de tiempo establecidos para
las componentes de tendencia, ciclo y estacionalidad. Por ello, si se quisiera
estudiar con un mayor detalle el comportamiento del Ibex 35, se deberı́an
considerar diferentes periodos de tiempo.
El cuarto aspecto que se debe tener en cuenta es el cálculo de unos intervalos de confianza para las predicciones que tengan en cuenta todas las fuentes
de variabilidad e incertidumbre del modelo y no sólo del ARIMA, como se ha
realizado en el presente trabajo. Estas fuentes son los errores estándar de la estimación de los parámetros de la parte determinista y los procesos estocásticos
de la componente irregular.
En quinto lugar, cabe destacar que la parte aleatoria de la predicción mediante la técnica Monte Carlo del modelo se ha realizado manteniendo constantes los parámetros estimados con los datos originales. Si se reestimaran estos
parámetros en cada simulación de la técnica Monte Carlo podrı́a fortalecerse
la parte aleatoria y de este modo mejorarse el modelo.
En último lugar y no por ello menos importante, no hay que dejar de lado
el carácter multidisciplinar que gobierna el espı́ritu del trabajo. Esta forma
de analizar los problemas cotidianos que se le pueden presentar a una empresa
otorga distintos puntos de vista y diversas fuentes tanto de discusión de los
propios problemas como de búsqueda de soluciones a partir de las disciplinas
estudiadas, lo cual se configura como una poderosa herramienta que debe tenerse en cuenta para ser aplicada, con todas sus ventajas e inconvenientes, a la
gestión de empresas.
128
Bibliografı́a
Benth, F.E. y Saltyte Benth, J.: Modeling and Pricing in Financial
Markets for Weather Derivatives. World Scientific, New York, 2013.
Chirivella, V.: Apuntes de Econometrı́a. n0. 12059-C. Ed. Universitat
Politècnica de València, Valencia, 2008.
Cortés, J.C.; Debón, A. y Moreno, C.: Mathematical Modelling in
Social Sciences and Engineering (Chapter 33: Portfolio composition to
replicate stock market indexes. Application to the Spanish index Ibex-35).
Nova Publ., 2014.
Dı́az, A.: Introducción al Mercado Bursátil. McGraw Hill, Madrid, 2012.
Facultad de Administración y Dirección de Empresas, Universitat Politècnica de València: Normativa del Trabajo Fin de
Máster , 2010.
http://www.upv.es/entidades/ADE/infoweb/fade/info/
637966normalc.html
Greene, W.H.: Análisis Econométrico. Prentice Hall, Cambridge, 2000.
Hair, J.F.: Multivariate Data Analysis. Prentice Hall International,
Berlı́n, 1995.
Hernández, B.: Bolsa y Estadı́stica Bursátil. Dı́az de Santos, 1999.
Hyndman, R. J.; Athanasopoulos, G.; Razbash, S.; Schmidt, D. y
Zhou, Z.: Forecast: Forecasting Functions for Time Series and Linear
Models (R package version 4.00), 2012.
129
Capı́tulo 8
Modelo de predicción del Ibex 35
Hyndman, R.J.; Koehler, A.B.; J.K., Ord y Snyder, R.D.: Forecasting with Exponential Smoothing: The State Space Approach. Springer,
New York, 2005.
Mateu, J.L.: Análisis Técnico de los Mercados Financieros. Instituto
Superior de Técnicas y Prácticas Bancarias, Madrid, 2003.
Murphy, J.J.: Análisis Técnico de los Mercados Financieros. Ediciones
Gestión 2000, Madrid, 2007.
Pring, M.J.: Análisis Técnico Explicado. Gesmovasa, Madrid, 1989.
Shumway, R.H. y Stoffer, D.S.: Time Series Analysis and its Applications with R Examples. Springer, New York, 2006.
Thode, H.C.: Testing for Normality. Marcel Dekker, New York, 2002.
Trapletti, A. y Hornik, K.: R Package Time Series Analysis and
Computational Finance. Free Software, 2012.
Tvede, L.: Psicologı́a del Mercado Bursátil. Deusto, Madrid, 1990.
Velez, O. y Capra, G.: Day Trading. Negociación Intradı́a: Estrategias
y Tácticas. Deusto, Madrid, 2011.
Zucchini, W. y Nenadic, O.: Time Series Analysis with R: Part I.
Goettinghen University, Goettinghen, 2008.
130
Descargar