Predicción del Ibex 35 con un modelo estocástico de salto de Poisson compuesto Trabajo Fin de Máster Máster en Dirección Financiera y Fiscal Presentado por: Oscar Monzó Chafer Profesores tutores: Dr. Juan Carlos Cortés López Dra. Ana Marı́a Debón Aucejo Universitat Politècnica de València, febrero 2014 Facultad de Administración y Dirección de Empresas Índice Índice de Tablas 7 Índice de Figuras 10 1 Resumen del Trabajo 11 2 Objeto del Trabajo Fin de Máster y justificación de las asignaturas relacionadas 15 3 Objetivos del Trabajo 17 4 Antecedentes. Evolución histórica, situación actual y funcionamiento del Ibex 35 21 4.1 Evolución histórica y composición del Ibex 35 . . . . . . . . . . 22 4.2 Cálculo del Ibex 35 . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3 Necesidad de predicción del Ibex 35 . . . . . . . . . . . . . . . 25 4.4 Análisis técnico bursátil como método de predicción . . . . . . 26 5 Formulación del modelo econométrico. Regresión no lineal y ajuste por mı́nimos cuadrados 29 5.1 Modelización econométrica . . . . . . . . . . . . . . . . . . . . 30 5.1.1 Formulación del modelo . . . . . . . . . . . . . . . . . . 30 5.1.2 Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . 32 3 Índice 5.1.3 Estimación de parámetros del modelo y de la varianza de la perturbación. Mı́nimos Cuadrados Ordinarios (MCO) 33 Intervalos de confianza de los parámetros y de la varianza de la perturbación . . . . . . . . . . . . . . . . . . . . . 34 Coeficiente de determinación y coeficiente de determinación corregido . . . . . . . . . . . . . . . . . . . . . . 36 Contraste de hipótesis sobre los parámetros del modelo mediante la utilización del estadı́stico F . . . . . . . . . 37 Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2 Diagnosis y validación del modelo de regresión . . . . . . . . . 42 5.3 Descripción de los análisis estadı́sticos utilizados . . . . . . . . 46 5.3.1 Regresión no lineal . . . . . . . . . . . . . . . . . . . . . 46 5.3.2 Ajuste de funciones no lineales en R . . . . . . . . . . . 48 5.3.3 Técnicas de suavizado de datos . . . . . . . . . . . . . . 49 5.1.4 5.1.5 5.1.6 5.1.7 6 El modelo ARIMA. Análisis y descripción de series temporales 53 6.1 Introducción e ideas básicas . . . . . . . . . . . . . . . . . . . . 54 6.2 Series temporales univariantes . . . . . . . . . . . . . . . . . . . 55 6.2.1 Modelo clásico de descripción de series temporales . . . 55 6.2.2 Procesos estocásticos . . . . . . . . . . . . . . . . . . . . 60 6.2.3 Procesos estacionarios . . . . . . . . . . . . . . . . . . . 63 6.2.4 Procesos integrados 65 6.3 6.4 . . . . . . . . . . . . . . . . . . . . Análisis y predicción de series temporales univariantes. Metodologı́a Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 6.3.1 Modelos para procesos estacionarios . . . . . . . . . . . 68 6.3.2 Modelos para procesos integrados . . . . . . . . . . . . . 72 6.3.3 Metodologı́a de Box-Jenkins . . . . . . . . . . . . . . . . 72 Identificación y predicción del modelo ARIMA . . . . . . . . . 73 6.4.1 Identificación de la estructura no estacionaria . . . . . . 74 6.4.2 Identificación de la estructura ARMA . . . . . . . . . . 74 6.4.3 Estimación del modelo ARIMA . . . . . . . . . . . . . . 75 6.4.4 Predicción automática. El paquete de predicción para R 75 4 Índice 6.5 Validación del modelo ARIMA . . . . . . . . . . . . . . . . . . 79 6.5.1 Contrastes sobre los parámetros . . . . . . . . . . . . . 79 6.5.2 Contrastes sobre el error . . . . . . . . . . . . . . . . . . 79 6.5.3 Contrastes sobre el modelo. Reformulación y sobreajuste 81 7 Predicción del Ibex 35 con un modelo estocástico de salto de Poisson compuesto 83 7.1 7.2 7.3 Introducción. Selección y correcciones sobre la serie de datos . 84 7.1.1 La serie de datos . . . . . . . . . . . . . . . . . . . . . . 84 7.1.2 Ajustes realizados sobre la serie de datos . . . . . . . . . 88 7.1.3 Descripción estadı́stica de la serie de datos corregida . . 92 7.1.4 Descomposición detallada de la serie de datos corregida 95 Elaboración del modelo del Ibex 35 . . . . . . . . . . . . . . . . 96 7.2.1 Ajuste del modelo del Ibex 35. Parte determinista . . . 98 7.2.2 Modelo ARIMA para la componente irregular. Parte aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Validación del modelo del Ibex 35 . . . . . . . . . . . . . . . . . 105 7.3.1 Contrastes sobre los parámetros . . . . . . . . . . . . . 106 7.3.2 Contrastes sobre el error . . . . . . . . . . . . . . . . . . 106 7.4 Modelo para los residuos . . . . . . . . . . . . . . . . . . . . . . 112 7.5 Validación total del modelo del Ibex 35 7.6 Predicciones con el modelo. Aplicación de técnica Monte Carlo 121 8 Conclusiones. Propuestas de actuación Bibliografı́a . . . . . . . . . . . . . 118 125 129 5 Índice de Tablas 5.1 Modelo de tabla ANOVA para el análisis de la varianza . . . . 39 6.1 Similitudes y diferencias en la FAS y la FAP de los modelos AR(p), MA(q) y ARMA(p,q) . . . . . . . . . . . . . . . . . . . 71 6.2 Medidas de bondad del ajuste obtenidas con el modelo ARIMA 78 7.1 Parámetros principales de la serie de datos corregida . . . . . . 93 7.2 Resultados del ajuste del modelo tendencia-ciclo . . . . . . . . 100 7.3 Resultados del ajuste del modelo estacional . . . . . . . . . . . 104 7.4 Resultados del ajuste del modelo ARIMA (1,0,2) . . . . . . . . 106 7.5 Ajuste del cuadrado de los residuos frente al tiempo . . . . . . 109 7.6 Ajuste del cuadrado de los residuos frente a la variable observada109 7.7 Resumen del proceso de filtrado de los residuos . . . . . . . . . 114 7.8 Datos descriptivos de los saltos . . . . . . . . . . . . . . . . . . 117 7.9 Medidas de bondad del ajuste del modelo con logaritmos . . . . 121 7.10 Medidas de bondad del ajuste del modelo mediante técnica Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.11 Medidas de bondad del ajuste de la predicción a 9 meses mediante técnica Monte Carlo . . . . . . . . . . . . . . . . . . . . . 124 7 Índice de Figuras 5.1 Ejemplo de papel probabilı́stico normal . . . . . . . . . . . . . 43 5.2 Ejemplo de salida en pantalla de análisis tsdiag de un modelo correctamente especificado . . . . . . . . . . . . . . . . . . . . . 45 5.3 Salida de pantalla del análisis stl . . . . . . . . . . . . . . . . . 50 5.4 Ejemplo de suavizado loess . . . . . . . . . . . . . . . . . . . . 51 6.1 Ejemplo de proceso con tendencia creciente . . . . . . . . . . . 57 6.2 Ejemplo de proceso con variaciones cı́clicas . . . . . . . . . . . 58 6.3 Ejemplo de proceso con estacionalidad . . . . . . . . . . . . . . 59 6.4 Ejemplo de proceso con comportamiento irregular . . . . . . . 60 6.5 Realizaciones de la variable Zt y distribución en cada instante de tiempo t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.6 Relación entre los valores de un proceso estacionario . . . . . . 65 6.7 Diferenciación de un proceso no estacionario . . . . . . . . . . . 66 6.8 FAS de una serie con tendencia . . . . . . . . . . . . . . . . . . 66 6.9 Relación entre valores de un AR (1) . . . . . . . . . . . . . . . 69 6.10 Relación entre valores de un AR (2) . . . . . . . . . . . . . . . 70 7.1 7.2 Evolución del Ibex 35 desde el 1 de enero de 1998 al 31 de diciembre de 2012 . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Rentabilidad promedio histórica de los dı́as de la semana . . . . 88 9 Índice de Figuras 7.3 Gráfico Box-Whisker del logaritmo de los datos . . . . . . . . . 90 7.4 Logaritmo de los datos semanales corregidos desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012 . . . . . . . . . . . . . 91 7.5 Histograma de los datos del Ibex 35 . . . . . . . . . . . . . . . 93 7.6 Histograma del logaritmo de los datos del Ibex 35 . . . . . . . . 94 7.7 Descomposición de la serie completa del Ibex 35 (1998-2012) 97 7.8 Ajuste del modelo tendencia-ciclo a los datos corregidos . . . . 101 7.9 Serie de datos corregidos sin tendencia ni ciclo . . . . . . . . . 101 . 7.10 Ajuste del modelo estacional anual . . . . . . . . . . . . . . . . 103 7.11 Serie descontada de tendencia, ciclo y estacionalidad anual . . . 103 7.12 FAS y FAP de la componente irregular . . . . . . . . . . . . . . 105 7.13 Residuos frente a la variable (a) y frente al tiempo (b) . . . . . 108 7.14 Resultados del análisis tsdiag . . . . . . . . . . . . . . . . . . . 110 7.15 Gráfico Q-Q de normalidad de los residuos estandarizados . . . 111 7.16 Serie de residuos del modelo . . . . . . . . . . . . . . . . . . . . 112 7.17 Histograma de los residuos . . . . . . . . . . . . . . . . . . . . . 113 7.18 Histograma de los residuos filtrados . . . . . . . . . . . . . . . . 115 7.19 Histograma de los saltos . . . . . . . . . . . . . . . . . . . . . . 116 7.20 Histograma de los saltos negativos (a) y positivos (b) . . . . . . 116 7.21 Ajuste del modelo completo del Ibex 35 descompuesto en parte determinista y la suma de la parte determinista y la estocástica 119 7.22 Ajuste del modelo completo del Ibex 35 . . . . . . . . . . . . . 120 7.23 Histograma de los residuos del modelo del Ibex 35 . . . . . . . 120 7.24 Ajuste del modelo completo al logaritmo del Ibex 35 y predicción a 9 meses mediante técnica Monte Carlo . . . . . . . . . . . . . 122 10 Capı́tulo 1 Resumen del Trabajo El Ibex 35 es el principal ı́ndice de referencia del mercado bursátil español, compuesto por las 35 empresas cotizadas con más liquidez de nuestra economı́a. Su valor es un reflejo de la situación económica del paı́s y de la perspectiva que tienen los inversores de la misma. Por este hecho, estudiar su evolución y tratar de predecir su valor futuro es de gran interés económico, especialmente en el entorno actual en el que los mercados son altamente volátiles y se maneja gran cantidad de información. El mercado bursátil tiene una serie de particularidades que lo definen y lo caracterizan. En este mercado se negocian valores de las empresas cotizadas por los miembros del mercado, bien sea por cuenta propia o por orden de sus clientes. Mediante esta negociación, basándose en la ley de la oferta y la demanda se establece el precio de mercado. Este precio es el de la última transacción realizada, que es el punto en el que el precio de demanda y oferta han coincidido y se ha producido el intercambio de valores. Esto conlleva que siempre exista una contraparte con la que se produce el intercambio, no se trata de un “almacén” ficticio donde se cogen o dejan tı́tulos. Por ello mismo influye notablemente la psicologı́a de masas y las grandes corporaciones, y por éste y múltiples motivos, la bolsa sigue al ciclo económico siempre de forma anticipada. En los próximos capı́tulos se tratarán con más detalle estos puntos. 11 Capı́tulo 1 Modelo de predicción del Ibex 35 Ası́ pues, para controlar de mejor forma los riesgos y poder prever de forma general el comportamiento de los precios en cualquier mercado se hace necesario elaborar modelos matemáticos y estadı́sticos, que ayuden a las usuarios en la toma de decisiones en ambientes de incertidumbre, como es el caso del mercado bursátil. Si bien, en economı́a la toma de decisiones ha estado frecuentemente influida por la experiencia de los agentes de un mercado o por las opiniones de expertos (las denominadas técnicas cualitativas). Es por ello que cada vez se hace más necesaria la aplicación de técnicas multidisciplinares de distinta ı́ndole de forma que las empresas tengan una visión global y de conjunto de los problemas y retos a los que se enfrentan. Las técnicas matemáticas empleadas en la elaboración del modelo que nos ocupa son, por un lado, la modelización econométrica clásica, es decir, el ajuste de curvas por regresión y, por otro lado, las técnicas estadı́sticas de análisis y modelización de series temporales mediante los modelos denominados ARIMA. La justificación del empleo de estas dos técnicas es la existencia a su vez de dos partes diferenciadas en el modelo: una parte determinista, cuyo comportamiento puede ser replicado por funciones lineales y trigonométricas, y una parte aleatoria, para la cual ha sido necesario recurrir al modelo ARIMA y al modelo de saltos Poisson compuesto. En este trabajo se presenta un modelo del ı́ndice español Ibex 35 basado en técnicas analı́ticas y estadı́sticas, elaborado a partir de los datos de cierre semanales del mercado desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012. En primer lugar, se ha identificado la existencia de un “comportamiento regular” en los datos del Ibex 35, necesario para determinar la posibilidad de modelizar dichos datos siguiendo el modelo clásico de descripción de series temporales, es decir, descomponiendo la serie en sus elementos: tendencia, ciclo, estacionalidad y componente irregular. En segundo lugar, se han realizado las correcciones que se consideran habituales en el campo estadı́stico sobre los datos, como son la eliminación de valores extremos y sustitución por otros más adecuados si los hubiera (no ha sido necesario dada su inexistencia) o la aplicación de logaritmos en los datos previamente a la modelización. En tercer lugar, se realiza el ajuste de la parte determinista, dividida en varias partes. La primera de ellas recoge las componentes tendencia-ciclo a 12 Modelo de predicción del Ibex 35 Capı́tulo 1 partir de la combinación de una función lineal para la tendencia y una función trigonométrica para el ciclo. La segunda, modeliza la componente estacional anual, con una función coseno con frecuencia de un año. La componente irregular (parte aleatoria del modelo) requerirá de un tratamiento especial, puesto que no será una serie estacionaria, siendo necesario entonces aplicar técnicas estadı́sticas de modelización y predicción. En este caso se ha empleado un modelo ARIMA para recoger el comportamiento de la componente irregular de los precios, siendo necesario emplear series estocásticas para obtener una explicación más precisa. Para la modelización de los saltos extremos que se producen en el Ibex 35 a lo largo del tiempo se ha empleado un proceso de Poisson compuesto. Finalmente, se realiza una validación del modelo completo para comprobar su idoneidad y la bondad del ajuste sobre la serie de datos que se desea modelizar. También se obtienen predicciones de forma puntual y mediante la técnica Monte Carlo, junto con una evaluación de las mismas, estableciéndose en su caso las correcciones necesarias a tal efecto y las propuestas de mejora para el modelo elaborado. 13 Capı́tulo 2 Objeto del Trabajo Fin de Máster y justificación de las asignaturas relacionadas El presente trabajo se divide en dos partes bien diferenciadas. La primera, desde el capı́tulo 4 hasta el capı́tulo 6, recoge de forma teórica y descriptiva tanto el funcionamiento del Ibex 35 y el mercado bursátil en España, como de las técnicas empleadas en la modelización, la regresión no lineal y el modelo ARIMA. La segunda parte, el capı́tulo 7, es eminentemente práctica, ya que consiste en aplicar los conocimientos expuestos en los anteriores capı́tulos en la elaboración de un modelo de predicción semanal del Ibex 35. El objetivo principal de este trabajo, por lo tanto, es la descripción del mercado bursátil español a través del ı́ndice Ibex 35 y la aplicación de técnicas analı́ticas y estadı́sticas para tratar de predecir su comportamiento semanal. En cuanto a las asignaturas relacionadas, en el Máster en Dirección Financiera y Fiscal se han estudiado asignaturas de distinta ı́ndole dirigidas a dotar de las herramientas necesarias en el mundo del ejercicio financiero, las cuales, en buena medida, se han tratado de aplicar a la hora de realizar la presente TFM. 15 Capı́tulo 2 Modelo de predicción del Ibex 35 • Modelización y Valoración de Opciones Financieras: En esta asignatura se estudian diferentes métodos de valoración y predicción para los precios de distintos subyacentes financieros. Los métodos aplicados son principalmente analı́ticos, destacando los modelos discretos basados en árboles binomiales y modelos continuos fundamentados en el modelo Lognormal para valorar primas de opciones, como el modelo de Black-Scholes de valoración de opciones o los basados en el movimiento brownianogeométrico. La aplicación de diversos métodos analı́ticos es una de las partes fundamentales del presente trabajo. • Mercados Financieros y Valoración de Empresas: En esta asignatura se estudian métodos de valoración de empresas y análisis de diferentes activos financieros empleando técnicas de análisis sectorial (dentro del análisis fundamental de empresas) y el análisis técnico o chartista, basado en la observación de tendencias a partir de los gráficos de cotizaciones. Además, se realiza una introducción a la aplicación de modelos econométricos y estadı́sticos para la predicción del valor de diferentes activos financieros, principalmente acciones de empresas cotizadas. Tanto los conceptos del análisis sectorial y técnico como las técnicas econométricas y estadı́sticas de predicción se han aplicado en las dos partes de este trabajo. A parte de las asignaturas señaladas anteriormente, también cabe hacer mención a los conocimientos adquiridos durante la Licenciatura de Administración y Dirección de Empresas, los cuales han sido utilizados tanto para describir el contexto en el que se encuadra el Ibex 35 como reflejo de la economı́a española, como para comprender el funcionamiento del mercado bursátil en sı́. Finalmente, se debe señalar que el aprendizaje del programa estadı́stico con el que se ha desarrollado el modelo del Ibex 35, denominado R, ha sido principalmente debido a la dedicación de los tutores del Trabajo, además del empleo del mismo a lo largo del trabajo. 16 Capı́tulo 3 Objetivos del Trabajo Los objetivos del trabajo son acordes a aquellos que establece la normativa de la Facultad de Administración y Dirección de Empresas de la Universitat Politècnica de València respecto a las TFM (Facultad de Administración y Dirección de Empresas, 2010), es decir: • Debe estar orientado a la aplicación y evaluación de competencias asociadas al tı́tulo. • Debe ser original y quedar de manifiesto los conocimientos, habilidades y competencias adquiridas en el tı́tulo. Por extensión de los Trabajos Final de Carrera, también se ha tratado de que cumpla los siguientes requisitos: • Debe estar basado en problemas reales. • Debe ser fundamentalmente práctico y aplicado. • Debe apoyarse en las asignaturas cursadas y relacionadas con la naturaleza del trabajo. 17 Capı́tulo 3 Modelo de predicción del Ibex 35 • Debe estar relacionado con el trabajo profesional. • Debe tender un puente hacia el ejercicio profesional habitual. A los efectos del cumplimiento de los puntos arriba señalados, se describen a continuación cuáles son los objetivos del presente trabajo. El trabajo se ha dividido en dos partes con el objeto de separar, por un lado, el estudio de las herramientas empleadas en la elaboración de un modelo de predicción del Ibex 35 y, por otro lado, la elaboración del propio modelo. Por esta razón, en primer lugar se estudia el marco teórico del mercado bursátil español y las técnicas matemáticas y estadı́sticas que serán empleadas en la modelización. El análisis que se plantea en esta primera parte abarca varios objetivos. En primer lugar, la descripción del funcionamiento del mercado bursátil español, posteriormente las técnicas de modelización matemática y, por último, la revisión del modelo ARIMA. Por lo que respecta al mercado bursátil español, los objetivos que se han establecido están relacionados con su descripción y funcionamiento. Al realizar una revisión de las técnicas de modelización matemática y del modelo ARIMA, se pretende recoger los conocimientos que sobre estas materias se han estudiado en la Licenciatura de Administración y Dirección de Empresas y en el Máster en Dirección Financiera y Fiscal, ası́ como profundizar en los mismos a los efectos de disponer de una mayor variedad y amplitud de herramientas que puedan ser utilizadas en la elaboración del modelo. Otro de los objetivos que este trabajo pretende alcanzar es el planteamiento y resolución de un problema mediante técnicas multidisciplinares, el cual se ha abordado con una revisión de los contenidos adecuados pertenecientes a tres disciplinas aplicadas: finanzas, matemáticas y estadı́stica. Como segunda parte del trabajo, se propone el estudio y modelización de datos semanales del Ibex 35 desde 1998 hasta 2012. Para ello se han empleado los datos de cierre semanal del Ibex 35. El primer fin del modelo es poder explicar el comportamiento semanal del ı́ndice Ibex 35. Se han escogido intervalos semanales porque son datos más fiables para una predicción teniendo en cuenta ciclos económicos, ya que los datos diarios sufren de una volatilidad mayor y no son adecuados para contemplar adecuadamente un periodo de tiempo tan largo. 18 Modelo de predicción del Ibex 35 Capı́tulo 3 Los objetivos planteados en la elaboración del modelo son los siguientes: en primer lugar, analizar en detalle el comportamiento de la serie de datos para establecer de forma preliminar los patrones que dominan su dinámica; en segundo lugar, cuando se disponga de la descripción básica de los patrones de la serie, se propondrá un modelo basado en las técnicas estudiadas en la primera parte del trabajo. El punto de partida del modelo propuesto consiste en la aplicación de técnicas analı́ticas en aquellas componentes de la serie que presenten un comportamiento determinista. Posteriormente, aquella parte de los datos que no pueda ser explicada por la componente determinista, requerirá de la aplicación de técnicas estadı́sticas, debido a la aleatoriedad que suele caracterizar buena parte de la dinámica de las series temporales de variables financieras. El segundo fin que se persigue con el modelo es poder realizar predicciones razonables sobre un periodo de tiempo. No obstante su valor numérico no deja de ser aproximado y por ello es conveniente una valoración de su error y la obtención de un intervalo de confianza para la estimación obtenida. Además, la predicción del Ibex 35 debe llevarse a cabo mediante la construcción de intervalos de confianza para las estimaciones obtenidas puesto que de esta forma tenemos la medición, mediante la confianza, en términos de probabilidad de la incertidumbre que rodea a dicha estimación. Estas predicciones se realizarán de forma puntual y mediante la aplicación de la técnica Monte Carlo, la cual se describirá más adelante. 19 Capı́tulo 4 Antecedentes. Evolución histórica, situación actual y funcionamiento del Ibex 35 En este capı́tulo del trabajo se introduce el ı́ndice Ibex 35 en sı́ y el mercado bursátil español (Dı́az, 2012), con especial incidencia en por qué el método propuesto es válido para la predicción del Ibex 35 desde un punto de vista de análisis técnico bursátil. 21 Capı́tulo 4 4.1 Modelo de predicción del Ibex 35 Evolución histórica y composición del Ibex 35 Como se ha adelantado anteriormente, el Ibex 35 es el principal ı́ndice de referencia del mercado bursátil español. Está compuesto por las 35 empresas cotizadas con más liquidez del Sistema de Interconexión Bursátil Electrónico (SIBE) en las cuatro bolsas españolas (Madrid, Barcelona, Bilbao y Valencia). Se elabora por la empresa Bolsas y Mercados Españoles, operador de todos los mercados de valores y sistemas financieros de España. Esta empresa además es la encargada de la gestión y funcionamiento del SIBE y de la gestión, cálculo, composición y difusión del Ibex 35. Aparte del Ibex 35, existen homólogos en todos los paı́ses desarrollados, como son el Dow Jones en EE.UU., el DAX 30 en Alemania, el FTSE 100 en Reino Unido o el CAC 40 en Francia. Los valores que componen el Ibex 35 varı́an con el tiempo, en función de la decisión del Comité Asesor Técnico, un grupo de expertos que se reúne dos veces al año ordinariamente y determinan la entrada/salida de empresas en el ı́ndice. La reunión ordinaria no supone necesariamente la modificación del ı́ndice, pudiendo mantenerse con los valores anteriores. Asimismo, no es necesaria la reunión ordinaria para realizar modificaciones en el Ibex 35 en caso de que el Comité Asesor Técnico ası́ lo decida. Para valorar la liquidez de los valores que componen el Ibex 35 el Comité Asesor Técnico se basa en distintas cuestiones plasmada en las Normas Técnicas para la Composición y Cálculo de los Índices de Sociedad de Bolsas, S.A., que son: • El volumen de negociación en el mercado. • La suspensión de la cotización durante un periodo que pueda considerarse significativo. • La calidad del volumen. Se descontará el volumen que se haya producido por: – Consecuencia de operaciones que conlleven un cambio importante en el accionariado de la empresa. 22 Modelo de predicción del Ibex 35 Capı́tulo 4 – Haya sido producido por un único miembro del mercado, realizado en pocas negociaciones o en un espacio de tiempo considerado poco representativo. – Que el efectivo negociado sufra un descenso tal que se considere que la liquidez del valor está gravemente afectada. No importa el sector al que pertenece la empresa ni su dimensión para poder formar parte del Ibex 35. Tampoco influye el comportamiento de los precios, únicamente su liquidez, es decir, el volumen negociado. Si bien existen una serie de requisitos que atender para la inclusión o exclusión de un valor en el ı́ndice, el Comité Asesor Técnico dispone de libertad para, a su juicio, llevarla a cabo incumpliendo los requisitos establecidos. Ası́ pues, este ı́ndice es técnicamente un ı́ndice de precios de los valores que lo componen, ponderados en función de su capitalización bursátil, que queda reflejado en un valor numérico. Este valor numérico se inició en 3.000 puntos. Este inicio se remonta al 14 de enero de 1992. Sin embargo, se pueden obtener cotizaciones anteriores desde 1989 mediante estimaciones que se realizaron posteriormente. Desde este punto inicial, el Ibex 35 osciló entre los 3.000 y 4.000 puntos aproximadamente hasta finales de 1996, momento en el que rompe con fuerza al alza por la fuerte especulación que tuvo lugar con las empresas de telecomunicaciones e internet, alcanzando los 10.000 puntos en año y medio, a principios de 1998. A partir de este año sufre oscilaciones hasta alcanzar su primer máximo cerca de los 12.500 puntos a principios del año 2000, punto desde el que baja rápidamente hasta los 5.400 puntos a finales de 2002. Nuevamente a finales de 2007 alcanza un máximo todavı́a superior, cercano a los 16.000 puntos, tras una subida con pocos descensos. En este año, al estallar la crisis financiera y pincharse la burbuja inmobiliaria, el ı́ndice se hunde hasta los 7.600 puntos en 2009, mı́nimo del que intenta repuntar pero sin éxito, descendiendo hasta los 6.000 puntos en 2012, marcando un mı́nimo desde los 5.400 de 2002. Actualmente, después de un año 2012 de gran volatilidad, el Ibex 35 cotiza en torno a los 10.000 puntos, en un claro sı́ntoma de recuperación sostenida en los últimos meses. A continuación se explicará cómo se calcula el Ibex 35. 23 Capı́tulo 4 4.2 Modelo de predicción del Ibex 35 Cálculo del Ibex 35 Para el cálculo del Ibex 35 se utiliza una fórmula matemática que recoge la capitalización bursátil (precio por número de acciones) de las 35 empresas que compongan el Ibex 35, aplicando además un coeficiente de ajuste. Por esta forma de cálculo las empresas con mayor capitalización tendrán más peso en el ı́ndice y sus oscilaciones afectarán en mayor medida al mismo. En consecuencia, únicamente las empresas Santander, Telefónica, BBVA, Inditex, Iberdrola y Repsol ya representan cerca del 70% del ı́ndice, siendo tan sólo 6 de 35. La fórmula matemática para el cálculo es: Ibex 35(t) = Ibex 35(t − 1) · 35 X Capi (t) i=1 35 X i=1 , (4.1) Capi (t − 1) + J siendo: • t, instante de cálculo del ı́ndice. • Capi (t), capitalización de la compañı́a i incluida en el ı́ndice en el instante t, es decir, S(t) × P (t). • S(t), número acciones computables para el cálculo del valor del ı́ndice en el instante t. • P (t), precio de las acciones de la compañı́a incluida en el ı́ndice en el instante t. • P35 i=1 Capi (t), suma de la capitalización de todas las compañı́as incluidas en el ı́ndice en el instante t. • J, cantidad utilizada para ajustar el valor del ı́ndice. 24 Modelo de predicción del Ibex 35 Capı́tulo 4 El valor del coeficiente J representa la capitalización de ajuste para asegurar la continuidad del ı́ndice. Esta cantidad J es introducida con motivo de determinadas operaciones financieras definidas de acuerdo a las Normas Técnicas de Composición y Cálculo del Índice. El objetivo es asegurar que el ı́ndice no se vea alterado por las operaciones financieras indicadas, como: • Dividendos ordinarios y similares. • Dividendos extraordinarios y similares. • Ampliaciones y reducciones de capital. • Emisión de instrumentos financieros convertibles o canjeables. • Variaciones del valor nominal. • Fusiones y absorciones. • Segregación patrimonial o escisión societaria con retribución a los accionistas. Con carácter general, se toma como precio el de la última transacción realizada en el SIBE. El número de acciones para el cálculo dependerá del capital flotante (que varı́a en función de las operaciones financieras arriba indicadas que tengan lugar). Sin embargo, el Comité Asesor Técnico podrá tomar otras decisiones en ambos sentidos, justificando sus decisiones en base a criterios objetivos y publicándolas con la antelación oportuna suficiente. 4.3 Necesidad de predicción del Ibex 35 En la actualidad la economı́a es cada vez más competitiva y existen múltiples factores de riesgo que afectan a la toma de decisiones. Por ello, los métodos de decisión y predicción cobran especial relevancia, y más concretamente en la predicción de la economı́a en su conjunto. Esto no sólo es útil en términos macroeconómicos, ya que si lo trasladamos al objeto del presente trabajo, la predicción de un ı́ndice bursátil puede suponer un beneficio significativo en el corto y medio plazo mediante la especulación con los valores. 25 Capı́tulo 4 Modelo de predicción del Ibex 35 Ası́ pues, el uso de métodos matemáticos, estadı́sticos y econométricos es necesario para reducir y acotar el intervalo de variación de las variables que se analizan en cada caso. Por ende, es imprescindible el conocimiento de técnicas y métodos concretos que faciliten la determinación de hipótesis o predicciones acerca de la evolución futura de determinadas variables. En función de las necesidades de cada caso, se requerirá una aproximación cualitativa o bien el uso de sofisticadas técnicas estadı́sticas y matemáticas que ofrezcan un intervalo con una confianza concreta. La necesidad de la predicción, como ya se ha adelantado, resulta obvia. Por ello, es ineludible un conocimiento del comportamiento que presentan las series temporales asociadas a las magnitudes analizadas, ası́ como de los modelos estadı́sticos que se han mostrado eficaces en la tarea de predecir los valores futuros de variables similares. Conseguir modelar la evolución del Ibex 35 nos proporcionarı́a una fuente muy importante de información sobre las perspectivas que tienen los inversores respecto a la actividad económica del paı́s y, aplicado en términos bursátiles, una orientación estimada de la dirección que tomará el Ibex 35 a efectos de invertir en un sentido u otro (Hernández, 1999). 4.4 Análisis técnico bursátil como método de predicción Dada la importancia del mercado bursátil, desde su inicio se han estudiado diversas herramientas para su predicción. En la actualidad, existen dos tendencias principales: análisis fundamental y análisis técnico. Ambos tipos de herramientas son ampliamente explicados en diversa bibliografı́a (Mateu, 2003) (Pring, 1989) y son complementarias, pero difieren notablemente una de otra en su fundamento, El análisis fundamental trata de determinar el valor real del tı́tulo bursátil, llamado valor fundamental, y que no tiene por qué corresponder con el valor de mercado. Para ello se realiza un estudio en profundidad de la empresa, del sector al que pertenece y de los paı́ses en los que opera. Con dicho estudio se realizan proyecciones financieras con un escenario probable y en base a los 26 Modelo de predicción del Ibex 35 Capı́tulo 4 resultados esperados de la empresa se determina su valor real. Este valor puede diferir con el valor en el parqué bursátil, de modo que el mercado tenderá, en un plazo indeterminado de tiempo, hacia el valor real, ya que las perspectivas actuales están sobrevaloradas o infravaloradas, según el caso. Este método es absolutamente lógico, pero tiene una serie de inconvenientes: se realizan predicciones, con sus consecuentes errores, y pueden producirse hechos significativos que automáticamente cambien el valor real. Dado que se trata de una inversión a largo plazo hasta que alcance el valor real, estos inconvenientes pueden suponer cambios drásticos en la rentabilidad de la inversión. Por su parte, el análisis técnico se trata de una herramienta para corto y medio plazo. La Teorı́a de Dow (Murphy, 2007), que debe su nombre a su creador, Dow Jones, es el origen de este tipo de análisis. El análisis técnico estudia las gráficas del valor de la acción y el volumen de negociación, basándose en una serie de premisas: • Los movimientos del mercado lo descuentan todo: esta afirmación hace referencia a que cualquier hecho que pueda afectar al valor, bien sea de origen económico, polı́tico, psicológico o cualquier otra causa, se refleja siempre en el precio de negociación. • Los precios se mueven por tendencias: entendiendo las tendencias como la existencia de una mayor probabilidad de que siga una dirección que otra. El análisis técnico trata de detectar estas tendencias y seguirlas. • La historia se repite: el mercado bursátil se mueve por las masas, y por lo tanto se mueve por la “psicologı́a de masas” (Tvede, 1990). Esta psicologı́a es aplicable tanto en la actualidad como en el pasado, por lo que los patrones identificados son válidos para predecir movimientos futuros. Este método de análisis también tiene sus inconvenientes: actualmente el mercado es muy volátil y está muy manipulado por las grandes instituciones y fondos de inversión y en muchas ocasiones los patrones son difı́ciles de identificar o se transforman en otros conforme avanza el tiempo. Dado que el presente trabajo está enfocado a una predicción del valor del Ibex 35 en parte basando la modelización en funciones deterministas que 27 Capı́tulo 4 Modelo de predicción del Ibex 35 consideran la ciclicidad, el análisis técnico es mucho más aplicable. Este planteamiento también tiene que ver con el ciclo económico. El ciclo económico y el mercado bursátil tienen una relación muy estrecha, en tanto que el mercado aglutina las expectativas de la economı́a y “lo descuenta todo”, anticipándose al mismo. El ciclo económico es como se denomina a las oscilaciones recurrentes de la economı́a, en las que una fase de expansión es seguida de una fase de contracción, que a su vez precede a una de expansión y ası́ sucesivamente. Las fases del ciclo económico se resumen brevemente en: • Depresión: la economı́a se encuentra en su punto más bajo. Existen elevadas tasas de desempleo y la economı́a se reduce, debido a una baja demanda en comparación con la oferta existente. En este punto los tipos de interés son bajos para fomentar la inversión y evitar la deflación, lo que lleva a los inversores especuladores a invertir en bolsa, la cual comienza a dar señales positivas antes que la propia economı́a. • Recuperación: poco a poco la economı́a se recupera y comienza a generarse empleo, se incrementa la confianza y se vuelve a tasas positivas de crecimiento. El tipo de interés se mantiene bajo, fomentando esta recuperación, pero comenzando a subir, y la bolsa sigue subiendo a medida que aumenta la confianza de los consumidores, sumándose los pequeños inversores que ven una oportunidad en el mercado bursátil. • Auge: la economı́a llega a su punto álgido. Existe pleno empleo y crecimiento positivo. Los tipos de interés suben para evitar una inflación excesiva de precios y los inversores, que en su dı́a invirtieron en la fase de depresión o recuperación, venden con beneficios e invierten en renta fija o depósitos, dada la baja rentabilidad de la bolsa frente a este otro tipo de inversiones. La bolsa comienza ası́ a descender, adelantándose a la economı́a real. • Recesión: cae la inversión y progresivamente el empleo y la producción. Los tipos de interés se mantienen elevados, pero comienzan a tender a la baja, y la bolsa ya ha caı́do significativamente ante las malas expectativas de la economı́a. Como se ha contrastado la economı́a es cı́clica y este patrón va estrechamente ligado al mercado bursátil. 28 Capı́tulo 5 Formulación del modelo econométrico. Regresión no lineal y ajuste por mı́nimos cuadrados En este capı́tulo se describirán las bases teóricas para la formulación del modelo econométrico que se empleará en la parte determinista del modelo desarrollado. Se describirán los principales métodos de modelización por regresión lineal, ası́ como los métodos de regresión no lineal utilizados en el modelo. Asimismo, se describirá el ajuste por mı́nimos cuadrados, la técnica utilizada en el modelo y una de las más comunes para la regresión de un modelo frente a unos datos dados. Por último, se introduce al programa estadı́stico de software libre R y las técnicas de suavizado utilizadas. 29 Capı́tulo 5 5.1 Modelo de predicción del Ibex 35 Modelización econométrica La Econometrı́a pretende dar respuesta, entre otras, a la relación que liga a una determinada variable económica con los valores de otras variables económicas (Greene, 2000). Para ello utiliza la regresión, una metodologı́a que sirve para contrastar las teorı́as económicas con la realidad económica. En el caso del ı́ndice español Ibex 35, existen algunos modelos económicos para predecir la realidad de un mercado altamente volátil (Cortés y otros, 2014). A pesar de ello todavı́a queda mucho por hacer para reflejar la realidad convenientemente. Por este motivo es necesaria la utilización de la modelización econométrica para formular un modelo estadı́stico, estimar los parámetros, medir su utilidad y definir las pruebas de hipótesis que determinen la bondad de las estimaciones realizadas y ası́ poder realizar predicciones con el modelo resultante. 5.1.1 Formulación del modelo En lo que sigue se describirán una serie de resultados estadı́sticos clásicos sobre los cuales se basará el modelo propuesto para describir la dinámica del Ibex 35. Pueden consultarse los fundamentos y detalles técnicos de dichos métodos para la regresión (Greene, 2000) (Hair, 1995) y para las series temporales (Hyndman y otros, 2012) (Trapletti y Hornik, 2012) en diversas referencias bibliográficas. En primer lugar, se debe formular el modelo que se quiere contrastar. La formulación de un modelo econométrico parte de una o varias ecuaciones en las que se relaciona la variable explicada (Y ) con las variables explicativas (Xi ), cuantificándose su relación mediante parámetros (βj ). Se debe tener en cuenta, además, que tanto la variable explicada como las variables explicativas son variables aleatorias, por lo que se produce el denominado error experimental, es decir, que los resultados de cada experimento realizado son diferentes. A este efecto hay que añadirle que el modelo no recoge todas las variables de poca importancia, pero que en conjunto podrı́an afectar a los resultados del modelo. Ambas cuestiones suponen la necesidad de añadir un término al modelo denominado perturbación aleatoria (U ). 30 Modelo de predicción del Ibex 35 Capı́tulo 5 De este modo, el modelo de regresión básico, se formula como se observa en (5.1): Y = β0 + β1 X1 + . . . + βk Xk + U. (5.1) El valor medio (o esperado) y la varianza de la distribución condicional (Y /X) son: E(Y /X) = β0 + β1 X1 + . . . + βk Xk . Var(Y /X) = σ 2 . La dificultad radica en estimar los parámetros βj de la regresión y la varianza de la distribución condicional. Para ello hay que utilizar los datos de que se dispone, la observación de n valores de la variable explicada y las explicativas. De la sustitución de los valores se obtiene la expresión (5.2): Y1 = β0 + β1 X11 + β2 X21 + ... + βk Xk1 + U1 , Y2 = β0 + β1 X12 + β2 X22 + ... + βk Xk2 + U2 , .. .. .. . . . Yn = β0 + β1 X1n + β2 X2n + ... + βk Xkn + Un . (5.2) Si se sustituye el modelo se tiene un sistema de n ecuaciones con n + k + 1 incógnitas (k + 1 incógnitas βj y n incógnitas Uj ) que no tiene una única solución. Como es necesario tener más ecuaciones (k + 1) para resolver el problema, habrá que focalizarse en la perturbación U para hallarlas. A la variable U se le denomina perturbación, pero es además un error, dado que es la diferencia entre el valor real de la variable y su valor esperado. Despejando en la ecuación (5.2), se obtiene U como error, tal y como se muestra en (5.3): Y − (β0 + β1 X1 + ... + βk Xk ) = Y − Yb = U. 31 (5.3) Capı́tulo 5 Modelo de predicción del Ibex 35 De acuerdo a esta última definición, serı́a lógico que el error fuera lo menor posible para que las estimaciones fueran óptimas. Dado que el error se trata de una variable aleatoria, lo menor posible se traduce en que su valor medio sea cero y su varianza lo más pequeña posible. De la minimización de esa varianza se obtendrán las k + 1 ecuaciones que faltan. De aquı́ el nombre de método de los mı́nimos cuadrados ordinarios (MCO). 5.1.2 Hipótesis del modelo Es necesario establer una serie de hipótesis que simplifiquen a fin de poder estimar los parámetros del modelo. Estas hipótesis se definirán respecto a la perturbación, a las variables explicativas y explicada y a los parámetros βj . Si no se establecieran estas hipótesis, estimar los parámetros se convertirı́a en una tarea inaccesible. Las hipótesis son las siguientes: • Las perturbaciones Uj son variables aleatorias de media nula, E(Uj ) = 0. • Todas las perturbaciones tienen la misma varianza, Var(Uj ) = σ 2 . • Las perturbaciones están incorrelacionadas entre sı́, Cov(Ui , Uj ) = 0. • Las perturbaciones tienen una distribución conjunta Normal, cuestión que, junto a la hipótesis anterior, concluye que las perturbaciones son independientes. • La perturbación no depende de las variables explicativas Xi . • Las variables explicativas, Xi , y la explicada, Y , se obtienen sin error de observación. • Las variables explicativas Xi son no aleatorias, se puede fijar su valor a voluntad, son controlables. • Yj es el valor observado de una variable aleatoria cuyo valor medio es una combinación lineal de los valores de Xi . • Entre las variables explicativas Xi no deben existir relaciones lineales exactas. 32 Modelo de predicción del Ibex 35 Capı́tulo 5 • Los parámetros βj del modelo son constantes en todas las muestras y forman parte del modelo de forma lineal. Cabe destacar que la última de las hipótesis formará parte del modelo de forma lineal en tanto que la función que se ajuste a los datos observados sea una función lineal. En el caso del modelo del Ibex 35, el modelo propuesto es no lineal y, por lo tanto, esta hipótesis pierde su validez. 5.1.3 Estimación de parámetros del modelo y de la varianza de la perturbación. Mı́nimos Cuadrados Ordinarios (MCO) El método de los Mı́nimos Cuadrados Ordinarios (MCO) consiste en determinar un vector b de estimadores de los parámetros que cumpla (5.4): Y = Xb + e = Yb + e, (5.4) donde Yb es la estimación de Y y e es el valor aproximado de U , el error que se comete al tomar Yb como Y . Entrando en detalle, el método de los MCO consiste en la obtención de una recta de forma que se minimice la suma de los cuadrados de las distancias (ei ) entre cada una de las observaciones de la variable y dicha recta. A las distancias ei se les denominan residuos. La expresión vectorial de los residuos se obtiene de despejar la ecuación (5.4), dando como resultado (5.5): e = Y − Xb. (5.5) Se debe minimizar entonces la suma de cuadrados de los residuos (SCR) porque son el error que se comete en el ajuste (distancia de cada observación a la recta ajustada). Al elevarlos al cuadrado se pierde el signo, y al sumarlos se acumulan los errores, como se expresa en (5.6): 33 Capı́tulo 5 SCR = n X j=1 Modelo de predicción del Ibex 35 e2j n n X X 2 b (Yj − (b0 + b1 xij + ... + bk xkj ))2 . (5.6) (Yj − Yj ) = = j=1 j=1 Al minimizar la expresión (5.6) se obtiene el resto de (k + 1) de ecuaciones necesarias para estimar los parámetros del modelo y finalmente la expresión de los estimadores b. Su forma matricial es más compacta, y es la que se presenta en (5.7): b = (X ′ X)−1 X ′ Y, (5.7) donde Y es el vector de la variable a explicar y X es la matriz de datos, como se ha visto anteriormente. Para que el sistema de ecuaciones tenga solución única, es decir, no sea indeterminado, el producto de matrices X ′ X debe ser invertible, y para ello debe cumplirse que, en primer lugar, el número de datos sea superior que el de los parámetros a estimar, n > k + 1; y, en segundo lugar, no deben existir relaciones exactas entre las variables explicativas Xi . Por otra parte, para estimar la varianza de la perturbación, σ 2 , hay que utilizar la SCR. Se puede demostrar que el estimador de la varianza de la perturbación sigue la expresión (5.8), también denominada cuadrado medio residual. Dado que la SCR ha sido minimizada, es obvio que la varianza del error también es mı́nima, tal y como se exigı́a en las hipótesis. σ2 = 5.1.4 SCR . n−k−1 (5.8) Intervalos de confianza de los parámetros y de la varianza de la perturbación Cualquier estimación que se realice debe venir acompañada del error que se comete al utilizar esa estimación en vez del valor verdadero. La forma de expresar ese error es a través de la varianza de la estimación. Sin embargo, existen formas más elaboradas de expresar dicho error. Una de las más habituales es mediante los intervalos de confianza. 34 Modelo de predicción del Ibex 35 Capı́tulo 5 Un intervalo de confianza es un intervalo que contiene al valor verdadero y desconocido del parámetro a estimar, con una cierta probabilidad (1-α) fijada. El valor α se denomina nivel de significación, y corresponde al porcentaje de veces en que se está dispuesto a aceptar equivocarse, esto es, el intervalo que no contiene al valor verdadero y desconocido del parámetro. Intervalos de confianza para uno de los parámetros βi La distribución del estimador bi menos el valor del parámetro βi dividido por el error en la estimación sbi sigue una distribución t de Student, cuyos grados de libertad son los residuales (5.9): bi − βi ≡ tn−k−1 . sbi (5.9) A partir de ella, se calcula el intervalo de confianza para el parámetro βi cuya expresión es la siguiente (5.10): h bi − α/2 tn−k−1 sbi , bi i α/2 + tn−k−1 sbi , (5.10) o bien se puede expresar como la estimación más/menos el error, como en (5.11) α/2 bi ± tn−k−1 sbi . (5.11) Intervalo de confianza para la varianza σ 2 Conocida la distribución de la suma de cuadrados de los residuos dividido por la varianza de la perturbación, como se indica en (5.12): SCR ≡ χ2n−k−1 , σ2 (5.12) se tiene el intervalo de confianza para la varianza residual, como se expresa en (5.13) 35 Capı́tulo 5 Modelo de predicción del Ibex 35 σ b2 (n − k − 1) 2(α/2) χn−k−1 5.1.5 ≤ σ2 ≤ σ b2 (n − k − 1) 2(1−α/2) χn−k−1 . (5.13) Coeficiente de determinación y coeficiente de determinación corregido La suma de cuadrados de Y puede dividirse en dos partes, una suma de cuadrados explicada debida al efecto de las variables explicativas en la variable a explicar, y otra, la suma de los cuadrados de los residuos, ya vista. Esta descomposición se justifica con la expresión (5.14): (Yi − Y ) = (Ybi − Y ) + (Yi − Ybi ), (5.14) elevando al cuadrado y sumando para todas las observaciones disponibles, se tiene la expresión (5.15), si se tiene en cuenta la independencia entre los dos sumandos de (5.14). n n n X X X (Ybi − Y )2 + (Yi − Ybi )2 ≡ SCT = SCE + SCR (Yi − Y )2 = i=1 i=1 (5.15) i=1 Las expresiones que se obtienen al desarrollar la suma de cuadrados anterior reciben las siguientes denominaciones: • Suma de cuadrados total (SCT): Suma del cuadrado de las diferencias entre cada valor observado de la variable y la media de los mismos. Indicarı́a si los valores están muy alejados del valor medio. • Suma de cuadrados explicada (SCE): Suma de los cuadrados de las diferencias entre las estimaciones y el valor medio de las observaciones. Indicarı́a si las estimaciones están muy alejadas de la media de los valores observados. 36 Modelo de predicción del Ibex 35 Capı́tulo 5 • Suma de cuadrados del residuo (SCR): Suma de los cuadrados de las diferencias entre los valores observados y los estimados. Como se ha señalado, es una medida en el error que se comete al tomar el uno por el otro, puesto que al elevar al cuadrado se pierde el signo de la diferencia. Al sumarlos se acumulan. La relación entre los tres es, por lo tanto, SCT = SCE + SCR. Si un modelo explicara completamente a la variable, su SCR deberı́a ser cero, y las SCT y SCE iguales. Si, por el contrario, no existiera relación entre las variables explicada y explicativa, la SCE deberı́a valer cero, y la SCR igual a la SCT. Como la SCE toma valores entre 0 y SCT, el cociente SCE/SCT toma valores ente 0 y 1, con lo que podrı́a ser un buen indicador de la bondad del ajuste realizado. El cociente SCE/SCT se denomina coeficiente de determinación (R2 ) y se emplea para saber si un modelo es adecuado, es decir, si explica suficientemente a la variable objeto de estudio. Por su definición, el coeficiente de determinación siempre toma valores entre cero y uno (0 ≤ R2 ≤ 1) por lo que se trata de una escala que mide lo adecuado del ajuste, o dicho de otra forma, mide el porcentaje de la variable Y explicado por el modelo propuesto. La raı́z cuadrada de dicho coeficiente recibe el nombre de coeficiente de correlación múltiple, y es el coeficiente de relación lineal simple entre la variable y su estimación, es decir, entre Y e Yb . 5.1.6 Contraste de hipótesis sobre los parámetros del modelo mediante la utilización del estadı́stico F En este apartado se presentan las pruebas de hipótesis para contrastar si un parámetro, un conjunto de ellos, e incluso todos ellos, son igual a cero. Con la prueba de hipótesis sobre un parámetro se comprobará si una variable explicativa del modelo es realmente explicativa o no. Con la prueba sobre todos los parámetros del modelo se comprobará si el modelo resulta adecuado. Y por último, con la prueba sobre un conjunto de parámetros, se estudian las restricciones que la teorı́a económica puede imponer a sus valores. 37 Capı́tulo 5 Modelo de predicción del Ibex 35 Hipótesis sobre todos los parámetros del modelo La primera prueba se refiere a todos los parámetros del modelo, excepto al término constante β0 . La hipótesis nula es que todos los parámetros son iguales a cero, o lo que es lo mismo, que el modelo no resulta adecuado. La hipótesis alternativa es que al menos uno de los parámetros es distinto de cero, o que el modelo podrı́a ser adecuado. El estadı́stico que sirve para contrastar la hipótesis nula sigue una distribución F de Snedecor con grados de libertad k y n − k − 1, siendo su expresión (5.16) Fcalc = SCE/k CME ≡ ≡ Fk,n−k−1 . SCR/(n − k − 1) CMR (5.16) En la elaboración del modelo se emplea el programa estadı́stico R, ya que la prueba de hipótesis se realiza sobre el nivel de significación, denominado pvalor. El nivel de significación, para esta prueba, es la probabilidad de que una variable con distribución Fk,n−k−1 sea mayor que el estadı́stico Fcalc calculado. Por lo tanto, si p − valor ≥ α entonces se acepta H0 y el modelo no resulta adecuado. La información necesaria para realizar esta prueba de hipótesis se encuentra recogida en lo que se conoce como tabla ANOVA (tabla 5.1) que es la forma en la que suelen presentar la información la inmensa mayorı́a de los programas estadı́sticos. El programa R también emplea esta tabla de análisis. Como aclaración, las siglas que se representan tienen el siguiente significado: • SC: Suma de Cuadrados. • SCE: Suma de Cuadrados Explicada. • SCR: Suma de Cuadrados Residual. • SCT: Suma de Cuadrados Total, siendo SCT = SCE + SCR. • CM: Cuadrado Medio. • CME: Cuadrado Medio Explicado, siendo CME = SCE/k. • CMR: Cuadrado Medio Residual, siendo CMR = SCR/(n − k − 1). • k: número de parámetros. • n: número de datos. 38 Modelo de predicción del Ibex 35 Capı́tulo 5 Tabla 5.1: Modelo de tabla ANOVA para el análisis de la varianza Origen SC GDL CM F ratio p-valor Modelo SCE k CME CME/CMR α Residuos SCR n-k-1 CMR Total SCT n-1 Fuente: Elaboración propia • GDL: Grados De Libertad. Hipótesis sobre un parámetro individual En esta segunda prueba se trata de contrastar si un parámetro cualquiera del modelo, βi , es igual a cero o distinto de cero. Si se ha realizado la prueba sobre todos los parámetros del modelo y el resultado ha sido que al menos uno de ellos es distinto de cero, es necesario entonces determinar cuál o cuáles son distintos de cero. Lo más importante de esta prueba es que, en el caso de que el parámetro acompañe a una variable explicativa y se admita que su valor es cero, la conclusión es que dicha variable no es realmente explicativa. Si por el contrario se admite que ese parámetro es distinto de cero, entonces se tienen dos conclusiones: la variable en cuestión ayuda a explicar a la variable estudiada y la estimación realizada resulta adecuada. La prueba de hipótesis se realiza mediante el calculo de un estadı́stico Fcalc , el cociente del cuadrado de la estimación del parámetro y su desviación tı́pica. Este estadı́stico se distribuye como una F de Snedecor, con grados de libertad 1 y n − k − 1. La hipótesis nula es que el parámetro vale cero, frente a la alternativa que su valor es distinto de cero. El estadı́stico se calcula como se expresa en (5.17), por ser el cuadrado de la expresión (5.9) bajo la hipótesis de que βi es cero, al ser el el cuadrado de una t de Student se distribuye F de Snedecor con los correspondientes grados de libertad. Fcalc = b2i ≡ F1,n−k−1 . s2bi 39 (5.17) Capı́tulo 5 Modelo de predicción del Ibex 35 De la misma forma que con la prueba para todos los parámetros, se puede emplear el p-valor para realizar el contraste. Si p − valor ≥ α se acepta H0 y en caso contrario se rechaza. No obstante, lo más habitual (ası́ lo realiza R) es realizar una prueba t calculando el siguiente estadı́stico, expresado en (5.18), proveniente de tomar raı́ces cuadradas en Fcalc : tcalc = bi ≡ tn−k−1 . sbi (5.18) Hipótesis sobre un subconjunto de parámetros del modelo La última prueba de hipótesis se refiere a un subconjunto de parámetros del modelo. Como hipótesis nula se propone que un subconjunto de parámetros toma unos valores determinados o que existe algún tipo de relación entre ellos. La teorı́a económica impone a menudo que los coeficientes de un modelo deban cumplir una cierta restricción lineal. Para realizar la prueba de hipótesis se debe, en primer lugar, ajustar el modelo sin las restricciones y obtener su suma de cuadrados residual (SCRc ). En segundo lugar, se ajusta el modelo con las s restricciones que se desean comprobar y se obtiene una segunda suma de cuadrados residual (SCRr ). La prueba se basa en el cálculo de un estadı́stico Fcalc efectuado como se muestra en (5.19): Fcalc = 5.1.7 ∆SCR/s (SCRr − SCRc )/s = ≡ Fs,n−k−1 . SCRc /(n − k − 1) SCRc /(n − k − 1) (5.19) Predicción Uno de los objetivos que se persiguen al realizar modelos económicos es el de poder hacer predicciones de los valores de la variable, si bien en realidad lo que permite el modelo ajustado es predecir el valor medio de dicha variable, o encontrar un intervalo que contenga con una probabilidad determinada al 40 Modelo de predicción del Ibex 35 Capı́tulo 5 valor real. Existen dos formas de realizar predicciones, puntualmente o por intervalos de confianza. Predicción puntual Si se pretende obtener el valor esperado de la variable estudiada Y asociado a unos determinados valores de las variables explicativas, lo único que se debe hacer es sustituir los valores de las variables explicativas en el modelo ajustado y calcular la estimación de Y que corresponde a su valor medio condicionado E(Y /x1 , ..., xk ), como se expresa en (5.20): Yb = b0 + b1 X1 + b2 X2 + ... + bk Xk . (5.20) Si el modelo ajustado explica el logaritmo de la variable, como sucederá con el modelo del Ibex 35, Y es log(Ibex 35). Predicción por intervalos de confianza La predicción puntual debe complementarse con la varianza de la estimación, para conocer ası́ el error en la predicción. La manera de presentar ambos valores es el intervalo de confianza que, a su vez, se realiza sobre el valor de Y y para E(Y |x1 , . . . , xn ). El intervalo de confianza a nivel α para la estimación de Y es el que se muestra en (5.21): α/2 Yb ± tn−k−1 s p 1 + R(X ′ X)−1 R′ . (5.21) Para su cálculo es necesario construir la matriz de datos X y el vector de valores de las variables explicativas R para el que se pretende realizar la predicción. Por su parte, el intervalo de confianza para el promedio de la variable Y , es decir, E(Y |x1 , . . . , xn ), a nivel α es el de la expresión (5.22): α/2 Yb ± tn−k−1 s p R(X ′ X)−1 R′ . (5.22) Esta expresión difiere de la anterior en que no se debe sumar el 1 dentro de la raı́z, con lo que el intervalo es más estrecho. Esto es consistente con el hecho de que el intervalo se hace sobre un valor promedio, no sobre su valor 41 Capı́tulo 5 Modelo de predicción del Ibex 35 verdadero, lo cual limita el rango de valores entre los cuales se encuentra dicho promedio. 5.2 Diagnosis y validación del modelo de regresión En este apartado se describen las pruebas para determinar la idoneidad del modelo propuesto mediante los residuos del ajuste. No basta con que las pruebas de hipótesis realizadas sobre los parámetros indiquen que el modelo resulta adecuado. También se establecieron unas hipótesis sobre el modelo que es necesario verificar. Aquellas restricciones que se deben cumplir son las relativas a la perturbación, descritas en el apartado 5.1.2. Para la comprobación de dichas hipótesis, la literatura (Thode, 2002) propone la realización de una serie de gráficos de los residuos del ajuste, en los que se podrán determinar si se satisfacen o no las hipótesis del modelo. Pese a la gran cantidad de información que pueda extraerse de un gráfico de residuos, el uso de los mismos puede suponer una frustración puesto que es necesario un cierto “entrenamiento” para poder aprovecharlos en toda su extensión. Los gráficos que se emplearán en la validación del modelo del Ibex 35 son el papel probabilı́stico normal y el comando tsdiag del programa estadı́stico R en su librerı́a tseries (Trapletti y Hornik, 2012), que incluye un gráfico de los residuos estandarizados, la FAS de los residuos y los p-valores para el estadı́stico de Ljung-Box. El primer gráfico, el papel probabilı́stico normal, deriva del gráfico Q-Q, el cual compara dos distribuciones a partir de sus cuartiles. El papel probabilı́stico normal no es más que un gráfico Q-Q adaptado a la distribución Normal, con el objeto de comparar si los residuos se distribuyen normalmente. El cumplimiento de la hipótesis de normalidad es indispensable para poder realizar los contrastes de significación y obtener los intervalos de confianza que permitan realizar predicciones. Además, si esta hipótesis no se cumple, los estimadores dejan de ser máximo-verosı́miles. Como apoyo al papel probabilı́stico normal, se puede representar el histograma de los residuos, para observar si tienen la forma de la campana de Gauss. El papel probabilı́stico normal ofrece una mayor cantidad de información 42 Modelo de predicción del Ibex 35 Capı́tulo 5 sobre la distribución de los residuos que cualquier otro gráfico o prueba numérica y se hace imprescindible cuando existe falta de normalidad de los residuos, puesto que permite tomar decisiones sobre la forma de transformar el modelo para conseguir la normalidad. En la figura 5.1 se puede ver un ejemplo de papel probabilı́stico normal. Figura 5.1: Ejemplo de papel probabilı́stico normal Fuente: Thode (2002) Cuando los puntos representados en el gráfico Q-Q quedan casi todos muy cerca de la lı́nea diagonal, se acepta la normalidad. De este modo, cuando las pruebas indiquen que no existe normalidad, esto será debido bien a que la asimetrı́a es muy grande o bien a que existen punto anómalos. Si los residuos no son normales, se puede hacer lo siguiente: • Comprobar si existe linealidad en el modelo. Si es éste el caso, se elige una transformación adecuada, y lo más probable es que los residuos puedan aceptarse como normales. • Renunciar a los contrastes de significación limitando el análisis al cálculo de los parámetros, y dar como medida descriptiva del ajuste el coeficiente de determinación corregido, lo cual, en general, no es una buena “solución”. • Deducir, de la distribución de los residuos, un modelo de distribución de la perturbación y construir contrastes para determinar la validez de los parámetros. El segundo análisis se realiza con el comando tsdiag de R y se compone de tres gráficos, a saber: 43 Capı́tulo 5 Modelo de predicción del Ibex 35 • El primero representa los residuos estandarizados de la serie. • El segundo es la FAS (Función de Autocorrelación Simple) de los residuos. En este gráfico se deberı́a observar que tan sólo el primer coeficiente de correlación es significativo, ya que eso indica que el residuo tan sólo está relacionado consigo mismo. • El tercer gráfico representa los p-valores del estadı́stico de Ljung-Box, que se explica a continuación. La prueba de Ljung-Box sirve para determinar la existencia de autocorrelación en los residuos, siendo muy útil cuando se dispone de una muestra grande (n grande), como es el caso de la variable objeto de estudio, los datos de cierre semanal del Ibex 35. Se denomina et a la secuencia de los residuos en el tiempo y se calculan los coeficientes de autocorrelación ρh como se indica en (5.23): ρh = n X et et+h t=h+1 n X . (5.23) e2t t=1 Se define el estadı́stico de Ljung-Box como (5.24): Q = n(n + 2) n X ρ2h ≡ χ2n−k−1 , n−k (5.24) h=1 donde n es el número de coeficientes de la suma y k + 1 es el número de parámetros estimados para calcular los residuos. Este estadı́stico permite plantear una prueba en la que como hipótesis nula se tiene que los n primeros coeficientes de autocorrelación son cero si 2(α) Q < χn−k−1 . Por lo tanto, este estadı́stico contrasta la hipótesis nula de la distribución aleatoria de los residuos. Si los principales p-valores (los primeros del gráfico) son mayores que α, entonces no podemos rechazar la hipótesis, o lo que es lo mismo, considerar que el modelo está correctamente especificado. La figura 5.2 es un ejemplo de salida en pantalla del análisis tsdiag de un modelo correctamente especificado. 44 Modelo de predicción del Ibex 35 Capı́tulo 5 Figura 5.2: Ejemplo de salida en pantalla de análisis tsdiag de un modelo correctamente especificado Fuente: Thode (2002) 45 Capı́tulo 5 Modelo de predicción del Ibex 35 Cabe subrayar que en el caso concreto del modelo del Ibex 35, tanto el papel probabilı́stico normal como el comando tsdiag se han empleado después de ajustar el modelo ARIMA, que debe cumplir unas hipótesis muy similares a las del modelo de regresión, por lo que se pueden emplear estas mismas herramientas, como bien se señala en el apartado 6.5. 5.3 Descripción de los análisis estadı́sticos utilizados En el presente epı́grafe se exponen las técnicas de regresión no lineal y suavizado de datos que, como derivaciones de la regresión lineal, son la metodologı́a empleada en la modelización de los datos del Ibex 35. La regresión no lineal emplea las mismas pruebas y tests que la regresión lineal para verificar la significatividad de los parámetros y del modelo. Puesto que ya han sido explicados con anterioridad, no se profundizará en estos aspectos nuevamente, simplemente se explican sus fundamentos y la forma de realizarlo con el programa estadı́stico R. 5.3.1 Regresión no lineal Los modelos no lineales surgen ante la dificultad o imposibilidad de asumir la relación por regresión lineal entre variables económicas. Sin embargo, esta nueva metodologı́a genera nuevos tipos de problemas y dificultades para la resolución del modelo. En primer lugar, decidir una función no lineal adecuada suele ser difı́cil. En segundo lugar, existen una serie de dificultades implı́citas en la interpretación de la estimación de los parámetros y el análisis de las estimaciones. A pesar de la existencia de dichas dificultades, hay cada vez más evidencias empı́ricas que demuestran que muchas relaciones económicas son no lineales, tal y como ocurre con el Ibex 35. La regresión no lineal consiste en estimar los parámetros de una función no lineal que se ajusta a unos datos observados. En la regresión no lineal se realiza 46 Modelo de predicción del Ibex 35 Capı́tulo 5 un ajuste de parámetros frente a una serie de datos que sigue una curvatura arbitraria. Con el desarrollo de paquetes estadı́sticos de fácil utilización para el usuario, su empleo se ha vuelto bastante común, como es el caso de R. El ajuste realizado es el que se expresa en la ecuación (5.25): y = f (x, θ) + ε, (5.25) donde f es una función no lineal respecto a algunos parámetros desconocidos θ. Como mı́nimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente con el método de los mı́nimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadı́stica tales como los intervalos de confianza para los parámetros, ası́ como pruebas de bondad de ajuste. Algunos problemas de regresión no lineal pueden linealizarse mediante una transformación en la formulación del modelo. Por ejemplo, considerando el problema de regresión no lineal propuesto en la ecuación (5.26) (ignorando el término del error): y = a · ebx . (5.26) Aplicando logaritmos a ambos lados de la ecuación se obtiene la Ecuación (5.27): ln(y) = ln(a) + bx. (5.27) Esto sugiere una estimación de los parámetros desconocidos a través de un modelo de regresión lineal de ln(y) con respecto a x, un cálculo que no requiere procedimientos de optimización iterativa. De todas formas, dado que la influencia de los datos en el modelo cambia, ası́ como la estructura del error del modelo y la interpretación e influencia de los resultados, la linealización debe usarse con cuidado. Éstos pueden ser resultados no muy convenientes (Greene, 2000). Para el caso concreto del Ibex 35, es habitual tomar logaritmos antes de modelizar los datos (Benth y Saltyte Benth, 2013), sobre todo con el objeto de 47 Capı́tulo 5 Modelo de predicción del Ibex 35 conseguir la normalidad en los residuos de la serie. En la modelización propuesta en el presente trabajo también se han tomado logaritmos, obteniéndose con ello mejores resultados que sin su aplicación. 5.3.2 Ajuste de funciones no lineales en R El programa empleado en la elaboración del modelo completo es el software estadı́stico R. Es un poderoso y flexible ambiente de programación para el análisis de datos y la elaboración de gráficas de gran calidad. Es un software libre de alta calidad, libre y gratuito en el que colaboran expertos internacionales en programación, estadı́stica y matemáticas. Al tratarse de un entorno de programación los procesos repetitivos pueden ser fácilmente automatizados. Este tipo de planteamiento estimula el pensamiento crı́tico para la solución de problemas, en contraposición al enfoque “apriete el botón”. El programa base de R contiene funciones para un gran número de procedimientos estadı́sticos. Además, existen módulos adicionales escritos por otros usuarios que extienden las capacidades de R. En el presente trabajo, R ha sido ampliamente utilizado para la descripción estadı́stica de la serie de datos, para elaborar el modelo ajustando las distintas funciones que lo componen y para realizar representaciones gráficas de los resultados. El comando nls es el acrónimo de Nonlinear Least Squares (mı́nimos cuadrados para regresión no lineal). Este comando realiza estimaciones automáticas del valor de los parámetros, pudiéndose obtener una pantalla de resultados con la tabla de estimación de los parámetros. Para operar con nls se necesitan los siguientes argumentos: • Fórmula que se quiere ajustar. • Valores iniciales para los parámetros. Esto es aconsejable cuando el programa supera el lı́mite de iteraciones necesarias para hacer el ajuste y no encuentra una solución adecuada. • Una lista opcional de criterios de control para las iteraciones. La aplicación de nls presenta los mismos problemas que cualquier algoritmo para ajuste de funciones no lineales. Como se ha descrito en el apartado 5.3.1, 48 Modelo de predicción del Ibex 35 Capı́tulo 5 al realizar el ajuste de una función no lineal cabe la posibilidad de que el resultado obtenido no sea un óptimo global, sino un óptimo local. Por ello, para asegurarse de que la iteración proporciona un modelo correcto, se deben fijar valores a los parámetros ajustados, como puntos iniciales para el ajuste. En el caso del modelo del Ibex 35, el valor de los parámetros de la función lineal se ha obtenido mediante la regresión lineal de la función frente al tiempo. Los parámetros de la función trigonométrica se han ido introduciendo paso a paso, es decir, primero se ajusta la función con un parámetro fijándo un valor a dicho parámetro y, cuando se tiene el valor ajustado y significativo del primer parámetro, se introduce un segundo parámetro siguiendo los mismos pasos. De esta forma se van estimando todos los parámetros hasta que el modelo queda completamente especificado. 5.3.3 Técnicas de suavizado de datos El suavizado de datos consiste en la obtención de una función que recoja el “comportamiento general” de los datos, dejando de lado el ruido. Los métodos de suavizado de datos son necesarios cuando los datos observados de una serie presentan muchos valores extremos, que pueden distorsionar la regresión que se realice. El método más habitual de suavizado son las medias móviles, empleadas para captar tendencias generales en las variables económicas. Concretamente, para el presente trabajo se ha utilizado la técnica loess, implementada en el programa estadı́stico R, obteniéndose una gráfica en la que se representa la tendencia general del Ibex 35, entre otros indicadores. Esta gráfica que se consigue con la función stl, sirve para descomponer series temporales de datos, como es el caso del Ibex 35. La figura 5.3 es un ejemplo de salida de pantalla del análisis obtenido con el comando stl, cuyos gráficos se describen a continuación: • Gráfico data: representa los datos observados, sin ninguna modificación. • Gráfico seasonal: representa la estacionalidad detectada para la serie, medida con ı́ndices de estacionalidad. • Gráfico trend: muestra la tendencia y el ciclo de la serie, obtenida mediante técnicas loess. 49 Capı́tulo 5 Modelo de predicción del Ibex 35 • Gráfico remainder : representa los residuos de la serie después de descontar la estacionalidad, la tendencia y el ciclo. Figura 5.3: Salida de pantalla del análisis stl Fuente: Zucchini y Nenadic (2008) La idea básica de loess (en terminologı́a anglosajona local regression, regresión local) es construir un modelo basado en ajustes locales a pequeños grupos de datos utilizando mı́nimos cuadrados, de forma que se simplifica el proceso de modelización. Con esto se consigue formular una función que recoge el comportamiento de una serie con muchas variaciones pero de forma más suavizada. Como ejemplo de suavizado, se muestra la figura 5.4, en la que 50 Modelo de predicción del Ibex 35 Capı́tulo 5 se observa una serie de datos con bastante dispersión a los que se ajusta una función que recoge su comportamiento general, mucho más suavizado. Figura 5.4: Ejemplo de suavizado loess Fuente: Zucchini y Nenadic (2008) Es habitual confundir el suavizado (o smoothing) con un concepto relacionado y que se suele solapar, la regresión no lineal. La principal diferencia entre una y otra técnica es que en el caso de la regresión no lineal, se emplea una función explı́cita para ajustar una serie de datos, mientras que el smoothing tiene como resultado una serie de datos suavizados, no una función. Además, la regresión no lineal tiene como objetivo el ajuste más exacto posible a los datos empleados, cuando el smoothing se utiliza para recoger el comportamiento general de los mismos. Ası́ pues, lo más usual es que, en primer lugar, se apliquen técnicas de suavizado a los datos para, en segundo lugar, ajustar una función mediante técnicas de regresión no lineal. Como se ha señalado anteriormente, la técnica 51 Capı́tulo 5 Modelo de predicción del Ibex 35 loess se ha empleado en el presente trabajo para determinar la existencia de tendencias y ciclos en el comportamiento del Ibex 35. 52 Capı́tulo 6 El modelo ARIMA. Análisis y descripción de series temporales Como se ha avanzado anteriormente, para la parte aleatoria del modelo del Ibex 35 se ha utilizado el modelo ARIMA, del cual describimos los fundamentos teóricos en este capı́tulo. Además, se introducen los conceptos básicos de series temporales en base a la descripción clásica de las mismas, la cual descompone la serie en cuatro elementos: tendencia, ciclo, estacionalidad y componente irregular. En lo que respecta a las técnicas ARIMA, se explicarán los pasos para la construcción del modelo mediante la metodologı́a Box-Jenkins y las herramientas de validación de la bondad del modelo. 53 Capı́tulo 6 6.1 Modelo de predicción del Ibex 35 Introducción e ideas básicas George E. P. Box, profesor de estadı́stica de la Universidad de Wisconsin, y Gwilym M. Jenkins, profesor de ingenierı́a de sistemas de la Universidad de Lancaster, introdujeron en la década de los 70 un nuevo enfoque en el análisis de series temporales, en sus trabajos sobre el comportamiento de la contaminación en la bahı́a de San Francisco. Su finalidad era establecer mejores herramientas de pronóstico y control. Sus investigaciones se publicaron en el libro Time Series Analysis: Forecasting and Control (1976) en el que describen la metodologı́a. Este manuscrito se ha convertido en un clásico gracias al amplio abanico de posibilidades que abrió en diversas ramas de las matemáticas, la economı́a, la ingenierı́a o la estadı́stica. Por sus autores, la metodologı́a descrita en el presente capı́tulo se conoce como modelos ARIMA o modelos de Box-Jenkins. Esta metodologı́a y la implementación del análisis de series temporales en R son analizados en diversa bibliografı́a (Chirivella, 2008) (Shumway y Stoffer, 2006). Un requisito para este tipo de modelos es que la serie de observaciones sea una serie estacionaria, motivo por el cual se deben realizar una serie de transformaciones. Que una serie sea estacionaria significa que ni la media, ni la varianza, ni la autocorrelación entre las observaciones dependan del tiempo. De esta forma la serie está “estabilizada”, pudiendo entonces estudiar la presencia de comportamientos regulares que permitan proponer un modelo matemático. Las herramientas que se emplean para ello son la Función de Autocorrelación Simple (FAS) y la Función de Autocorrelación Parcial (FAP), comparándose la forma obtenida en las mismas para las observaciones con el catálogo de patrones gráficos, que son tı́picos de los diferentes modelos propuestos. Se selecciona aquél que mejor se adecúe a la forma de las FAS y FAP obtenida con las observaciones empleadas. Una vez escogida la forma del modelo, se realiza una estimación de los coeficientes del mismo. Seguidamente se debe efectuar un análisis de los residuos (entendidos como la diferencia entre el valor observado y el valor previsto por el modelo), con el fin de comprobar si el ajuste del modelo a las observaciones es adecuado. Si no fuera el caso, se volverı́a a repetir el proceso estudiando la aplicación de otros modelos posibles. Cuando se ha determinado un modelo suficientemente válido, que explique de forma adecuada el comportamiento de la serie estacionaria, se deshacen los 54 Modelo de predicción del Ibex 35 Capı́tulo 6 ajustes aplicados anteriormente y se comprueba si los pronósticos obtenidos con el modelo se corresponden significativamente con las observaciones iniciales, volviendo a comenzar la búsqueda de un nuevo modelo si ello no ocurriera. Los pasos mencionados en la elaboración de un modelo ARIMA se pueden considerar, por tanto, como un método iterativo de prueba-error, por cuanto que se busca la mejora continua del ajuste del modelo a las observaciones mediante la aplicación de unas herramientas y el filtrado de datos. 6.2 Series temporales univariantes El análisis univariante es aquel que utiliza como única información para predecir los valores futuros de una variable sus propios valores pasados (historia de la serie). Los modelos univariantes parten de la hipótesis de que el comportamiento pasado de la serie se repetirá en el futuro, por lo que son relativamente útiles en predicciones a corto plazo. Sin embargo, al no considerar otras variables que puedan afectar a la variable observada, a medio y largo plazo no suelen ser útiles. Por ello, para realizar pronósticos a medio y largo plazo son más útiles los modelos multivariantes, que tienen en cuenta la interacción de otras variables que afecten a la observada. 6.2.1 Modelo clásico de descripción de series temporales La necesidad de predecir los valores futuros de determinadas variables a partir de la identificación de comportamientos regulares en el pasado dio origen a las series temporales. En el presente trabajo se utilizó para la primera aproximación a la identificación de estos comportamientos regulares el denominado modelo clásico de descripción de series temporales, que se analiza a continuación. Previamente al análisis clásico de series temporales se debe definir el concepto de serie temporal, ası́ como el conjunto de datos empleados para llevarlo a cabo. Una serie temporal es una secuencia de datos, observaciones o valores, medidos en determinados momentos del tiempo, ordenados cronológicamente y, habitualmente, espaciados entre sı́ de una forma regular. En el caso concreto 55 Capı́tulo 6 Modelo de predicción del Ibex 35 del presente trabajo, los datos de que se dispone son los valores semanales del Ibex 35. El periodo considerado para la toma de datos es desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012, último año cerrado disponible en el momento de iniciar la elaboración del presente trabajo. Se ha preferido tomar años naturales debido a la estacionalidad que tiene la bolsa en determinadas épocas del año. La obtención del dato de cierre semanal corresponde al viernes o último dı́a hábil de la semana natural, porque de igual forma que la estacionalidad durante el año, el dato de cierre, ya sea horario, diario, semanal o mensual, es un factor clave en el análisis técnico de la bolsa, y por lo tanto aquel que debe tenerse en cuenta para el presente trabajo (Velez y Capra, 2011). Con estos 15 años de datos disponibles, a 52 por año, supone un total de 780 datos sobre los cuales se formulará el modelo. Los primeros datos de 2013 se utilizarán para validar el modelo mediante predicciones. La caracterı́stica observada a través de las series temporales tiene, a su vez, distinta naturaleza temporal, pudiéndose hablar de magnitudes de flujo y de magnitudes de stock : • Magnitudes de flujo: son aquellas que se miden acumulando el valor de la variable desde la última observación realizada, como es el caso del número mensual de inquilinos en un hotel. Estas magnitudes presentan el inconveniente de que, como están definidas en un intervalo de tiempo, aunque éste se mantenga constante, puede que se estén midiendo valores no homogéneos. En el caso mencionado, el número mensual de inquilinos de un hotel, la base temporal no es homogénea, ya que está compuesta de diferente número de dı́as y no todos los dı́as pueden considerarse iguales (fin de semana, festivo, vacaciones, etc) ni aparecen en la misma proporción todos los meses. • Magnitudes de stock: son aquellas que toman valores concretos en instantes concretos del tiempo, como es el caso de la cantidad del activo circulante de una compañı́a. Su observación también se realiza a intervalos de tiempo regulares, como en el caso anterior, pero no se ve afectada por el problema de la falta de homogeneidad. Al respecto de la clasificación anterior, se puede afirmar que los datos de cierre semanales del Ibex 35 constituyen una serie temporal calificada como magnitud de stock, dado que toma un valor concreto en cada instante temporal fijado. 56 Modelo de predicción del Ibex 35 Capı́tulo 6 Por su parte, la descripción de series temporales siguiendo el modelo clásico propone que toda serie está formada por cuatro componentes teóricas: tendencia, variación cı́clica (ciclo), variación estacional (estacionalidad) y variación irregular (residual). La definición de cada una de las componentes se detalla a continuación: • Tendencia, T(t): muestra el movimiento de la serie a largo plazo, esto es, indica si el valor de la variable aumenta o disminuye con el tiempo. La figura 6.1 muestra un proceso de tendencia creciente. Tanto la definición como el cálculo de la tendencia son cuestiones delicadas en cuanto a su definición precisa. En el primer caso, debido al significado de la expresión “largo plazo”, que está relacionado con el incremento del tiempo de las observaciones y el cual es muy difı́cil delimitar. Generalmente, se establece el largo plazo como un periodo de entre 3 y 10 años, aunque esto depende de la naturaleza del problema. En el segundo caso, el cálculo, porque resulta complicado identificar la tendencia al estar generalmente confundida con otra de las componentes, la cı́clica. Figura 6.1: Ejemplo de proceso con tendencia creciente Fuente: Elaboración propia 57 Capı́tulo 6 Modelo de predicción del Ibex 35 • Variaciones cı́clicas, C(t): son oscilaciones con un periodo de tiempo superior a las variaciones estacionales, como las representadas en la figura 6.2. Son también debidas a la naturaleza de la variable (el ciclo del agua, por ejemplo) y generalmente resulta complicado observarlas porque el periodo del ciclo puede ser variable y porque habitualmente no suele aparecer un ciclo completo en los datos con los que se trabaja. Ésta es una de las razones por las que se ha escogido una serie de datos tan amplia. En el caso concreto del Ibex 35, se ha delimitado el largo plazo entre 8 y 10 años. Son una de las componentes principales cuando se estudian datos económicos como es el Ibex 35, dado el conocido comportamiento cı́clico de la economı́a. Figura 6.2: Ejemplo de proceso con variaciones cı́clicas Fuente: Elaboración propia • Variaciones estacionales (estacionalidad), E(t): son oscilaciones que se producen en un periodo de tiempo menor al año y que se repiten de forma más o menos regular a lo largo del tiempo, como se muestra en la figura 6.3. Son debidas al efecto que tienen los meses, los trimestres o cualquier otro periodo interanual sobre la variable estudiada. 58 Modelo de predicción del Ibex 35 Capı́tulo 6 Figura 6.3: Ejemplo de proceso con estacionalidad Fuente: Elaboración propia • Variaciones irregulares, residuales o erráticas, I(t): son movimientos que no muestran una estructura reconocible, como las que se representan en la figura 6.4. Se considera que estas variaciones son originadas por hechos puntuales, como puede ser un cambio en la legislación vigente, un cambio en la polı́tica fiscal de un paı́s o una noticia que afecta drásticamente a la economı́a o las empresas. Esta última componente se obtiene haciendo la diferencia entre la serie original y el resto de componentes descritas anteriormente y, por definición, deberı́a ser una variable aleatoria. El hecho de que los residuos sigan un comportamiento identificable y no aleatorio, ha sido el origen de las nuevas técnicas de descripción de series temporales (ARIMA y procesos estocásticos). 59 Capı́tulo 6 Modelo de predicción del Ibex 35 Figura 6.4: Ejemplo de proceso con comportamiento irregular Fuente: Elaboración propia 6.2.2 Procesos estocásticos Un proceso estocástico es una sucesión de variables aleatorias que evolucionan con el tiempo. Cada una de las variables aleatorias del proceso tiene su propia función de distribución de probabilidad y, entre ellas, pueden estar correlacionadas o no. El modelo estadı́stico que se propone para describir una serie temporal es el denominado proceso estocástico. A modo de explicación, se considera una serie observada compuesta por n datos, que constituirá una muestra de un vector de n variables aleatorias ordenadas en el tiempo (Z1 , Z2 , Z3 , ..., Zn ). Se denomina proceso estocástico al conjunto de esas variables {Zt }, siendo t=1, 2, 3, ..., n y la serie observada se considera una realización o trayectoria del proceso estocástico. Una representación de la idea de proceso estocástico se muestra en la figura 6.5. La estructura probabilı́stica de cualquier proceso estocástico queda determinada cuando se conoce la distribución conjunta de las n variables aleatorias Zt . La determinación de la distribución conjunta del proceso (o de un sub60 Modelo de predicción del Ibex 35 Capı́tulo 6 Figura 6.5: Realizaciones de la variable Zt y distribución en cada instante de tiempo t Fuente: Chirivella (2008) conjunto del mismo) requiere observar un gran número de realizaciones. Esta estimación se simplifica en gran medida cuando se puede suponer que la distribución conjunta es una Normal multivariada, ya que la distribución quedará determinada por las medias, las varianzas y las covarianzas. A continuación se explican las funciones que describen las caracterı́sticas de un proceso estocástico. La función de medias proporciona las medias de las distribuciones marginales Zt en cada instante del tiempo, siendo su ecuación la que se muestra en (6.1): µt = E(Zt ). (6.1) Se dice que el proceso es estable en la media si la función de medias es constante, es decir, todas las variables tienen la misma media. La función de varianzas proporciona la distribución de varianzas de las distribuciones marginales Zt en cada instante del tiempo, representada por la ecuación (6.2): σt2 = Var(Zt ). 61 (6.2) Capı́tulo 6 Modelo de predicción del Ibex 35 Se dice que el proceso es estable en la varianza si ésta es constante a lo largo del tiempo. La estructura de dependencia lineal entre las variables aleatorias del proceso se representa por las funciones de covarianza y correlación. La función de autocovarianzas del proceso describe las covarianzas en dos instantes del tiempo cualesquiera, siendo su ecuación la que aparece en (6.3): Cov(Zt ) = E[(Zt − µt )(Zt+k − µt+k )]. (6.3) Como se observa en (6.3), la covarianza depende de los parámetros t y k, siendo t el instante inicial y k el intervalo de tiempo entre las observaciones. Una condición de estabilidad que aparece en diversos fenómenos dinámicos es que la dependencia entre dos observaciones sólo depende de la longitud del intervalo de tiempo entre ellas y no del origen considerado, lo cual se expresa en la ecuación (6.4), donde k = 0, ±1, ±2, . . .. Cov(Zt1 , Zt1 +k ) = Cov(Zt2 , Zt2 +k ) = γk . (6.4) La Función de Autocorrelación se define como se muestra en (6.5). Cabe hacer una puntualización al respecto de la expresión (6.5), y es que la segunda igualdad se cumplirá en tanto en cuanto el proceso estudiado sea estable en la función de autocorrelación, no en general: ρt,t+k = Cov(Zt1 , Zt1 +k ) = ρk . σt σt+k (6.5) En el estudio de una serie temporal, el proceso estocástico existe conceptualmente, pero sólo se dispone de un valor observado para cada instante (en un conjunto finito de ellos). Para poder estimar las caracterı́sticas “transversales” (medias, varianzas y covarianzas) del proceso a partir de su evolución “longitudinal” (o a partir de una trayectoria), se debe suponer que las propiedades “transversales” son estables a lo largo del tiempo, lo cual conduce al concepto de estacionariedad, el cual se define en el siguiente apartado. 62 Modelo de predicción del Ibex 35 6.2.3 Capı́tulo 6 Procesos estacionarios Si se pretende estudiar una serie a lo largo del tiempo y se dispone de una sola observación para cada instante de tiempo t, resulta muy complicado estimar las caracterı́sticas “transversales” del proceso (media, varianza y covarianza) a partir de su evolución “longitudinal” (valores a lo largo del tiempo), y es necesario suponer que las caracterı́sticas transversales son estables a lo largo del tiempo. Un caso particular de estabilidad de estas caracterı́sticas transversales es que la media y la varianza sean constantes y que la covarianza dependa del retardo entre observaciones y no del instante del tiempo. Un proceso que cumple estas caracterı́sticas es un proceso estocástico estacionario en sentido débil, expresado como se expresa en (6.6): µt = µ = cte, σt2 = σ 2 = cte, Cov(t, t + k) = Cov(t, t − k) = γk . (6.6) En caso de no cumplirse estas caracterı́sticas el proceso se denomina evolutivo, lo cual complicarı́a en exceso la predicción de los valores futuros respecto a un proceso estacionario. Los procesos que representan sistemas económicos no se ajustan a las condiciones de estacionariedad expuestas, pero es posible eliminar sus tendencias y estabilizar sus varianzas para transformarlos en otros procesos que sean aproximadamente estacionarios, lo cual simplifica y permite describirlos y realizar predicciones. La condición impuesta sobre la covarianza suele cumplirse en la realidad y no es necesario hacer nada para comprobarlo. Es posible exigir una condición más al proceso estacionario, en este caso a la distribución del proceso estacionario. Se dice que un proceso es estacionario en sentido estricto cuando las distribuciones marginales y las de cualquier subconjunto de variables tienen la misma distribución, con los mismos parámetros. Lo habitual será admitir que un proceso estocástico tenga distribución Normal multivariante, y que la distribución para cada instante de tiempo sea también Normal. Finalmente hay que señalar que lo que realmente caracteriza a un proceso estacionario es la relación existente entre la variable en el instante de tiempo actual y las variables en instantes de tiempo anteriores. Por ello, de todos los parámetros anteriores, el que define realmente a un proceso estacionario (serie 63 Capı́tulo 6 Modelo de predicción del Ibex 35 temporal), es la función de autocovarianza, con mayor precisión de su valor medio o su varianza. Ahora bien, la función de autocovarianza no es el único ni el mejor parámetro que mide el grado de relación lineal entre dos variables, ya que depende de las unidades de medida de la variable y no constituye una escala para medir el grado de relación. Una forma de solucionar estos problemas es utilizar el coeficiente de autocorrelación lineal simple, el cual mide el grado de relación total existente entre dos variables. Por su parte, si se quisiera medir el grado de relación directa entre dos variables, eliminando el efecto de variables intermedias se deberı́a calcular el coeficiente de autocorrelación parcial. Cuando se quiere analizar una serie temporal es necesario identificar la estructura que la genera, es decir, se debe determinar cómo influyen las observaciones del pasado en las observaciones del futuro. Para identificar esta dependencia se emplean dos herramientas definidas anteriormente, la FAS y la FAP. Función de Autocorrelación Simple (FAS) La FAS es la representación gráfica de los coeficientes de autocorrelación simple de un proceso, que miden el grado de relación total existente entre dos variables separadas en el tiempo por cierto retardo k. Si la dependencia (correlación ρk ) de las observaciones tiende a cero cuando aumenta el retardo, entonces el proceso estacionario recibe el nombre de ergódico. La ergodicidad es una cualidad necesaria para poder estimar las caracterı́sticas del proceso a partir de una única realización, ya que en caso contrario, al aumentar el tamaño de la muestra no se adquiere información adicional por ser todas las observaciones muy dependientes entre sı́. A los efectos del trabajo, se considerará que todos los procesos estacionarios son también ergódicos. Función de Autocorrelación Parcial (FAP) La FAP mide el grado de relación directa existente entre observaciones separadas k periodos, sin considerar el efecto de los valores intermedios. La relación entre dos variables separadas con un cierto retardo k puede ser directa o indirecta. Por lo tanto, para una serie temporal observada compuesta por n datos (Z1 , Z2 , Z3 , ..., Zn ), la variable Z1 está directamente relacionada con Z2 y entre ellas no existe otro tipo de relación. En el caso de la relación entre Z1 y Z3 , ésta se produce a través de Z2 , por lo que serı́a indirecta. 64 Modelo de predicción del Ibex 35 Capı́tulo 6 La relación de una variable con sus anteriores también podrı́a ser como la que se muestra en la figura 6.6, donde el efecto de Z2 se transmite a Z4 directamente y a través de Z3 . Por lo tanto, en la relación de Z2 con Z4 hay una relación directa, que se medirı́a con el coeficiente de autocorrelación parcial, y una relación total (directa e indirecta) que medirı́a el coeficiente de autocorrelación simple. Figura 6.6: Relación entre los valores de un proceso estacionario Fuente: Elaboración propia 6.2.4 Procesos integrados La mayorı́a de procesos económicos son no estacionarios, ya que es habitual que presenten tendencia a lo largo del tiempo. También es habitual que presenten estacionalidad y que su varianza no sea constante, tal y como ocurre con el Ibex 35. Ası́ pues, en la mayorı́a de los casos es posible eliminar de ellos los efectos de tendencia y estacionalidad, estabilizar la varianza y de esta manera transformarlos en otros procesos que sean aproximadamente estacionarios. La forma para conseguir estas transformaciones es la integración. Si el proceso tiene tendencia, es posible que se convierta en estacionario al tomar diferencias, como se representa en la figura 6.7. Esto es, restar a todos los valores de la serie su anterior. Una vez diferenciado se representa gráficamente para observar si los nuevos valores oscilan alrededor de un valor central. Si no es ası́, la tendencia no se ha eliminado, o no ha desaparecido del todo y se tomará una segunda diferencia del proceso Zt . Se dice que un proceso estocástico es integrado de orden h cuando es necesario diferenciarlo h veces para conseguir un proceso estacionario. Una propiedad importante de los procesos estacionarios es tener incrementos estacionarios. Ası́, si el proceso Zt es estacionario, entonces el proceso 65 Capı́tulo 6 Modelo de predicción del Ibex 35 Figura 6.7: Diferenciación de un proceso no estacionario Fuente: Elaboración propia ωt = Zt − Zt−1 , es a su vez estacionario, por lo que se deduce que diferenciar en exceso no tiene, en principio, consecuencias negativas para la serie. Para identificar la existencia de tendencia y/o estacionalidad se debe recurrir a la FAS. La tendencia se observa si los valores de los coeficientes de autocorrelación decrecen lentamente con el retardo (gráfica derecha de la figura 6.8) o tienen un decrecimiento lineal (gráfica izquierda de la figura 6.8) Figura 6.8: FAS de una serie con tendencia Fuente: Chirivella (2008) 66 Modelo de predicción del Ibex 35 Capı́tulo 6 Si el proceso tiene estacionalidad, también se suele solucionar mediante la diferenciación de la serie, aunque en este caso se debe hacer una diferenciación estacional. Con ello, la serie desestacionalizada Zt se calcula como se muestra en (6.7): Zt = ∇s Yt = Yt − Yt−s , (6.7) donde s es el periodo estacional del proceso, por ejemplo tomando el valor 12 para periodos mensuales. La representación gráfica de la serie transformada permite determinar si la componente estacional ha sido eliminada, pudiéndose aplicar diferencias estacionales tantas veces como sea necesario. La estacionalidad se observa en la FAS cuando aparecen unas oscilaciones en los valores de los coeficientes de autocorrelación simple o unos picos equiespaciados en el retardo. Si el proceso tiene varianza no constante también se realizan una serie de transformaciones que la estabilizan. Si la varianza es proporcional al valor medio de la misma, la forma de resolver el problema consiste en realizar la transformación logarı́tmica de la serie, que conduce a valores más o menos constantes. También se puede tomar la raı́z cuadrada de sus valores. Tomar diferencias también podrı́a estabilizar la varianza, pero es una transformación menos potente. A veces es necesario recurrir a más de una transformación para obtener una serie estacionaria. El orden en que se realicen estas transformaciones es relevante, siendo preferible hacer primero las transformaciones logarı́tmicas o las raı́ces cuadradas, ya que al tomar diferencias se pueden obtener valores negativos, por lo que una segunda transformación no permitirı́a tomar logaritmos ni raı́ces cuadradas. La varianza no constante puede observarse mediante la representación gráfica de la serie. Se puede determinar comparando la distancia vertical entre picos del primer y último dato de la serie. Si esa distancia no es la misma, la varianza no es constate. Se dice que una serie es homocedástica cuando su variabilidad (volatilidad) es constante a lo largo del tiempo. Cuando la volatilidad varı́a a lo largo del tiempo, la serie es heterocedástica. La variabilidad se refiere al “grosor” de la serie y una serie puede tener varianza constante aunque sea muy “gruesa”. 67 Capı́tulo 6 6.3 Modelo de predicción del Ibex 35 Análisis y predicción de series temporales univariantes. Metodologı́a Box-Jenkins A diferencia de lo que ocurre con los modelos de regresión, los modelos de series temporales no tienen una teorı́a económica que los respalde, sino que se proponen y se ajustan según las exigencias de la propia serie, por lo cual se denominan modelos ateóricos. Existen tres modelos fundamentales definidos para procesos estacionarios y, a partir de ellos, se obtienen modelos más elaborados y que se ajustan mejor a la realidad. Éstos son los modelos Autorregresivos Integrados de Media Móvil (ARIMA) que se utilizan para describir aquellos procesos no estacionarios pero que pueden serlo tras su diferenciación. 6.3.1 Modelos para procesos estacionarios Se trata de modelos lineales cuyos componentes son la variable que se pretende estudiar y sus valores anteriores, ası́ como una perturbación y sus valores anteriores. Los modelos propuestos son Autorregresivo (AR), Media Móvil (MA) y la combinación de ambos, Autorregresivo de Media Móvil (ARMA). Procesos Autorregresivos (AR) Se supone que el valor actual de una variable Zt está relacionado de forma lineal con su valor anterior Zt−1 , o con un cierto número de valores anteriores al actual, más el efecto de una variable aleatoria. Esta forma de dependencia se relaciona como se muestra en (6.8): Zt = α + φ1 Zt−1 + εt , (6.8) donde α y φ1 son constantes a determinar, |φ| < 1 y εt es un proceso de ruido blanco. A este proceso se le denomina proceso autorregresivo de primer orden AR(1). Generalizando el modelo, de forma que no incluya sólo el valor en el instante de tiempo anterior, sino que, de forma general, incluya ρ instantes anteriores, se obtiene la ecuación (6.9) 68 Modelo de predicción del Ibex 35 ◦ Capı́tulo 6 ◦ ◦ Z t = φ1 Z t−1 +... + φρ Z t−ρ +εt , (6.9) donde • φ1 , φ2 , ..., φρ , son constantes a determinar. ◦ • εt es un proceso de ruido blanco independiente de Z t−1 ∀h ≥ 1. ◦ ◦ • Z t es una variable centrada, la variable menos su media, Z t = Zt − µ. Determinar el orden de un proceso autorregresivo a partir de su FAS es difı́cil, ya que no presenta rasgos fácilmente identificables con el orden del proceso. Es por ello que un proceso AR se debe identificar con su FAP. Si se considera un AR(1), el efecto de Zt−2 sobre Zt es a través de Zt−1 , y conocido el valor de Zt−1 es irrelevante conocer el valor de Zt−2 para obtener el de Zt , como se observa en la figura 6.9 Figura 6.9: Relación entre valores de un AR (1) Fuente: Elaboración propia En un AR(2), figura 6.10, el efecto de Zt−2 se transmite a Zt directamente y a través de Zt−1 , por lo que es necesario conocer ambos para obtener el valor de Zt . En este caso, la FAS indica que la pareja de valores Zt y Zt−2 están relacionados en ambos procesos AR(1) y AR(2), pero si se mide la relación directa entre Zt y Zt−2 (eliminando la relación existente a través Zt−1 ), resulta que para un AR(1) esta relación no existe, mientras que para un AR(2) sı́. En general, para un AR(ρ), las observaciones separadas por 1, 2, ..., ρ retardos presentan relación directa con el valor actual y para el resto de retardos (ρ + 1, ρ + 2,...) no existe relación. El coeficiente de autocorrelación parcial de orden k es una medida de la relación lineal directa entre observaciones separadas k periodos, y se denomina 69 Capı́tulo 6 Modelo de predicción del Ibex 35 Figura 6.10: Relación entre valores de un AR (2) Fuente: Elaboración propia Función de Autocorrelación Parcial (FAP) al conjunto de los coeficientes de autocorrelación αij . De esta definición se deduce que un proceso autorregresivo de orden ρ tendrá los ρ primeros coeficientes de autocorrelación parcial distintos de cero, y por lo tanto el número de coeficientes distintos de cero en la FAP indica el orden del proceso AR. Procesos de Media Móvil (MA) El modelo autorregresivo no describe correctamente algunas series temporales por la razón de que esas series no parecen depender de sus valores anteriores. En algunos procesos el valor de la variable parece depender de un gran número de variables de poca importancia individual y sin relación entre sı́, que constituirı́an el “entorno” de la variable y de los valores anteriores de dicho entorno. Se denomina proceso de media móvil de orden q, MA(q), a un proceso en el que el valor actual de la variable depende del valor actual de otra variable, εt y de sus q valores pasados. Esta forma de dependencia se expresa en (6.10): ◦ Z t = εt − θ1 εt−1 − θ2 εt−2 − ... − θq εt−q . (6.10) La FAP de un proceso MA(q) tiene todos los coeficientes no nulos que decrecen con el retardo de forma exponencial y senoidal, por lo que para identificar su grado se debe recurrir a la FAS, donde el número de los coeficientes no nulos indica el grado del proceso MA. 70 Modelo de predicción del Ibex 35 Capı́tulo 6 Procesos Autorregresivos de Media Móvil (ARMA) Algunas series temporales presentan un comportamiento más complejo que los AR o MA. El modelo que surge para describirlas es una mezcla entre ambos, esto es, el valor presente de la variable depende tanto de sus propios valores como del “entorno” de la variable en el momento actual y pasado. A estos procesos se les denomina ARMA. En un proceso ARMA, se puede observar en la FAP que los primeros coeficientes dependen de la parte AR y que luego se produce un decrecimiento en los valores que dependen de la parte MA. Por su parte, en la FAS se observa que los primeros coeficientes dependen de la parte MA y posteriormente se produce un decrecimiento de los valores que dependen de la parte AR. Un ARMA(p,q) se expresa como se muestra en (6.11): ◦ ◦ ◦ Z t = φ1 Z t−1 +... + φρ Z t−ρ = εt − θ1 εt−1 − ... − θq εt−q . (6.11) En la tabla 6.1 se muestran las diferencias entre la FAS y la FAP de los tres procesos descritos hasta el momento, a saber, AR(p), MA(q) y ARMA(p,q). Tabla 6.1: Similitudes y diferencias en la FAS y la FAP de los modelos AR(p), MA(q) y ARMA(p,q) Proceso AR(p) FAS Muchos coeficientes no nulos que decrecen con el retardo de forma exponencial y sinusoidal MA(q) q primeros coeficientes no nulos y el resto nulos ARMA(p,q) Decrecimiento a cero FAP ρ primeros coeficientes no nulos y el resto nulos Muchos coeficientes no nulos que decrecen con el retardo de forma exponencial y sinusoidal Decrecimiento a cero Fuente: Elaboración propia 71 Capı́tulo 6 6.3.2 Modelo de predicción del Ibex 35 Modelos para procesos integrados Al igual que se pueden formular modelos para procesos estacionarios, como se ha visto anteriormente, también existen modelos para procesos no estacionarios, pero que mediante diferenciación pueden llegar a serlo. A estos procesos se les denomina Autorregresivos Integrados de Medias Móviles (ARIMA), los cuales se dividen en regulares y estacionales. Los procesos ARIMA regulares explican aquellas series que tienen tendencia. Los procesos ARIMA son procesos tipo ARMA aplicados a la serie diferenciada para eliminar su tendencia. Su notación es ARIMA (p,d,q), siendo d las diferencias regulares tomadas, p el orden del proceso autorregresivo y q el orden del proceso de media móvil. Por su parte, los procesos ARIMA estacionales explican las series que presentan estacionalidad. Se tiene con esto un proceso Autorregresivo Integrado de Media Móvil Estacional (SARIMA). Si el proceso seguido es un ARMA (el caso más general), el modelo se denomina ARIMA (P ,D,Q) debido al número de diferencias estacionales tomadas (D), y a los órdenes de la parte autorregresiva (P ) y de media móvil (Q). 6.3.3 Metodologı́a de Box-Jenkins El modelo ARIMA es lo bastante flexible y potente como para poder ajustarse a casi cualquier serie temporal, pero precisamente a esa flexibilidad y potencia se debe que la FAS y la FAP sean realmente complejas y los procesos contenidos sean de todo punto irreconocibles. La metodologı́a Box-Jenkins es la utilizada para solucionar el problema de la identificación de las funciones de autocorrelación, la cual permite identificar los modelos que describen de forma más o menos adecuada el comportamiento de la serie temporal objeto de estudio. Esta metodologı́a consta de los siguientes pasos: • Estacionariedad: se aplican las transformaciones a la serie de forma que se consiga que sea estacionaria en caso de no serlo, lo cual es habitual. • Identificación: se determina el orden de diferenciación para conseguir 72 Modelo de predicción del Ibex 35 Capı́tulo 6 la estacionariedad de la serie y los órdenes correspondientes a las partes autorregresiva y media móvil, tanto para el proceso estacional como para el regular. A partir de este paso se determina el modelo ARIMA (p, d, q)× (P, D, Q)s , cuyos valores se explican al final de 6.3.2. • Estimación: se estiman los valores de los parámetros ϕ de las partes autorregresivas y φ de las partes de media móvil para el modelo ARIMA (p, d, q) × (P, D, Q)s identificado. • Validación: mediante las hipótesis adecuadas se comprueban todas las hipótesis relativas al error y se comprueba que son significativas las estimaciones de los parámetros. De esta forma se acepta o se rechaza el modelo estimado. Si los resultados conducen al rechazo del modelo, éste se debe reformular. Si el modelo resulta adecuado, se pueden realizar predicciones con el mismo. • Reformulación: si el modelo no es adecuado, hay que plantearse qué errores se han cometido en la fase de identificación. Se debe entonces identificar un modelo complementario que sea capaz de explicar lo que el primero no ha conseguido. • Explotación: cuando se ha formulado un modelo adecuado se efectúan predicciones, que pueden ser puntuales o por medio de intervalos de confianza, como corresponde a un modelo de tipo estocástico. Los valores de ambas partes del modelo (autorregresiva y de medias móviles) ayudarán a entender el proceso y cuál es el peso de la “historia” en sus valores futuros. 6.4 Identificación y predicción del modelo ARIMA La identificación del modelo ARIMA requiere, en primer lugar, decidir las transformaciones que se deben aplicar a la serie para que ésta sea estacionaria (número de diferencias d y D) y, en segundo lugar, determinar los órdenes p y q del ARMA (p,q) de la parte regular y, si el proceso es estacional, los órdenes P y Q de la estructura ARMA (P, Q)s estacional. 73 Capı́tulo 6 6.4.1 Modelo de predicción del Ibex 35 Identificación de la estructura no estacionaria La identificación de la estructura no estacionaria consiste en llevar a cabo los siguientes pasos: • Determinar si es necesario transformar la serie para que tenga varianza constante (la denominada transformación de Box-Cox). • Determinar el número d de diferencias regulares. Si la serie estudiada tiene tendencia es necesario diferenciarla para transformarla en estacionaria. Una vez diferenciada debe observarse la ausencia de tendencia y, en caso de no ser ası́, volver a diferenciar. Si la serie se ha diferenciado en d ocasiones, se dice que el orden de diferenciación regular es d. • Determinar el número D de diferencias estacionales. La diferenciación estacional elimina la componente determinista de estacionalidad presente en la serie. Si se ha diferenciado en D ocasiones, entonces el orden de diferenciación estacional es D. 6.4.2 Identificación de la estructura ARMA La identificación de la estructura ARMA, es decir, las partes autorregresiva y de media móvil, los órdenes p y q de la parte regular del modelo ARMA (p,q), y los órdenes P y Q de la parte estacional del modelo ARMA (P, Q)s , que juntos forman el modelo ARIMA (p, d, q) × (P, D, Q)s , se realiza presentando la FAS y la FAP muestrales del proceso estudiado y observando determinados coeficientes de autocorrelación en las funciones. Una vez obtenidos los modelos (órdenes) de la parte regular y estacional por separado, el modelo ARIMA final se obtiene combinando los modelos propuestos para ambas partes. Estudio de la parte regular Para identificar la parte regular de la serie hay que fijarse únicamente en los 6-8 primeros coeficientes de autocorrelación, tanto simples como parciales de la FAS y FAP originales. Para identificar el orden del proceso se utilizarán únicamente aquellos coeficientes que sean significativos, y para confirmar el 74 Modelo de predicción del Ibex 35 Capı́tulo 6 modelo se tendrán en cuenta los 4-6 primeros coeficientes, sean o no significativos. Estudio de la parte estacional Para identificar la parte estacional, hay que fijarse únicamente en los coeficientes de autocorrelación estacionales, tanto los simples como los parciales. Para identificar el orden del proceso se utilizarán aquellos coeficientes estacionales que sean significativos. Para confirmar el modelo propuesto se tienen en cuenta los primeros coeficientes de autocorrelación estacionales sean o no significativos. 6.4.3 Estimación del modelo ARIMA Para la estimación de los parámetros del modelo ARIMA se obtiene la función de verosimilitud, que es función de los parámetros que deben estimarse y de los valores observados de la serie. Derivando la función de verosimilitud con respecto a cada parámetro a estimar, se obtiene un sistema de ecuaciones cuya solución, por métodos de optimización no lineal, permite obtener las estimaciones de los parámetros. Los estimadores obtenidos mediante estos procedimientos son máximo verosı́miles, lo cual significa que son insesgados uniformemente de mı́nima varianza y que su varianza disminuye al aumentar el número de datos. Mediante este método se obtienen las estimaciones de los parámetros para el modelo o los modelos ARIMA propuestos, ası́ como la estimación de la desviación tı́pica del error del modelo. En el caso de proponer más de un modelo, el que tenga menor varianza y estimaciones de los parámetros más significativas será el modelo elegido, a falta de comprobar su validez. 6.4.4 Predicción automática. El paquete de predicción para R Las predicciones automáticas de largas series temporales univariantes se utilizan en el mundo financiero y en muchos otros ámbitos. Las empresas 75 Capı́tulo 6 Modelo de predicción del Ibex 35 poseen cientos de lı́neas de productos y necesitan predicciones de almacenaje, ventas, etc. Incluso cuando se trata de series más pequeñas también se requiere la realización de predicciones. No muchas personas están capacitadas para usar series temporales y predecir valores, por cuanto que se pueden cometer numerosos errores de apreciación o de cálculo. En estas circunstancias, un paquete de predicción algorı́tmico, como es el paquete de predicción para R, se configura como una herramienta esencial. El paquete de predicción para R forecast (Hyndman y otros, 2005) determina el modelo más adecuado para una serie temporal concreta, estimando los parámetros y calculando las predicciones. La popular predicción algorı́tmica automática se basa en cualquier suavizado exponencial o modelos ARIMA. Para la parte aleatoria del modelo del Ibex 35 se ha empleado el módulo forecast, el cual no está contenido en el programa básico y que abre las posibilidades para ajustar el modelo ARIMA (Hyndman y otros, 2005). La predicción automática sigue los pasos que a continuación se describen: • Para cada serie, se aplican los modelos que se consideran apropiados, optimizando los parámetros del modelo para cada caso. • Se selecciona el mejor modelo de acuerdo al AIC (Akaike’s Information Criterion, o criterio de verificación de Akaike, en castellano). El AIC proporciona un método de selección entre el error del modelo aditivo y multiplicativo. Las predicciones puntuales de ambos modelos son idénticas a la predicción estándar medida con exactitud como en el MSE o el MAPE. El AIC es capaz de seleccionar ambos tipos de errores porque está basado en predicciones en más de un solo paso. La principal tarea de predicción automática del modelo ARIMA es seleccionar el orden apropiado del modelo, que son los valores de p, q, P , Q, d, D mediante un criterio de selección como es el AIC, calculándose éste como se muestra en (6.12) AIC = −2 log(L) + 2(p + q + P + Q + k), (6.12) donde k=1 si c 6= 0, (p + q + P + Q + k) es el número de parámetros en el modelo ARIMA y L es el máximo valor de la función de log-verosimilitud para el modelo ARIMA estimado. 76 Modelo de predicción del Ibex 35 Capı́tulo 6 De esta forma: • Se producen predicciones puntuales al utilizar el mejor modelo (con los parámetros optimizados). • Se obtienen predicciones mediante intervalos de confianza del mejor modelo utilizando la función de ajuste automático del modelo ARIMA, el comando auto.arima (Hyndman y otros, 2005) o mediante simulación de futuras muestras {yn+1 , ..., yn+h } y localizando los percentiles α2 y 1−α 2 de los datos de la simulación para cada horizonte de predicción. Si se utiliza la simulación, el camino de muestras pueden ser generadas utilizando la distribución Normal para los errores (bootstrap paramétrico) o usando el remuestreo de errores (bootstrap ordinario). Para muchos investigadores resulta un obstáculo el utilizar el modelo ARIMA para realizar predicciones debido al difı́cil proceso de selección del orden (estructura ARMA), ya que se considera subjetivo y complejo en su aplicación. Aunque no tiene porqué ser ası́, porque los modelos ARIMA se han automatizado hasta tal nivel que la utilización de algoritmos garantiza la elección de un modelo válido dentro de un número infinito de modelos y, como mı́nimo, uno de los modelos se aceptará. Para la ejecución del modelo se utilizan los siguientes comandos de la librerı́a forecast: • La función auto.arima ajusta de forma automática el mejor modelo. • La función forecast, para realizar las predicciones. • La función plot, para obtener los gráficos. La salida de pantalla de la función auto.arima proporciona el valor estimado, el error estándar cometido y el t-valor para la prueba de contraste de cada parámetro. Pero además, la función calcula las medidas de bondad del ajuste que se detallan en la tabla 6.2, y que sirven para comprobar la idoneidad del modelo a partir de distintas medidas del error. 77 Capı́tulo 6 Modelo de predicción del Ibex 35 Tabla 6.2: Medidas de bondad del ajuste obtenidas con el modelo ARIMA Medida ME Descripción Fórmula T 1X ǫi T Media del residuo i=1 RMSE MAE Raı́z del medio error cuadrático v u T u1X t (ǫt − ǫ)2 T i=1 T 1X |ǫi | T Error absoluto medio i=1 MPE Error porcentual medio T 1 X f t − at T at i=1 MAPE Error porcentual medio absoluto T 1 X ft − at at T i=1 Fuente: Elaboración propia 78 Modelo de predicción del Ibex 35 6.5 Capı́tulo 6 Validación del modelo ARIMA Para comprobar la validez del modelo propuesto se emplean diversos estadı́sticos de contrastes. La idea general es comprobar que se han elegido de forma correcta los órdenes d y D de la transformación estacionaria de la serie y los órdenes p, q, P y Q de la estructura ARMA del modelo, es decir, comprobar que se ha identificado correctamente el modelo ARIMA. 6.5.1 Contrastes sobre los parámetros En primer lugar debe comprobarse la significatividad de los parámetros. El método analı́tico para realizarlo es la prueba t. Mediante el software R, la significación de los parámetros se realiza con la siguiente prueba. Si p − valor > α, siendo α = 0, 05, se acepta H0 (Ψi = 0), donde Ψi representa a cada uno de los parámetros del modelo, es decir, si se acepta la hipótesis nula de que cada parámetro es no significativamente diferente de cero. En caso contrato, si p − valor < α se rechaza la hipótesis nula y, por lo tanto, se puede suponer que los parámetros son significativamente distintos de cero. El estadı́stico de contraste es el que se muestra en (6.13): tcalc = Ψi ≡ tgdlr . s Ψi (6.13) donde se divide la estimación del parámetro por su desviación tı́pica, expresión similar a (5.18) pero calculada para un modelo ARIMA. 6.5.2 Contrastes sobre el error La diagnosis del modelo requiere comprobar que las hipótesis básicas realizadas con respecto al error son aceptables, esto es: 79 Capı́tulo 6 Modelo de predicción del Ibex 35 Media cero: E(εt ) = 0 Los residuos estimados de un modelo ARIMA no están sujetos a esta restricción debido a la parte autorregresiva. El contraste para aceptar que el valor medio del error es cero es el que se expresa en (6.14): Si ε ∈ H0 : E(εt ) = 0, H h 1 : E(εt ) 6= 0, −z α/2 √σbεT , z α/2 √σbεT i (6.14) , donde T es un número de datos empleados en el ajuste (T = n − d − sD, es el número de observaciones de la serie estacionaria), y el promedio y la varianza de los residuos se calculan mediante las expresiones (6.15) y (6.16): ǫ= σ bǫ2 = P T ǫi , P (ǫt − ǫ)2 . T −p−q−P −Q (6.15) (6.16) Varianza constante: Var(εt ) = cte La homocedasticidad del error se comprueba estudiando el gráfico de los residuos frente al tiempo o frente a la propia variable estudiada. De forma numérica, se pueden tomar los residuos del ajuste, elevarlos al cuadrado y realizar el ajuste por MCO de los modelos, según las expresiones (6.17) y (6.18): e2t = ϑ0 + ϑ1 t + U, (6.17) si se postula que la varianza depende del tiempo. e2t = ϑ0 + ϑ1 Zt + U, si se postula que la varianza depende del valor de la variable. 80 (6.18) Modelo de predicción del Ibex 35 Capı́tulo 6 La hipótesis nula ϑ1 = 0 indica que no existe heterocedasticidad en los residuos y la prueba t correspondiente permitirá aceptarla o rechazarla. Incorrelación para cualquier retardo: Cov(εt , εt−k ) = 0 Mediante la observación de la FAS y la FAP, añadiendo los lı́mites de √ significación ±2/ T y comprobando que para valores altos del retardo los coeficientes se encuentran dentro de los lı́mites de confianza (95%), se comprueba si el modelo es correcto según esta última hipótesis. La herramienta que se emplea para verificar esta hipótesis es el comando tsdiag de R descrito en el apartado 5.2 Diagnosis y validación del modelo de regresión. Normalidad La normalidad de los residuos se comprueba con el papel probabilı́stico normal, descrito en el apartado 5.2 Diagnosis y validación del modelo de regresión. 6.5.3 Contrastes sobre el modelo. juste Reformulación y sobrea- El modelo ajustado también debe ser contrastado ya que no hay ninguna teorı́a económica que respalde el modelo seleccionado. La prueba de reformulación consiste en modificar el modelo original. La forma de hacerlo es considerar que los residuos son una serie temporal y analizando su estructura. En el caso de que existiera una nueva estructura, se producirı́a una reformulación del modelo incluyendo en el mismo la nueva estructura. La técnica del sobreajuste consiste en estimar un modelo de orden mayor al obtenido y comprobar si se obtienen coeficientes negativos. Si se ha ajustado un modelo ARIMA (p,d,q) el sobreajuste se aplica estimando los modelos con un orden superior de p ó q, pero no de los dos a la vez, ya que se podrı́an compensar sus efectos. Los modelos a estudiar serı́an ARIMA (p + 1,d,q) y ARIMA (p,d,q + 1), comprobando en ambos casos si los parámetros son significativos. 81 Capı́tulo 7 Predicción del Ibex 35 con un modelo estocástico de salto de Poisson compuesto En este capı́tulo se elabora el modelo del Ibex 35. En primer lugar, se realiza un análisis descriptivo de la serie histórica del Ibex 35, con el objetivo de comprender mejor su comportamiento. En segundo lugar, se hace la descomposición de la serie siguiendo el modelo clásico de descripción de series temporales, que servirá como base para proponer un modelo adecuado. Éste está compuesto por los cuatro elementos, tendencia, ciclo, estacionalidad y componente irregular, habiéndose modelizado las tres primeras con técnicas analı́ticas para obtener una parte determinista y la última con técnicas ARIMA y procesos estocásticos de tipo Poisson compuesto para completar el modelo con una componente aleatoria. Por último, se lleva a cabo la validación del modelo para comprobar su adecuación a la serie histórica y medir su capacidad predictiva. 83 Capı́tulo 7 7.1 Modelo de predicción del Ibex 35 Introducción. Selección y correcciones sobre la serie de datos El mercado bursátil es un elemento fundamental en la economı́a moderna. Se trata de un mercado que evoluciona y madura conforme se desarrollan las empresas negociantes y los sistemas financieros. A su vez, determina el futuro de compañı́as y paı́ses, mediante el valor de las acciones, futuros y demás derivados financieros. Estos valores reflejan las expectativas que los inversores tienen sobre el activo subyacente en el que invierten. En el caso de los ı́ndices bursátiles como el Ibex 35, que nos ocupa en el presente trabajo, reflejan las expectativas económicas de las principales empresas del paı́s, y por tanto, de la economı́a de dicho paı́s en su conjunto. Los grandes fondos de inversión invierten en los 35 valores que componen el Ibex 35 o bien en el propio ı́ndice, mediante derivados financieros. Por estos motivos y los ya explicados anteriormente se hace necesario conocer las caracterı́sticas de este mercado y tener una herramienta que apoye a la decisión a la hora de invertir, en este caso una herramienta basada en el análisis de series temporales. Y como suele ser habitual en este tipo de análisis, se debe seleccionar la parte de la serie más adecuada para elaborar un modelo y sobre dicha serie seleccionada es necesario realizar determinadas correcciones con el objeto de eliminar las posibles distorsiones por observaciones extremas que perjudiquen a la estimación de los parámetros del modelo. 7.1.1 La serie de datos Los valores que componen el Ibex 35 se negocian todos los dı́as hábiles de la Comunidad de Madrid de 9h de la mañana a 17:30h de la tarde. Durante este horario los valores se negocian según los principios básicos de la oferta y la demanda. Existe además una subasta de apertura media hora previa al horario de mercado abierto, ası́ como una subasta de cierre 5 minutos después. En estos intervalos los valores se negocian sin traslado efectivo en la cotización real. La variación real del dato se plasma en el momento de apertura a las 9h de la mañana. Los datos más importantes desde el punto de vista de análisis técnico 84 Modelo de predicción del Ibex 35 Capı́tulo 7 bursátil son los datos de apertura y cierre. El dato de cierre es más significativo pues es el que define cómo ha finalizado la “batalla” del dı́a entre los alcistas y bajistas, es decir, los compradores y los vendedores. En toda bibliografı́a de análisis técnico podemos encontrar esta afirmación. Si bien, también tienen importancia los valores del máximo y mı́nimo del dı́a y el precio de apertura, el precio de cierre es el que cierra el gráfico y marca el punto de partida del dı́a siguiente. Por poner un ejemplo, si un valor abre a 99, durante el dı́a alcanza 104 sin descender de 99 pero en la última hora de negociación cierra en 98, es una clara señal de debilidad. A partir de 100 los inversores consideran que el precio está sobrevalorado y venden para obtener beneficios, motivo por el cual cierra en 98 al finalizar el dı́a. Aunque el rango diario es importante, el precio de cierre es el más significativo y marca la tendencia del dı́a siguiente. Ası́ sucede en múltiples ejemplos. El tipo de gráfico más habitual es el de velas japonesas, que representa gráficamente los cuatro valores indicados (máximo, mı́nimo, apertura y cierre). En cuanto al dato utilizado para la elaboración de los gráficos, en el análisis técnico se utilizan rangos de todas las amplitudes: minutos, horas, dı́as, semanas, etc. Para el análisis a medio plazo se utiliza normalmente el periodo semanal, pues tiene un movimiento más suave y con una representación del largo plazo mucho más apropiada que los datos diarios. Por este motivo se han utilizado en el presente trabajo los datos de cierre semanal. El dato de cierre semanal es el que se utiliza normalmente en el análisis técnico para realizar las proyecciones a medio y largo plazo. Se han tomado los datos de cierre del último dı́a hábil de la semana de los últimos 15 años naturales disponibles, es decir, de 1998 a 2012, con una frecuencia de 52 semanas cada uno. Se han utilizado 15 años porque antes de 1998 los datos no serı́an válidos para la realización del modelo, pues se produjeron oscilaciones incongruentes y una volatilidad casi nula caracterı́sticos del inicio de cotización de cualquier ı́ndice o valor bursátil. Ası́ pues, el total de datos históricos disponibles son 780. Cabe señalar, no obstante, que también se recogieron los datos de los primeros 9 meses de 2013 para contrastar las predicciones que se realizaban con el modelo, pero éstas no se incluyen en la serie objeto de modelización. Respecto al número de semanas, en caso de que por circunstancias un año tuviera 53 últimos dı́as hábiles de semana, se han promediado los dos últimos para mantener la frecuencia constante. 85 Capı́tulo 7 Modelo de predicción del Ibex 35 Por otro lado, la serie presenta variaciones de tipo cı́clico, es decir, con duración mayor al año. En la figura 7.1 se observa una subida desde el punto inicial en 1998 junto a una bajada en 2003. Posteriormente otra subida cuyo pico está en 2008 que vuelve a bajar a mı́nimos a mediados de 2012, para recuperarse en la segunda mitad de este mismo año. Este ciclo que se repite es caracterı́stico de la economı́a y actualmente sufre de importantes saltos y mayor volatilidad, de ahı́ que se produzcan picos importantes dentro del mismo ciclo. 4000 6000 8000 10000 12000 14000 Logaritmo del Ibex Figura 7.1: Evolución del Ibex 35 desde el 1 de enero de 1998 al 31 de diciembre de 2012 2000 2005 2010 Tiempo (semanas) Fuente: Elaboración propia a partir de datos de cierre diarios del Ibex 35 Sin embargo, para precisar en la descripción de la serie de datos semanales del Ibex 35, se ha realizado una descomposición de la misma siguiendo el esquema clásico de descripción de series temporales descrito en el apartado 6.2.1, el cual servirá como base para la construcción del modelo. Siguiendo el esquema indicado, se van a describir las caracterı́sticas de la serie de estudio. En cuanto a la presencia de tendencia, T (t), se puede observar en la figura 7.1 que no existe una tendencia clara a simple vista. Se podrı́a decir que se observa una ligera tendencia creciente porque se puede detectar que el mı́nimo de 2012 es mayor que el de 2003, ası́ como el máximo de 2008 es superior al del año 2000. Más adelante se corroborará si existe o 86 Modelo de predicción del Ibex 35 Capı́tulo 7 no tendencia. Por lo que se refiere a los ciclos, C(t), observados en la serie objeto de estudio, se puede considerar la existencia ciclos de 8-9 años. Siguiendo la serie de datos analizada de 15 años puede observarse que el ciclo para que el Ibex 35 retorne al momento inicial es de aproximadamente esta cantidad de años, lo cual se demostrará posteriormente usando técnicas estadı́sticas. Por ejemplo, partiendo de 2001 el Ibex se encuentra en torno a 10.000 puntos y en 2010-2011 retorna a la misma cifra. Por lo que respecta a las variaciones estacionales, E(t), numerosos autores coinciden la existencia de estacionalidad en los mercados bursátiles en determinados meses del año. Según datos históricos, durante los últimos 50 años la bolsa subió en los periodos de marzo-abril y octubre-enero, bajando notablemente en junio y septiembre. Esto ha dado lugar a citas conocidas como “sell in May and go away”, pues el periodo mayo-septiembre suele ser muy volátil y negativo. Además, dado que los mercados se guı́an por el denominado “sentimiento del mercado” o “psicologı́a de masas” y la repetición histórica, es algo a tener en cuenta. Por ejemplo, es conocido que el verano es un periodo volátil porque los responsables de las grandes firmas de inversión se van de vacaciones y dejan a cargo a trabajadores sin poder para tomar decisiones importantes, que desestabilizan el mercado pero no toman posiciones claras en una dirección u otra. O por ejemplo la semana de Navidad es históricamente alcista. Otro ejemplo claro y comúnmente conocido es que los lunes son negativos y los viernes positivos. En la figura 7.2 se puede observar la rentabilidad promedio de estos dı́as en el periodo analizado que demuestra esta estacionalidad. Es importante recalcar de nuevo que el análisis técnico se basa en la psicologı́a de masas, por lo que los patrones que se identifican repetidas veces se asume que se repetirán en el futuro. De aquı́ que estos datos históricos de rentabilidad promedio haya que tenerlos en cuenta. Por último, las variaciones irregulares, I(t), se pueden observar a lo largo de toda la serie, siendo esta componente de especial relevancia para la modelización del comportamiento actual del Ibex 35. Las variaciones irregulares se observan principalmente por incrementos y descensos bruscos y repentinos del ı́ndice. Ası́ pues, las conclusiones que se pueden extraer del presente apartado son 87 Capı́tulo 7 Modelo de predicción del Ibex 35 Figura 7.2: Rentabilidad promedio histórica de los dı́as de la semana Fuente: Elaboración propia a partir de los datos diarios de la serie histórica la presencia de una serie de componentes en el comportamiento del ı́ndice Ibex 35, que deben ser recogidos en la elaboración del modelo y que son: la presencia de tendencia, la existencia de ciclos y la existencia de una estacionalidad anual en los datos del Ibex 35, además de la presencia de una componente irregular en el comportamiento de los mismos. 7.1.2 Ajustes realizados sobre la serie de datos Otro de los pasos habituales en la modelización matemática de series temporales es la realización de una serie de correcciones sobre los datos observados. La motivación de este hecho no es más que la eliminación y/o sustitución de datos que pueden no ser representativos de la serie general, es decir, son datos anómalos, y que pueden interferir en la estimación de los parámetros del modelo, produciendo en consecuencia distorsiones en el modelo construido. La primera de las correcciones consiste en considerar años con 52 cierres semanales. Las razones que justifican esta decisión se deben a los criterios del análisis técnico bursátil ya comentados anteriormente. Se han selec88 Modelo de predicción del Ibex 35 Capı́tulo 7 cionado los cierres semanales, independientemente del número de dı́as hábiles o el dı́a natural en el que se produzca el cierre semanal (por ejemplo si el viernes es festivo, se toma el jueves). Por otra parte, esto supone que en varios casos los años tengan 53 cierres semanales. En estos casos se han promediado los dos últimos datos disponibles a fin de contar con únicamente 52 datos en un año. Esto se realiza para facilitar la modelización. La segunda corrección que se ha realizado ha sido la de tomar logaritmos naturales. Esto es bastante usual al trabajar con series temporales puesto que, entre otros problemas, se elimina la heterocedasticidad (varianza no constante) y se aproxima la distribución de los datos a una distribución Normal, lo cual facilita en gran medida el proceso de modelización posterior. Múltiple bibliografı́a refuerza la decisión de la toma de logaritmos (Benth y Saltyte Benth, 2013). La última corrección se ocupa de eliminar la presencia de los denominados outliers, o datos extremos. Los outliers están representados por fuertes spikes (picos en la terminologı́a anglosajona) hacia arriba y hacia abajo. Estos picos pueden influir de manera determinante en el análisis de la tendencia y de la estacionalidad de las series temporales que definen los datos y que se desea modelizar. Por ello, es conveniente eliminar estos outliers antes de proceder a estimar los parámetros del modelo. Las explicaciones que se dan sobre la existencia de outliers son muy variadas, pero normalmente se deben a noticias económicas que afectan gravemente a los mércados bursátiles. Por ejemplo, recientemente las noticias de la quiebra de la banca o los rescates a los paı́ses en crisis de la eurozona, son motivos de graves descensos, o bien las medidas de fuerte estı́mulo de la FED (EE.UU.) o datos macroeconómicos muy buenos de determinadas economı́as, son motivos de importantes ascensos. Para detectar los outliers se calculan el cuartil inferior y superior y el rango intercuartı́lico para la serie de datos transformados logarı́tmicamente. Estos conceptos se definen de la siguiente manera: • Cuartil inferior (Q1 ): ordenados todos los datos de mayor a menor, Q1 es el valor a partir del cual se sitúa el 75% de los datos mayores que él mismo y por debajo del que está el 25% de los datos. El valor de la serie utilizada es 9, 0084. 89 Capı́tulo 7 Modelo de predicción del Ibex 35 • Cuartil superior (Q3 ): de nuevo considerando los datos ordenados, Q3 es el valor a partir del cual se sitúa el 25% de los datos mayores que él mismo y por debajo del que está el 75% de los datos. El valor que se obtiene en la serie empleada es 9, 3118. • Rango intercuartı́lico, IRQ (Q3 − Q1 ): diferencia entre el cuartil superior y el cuartil inferior. El valor obtenido para el caso de la serie utilizada es 0, 3034. El criterio que se utiliza de forma usual para determinar la existencia de outliers es considerar que una observación es un outlier si se queda fuera del intervalo determinado por [Q1 −1.5×IRQ; Q3 +1.5×IRQ]. En el caso concreto de la serie empleada, el rango resultante es [8, 5532; 9, 7670], no obteniéndose ningún outlier. Figura 7.3: Gráfico Box-Whisker del logaritmo de los datos Fuente: Elaboración propia La serie definitiva, una vez realizados estos ajustes, queda tal y como se 90 Modelo de predicción del Ibex 35 Capı́tulo 7 representa en la figura 7.4, que es la que servirá para ajustar el modelo propuesto. Con todas las correcciones, el número de datos que tiene la serie es de 780 datos de cierre semanales. Figura 7.4: Logaritmo de los datos semanales corregidos desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012 Fuente: Elaboración propia a partir de los datos diarios de la serie histórica De la observación de la serie corregida se pueden extraer cuatro componentes principales, ya descritas en el apartado del modelo clásico de descripción de series temporales: • Tendencia. En el tramo de datos seleccionado no se observa una tendencia clara en sentido creciente o decreciente, desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012. Si bien, como se ha comentado, el mı́nimo de 2012 es mayor que el de 2003 y el máximo de 2008 mayor al del 2000, lo que indica una tendencia ligeramente creciente. • Evolución cı́clica. La duración del ciclo es de unos 8-9 años aproximadamente. Como se puede observar en la figura 7.1, el ciclo de esta duración se modelizará con una función trigonométrica apropiada, como más adelante se mostrará, y encaja con los ciclos económicos reflejados en el ı́ndice bursátil. 91 Capı́tulo 7 Modelo de predicción del Ibex 35 • Estacionalidad anual. Como más adelante se detalla, tras descontar las dos componentes anteriores de la serie, se observa con claridad la estacionalidad anual existente. • Componente irregular. Esta componente sigue un comportamiento para cuya modelización se utilizaran técnicas de procesos estocásticos. Estas cuatro componentes son los elementos básicos del modelo, correspondiendo las tres primeras (tendencia, ciclo y estacionalidad) a la parte determinista, y la última (componente irregular), a la parte aleatoria del modelo. A lo largo del apartado 7.2 se explica en detalle la forma de modelizar cada una de estas componentes. 7.1.3 Descripción estadı́stica de la serie de datos corregida Para realizar un análisis descriptivo de la serie de datos se ha recurrido a las herramientas habituales en estadı́stica descriptiva, esto es, el cálculo de los parámetros que caracterizan a los datos y a sus transformados logarı́tmicamente, los de posición (media y mediana), dispersión (desviación tı́pica), y los de curtosis y asimetrı́a, junto con la representación gráfica del histograma y el gráfico de caja y bigotes (Box-Whisker en terminologı́a anglosajona). En la tabla 7.1 se puede observar el resultado obtenido para el cálculo de los parámetros anteriormente señalados. De los datos calculados se deben realizar algunos comentarios. Primero en lo que respecta a los logaritmos, la media y la mediana están bastante próximas, como ocurre en las distribuciones próximas a la Normal, pero no son iguales. En efecto, la mediana es ligeramente mayor que la media. Por otro lado, los valores de la curtosis y del coeficiente de asimetrı́a se sitúan en el intervalo [−2; 2], que es el que se admite como usual para dichos valores en una distribución Normal. De todo lo anterior parece que a primera vista la distribución del logaritmo de los datos es similar a una Normal. En las figuras 7.5 y 7.6 se representan los histogramas del Ibex 35 antes y después de tomar los logaritmos, respectivamente. La lı́nea discontinua de color negro representa la densidad de la distribución del Ibex 35 y, como claramente se observa, se aproxima a la Normal. 92 Modelo de predicción del Ibex 35 Capı́tulo 7 Tabla 7.1: Parámetros principales de la serie de datos corregida Parámetro No de datos Media Mediana Varianza Desviación tı́pica Curtosis Asimetrı́a Valor sin logaritmos 780 9.830 9.680 5.108.883 2.260 −0, 075 0, 0565 Valor con logaritmos 780 9, 167 9, 178 0, 052 0, 228 −0, 418 0, 026 Fuente: Elaboración propia Figura 7.5: Histograma de los datos del Ibex 35 Fuente: Elaboración propia 93 Capı́tulo 7 Modelo de predicción del Ibex 35 Figura 7.6: Histograma del logaritmo de los datos del Ibex 35 Fuente: Elaboración propia El objetivo que se perseguı́a con la toma de logaritmos era aproximar la distribución de los datos a una Normal y hacer la serie homocedástica. Esto se consigue en cierta medida, aunque para asegurar este extremo, se ha realizado el test de Kolmogorov-Smirnov. El test de Kolmogorov-Smirnov se emplea para contrastar si la distribución de probabilidad de los datos corregidos proviene de una Normal. El contraste de hipótesis es el siguiente, tomando los valores de media y desviación tı́pica de la tabla 7.1: H0 : La distribución de probabilidad es Normal(9, 1672; 0, 2278) H1 : La distribución de probabilidad no es Normal(9, 1672; 0, 2278) El estadı́stico del contraste de Kolmogorov-Smirnov (Dn ) es la máxima distancia vertical entre la función de distribución formada por los datos corregidos (Fn (x)) y la función de distribución teórica con la que se quieren contrastar los datos (F (x)), como se expresa a continuación: Dn = max −∞<x<∞ |Fn (x) − F (x)|. 94 Modelo de predicción del Ibex 35 Capı́tulo 7 El número de datos se denota por n. Cuando n > 30, el valor crı́tico del estadı́stico para un nivel de significación del 5% es el siguiente (Dcrit ): Dn Dcrit = √ . n Siempre que se obtenga un valor para Dn menor que Dcrit , no se podrá rechazar la hipótesis nula. En términos de p-valor, si éste toma un valor mayor que el nivel de significación (5%), la hipótesis nula igualmente no se rechaza. El programa R permite hacer el test con el comando ks.test, siguiendo el razonamiento anteriormente descrito y utilizando como argumentos las propias series de datos (original y corregida) y sus medias y desviaciones tı́picas. El resultado se expresa en términos de p-valor, tomando éste en la serie de datos original un valor de 0, 01843, por lo que se rechaza la hipótesis nula a un 5% de significación, es decir, la distribución de los datos no puede considerarse una distribución Normal con la media y la desviación tı́pica especificadas. Si bien, tras la toma de logaritmos, el test ofrece un p-valor de 0, 4097, por lo que se acepta la hipótesis nula con un 5% de significación, en este caso, la distribución de los datos se puede considerar una distribución Normal. 7.1.4 Descomposición detallada de la serie de datos corregida Como base para proponer un modelo del Ibex 35 se va a descomponer la serie corregida en sus componentes, pero de una forma más detallada, ya que hasta este punto sólo se ha hecho una descripción general de las mismas. Para poder hacer una descomposición completa, se ha recurrido al comando stl del programa estadı́stico R, el cual ha permitido generar la figura 7.7. Ésta se divide en cuatro gráficas que se describen a continuación. La gráfica superior (data) representa la serie de datos corregida, es decir, se muestran los mismos datos que se han podido observar en la figura 7.4. En cuanto a la segunda gráfica (seasonal), muestra la estacionalidad detectada en cada uno de los años observados. En el extremo derecho de esta gráfica se pueden ver valores entre −0, 03 y 0, 03, que pueden ser interpretados como los ı́ndices de estacionalidad. Un ı́ndice estacional es la variación relativa que sufre el dato de una semana concreta con respecto a la media 95 Capı́tulo 7 Modelo de predicción del Ibex 35 de toda la serie de datos. Por ejemplo, si el ı́ndice de estacionalidad de la primera semana de enero es 0, 03 significa que, de media, el dato del Ibex 35 de esa semana (sea el año que sea) es un 3% superior al dato medio del año. La estacionalidad observada consiste en niveles máximos del Ibex 35 en abril de todos los años, caı́da de los mismos hasta el mı́nimo en septiembre para una posterior subida progresiva hasta abril. Esta estacionalidad encaja con la indicada anteriormente según los datos históricos que se utilizan en el análisis técnico. En la tercera gráfica (trend) se representa la tendencia de la serie corregida de datos. En esta gráfica también se pueden ver las variaciones cı́clicas que experimenta la serie, observándose un ciclo de alrededor de 8-9 años de duración. Finalmente, la gráfica inferior (remainder ), representa los coeficientes de correlación de los residuos de la serie. Se deberı́a observar comportamiento aleatorio en los residuos y por tanto que no existe regularidad en los coeficientes. Sin embargo esto no es ası́ en este caso, ya que se ven oscilaciones de grupos de coeficientes positivos y negativos, de lo que se deduce que existe regularidad. Del análisis de la serie corregida se deduce la presencia de cuatro componentes, cuyo comportamiento es el objeto de la modelización posterior: tendencia, ciclo, estacionalidad y la componente irregular. Como se ha señalado, las tres primeras componentes son deterministas y se modelizan combinando funciones lineales y trigonométricas, y la última se modeliza con técnicas ARIMA y procesos estocásticos. 7.2 Elaboración del modelo del Ibex 35 Los pasos seguidos en la elaboración del modelo del Ibex 35 semanal se han basado, con las adaptaciones pertinentes que recogen las caracterı́sticas intrı́nsecas de dicho mercado (Benth y Saltyte Benth, 2013). Después de realizar todas las correcciones descritas en los apartados precedentes, ya se dispone de los datos adecuados para poder ajustar un modelo que, a priori, puede reflejar de forma fiel el comportamiento del logaritmo de los datos del Ibex 35. El modelo propuesto es aditivo, y cada una de las componentes se 96 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.7: Descomposición de la serie completa del Ibex 35 (1998-2012) Fuente: Elaboración propia 97 Capı́tulo 7 Modelo de predicción del Ibex 35 ajusta una vez ha sido obtenida y descontada (restada) la anterior, comenzando por la componente tendencia-ciclo y acabando con la estacionalidad, que completa la parte determinista del modelo. Con los residuos de la parte determinista, se ajustará un modelo ARIMA, ya que se supone que la componente irregular es aleatoria. Con estos pasos se combinan las dos técnicas descritas en los capı́tulos 5 y 6, respectivamente. 7.2.1 Ajuste del modelo del Ibex 35. Parte determinista El modelo completo se puede observar en (7.1), en la cual se incluyen las diferentes componentes que se deben modelizar. La modelización, no obstante, se realizará por partes, recogiéndose en primer lugar el comportamiento a largo plazo (ciclo y tendencia) y posteriormente el comportamiento en el corto plazo (estacionalidad e irregularidad), P (t) = PT C (t) + PEA (t) + I(t), (7.1) donde P (t) = log(p(t)), siendo p(t) el valor de cierre del Ibex 35 en la semana t. Se ha partido de un modelo para la tendencia T (t) y el ciclo C(t), denotado como PT C (t), basado en una función lineal y una curva trigonométrica (mediante la función coseno), respectivamente. Las razones que justifican esta decisión son la sencillez de la función coseno, su comportamiento periódico y su fácil interpretación, además de que la tendencia se modeliza de forma adecuada con una función lineal. La frecuencia seleccionada para el coseno ha sido de 468 semanas (9 años), ya que el ciclo observado en el perı́odo considerado tiene una duración entre 8 y 9 años y se ha comprobado cómo la función coseno se adapta mejor al ciclo de 9 años. Por todo ello, el modelo del Ibex 35 basado en el modelo de Fourier con un armónico y una componente lineal y del cual se parte como primera propuesta, es el que se muestra en (7.4), agregando las dos componentes detalladas en (7.2) y (7.3), correspondientes a las componente tendencia y ciclo, respectivamente. T (t) = b0 + b1 · t, 98 (7.2) Modelo de predicción del Ibex 35 C(t) = b2 · cos Capı́tulo 7 2 · π · (t − b3 ) , 468 PT C (t) = T (t) + C(t). (7.3) (7.4) Los parámetros del modelo tendencia-ciclo son los siguientes: • PT C (t) denota el logaritmo del dato del Ibex 35 en la semana t. • t representa las semanas transcurridas desde el 1 de enero de 1998. • b0 representa la parte fija o autónoma del logaritmo del dato del Ibex 35. • b1 puede interpretarse como la tendencia o drift del logaritmo del dato del Ibex 35. • b2 representa la amplitud del coseno. Proporciona una medida de las oscilaciones cı́clicas de los datos. • b3 denota el desfase del coseno con respecto al 1 de enero de 1998 en semanas. Para determinar el modelo tendencia-ciclo, los parámetros que se deben calcular son b0 , b1 , b2 y b3 . Todos los parámetros se calculan mediante el ajuste no lineal que se va a realizar. El primer ajuste se realiza con el programa R empleando la función nls, que sirve, en este caso, para ajustar la función trigonométrica propuesta a la serie de datos. En primer lugar, se introducen todos los datos observados y corregidos (años de 52 semanas y eliminación de outliers). En este punto se debe recordar el problema que presentan los algoritmos de ajuste de funciones no lineales, y es que los resultados dependen del punto inicial de partida y, en ocasiones, los óptimos obtenidos no son óptimos globales. Por ello, el siguiente paso consiste en buscar un punto inicial para el ajuste del modelo dado en (7.2)–(7.4) a las observaciones de los datos corregidos. Los valores iniciales de b0 y b1 se obtienen a partir de la regresión lineal de P (t) sobre t. Posteriormente se ajusta el modelo partiendo de una semilla con b0 = 1 para encontrar el valor inicial de b2 . A partir de este último punto se 99 Capı́tulo 7 Modelo de predicción del Ibex 35 calcula el valor inicial para b3 . Finalmente se toma este punto como inicial del ajuste definitivo del modelo (7.2)–(7.4) completo. El punto inicial obtenido es b0 = 9, 011, b1 = 0, 0004, b2 = 0, 259 y b3 = 43, 24. Los valores de los parámetros obtenidos de este ajuste son los que se muestran en la tabla 7.2. En ella se observa que todos los parámetros son significativamente distintos de 0, a un nivel de confianza del 95%, dado que el p-valor correspondiente a cada parámetro es menor que 5%1 . Como comentario adicional, cabe señalar que se observa la existencia de tendencia ligeramente creciente con el valor positivo del parámetro b1 , tal y como se adelantaba anteriormente. Tabla 7.2: Resultados del ajuste del modelo tendencia-ciclo Parámetro b0 b1 b2 b3 Estimado 9, 011 0, 0003943 0, 2586 43, 24 Error estándar 0, 01002 0, 00002232 0, 006832 2, 103 t-valor 899, 23 17, 67 37, 85 20, 56 p-valor 0 0 0 0 Fuente: Elaboración propia Si se representa el modelo tendencia-ciclo se obtienen los resultados de la figura 7.8. Con el modelo cı́clico se recogen las oscilaciones regulares en los datos que se producen a lo largo de más de un año además de la tendencia, por lo que descontando estas componentes se obtiene una nueva serie de datos que no tiene ni ciclo ni tendencia, permitiendo de esta manera ajustar un modelo que recoja las variaciones interanuales o estacionales. Esta serie de datos obtenida como la diferencia entre los datos observados y el modelo tendencia-ciclo ajustado de puede observar en la figura 7.9. En un primer análisis descriptivo de la serie descontada se pueden observar oscilaciones anuales. Esto se ha comprobado en la figura 7.7, en la que se observaban los picos en abril y los valles en septiembre. Las razones de estas oscilaciones no se conocen con exactitud, si bien es lo que se produce según 1 Realmente, los parámetros son significativamente distintos de cero para cualquier nivel de significación, puesto que los p-valores toman valores muy cercanos a cero, como ocurre en los ajustes realizados posteriormente. 100 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.8: Ajuste del modelo tendencia-ciclo a los datos corregidos Fuente: Elaboración propia Figura 7.9: Serie de datos corregidos sin tendencia ni ciclo Fuente: Elaboración propia 101 Capı́tulo 7 Modelo de predicción del Ibex 35 muestran los datos históricos. Dado que la bolsa se mueve por los sentimientos de los inversores y se trata de un “movimiento de masas”, es probable que determinados factores psicológicos influyan en los motivos que provocan estas oscilaciones. De esta forma, primero se ajusta el modelo estacional anual denotado por PEA (t) en la ecuación (7.5), para el cual se ha tomado una frecuencia de 52 semanas para el coseno. En la ecuación (7.6) se expresa la operación que se realiza en este segundo paso, ajustándose el modelo estacional anual sobre la serie de datos y descontando la componente tendencia-ciclo modelizada anteriormente. Antes de entrar en los detalles del cálculo, cabe señalar que se realizó una comprobación de la inexistencia de tendencia lineal mediante la inclusión de un parámetro que multiplicaba al tiempo, el cual, al realizar el ajuste lineal, resultó ser significativamente igual a cero. 2 · π · (t − a2 ) , PEA (t) = a1 · cos 52 (7.5) 2 · π · (t − a2 ) . P (t) − PT C (t) = a1 · cos 52 (7.6) Los parámetros que se deben estimar son a1 , que es el que determina la amplitud del coseno, y a2 , que representa el desfase del coseno frente a la primera semana de enero de 1998, siempre teniendo en cuenta que ahora se trabaja con los datos sin tendencia ni ciclo. Al igual que en el modelo anterior, se debe realizar una primera estimación de los valores de a1 y a2 . Para estimar los dos parámetros del modelo estacional anual se han fijado los valores a1 = 1 y a2 = 0, obteniendo los resultados de la tabla 7.3, en la que se puede observar que ambos parámetros son significativamente distintos de cero a un nivel de significación del 5%. Se ha representado el ajuste del modelo estacional anual en la figura 7.10, y la serie después de haberle descontado las componentes tendencia, ciclo y estacionalidad anual en la figura 7.11. Con el ajuste de las componentes tendencia-ciclo y estacionalidad anual finaliza la parte determinista del modelo. El siguiente paso consiste en el ajuste de un modelo ARIMA a la componente irregular, que constituirá la 102 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.10: Ajuste del modelo estacional anual Fuente: Elaboración propia Figura 7.11: Serie descontada de tendencia, ciclo y estacionalidad anual Fuente: Elaboración propia 103 Capı́tulo 7 Modelo de predicción del Ibex 35 Tabla 7.3: Resultados del ajuste del modelo estacional Parámetro a1 a2 Estimado 0, 018353 10, 465435 Error estándar 0, 006741 3, 039692 t-valor 2, 723 3, 443 p-valor 0, 006621 0, 000606 Fuente: Elaboración propia parte aleatoria del modelo del Ibex 35. El modelo determinı́stico completo se expresa en (7.7). P (t) = 9, 011 + 0, 0004 · t 2 · π · (t − 43, 24) + 0, 2586 · cos 468 (7.7) 2 · π · (t − 10, 4654) . + 0, 0184 · cos 52 7.2.2 Modelo ARIMA para la componente irregular. Parte aleatoria La última componente de la serie de datos, la componente irregular I(t), deberı́a ser una serie estacionaria, es decir, sin tendencia ni estacionalidad, ya que, por definición, la componente irregular no debe obedecer a ningún comportamiento identificable. En caso de tener un comportamiento identificable, implicarı́a que existe alguna componente que el modelo no recoge. Para comprobar la estacionariedad de la componente irregular, se representan la FAS y la FAP de la serie descontando tendencia, ciclo y estacionalidad en la figura 7.12. Como se puede ver, en la FAS se produce un descenso de los coeficientes de autocorrelación, en el periodo objeto de estudio, de lo cual se deduce que se ha eliminado la tendencia. Por su parte, en la FAP se observa un coeficiente claramente significativo, el primero de ellos. A medida que se alarga el retardo, 104 Modelo de predicción del Ibex 35 Capı́tulo 7 hay ligeras oscilaciones de coeficientes positivos y negativos y dos coeficientes significativos aunque en escasa medida. Todo esto implica la necesidad de construir otro modelo para la componente irregular. Figura 7.12: FAS y FAP de la componente irregular Fuente: Elaboración propia Con todo ello, se ha procedido a ajustar un modelo ARIMA (1, 0, 2) para recoger el comportamiento que siguen los residuos. Este modelo se ha realizado con el comando auto.arima del software R. En el siguiente apartado se procede a la validación del modelo ARIMA obtenido. 7.3 Validación del modelo del Ibex 35 La validación del modelo es una parte esencial para comprobar la idoneidad del mismo a los efectos de conseguir el propósito indicado al principio del presente trabajo, esto es, recoger el comportamiento de los datos semanales del Ibex 35. Para realizar la validación se han seguido los puntos indicados en el apartado 6.5. 105 Capı́tulo 7 7.3.1 Modelo de predicción del Ibex 35 Contrastes sobre los parámetros En primer lugar, se debe comprobar que todos los parámetros son significativamente distintos de cero, para lo cual se emplea la prueba t-Student: tcalc = Ψi ≡ tgdlr . s Ψi (7.8) De la tabla 7.4 se obtiene el t-valor calculado de cada uno de los parámetros en el ajuste del modelo ARIMA, cumpliéndose que son mayores en valor absoluto a 1, 96, salvo el correspondiente a MA(1), que aunque no lo es está muy próximo, por lo que puede considerarse también significativo. Este valor 1, 96 es el máximo para un intervalo de confianza del 95% en una distribución N(0, 1), que es la aproximación de la distribución t-Student con elevado número de grados de libertad en (7.8). Ası́ puedes, podemos suponer que todos los parámetros estimados son significativamente distintos de cero. Tabla 7.4: Resultados del ajuste del modelo ARIMA (1,0,2) Estimado Error estándar t-valor Parámetro Parámetro AR(1) MA(1) 0, 9693 −0, 0680 0, 0095 0, 0366 102, 03 −1, 86 ME = 0,0002036901 Parámetro MA(2) 0, 0962 0, 0375 2, 57 Fuente: Elaboración propia 7.3.2 Contrastes sobre el error Por su parte, del error, ǫt , se debe comprobar que se cumplen las siguientes hipótesis: • Media cero, E(εt ) = 0. 106 Modelo de predicción del Ibex 35 Capı́tulo 7 • Varianza constante, Var(εt ) = cte. • Incorrelación para cualquier retardo, Cov(εt , εt−k ) = 0. • Distribución Normal, εt ≡ N(0, σ). Media cero. El contraste para aceptar que el valor de la media del error es cero es el especificado en (7.9), aceptándose la hipótesis nula si εt está en el intervalo definido, rechazándose en caso contrario: −z α/2 σ bε α/2 σ bε √ ,z √ . T T (7.9) Los parámetros necesarios para hacer este test son ±z α/2 = ±1, 96, la desviación tı́pica del error σ bε y T , que es el número de datos (780). El valor de σ bε se obtiene calculando la desviación tı́pica de los residuos, resultando un valor de σ̂ǫ = 0, 0332052. Con estos valores, se calcula el intervalo expresado a continuación: [−0, 002330316; 0, 002330316]. Al comparar el valor de la media del error (ME en la tabla 7.4), 0, 0002036901, con el intervalo, se concluye que no se puede rechazar la hipótesis nula, puesto que la media del error está dentro del intervalo, admitiendo entonces que no toma un valor significativamente distinto de cero. Varianza constante. La homocedasticidad del error (varianza constante) se debe comprobar estudiando el gráfico de los residuos frente al tiempo o frente a la propia variable estudiada. No obstante, existe una prueba numérica, también descrita en el apartado 6.5 Validación del modelo ARIMA, que puede aportar una mayor objetividad y fiabilidad al contraste. En primer lugar, se representa el gráfico de los residuos frente al tiempo y frente a la variable estudiada (el logaritmo de los datos del Ibex 35) en la 107 Capı́tulo 7 Modelo de predicción del Ibex 35 figura 7.13. En las figuras no se aprecia a primera vista la existencia de heterocedasticidad, ya que la variabilidad de los residuos parece constante frente a la variable estudiada y a lo largo del tiempo. Debido a que las conclusiones a partir de los gráficos parten de apreciaciones subjetivas, se recurre a los contrastes que se muestran a continuación. Figura 7.13: Residuos frente a la variable (a) y frente al tiempo (b) Fuente: Elaboración propia Para confirmar la apreciación gráfica de existencia de heterocedasticidad, se ha realizado la prueba numérica señalada anteriormente, que consiste en realizar una regresión lineal entre el error al cuadrado y el tiempo, si se piensa que la varianza depende del tiempo, o bien realizar una regresión lineal entre el error al cuadrado y la variable estudiada, en caso de que se piense que la varianza depende de ésta, tal y como se define en las expresiones (7.10) y (7.11), respectivamente: e2t = ϑ0 + ϑ1 t + U, (7.10) e2t = ϑ0 + ϑ1 Zt + U. (7.11) 108 Modelo de predicción del Ibex 35 Capı́tulo 7 Los resultados de ambas regresiones se muestran en las tablas 7.5 y 7.6. Como se puede ver, del primer ajuste resulta que el parámetro que depende del tiempo (ϑ1 ), no es significativamente distinto de cero a un nivel de confianza del 95%, puesto que su p-valor es mayor que 0, 05. En cuanto al segundo ajuste, el parámetro que depende de la variable estudiada (el logaritmo del Ibex 35) sı́ es significativamente distinto de cero, ya que su p-valor es menor que 0, 05. Del análisis de estos ajustes se puede deducir que la varianza del residuo depende de la variable pero no del tiempo, por lo que no es posible admitir la inexistencia de heterocedasticidad, incumpliéndose ası́ una de las hipótesis del modelo. Tabla 7.5: Ajuste del cuadrado de los residuos frente al tiempo Parámetro Constante Tiempo Estimado 0, 0008418 6, 642e − 07 Error estándar 0, 0002048 4, 543e − 07 t-valor 4, 111 1, 462 p-valor 0, 0000436 0, 144 Fuente: Elaboración propia Tabla 7.6: Ajuste del cuadrado de los residuos frente a la variable observada Parámetro Constante Logdato Estimado 0, 0159558 −0, 0016204 Error estándar 0, 0040923 0, 0004463 t-valor 3, 899 −3, 631 p-valor 0, 000105 0, 000301 Fuente: Elaboración propia Incorrelación para cualquier retardo. Esta hipótesis se comprueba mediante la observación de la FAS de los residuos. Para ello, se ha representado la figura 7.14, en la que se muestra el análisis realizado con el comando de R tsdiag. En el primer gráfico se representan los residuos estandarizados (los residuos divididos por su desviación tı́pica) de la serie ARIMA. En la FAS debe observarse que los residuos no tienen autocorrelación, como ası́ sucede, pues sólo el primero de los coeficientes de autocorrelación es 1, mostrando la relación del residuo consigo mismo. Finalmente, el test de Box-Pierce contrasta la hipótesis nula de la distribución aleatoria de los residuos. Esto proviene de la idea de 109 Capı́tulo 7 Modelo de predicción del Ibex 35 que unos residuos de un modelo correctamente especificado se distribuyen independientemente. Como puede deducirse de la observación del tercer gráfico, el modelo puede admitirse como correctamente especificado pues los p-valores por encima del nivel de significación (5%) llevan a no poder rechazar esta hipótesis. Figura 7.14: Resultados del análisis tsdiag −6 −2 2 Standardized Residuals 0 200 400 600 800 Time 0.6 0.0 ACF ACF of Residuals 0 5 10 15 20 25 Lag 0.0 0.4 0.8 p value p values for Ljung−Box statistic 2 4 6 8 10 lag Fuente: Elaboración propia Distribución Normal. La última de las hipótesis que debe cumplir el modelo se comprueba mediante el gráfico Q-Q, que muestra el grado en que los residuos del modelo obtenido se ajustan a una distribución Normal. La representación del gráfico 110 Modelo de predicción del Ibex 35 Capı́tulo 7 Q-Q de los residuos estandarizados2 se puede observar en la figura 7.15. En dicha figura la mayorı́a de los residuos están alineados, aunque en los extremos inferior y superior hay un ligero alejamiento de la diagonal. Se ha recurrido al test de Kolmogorov-Smirnov para comprobar numéricamente la normalidad de los residuos y el p-valor obtenido en la prueba es de 0, 001746, lo cual significa que se rechaza la hipótesis nula y no se admite la normalidad de los residuos. Figura 7.15: Gráfico Q-Q de normalidad de los residuos estandarizados Fuente: Elaboración propia Dado que se incumplen dos de las hipótesis que se establecen para la validación del modelo, la normalidad de los residuos y la inexistencia de heterocedasticidad, se ha realizado un análisis separado de los residuos para profundizar en la comprensión de su comportamiento y, por extensión, tratar de modelizarlos. 2 Se trata de los residuos divididos por su desviación tı́pica, gracias a lo cual su distribución se puede comparar con una N(0, 1). 111 Capı́tulo 7 7.4 Modelo de predicción del Ibex 35 Modelo para los residuos Para realizar un análisis y posterior modelización de los residuos, en primer lugar se debe comprender su comportamiento a lo largo del tiempo. Para ello, se ha representado en la figura 7.16 la serie de los residuos, definidos como el logaritmo del Ibex 35 menos todas las componentes modelizadas en los apartados anteriores (tendencia, ciclo, estacionalidad y componente irregular). En esta figura se observa que los residuos tienen fluctuaciones de distinta intensidad alrededor del cero, pero cada cierto tiempo aparecen saltos relativamente extremos. Este hecho motiva que se aı́slen esos saltos extremos para modelizarlos por separado de los residuos. −0.1 −0.2 Residuos 0.0 0.1 Figura 7.16: Serie de residuos del modelo 0 200 400 600 800 Tiempo (semanas) Fuente: Elaboración propia Descriptivamente, los residuos no se aproximan a una distribución Normal, dado que, como se puede ver en la figura 7.17, las observaciones de mayor frecuencia (alrededor de 250) son aquellas que están en torno al cero, pero hay un pequeño número de observaciones que toma valores extremos, principalmente valores negativos. Para aislar los saltos extremos se ha empleado una metodologı́a (Benth y 112 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.17: Histograma de los residuos Fuente: Elaboración propia Saltyte Benth, 2013) que se describe en detalle a continuación. El primer paso consiste en calcular la media y la desviación tı́pica de los residuos con el objeto de establecer unos lı́mites inferior y superior a partir de los cuales se considere que existe un salto. La media de los residuos es igual a µ = 0, 0002036901 y su desviación tı́pica toma un valor de σ = 0, 0332052. El lı́mite que se toma habitualmente viene determinado por la media más/menos dos veces la desviación tı́pica. Este hecho tiene su explicación en que para una distribución Normal el 95% de los valores de la misma se sitúa entre dichos lı́mites. Con los valores concretos para los residuos del modelo, el intervalo es el que se expresa a continuación: [−0, 0662067099; 0, 0666140901]. Cuando se han fijado los lı́mites, se realiza el primer “filtrado”, considerando que existe un salto cuando un residuo particular sobrepasa los lı́mites fijados. Si esto sucede, se sustituye el residuo por el lı́mite correspondiente. Una vez se han localizado todos los saltos del primer filtrado y han sido sustituidos tal como se ha descrito, se cuenta el número de saltos y se vuelve a 113 Capı́tulo 7 Modelo de predicción del Ibex 35 calcular la media y la desviación tı́pica de los residuos para formar unos nuevos lı́mites y volver a contar y sustituir los saltos. Este procedimiento se realiza cuantas veces sea necesario hasta que el número de saltos no aumente. El resumen de este proceso se muestra en la tabla 7.7. Tabla 7.7: Resumen del proceso de filtrado de los residuos Iteración 1 2 3 4 5 Desviación tı́pica 0, 0332 0, 0292 0, 0282 0, 0279 0, 0279 Saltos acumulados 35 52 60 61 61 Frecuencia de saltos semanal 0, 04487 0, 06667 0, 07692 0, 07821 0, 07821 Fuente: Elaboración propia Cabe hacer una serie de comentarios respecto a la tabla 7.7. El número total de iteraciones necesarias para que no se detectaran más saltos fue de 5. Nótese cómo la desviación tı́pica disminuye con cada una de las iteraciones, algo lógico por otra parte, dado que la mecánica de este filtrado consiste en la eliminación de los saltos extremos. En la columna “Saltos acumulados” se ha ido sumando el número de saltos que se producı́an en los pasos anteriores ya que, si existı́a un salto en un paso previo, también existirá en un paso posterior, en el que los lı́mites son más estrechos por la disminución progresiva de la desviación tı́pica. Por último, se ha calculado la frecuencia de saltos semanal como el cociente entre el número de saltos acumulado y el número de datos totales, que son 780. Tras realizar este procedimiento, se toman los residuos en los que se han localizado saltos y se separan de la serie de residuos. A esta nueva serie sin los saltos se le ha denominado “residuos filtrados”, cuyo histograma está representado en la figura 7.18. Se puede observar que los residuos filtrados presentan una distribución mucho más similar a la Normal, extremo éste que se confirma tras realizar el test de Kolmogorov-Smirnov, para el cual se obtiene un p-valor de 0, 2296, claramente superior al nivel de significación del 5%. Asimismo, los valores de los coeficientes de curtosis y asimetrı́a se encuentran entre los esperados para una distribución Normal, siendo −0, 5070 y −0, 1621, respectivamente. 114 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.18: Histograma de los residuos filtrados Fuente: Elaboración propia Por lo que respecta a los saltos se puede ver su histograma en la figura 7.19. Para comprobar que no siguen una distribución Normal, se ha realizado el test Kolmogorov-Smirnov obteniéndose un p-valor de 0, 0002453, menor que el nivel de significación del 5%, por lo que no se puede admitir que los saltos sigan una distribución Normal. El tratamiento que se propone es el de dividir los saltos en valores positivos y valores negativos y modelizarlos como se describe seguidamente, para los cuales se ha representado su histograma en la figura 7.20. A continuación se muestra en la tabla 7.8 los datos descriptivos de los saltos positivos y negativos, ası́ como de los saltos conjuntos, entendiendo éstos como los saltos observados en valor absoluto y las observaciones sin saltos con valor cero. Para modelizar los saltos, se ha propuesto un modelo S(t) definido mediante la suma de dos procesos de Poisson compuestos, los cuales describen por separado los saltos positivos y negativos. Se define el proceso S(t) como se expresa en (7.12): 115 Capı́tulo 7 Modelo de predicción del Ibex 35 Figura 7.19: Histograma de los saltos Fuente: Elaboración propia Función de densidad de los residuos Función de densidad de Normal (−0,0004; 0,0814) 200 150 100 50 0 Frecuencia absoluta 250 300 Figura 7.20: Histograma de los saltos negativos (a) y positivos (b) −0.2 −0.1 0.0 Residuos Fuente: Elaboración propia 116 0.1 Modelo de predicción del Ibex 35 Capı́tulo 7 Tabla 7.8: Datos descriptivos de los saltos Número datos Media Desv. tı́pica Saltos positivos 24 0, 0742 0, 0203 Saltos negativos 37 −0, 0835 0, 0350 Saltos conjuntos 780 0, 0062 0, 0230 Fuente: Elaboración propia S(t) = S + (t) + S − (t), (7.12) donde S ± (t) se definen tal y como se muestra en (7.13): N ± (t) ± S (t) = X Ji± , (7.13) i=1 siendo N + (t) y N − (t) procesos de Poisson cuyas intensidades son λ+ y λ− , respectivamente. En (7.12), Ji± son dos secuencias de variables aleatorias independientes e idénticamente distribuidas (i.i.d.) con las que se modeliza el tamaño de los saltos. Los pasos que se han dado para simular el proceso S(t) se detallan a continuación. De los resultados del filtrado realizado sobre los residuos, se obtienen las intensidades λ+ y λ− , las cuales se calculan como el número de saltos positivos (24) y negativos (37), respectivamente, divididos entre el número de datos totales. Los valores calculados son, λ+ = 0, 03076923, λ− = 0, 0474359, respectivamente. Como se puede ver, los saltos negativos (descensos repentinos del Ibex 35) son ligeramente más probables y más homogéneos que los saltos positivos. En primer lugar, se debe definir la función de distribución más adecuada 117 Capı́tulo 7 Modelo de predicción del Ibex 35 para los saltos. La observación del histograma de los saltos negativos (véase figura 7.20, gráfico (a)) sugiere el empleo de una distribución exponencial para modelizar los tamaños de los saltos (obviamente utilizando la misma distribución para generar la longitud de saltos positivos). La longitud de ambos saltos ha sido determinada por la media que se muestra en la tabla 7.8 en la columna de saltos conjuntos, cuya función de densidad de probabilidad es de la forma dada en (7.14): fExp (z) = 1 exp(−z/µJ ), µJ (7.14) donde el parámetro µJ es el tamaño medio del salto. La estimación del parámetro µJ para la distribución de los saltos tanto positivos como negativos se ha hecho utilizando el enfoque de máxima verosimilitud mediante la muestra de saltos conjuntos, obteniéndose el valor µ bJ = 0, 0062. A partir de la distribución exponencial cuyo parámetro ha sido estimado se genera la longitud los saltos Ji+ y Ji− de la expresión (7.12), teniendo en cuenta que en el caso de los negativos han de considerarse con dicho signo. De esta forma se tiene una especificación completa del proceso estocástico que gobierna la dinámica de los datos semanales del Ibex 35 en el periodo considerado. 7.5 Validación total del modelo del Ibex 35 Para realizar la validación final del modelo propuesto se deben cumplir dos condiciones para corroborar la normalidad de los residuos. Antes de realizar los contrastes necesarios, se muestra a continuación en la figura 7.21 el ajuste del modelo completo descomponiendo la parte determinista y estocástica. Como puede observarse, la parte determinista acompaña la evolución del Ibex 35 de una forma más suavizada. Si bien, la parte estocástica es la que sigue más fielmente la evolución real, aportando al modelo la aleatoriedad del ı́ndice bursátil. A continuación se muestra el ajuste del modelo con ambas partes sumadas, 118 Modelo de predicción del Ibex 35 Capı́tulo 7 9.2 8.8 9.0 Log(Ibex−35) 9.4 9.6 Figura 7.21: Ajuste del modelo completo del Ibex 35 descompuesto en parte determinista y la suma de la parte determinista y la estocástica Parte determinista 8.6 Parte determinista+Parte estocástica 2000 2005 2010 Tiempo (semanas) Fuente: Elaboración propia en la figura 7.22. En este caso puede observarse que el modelo recoge el comportamiento cı́clico pero no es capaz de predecir adecuadamente los picos más pronunciados, como es el caso de las bajadas de los primeros años, el brusco descenso de 2008 y 2012 y los picos del año 2000 y de 2007. Ası́ pues, como se indicaba al inicio del apartado, es necesario que se cumplan dos condiciones para la validación final del modelo, en definitiva, para demostrar la normalidad de los residuos. En primer lugar, se muestra a continuación la distribución de la diferencia de los datos reales frente a los datos del modelo en la figura 7.23. Visualmente se puede comprobar que sı́ se ajusta a una distribución Normal, ya que la función de densidad de los residuos se ajusta notablemente a la función de densidad Normal. En segundo lugar, el test de Kolmogorov-Smirnov, ya utilizado previamente en el presente trabajo, ofrece un p-valor de 0, 0562, superior al 5% del nivel 119 Capı́tulo 7 Modelo de predicción del Ibex 35 9.5 9.0 8.5 Logaritmo del Ibex 10.0 Figura 7.22: Ajuste del modelo completo del Ibex 35 2000 2005 2010 Tiempo (semanas) Fuente: Elaboración propia Figura 7.23: Histograma de los residuos del modelo del Ibex 35 Fuente: Elaboración propia 120 Modelo de predicción del Ibex 35 Capı́tulo 7 de significación. Este resultado corrobora lo que se observaba visualmente, es decir, que la distribución puede considerarse una distribución Normal. Por este motivo, el modelo puede considerarse correcto. Por último, las medidas de bondad del ajuste, descritas en el apartado 6.4.4, calculadas para el modelo construido, se muestran en la tabla 7.9. A continuación se comentan los valores obtenidos de las distintas medidas señaladas. Cabe destacar que las medidas MPE y MAPE son las más objetivas por cuanto que se expresan en valores relativos (porcentajes) y, por tanto, sirven para comparar con otros modelos incluso aplicados a otros datos. Tabla 7.9: Medidas de bondad del ajuste del modelo con logaritmos Medida ME RMSE MAE MPE MAPE Valor −0, 0818 0, 1744 0, 1016 −0, 8938% 1, 1109% Fuente: Elaboración propia Puede observarse que las pruebas de bondad de ajuste ofrecen resultados muy bajos, corroborando que el error del modelo es aceptable y el modelo en sı́ es estadı́sticamente correcto, tal y como se observa en las gráficas. 7.6 Predicciones con el modelo. Aplicación de técnica Monte Carlo El último apartado del presente capı́tulo aborda el estudio gráfico y analı́tico del ajuste del modelo a los datos observados y la realización de predicciones con el mismo mediante la técnica Monte Carlo. El método Monte Carlo se trata de una herramienta no determinı́stica usada para aproximar expresiones matemáticas complejas y costosas de evaluar con exactitud. Su aplicación consiste en la generación del modelo una cantidad determinada de veces (en nuestro caso 1.000), cuyos resultados son promediados y, en principio, deberı́a 121 Capı́tulo 7 Modelo de predicción del Ibex 35 aproximarse más a la realidad que una predicción puntual. Al añadirle un intervalo de confianza consistente en los percentiles que mantengan el 95% de las predicciones realizadas dentro del intervalo, tendremos el resultado final del modelo gráficamente, es decir, si la predicción se ajusta a lo acontecido en la realidad y, por lo tanto, es capaz de predecir el comportamiento del Ibex 35. Para ello, se han agregado todas las partes del modelo, la determinista (7.7) y la aleatoria dividida en tres partes, un modelo ARIMA, un residuo filtrado generado a partir de la N(0, 00204; 0, 00057) y el proceso descrito para los saltos (7.12). La parte determinista como su concepto indica es fija, mientras que las tres partes aleatorias son generadas cada vez manteniendo constantes los parámetros estimados originalmente. El modelo hasta las 819 semanas se ha generado 1.000 veces de esta forma y se ha obtenido la media. A los datos se les ha aplicado un intervalo de confianza mediante los cuartiles 0, 025 y 0, 975, para desestimar el 5% de datos extremos. El resultado gráfico se puede observar la figura 7.24. Figura 7.24: Ajuste del modelo completo al logaritmo del Ibex 35 y predicción a 9 meses mediante técnica Monte Carlo Fuente: Elaboración propia En el gráfico anterior se muestra el resultado de la aplicación de la técnica Monte Carlo anteriormente descrita, para el modelo sin saltos y con saltos. Como puede observarse, el modelo propuesto recoge adecuadamente el reco122 Modelo de predicción del Ibex 35 Capı́tulo 7 rrido del Ibex 35 y logra captar en los intervalos la mayorı́a de observaciones, a excepción de los picos inferiores de 1999 y 2008. Las diferencias principales entre el modelo con y sin saltos son dos: • En primer lugar, el modelo con saltos reduce el valor de la estimación, como puede observarse en el gráfico que sigue aproximadamente la misma pauta pero ligeramente por debajo. Esto se debe a que existen más saltos negativos que positivos en el modelo planteado, por lo que éstos se producen con más frecuencia y reducen el valor del Ibex. • En segundo lugar, los saltos son más frecuentes conforme más se prolonga en el tiempo la estimación. Esto se debe al proceso de Poisson utilizado. Por este motivo la diferencia entre el intervalo sin saltos y el intervalo con saltos es mayor en los últimos años que en los iniciales. Finalmente, y al igual que se ha realizado anteriormente para la validación del modelo, se han calculado las medidas de bondad del ajuste tanto con los datos obtenidos de la simulación Monte Carlo como de los datos de la predicción a 9 meses mediante la simulación Monte Carlo. Los resultados obtenidos son los que se muestran en la tabla 7.10 y la tabla 7.1. Como puede comprobarse, las pruebas de bondad de ajuste ofrecen resultados muy bajos, corroborando nuevamente que el error es aceptable estadı́sticamente con la técnica Monte Carlo tanto en el modelo en sı́ como en la predicción realizada. Tabla 7.10: Medidas de bondad del ajuste del modelo mediante técnica Monte Carlo Medida ME RMSE MAE MPE MAPE Valor 0 0, 1330 0, 1024 0, 0210% 1, 1189% Fuente: Elaboración propia Tras haber finalizado el presente Trabajo Fin de Máster, habiendo desarrollado a nivel teórico y práctico el modelo estocástico de salto de Poisson 123 Capı́tulo 7 Modelo de predicción del Ibex 35 Tabla 7.11: Medidas de bondad del ajuste de la predicción a 9 meses mediante técnica Monte Carlo Medida ME RMSE MAE MPE MAPE Valor −0, 1084 0, 0442 0, 1084 1, 2029% 1, 2029% Fuente: Elaboración propia compuesto para la predicción del Ibex 35 y validado el mismo, en el siguiente capı́tulo se exponen las conclusiones finales y las propuestas de actuación. 124 Capı́tulo 8 Conclusiones. Propuestas de actuación En el presente trabajo se ha realizado, en primer lugar, una descripción del mercado bursátil español y, posteriormente, se ha propuesto un modelo basado en técnicas estadı́sticas para tratar de describir y estimar el comportamiento del Ibex 35 en dicho mercado. Según los objetivos especificados en el capı́tulo 3, el trabajo se ha estructurado en dos partes, la primera de ellas dedicada al marco teórico y la segunda al modelo del Ibex 35. En la primera parte del trabajo, se han descrito las principales caracterı́sticas del mercado bursátil español, ası́ como su funcionamiento y los agentes que participan en el mismo. Finalmente, esta primera parte se completa con una revisión de las técnicas estadı́sticas empleadas en la elaboración del modelo. Existen diversos hechos que motivan la elaboración de un modelo de predicción del Ibex 35. El primero de ellos es el alto grado de volatilidad que se ha alcanzado en los mercados. El segundo, la propia adaptación de las herramientas cuantitativas al análisis económico tradicional, lo cual amplı́a en gran medida el conocimiento sobre los fenómenos económicos y facilita la posibilidad de realizar predicciones sobre los mismos. El tercero y último, 125 Capı́tulo 8 Modelo de predicción del Ibex 35 mucho más genérico, la creciente tendencia observada en las empresas a combinar equipos multidisciplinares en los procesos directivos de análisis y toma de decisiones, siendo necesario que los integrantes de dichos equipos conozcan los campos de conocimiento aplicados, en este caso finanzas, matemáticas y estadı́stica. En la segunda parte, se ha analizado de forma empı́rica el comportamiento del Ibex 35 desde 1998 hasta 2012. Del análisis se han podido extraer las principales caracterı́sticas del Ibex 35. El modelo propuesto parte de la descripción clásica de series temporales agregando las cuatro componentes: tendencia, ciclo, estacionalidad y componente irregular. Para las tres primeras se ha propuesto una combinación de una función lineal y funciones trigonométricas de distintas frecuencias. La parte irregular se ha modelizado combinando un modelo ARIMA con técnicas estadı́sticas basadas en procesos estocásticos. Las principales conclusiones que se pueden extraer tras la elaboración del modelo y la obtención de predicciones son las que se señalan a continuación. En primer lugar se ha determinado la existencia de cuatro fases en el comportamiento del Ibex 35: la primera desde 1998 hasta el 2000 con un comportamiento de subida inicial; la segunda que muestra una bajada significativa hasta 2003; la tercera desde el 2003 hasta el 2008 siendo observable un incremento significativo del Ibex 35; y la última desde 2008 hasta mediados de 2012, en el cual se produce un descenso a prácticamente niveles de 2003 con un comportamiento altamente volátil. Siguiendo la metodologı́a estadı́stica propia para la elaboración de modelos basados en series temporales, a esta serie se le han aplicado una corrección únicamente: toma de logaritmos naturales. Se estableció un criterio para la eliminación de outliers, pero no se localizó ninguna observación extrema en el periodo especificado. En la parte determinista del modelo se ha establecido la presencia de dos componentes. La primera, una combinación de tendencia y ciclo. La tendencia observada en la serie de datos modelizada es ligeramente creciente, y la duración del ciclo observado es de 468 semanas (9 años), como demuestra la estimación de los parámetros asociados a dichas componentes. La segunda es la estacionalidad anual, con una frecuencia de 52 semanas (un año). Los tests de hipótesis sobre los parámetros tuvieron como resultado la significatividad de los mismos. 126 Modelo de predicción del Ibex 35 Capı́tulo 8 En cuanto a la parte aleatoria, se ha propuesto un modelo ARIMA sobre los residuos de la parte determinista tras la identificación de estacionariedad en los mismos, obteniéndose un ARIMA (1,0,2). Al proceder a la validación del mismo se incumplieron las hipótesis de homocedasticidad y normalidad de los residuos, por lo que ha sido necesario profundizar en el estudio de los residuos. Los residuos del ARIMA fluctúan en torno al cero, pero con saltos extremos cada cierto tiempo. Para modelizar los residuos se ha recurrido a la realización de un filtrado para separar dichos saltos, siendo el resultado de ello que estos residuos filtrados siguen una distribución N (0, 0020; 0, 0239). Para reproducir el comportamiento de los saltos, se ha propuesto un proceso estocástico combinando dos procesos de Poisson compuestos, distribuidos simétricamente, para los saltos positivos y negativos, respectivamente. La volatilidad a la que se ha hecho referencia durante todo el trabajo y la dificultad para representarla con el modelo puede observarse gráficamente donde el modelo sobreestima el valor del Ibex 35 en los picos más bajos y subestima en los picos más altos, junto con la dificultad de predecir los movimientos bruscos que sufre el Ibex 35 entre dichos picos, limitación intrı́nseca a la modelización financiera. Ası́ pues, por lo que se puede extraer de los gráficos y datos resultantes, el modelo elaborado ha sido validadado correctamente pero no alcanza a realizar una predicción puntual fiable del Ibex 35, ya que no logra recoger adecuadamente los saltos ni los datos más extremos del ciclo. Si bien, dado que los ciclos económicos afectan también al mercado bursátil, podrı́a utilizarse el modelo para detectar los puntos mı́nimos y máximos del Ibex 35, a fin de no confundir un movimiento brusco como un punto de inflexión del ciclo. De este modo, la aplicación a priori del modelo estudiado es útil para la inversión a largo plazo, con la premisa hasta ahora correcta de que el mercado bursátil sigue el patrón ciclı́co. Los estudios posteriores sobre el trabajo realizado deberı́an contemplar un modelo distinto que permita recoger mejor la parte aleatoria de saltos. A continuación se señalan las propuestas de actuación que, a la vista de los resultados del presente trabajo, pueden ser tenidas en consideración para el futuro. La primera de ellas y más evidente, es la continuación en la toma de datos del Ibex 35 con el objeto de actualizar la estimación de los parámetros y deter127 Capı́tulo 8 Modelo de predicción del Ibex 35 minar, en su caso, posibles cambios en las distintas componentes observadas. En segundo lugar, debido a la importancia de la parte aleatoria en el comportamiento del Ibex 35, se podrı́a recurrir a otros métodos de modelización propuestos en distintos trabajos sobre la materia. Cabe señalar que la componente determinista consigue recoger las componentes clásicas de la serie, pero es claramente insuficiente en la modelización de la parte irregular, para lo cual, siguiendo el modelo de Schwarz (Benth y Saltyte Benth, 2013), se propone la aplicación de la distribución Normal Inversa Gaussiana (NIG), que profundiza en el empleo de los procesos estocásticos de la componente irregular. Como tercer punto, hay que señalar las subestimaciones y sobreestimaciones que realiza el modelo en ciertos lapsos temporales, una de sus principales debilidades. Son tal vez debidas a los periodos de tiempo establecidos para las componentes de tendencia, ciclo y estacionalidad. Por ello, si se quisiera estudiar con un mayor detalle el comportamiento del Ibex 35, se deberı́an considerar diferentes periodos de tiempo. El cuarto aspecto que se debe tener en cuenta es el cálculo de unos intervalos de confianza para las predicciones que tengan en cuenta todas las fuentes de variabilidad e incertidumbre del modelo y no sólo del ARIMA, como se ha realizado en el presente trabajo. Estas fuentes son los errores estándar de la estimación de los parámetros de la parte determinista y los procesos estocásticos de la componente irregular. En quinto lugar, cabe destacar que la parte aleatoria de la predicción mediante la técnica Monte Carlo del modelo se ha realizado manteniendo constantes los parámetros estimados con los datos originales. Si se reestimaran estos parámetros en cada simulación de la técnica Monte Carlo podrı́a fortalecerse la parte aleatoria y de este modo mejorarse el modelo. En último lugar y no por ello menos importante, no hay que dejar de lado el carácter multidisciplinar que gobierna el espı́ritu del trabajo. Esta forma de analizar los problemas cotidianos que se le pueden presentar a una empresa otorga distintos puntos de vista y diversas fuentes tanto de discusión de los propios problemas como de búsqueda de soluciones a partir de las disciplinas estudiadas, lo cual se configura como una poderosa herramienta que debe tenerse en cuenta para ser aplicada, con todas sus ventajas e inconvenientes, a la gestión de empresas. 128 Bibliografı́a Benth, F.E. y Saltyte Benth, J.: Modeling and Pricing in Financial Markets for Weather Derivatives. World Scientific, New York, 2013. Chirivella, V.: Apuntes de Econometrı́a. n0. 12059-C. Ed. Universitat Politècnica de València, Valencia, 2008. Cortés, J.C.; Debón, A. y Moreno, C.: Mathematical Modelling in Social Sciences and Engineering (Chapter 33: Portfolio composition to replicate stock market indexes. Application to the Spanish index Ibex-35). Nova Publ., 2014. Dı́az, A.: Introducción al Mercado Bursátil. McGraw Hill, Madrid, 2012. Facultad de Administración y Dirección de Empresas, Universitat Politècnica de València: Normativa del Trabajo Fin de Máster , 2010. http://www.upv.es/entidades/ADE/infoweb/fade/info/ 637966normalc.html Greene, W.H.: Análisis Econométrico. Prentice Hall, Cambridge, 2000. Hair, J.F.: Multivariate Data Analysis. Prentice Hall International, Berlı́n, 1995. Hernández, B.: Bolsa y Estadı́stica Bursátil. Dı́az de Santos, 1999. Hyndman, R. J.; Athanasopoulos, G.; Razbash, S.; Schmidt, D. y Zhou, Z.: Forecast: Forecasting Functions for Time Series and Linear Models (R package version 4.00), 2012. 129 Capı́tulo 8 Modelo de predicción del Ibex 35 Hyndman, R.J.; Koehler, A.B.; J.K., Ord y Snyder, R.D.: Forecasting with Exponential Smoothing: The State Space Approach. Springer, New York, 2005. Mateu, J.L.: Análisis Técnico de los Mercados Financieros. Instituto Superior de Técnicas y Prácticas Bancarias, Madrid, 2003. Murphy, J.J.: Análisis Técnico de los Mercados Financieros. Ediciones Gestión 2000, Madrid, 2007. Pring, M.J.: Análisis Técnico Explicado. Gesmovasa, Madrid, 1989. Shumway, R.H. y Stoffer, D.S.: Time Series Analysis and its Applications with R Examples. Springer, New York, 2006. Thode, H.C.: Testing for Normality. Marcel Dekker, New York, 2002. Trapletti, A. y Hornik, K.: R Package Time Series Analysis and Computational Finance. Free Software, 2012. Tvede, L.: Psicologı́a del Mercado Bursátil. Deusto, Madrid, 1990. Velez, O. y Capra, G.: Day Trading. Negociación Intradı́a: Estrategias y Tácticas. Deusto, Madrid, 2011. Zucchini, W. y Nenadic, O.: Time Series Analysis with R: Part I. Goettinghen University, Goettinghen, 2008. 130