Predicción del Ibex 35 con un modelo estocástico de salto de

Predicción del Ibex 35 con un modelo estocástico de salto de Poisson compuesto Trabajo Fin de Máster Máster en Dirección Financiera y Fiscal Presentado por: Oscar Monzó Chafer Profesores tutores: Dr. Juan Carlos Cortés López Dra. Ana Marı́a Debón Aucejo Universitat Politècnica de València, febrero 2014 Facultad de Administración y Dirección de Empresas Índice Índice de Tablas 7 Índice de Figuras 10 1 Resumen del Trabajo 11 2 Objeto del Trabajo Fin de Máster y justificación de las asignaturas relacionadas 15 3 Objetivos del Trabajo 17 4 Antecedentes. Evolución histórica, situación actual y funcionamiento del Ibex 35 21 4.1 Evolución histórica y composición del Ibex 35 . . . . . . . . . . 22 4.2 Cálculo del Ibex 35 . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3 Necesidad de predicción del Ibex 35 . . . . . . . . . . . . . . . 25 4.4 Análisis técnico bursátil como método de predicción . . . . . . 26 5 Formulación del modelo econométrico. Regresión no lineal y ajuste por mı́nimos cuadrados 29 5.1 Modelización econométrica . . . . . . . . . . . . . . . . . . . . 30 5.1.1 Formulación del modelo . . . . . . . . . . . . . . . . . . 30 5.1.2 Hipótesis del modelo . . . . . . . . . . . . . . . . . . . . 32 3 Índice 5.1.3 Estimación de parámetros del modelo y de la varianza de la perturbación. Mı́nimos Cuadrados Ordinarios (MCO) 33 Intervalos de confianza de los parámetros y de la varianza de la perturbación . . . . . . . . . . . . . . . . . . . . . 34 Coeficiente de determinación y coeficiente de determinación corregido . . . . . . . . . . . . . . . . . . . . . . 36 Contraste de hipótesis sobre los parámetros del modelo mediante la utilización del estadı́stico F . . . . . . . . . 37 Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.2 Diagnosis y validación del modelo de regresión . . . . . . . . . 42 5.3 Descripción de los análisis estadı́sticos utilizados . . . . . . . . 46 5.3.1 Regresión no lineal . . . . . . . . . . . . . . . . . . . . . 46 5.3.2 Ajuste de funciones no lineales en R . . . . . . . . . . . 48 5.3.3 Técnicas de suavizado de datos . . . . . . . . . . . . . . 49 5.1.4 5.1.5 5.1.6 5.1.7 6 El modelo ARIMA. Análisis y descripción de series temporales 53 6.1 Introducción e ideas básicas . . . . . . . . . . . . . . . . . . . . 54 6.2 Series temporales univariantes . . . . . . . . . . . . . . . . . . . 55 6.2.1 Modelo clásico de descripción de series temporales . . . 55 6.2.2 Procesos estocásticos . . . . . . . . . . . . . . . . . . . . 60 6.2.3 Procesos estacionarios . . . . . . . . . . . . . . . . . . . 63 6.2.4 Procesos integrados 65 6.3 6.4 . . . . . . . . . . . . . . . . . . . . Análisis y predicción de series temporales univariantes. Metodologı́a Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 6.3.1 Modelos para procesos estacionarios . . . . . . . . . . . 68 6.3.2 Modelos para procesos integrados . . . . . . . . . . . . . 72 6.3.3 Metodologı́a de Box-Jenkins . . . . . . . . . . . . . . . . 72 Identificación y predicción del modelo ARIMA . . . . . . . . . 73 6.4.1 Identificación de la estructura no estacionaria . . . . . . 74 6.4.2 Identificación de la estructura ARMA . . . . . . . . . . 74 6.4.3 Estimación del modelo ARIMA . . . . . . . . . . . . . . 75 6.4.4 Predicción automática. El paquete de predicción para R 75 4 Índice 6.5 Validación del modelo ARIMA . . . . . . . . . . . . . . . . . . 79 6.5.1 Contrastes sobre los parámetros . . . . . . . . . . . . . 79 6.5.2 Contrastes sobre el error . . . . . . . . . . . . . . . . . . 79 6.5.3 Contrastes sobre el modelo. Reformulación y sobreajuste 81 7 Predicción del Ibex 35 con un modelo estocástico de salto de Poisson compuesto 83 7.1 7.2 7.3 Introducción. Selección y correcciones sobre la serie de datos . 84 7.1.1 La serie de datos . . . . . . . . . . . . . . . . . . . . . . 84 7.1.2 Ajustes realizados sobre la serie de datos . . . . . . . . . 88 7.1.3 Descripción estadı́stica de la serie de datos corregida . . 92 7.1.4 Descomposición detallada de la serie de datos corregida 95 Elaboración del modelo del Ibex 35 . . . . . . . . . . . . . . . . 96 7.2.1 Ajuste del modelo del Ibex 35. Parte determinista . . . 98 7.2.2 Modelo ARIMA para la componente irregular. Parte aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Validación del modelo del Ibex 35 . . . . . . . . . . . . . . . . . 105 7.3.1 Contrastes sobre los parámetros . . . . . . . . . . . . . 106 7.3.2 Contrastes sobre el error . . . . . . . . . . . . . . . . . . 106 7.4 Modelo para los residuos . . . . . . . . . . . . . . . . . . . . . . 112 7.5 Validación total del modelo del Ibex 35 7.6 Predicciones con el modelo. Aplicación de técnica Monte Carlo 121 8 Conclusiones. Propuestas de actuación Bibliografı́a . . . . . . . . . . . . . 118 125 129 5 Índice de Tablas 5.1 Modelo de tabla ANOVA para el análisis de la varianza . . . . 39 6.1 Similitudes y diferencias en la FAS y la FAP de los modelos AR(p), MA(q) y ARMA(p,q) . . . . . . . . . . . . . . . . . . . 71 6.2 Medidas de bondad del ajuste obtenidas con el modelo ARIMA 78 7.1 Parámetros principales de la serie de datos corregida . . . . . . 93 7.2 Resultados del ajuste del modelo tendencia-ciclo . . . . . . . . 100 7.3 Resultados del ajuste del modelo estacional . . . . . . . . . . . 104 7.4 Resultados del ajuste del modelo ARIMA (1,0,2) . . . . . . . . 106 7.5 Ajuste del cuadrado de los residuos frente al tiempo . . . . . . 109 7.6 Ajuste del cuadrado de los residuos frente a la variable observada109 7.7 Resumen del proceso de filtrado de los residuos . . . . . . . . . 114 7.8 Datos descriptivos de los saltos . . . . . . . . . . . . . . . . . . 117 7.9 Medidas de bondad del ajuste del modelo con logaritmos . . . . 121 7.10 Medidas de bondad del ajuste del modelo mediante técnica Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.11 Medidas de bondad del ajuste de la predicción a 9 meses mediante técnica Monte Carlo . . . . . . . . . . . . . . . . . . . . . 124 7 Índice de Figuras 5.1 Ejemplo de papel probabilı́stico normal . . . . . . . . . . . . . 43 5.2 Ejemplo de salida en pantalla de análisis tsdiag de un modelo correctamente especificado . . . . . . . . . . . . . . . . . . . . . 45 5.3 Salida de pantalla del análisis stl . . . . . . . . . . . . . . . . . 50 5.4 Ejemplo de suavizado loess . . . . . . . . . . . . . . . . . . . . 51 6.1 Ejemplo de proceso con tendencia creciente . . . . . . . . . . . 57 6.2 Ejemplo de proceso con variaciones cı́clicas . . . . . . . . . . . 58 6.3 Ejemplo de proceso con estacionalidad . . . . . . . . . . . . . . 59 6.4 Ejemplo de proceso con comportamiento irregular . . . . . . . 60 6.5 Realizaciones de la variable Zt y distribución en cada instante de tiempo t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.6 Relación entre los valores de un proceso estacionario . . . . . . 65 6.7 Diferenciación de un proceso no estacionario . . . . . . . . . . . 66 6.8 FAS de una serie con tendencia . . . . . . . . . . . . . . . . . . 66 6.9 Relación entre valores de un AR (1) . . . . . . . . . . . . . . . 69 6.10 Relación entre valores de un AR (2) . . . . . . . . . . . . . . . 70 7.1 7.2 Evolución del Ibex 35 desde el 1 de enero de 1998 al 31 de diciembre de 2012 . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Rentabilidad promedio histórica de los dı́as de la semana . . . . 88 9 Índice de Figuras 7.3 Gráfico Box-Whisker del logaritmo de los datos . . . . . . . . . 90 7.4 Logaritmo de los datos semanales corregidos desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012 . . . . . . . . . . . . . 91 7.5 Histograma de los datos del Ibex 35 . . . . . . . . . . . . . . . 93 7.6 Histograma del logaritmo de los datos del Ibex 35 . . . . . . . . 94 7.7 Descomposición de la serie completa del Ibex 35 (1998-2012) 97 7.8 Ajuste del modelo tendencia-ciclo a los datos corregidos . . . . 101 7.9 Serie de datos corregidos sin tendencia ni ciclo . . . . . . . . . 101 . 7.10 Ajuste del modelo estacional anual . . . . . . . . . . . . . . . . 103 7.11 Serie descontada de tendencia, ciclo y estacionalidad anual . . . 103 7.12 FAS y FAP de la componente irregular . . . . . . . . . . . . . . 105 7.13 Residuos frente a la variable (a) y frente al tiempo (b) . . . . . 108 7.14 Resultados del análisis tsdiag . . . . . . . . . . . . . . . . . . . 110 7.15 Gráfico Q-Q de normalidad de los residuos estandarizados . . . 111 7.16 Serie de residuos del modelo . . . . . . . . . . . . . . . . . . . . 112 7.17 Histograma de los residuos . . . . . . . . . . . . . . . . . . . . . 113 7.18 Histograma de los residuos filtrados . . . . . . . . . . . . . . . . 115 7.19 Histograma de los saltos . . . . . . . . . . . . . . . . . . . . . . 116 7.20 Histograma de los saltos negativos (a) y positivos (b) . . . . . . 116 7.21 Ajuste del modelo completo del Ibex 35 descompuesto en parte determinista y la suma de la parte determinista y la estocástica 119 7.22 Ajuste del modelo completo del Ibex 35 . . . . . . . . . . . . . 120 7.23 Histograma de los residuos del modelo del Ibex 35 . . . . . . . 120 7.24 Ajuste del modelo completo al logaritmo del Ibex 35 y predicción a 9 meses mediante técnica Monte Carlo . . . . . . . . . . . . . 122 10 Capı́tulo 1 Resumen del Trabajo El Ibex 35 es el principal ı́ndice de referencia del mercado bursátil español, compuesto por las 35 empresas cotizadas con más liquidez de nuestra economı́a. Su valor es un reflejo de la situación económica del paı́s y de la perspectiva que tienen los inversores de la misma. Por este hecho, estudiar su evolución y tratar de predecir su valor futuro es de gran interés económico, especialmente en el entorno actual en el que los mercados son altamente volátiles y se maneja gran cantidad de información. El mercado bursátil tiene una serie de particularidades que lo definen y lo caracterizan. En este mercado se negocian valores de las empresas cotizadas por los miembros del mercado, bien sea por cuenta propia o por orden de sus clientes. Mediante esta negociación, basándose en la ley de la oferta y la demanda se establece el precio de mercado. Este precio es el de la última transacción realizada, que es el punto en el que el precio de demanda y oferta han coincidido y se ha producido el intercambio de valores. Esto conlleva que siempre exista una contraparte con la que se produce el intercambio, no se trata de un “almacén” ficticio donde se cogen o dejan tı́tulos. Por ello mismo influye notablemente la psicologı́a de masas y las grandes corporaciones, y por éste y múltiples motivos, la bolsa sigue al ciclo económico siempre de forma anticipada. En los próximos capı́tulos se tratarán con más detalle estos puntos. 11 Capı́tulo 1 Modelo de predicción del Ibex 35 Ası́ pues, para controlar de mejor forma los riesgos y poder prever de forma general el comportamiento de los precios en cualquier mercado se hace necesario elaborar modelos matemáticos y estadı́sticos, que ayuden a las usuarios en la toma de decisiones en ambientes de incertidumbre, como es el caso del mercado bursátil. Si bien, en economı́a la toma de decisiones ha estado frecuentemente influida por la experiencia de los agentes de un mercado o por las opiniones de expertos (las denominadas técnicas cualitativas). Es por ello que cada vez se hace más necesaria la aplicación de técnicas multidisciplinares de distinta ı́ndole de forma que las empresas tengan una visión global y de conjunto de los problemas y retos a los que se enfrentan. Las técnicas matemáticas empleadas en la elaboración del modelo que nos ocupa son, por un lado, la modelización econométrica clásica, es decir, el ajuste de curvas por regresión y, por otro lado, las técnicas estadı́sticas de análisis y modelización de series temporales mediante los modelos denominados ARIMA. La justificación del empleo de estas dos técnicas es la existencia a su vez de dos partes diferenciadas en el modelo: una parte determinista, cuyo comportamiento puede ser replicado por funciones lineales y trigonométricas, y una parte aleatoria, para la cual ha sido necesario recurrir al modelo ARIMA y al modelo de saltos Poisson compuesto. En este trabajo se presenta un modelo del ı́ndice español Ibex 35 basado en técnicas analı́ticas y estadı́sticas, elaborado a partir de los datos de cierre semanales del mercado desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012. En primer lugar, se ha identificado la existencia de un “comportamiento regular” en los datos del Ibex 35, necesario para determinar la posibilidad de modelizar dichos datos siguiendo el modelo clásico de descripción de series temporales, es decir, descomponiendo la serie en sus elementos: tendencia, ciclo, estacionalidad y componente irregular. En segundo lugar, se han realizado las correcciones que se consideran habituales en el campo estadı́stico sobre los datos, como son la eliminación de valores extremos y sustitución por otros más adecuados si los hubiera (no ha sido necesario dada su inexistencia) o la aplicación de logaritmos en los datos previamente a la modelización. En tercer lugar, se realiza el ajuste de la parte determinista, dividida en varias partes. La primera de ellas recoge las componentes tendencia-ciclo a 12 Modelo de predicción del Ibex 35 Capı́tulo 1 partir de la combinación de una función lineal para la tendencia y una función trigonométrica para el ciclo. La segunda, modeliza la componente estacional anual, con una función coseno con frecuencia de un año. La componente irregular (parte aleatoria del modelo) requerirá de un tratamiento especial, puesto que no será una serie estacionaria, siendo necesario entonces aplicar técnicas estadı́sticas de modelización y predicción. En este caso se ha empleado un modelo ARIMA para recoger el comportamiento de la componente irregular de los precios, siendo necesario emplear series estocásticas para obtener una explicación más precisa. Para la modelización de los saltos extremos que se producen en el Ibex 35 a lo largo del tiempo se ha empleado un proceso de Poisson compuesto. Finalmente, se realiza una validación del modelo completo para comprobar su idoneidad y la bondad del ajuste sobre la serie de datos que se desea modelizar. También se obtienen predicciones de forma puntual y mediante la técnica Monte Carlo, junto con una evaluación de las mismas, estableciéndose en su caso las correcciones necesarias a tal efecto y las propuestas de mejora para el modelo elaborado. 13 Capı́tulo 2 Objeto del Trabajo Fin de Máster y justificación de las asignaturas relacionadas El presente trabajo se divide en dos partes bien diferenciadas. La primera, desde el capı́tulo 4 hasta el capı́tulo 6, recoge de forma teórica y descriptiva tanto el funcionamiento del Ibex 35 y el mercado bursátil en España, como de las técnicas empleadas en la modelización, la regresión no lineal y el modelo ARIMA. La segunda parte, el capı́tulo 7, es eminentemente práctica, ya que consiste en aplicar los conocimientos expuestos en los anteriores capı́tulos en la elaboración de un modelo de predicción semanal del Ibex 35. El objetivo principal de este trabajo, por lo tanto, es la descripción del mercado bursátil español a través del ı́ndice Ibex 35 y la aplicación de técnicas analı́ticas y estadı́sticas para tratar de predecir su comportamiento semanal. En cuanto a las asignaturas relacionadas, en el Máster en Dirección Financiera y Fiscal se han estudiado asignaturas de distinta ı́ndole dirigidas a dotar de las herramientas necesarias en el mundo del ejercicio financiero, las cuales, en buena medida, se han tratado de aplicar a la hora de realizar la presente TFM. 15 Capı́tulo 2 Modelo de predicción del Ibex 35 • Modelización y Valoración de Opciones Financieras: En esta asignatura se estudian diferentes métodos de valoración y predicción para los precios de distintos subyacentes financieros. Los métodos aplicados son principalmente analı́ticos, destacando los modelos discretos basados en árboles binomiales y modelos continuos fundamentados en el modelo Lognormal para valorar primas de opciones, como el modelo de Black-Scholes de valoración de opciones o los basados en el movimiento brownianogeométrico. La aplicación de diversos métodos analı́ticos es una de las partes fundamentales del presente trabajo. • Mercados Financieros y Valoración de Empresas: En esta asignatura se estudian métodos de valoración de empresas y análisis de diferentes activos financieros empleando técnicas de análisis sectorial (dentro del análisis fundamental de empresas) y el análisis técnico o chartista, basado en la observación de tendencias a partir de los gráficos de cotizaciones. Además, se realiza una introducción a la aplicación de modelos econométricos y estadı́sticos para la predicción del valor de diferentes activos financieros, principalmente acciones de empresas cotizadas. Tanto los conceptos del análisis sectorial y técnico como las técnicas econométricas y estadı́sticas de predicción se han aplicado en las dos partes de este trabajo. A parte de las asignaturas señaladas anteriormente, también cabe hacer mención a los conocimientos adquiridos durante la Licenciatura de Administración y Dirección de Empresas, los cuales han sido utilizados tanto para describir el contexto en el que se encuadra el Ibex 35 como reflejo de la economı́a española, como para comprender el funcionamiento del mercado bursátil en sı́. Finalmente, se debe señalar que el aprendizaje del programa estadı́stico con el que se ha desarrollado el modelo del Ibex 35, denominado R, ha sido principalmente debido a la dedicación de los tutores del Trabajo, además del empleo del mismo a lo largo del trabajo. 16 Capı́tulo 3 Objetivos del Trabajo Los objetivos del trabajo son acordes a aquellos que establece la normativa de la Facultad de Administración y Dirección de Empresas de la Universitat Politècnica de València respecto a las TFM (Facultad de Administración y Dirección de Empresas, 2010), es decir: • Debe estar orientado a la aplicación y evaluación de competencias asociadas al tı́tulo. • Debe ser original y quedar de manifiesto los conocimientos, habilidades y competencias adquiridas en el tı́tulo. Por extensión de los Trabajos Final de Carrera, también se ha tratado de que cumpla los siguientes requisitos: • Debe estar basado en problemas reales. • Debe ser fundamentalmente práctico y aplicado. • Debe apoyarse en las asignaturas cursadas y relacionadas con la naturaleza del trabajo. 17 Capı́tulo 3 Modelo de predicción del Ibex 35 • Debe estar relacionado con el trabajo profesional. • Debe tender un puente hacia el ejercicio profesional habitual. A los efectos del cumplimiento de los puntos arriba señalados, se describen a continuación cuáles son los objetivos del presente trabajo. El trabajo se ha dividido en dos partes con el objeto de separar, por un lado, el estudio de las herramientas empleadas en la elaboración de un modelo de predicción del Ibex 35 y, por otro lado, la elaboración del propio modelo. Por esta razón, en primer lugar se estudia el marco teórico del mercado bursátil español y las técnicas matemáticas y estadı́sticas que serán empleadas en la modelización. El análisis que se plantea en esta primera parte abarca varios objetivos. En primer lugar, la descripción del funcionamiento del mercado bursátil español, posteriormente las técnicas de modelización matemática y, por último, la revisión del modelo ARIMA. Por lo que respecta al mercado bursátil español, los objetivos que se han establecido están relacionados con su descripción y funcionamiento. Al realizar una revisión de las técnicas de modelización matemática y del modelo ARIMA, se pretende recoger los conocimientos que sobre estas materias se han estudiado en la Licenciatura de Administración y Dirección de Empresas y en el Máster en Dirección Financiera y Fiscal, ası́ como profundizar en los mismos a los efectos de disponer de una mayor variedad y amplitud de herramientas que puedan ser utilizadas en la elaboración del modelo. Otro de los objetivos que este trabajo pretende alcanzar es el planteamiento y resolución de un problema mediante técnicas multidisciplinares, el cual se ha abordado con una revisión de los contenidos adecuados pertenecientes a tres disciplinas aplicadas: finanzas, matemáticas y estadı́stica. Como segunda parte del trabajo, se propone el estudio y modelización de datos semanales del Ibex 35 desde 1998 hasta 2012. Para ello se han empleado los datos de cierre semanal del Ibex 35. El primer fin del modelo es poder explicar el comportamiento semanal del ı́ndice Ibex 35. Se han escogido intervalos semanales porque son datos más fiables para una predicción teniendo en cuenta ciclos económicos, ya que los datos diarios sufren de una volatilidad mayor y no son adecuados para contemplar adecuadamente un periodo de tiempo tan largo. 18 Modelo de predicción del Ibex 35 Capı́tulo 3 Los objetivos planteados en la elaboración del modelo son los siguientes: en primer lugar, analizar en detalle el comportamiento de la serie de datos para establecer de forma preliminar los patrones que dominan su dinámica; en segundo lugar, cuando se disponga de la descripción básica de los patrones de la serie, se propondrá un modelo basado en las técnicas estudiadas en la primera parte del trabajo. El punto de partida del modelo propuesto consiste en la aplicación de técnicas analı́ticas en aquellas componentes de la serie que presenten un comportamiento determinista. Posteriormente, aquella parte de los datos que no pueda ser explicada por la componente determinista, requerirá de la aplicación de técnicas estadı́sticas, debido a la aleatoriedad que suele caracterizar buena parte de la dinámica de las series temporales de variables financieras. El segundo fin que se persigue con el modelo es poder realizar predicciones razonables sobre un periodo de tiempo. No obstante su valor numérico no deja de ser aproximado y por ello es conveniente una valoración de su error y la obtención de un intervalo de confianza para la estimación obtenida. Además, la predicción del Ibex 35 debe llevarse a cabo mediante la construcción de intervalos de confianza para las estimaciones obtenidas puesto que de esta forma tenemos la medición, mediante la confianza, en términos de probabilidad de la incertidumbre que rodea a dicha estimación. Estas predicciones se realizarán de forma puntual y mediante la aplicación de la técnica Monte Carlo, la cual se describirá más adelante. 19 Capı́tulo 4 Antecedentes. Evolución histórica, situación actual y funcionamiento del Ibex 35 En este capı́tulo del trabajo se introduce el ı́ndice Ibex 35 en sı́ y el mercado bursátil español (Dı́az, 2012), con especial incidencia en por qué el método propuesto es válido para la predicción del Ibex 35 desde un punto de vista de análisis técnico bursátil. 21 Capı́tulo 4 4.1 Modelo de predicción del Ibex 35 Evolución histórica y composición del Ibex 35 Como se ha adelantado anteriormente, el Ibex 35 es el principal ı́ndice de referencia del mercado bursátil español. Está compuesto por las 35 empresas cotizadas con más liquidez del Sistema de Interconexión Bursátil Electrónico (SIBE) en las cuatro bolsas españolas (Madrid, Barcelona, Bilbao y Valencia). Se elabora por la empresa Bolsas y Mercados Españoles, operador de todos los mercados de valores y sistemas financieros de España. Esta empresa además es la encargada de la gestión y funcionamiento del SIBE y de la gestión, cálculo, composición y difusión del Ibex 35. Aparte del Ibex 35, existen homólogos en todos los paı́ses desarrollados, como son el Dow Jones en EE.UU., el DAX 30 en Alemania, el FTSE 100 en Reino Unido o el CAC 40 en Francia. Los valores que componen el Ibex 35 varı́an con el tiempo, en función de la decisión del Comité Asesor Técnico, un grupo de expertos que se reúne dos veces al año ordinariamente y determinan la entrada/salida de empresas en el ı́ndice. La reunión ordinaria no supone necesariamente la modificación del ı́ndice, pudiendo mantenerse con los valores anteriores. Asimismo, no es necesaria la reunión ordinaria para realizar modificaciones en el Ibex 35 en caso de que el Comité Asesor Técnico ası́ lo decida. Para valorar la liquidez de los valores que componen el Ibex 35 el Comité Asesor Técnico se basa en distintas cuestiones plasmada en las Normas Técnicas para la Composición y Cálculo de los Índices de Sociedad de Bolsas, S.A., que son: • El volumen de negociación en el mercado. • La suspensión de la cotización durante un periodo que pueda considerarse significativo. • La calidad del volumen. Se descontará el volumen que se haya producido por: – Consecuencia de operaciones que conlleven un cambio importante en el accionariado de la empresa. 22 Modelo de predicción del Ibex 35 Capı́tulo 4 – Haya sido producido por un único miembro del mercado, realizado en pocas negociaciones o en un espacio de tiempo considerado poco representativo. – Que el efectivo negociado sufra un descenso tal que se considere que la liquidez del valor está gravemente afectada. No importa el sector al que pertenece la empresa ni su dimensión para poder formar parte del Ibex 35. Tampoco influye el comportamiento de los precios, únicamente su liquidez, es decir, el volumen negociado. Si bien existen una serie de requisitos que atender para la inclusión o exclusión de un valor en el ı́ndice, el Comité Asesor Técnico dispone de libertad para, a su juicio, llevarla a cabo incumpliendo los requisitos establecidos. Ası́ pues, este ı́ndice es técnicamente un ı́ndice de precios de los valores que lo componen, ponderados en función de su capitalización bursátil, que queda reflejado en un valor numérico. Este valor numérico se inició en 3.000 puntos. Este inicio se remonta al 14 de enero de 1992. Sin embargo, se pueden obtener cotizaciones anteriores desde 1989 mediante estimaciones que se realizaron posteriormente. Desde este punto inicial, el Ibex 35 osciló entre los 3.000 y 4.000 puntos aproximadamente hasta finales de 1996, momento en el que rompe con fuerza al alza por la fuerte especulación que tuvo lugar con las empresas de telecomunicaciones e internet, alcanzando los 10.000 puntos en año y medio, a principios de 1998. A partir de este año sufre oscilaciones hasta alcanzar su primer máximo cerca de los 12.500 puntos a principios del año 2000, punto desde el que baja rápidamente hasta los 5.400 puntos a finales de 2002. Nuevamente a finales de 2007 alcanza un máximo todavı́a superior, cercano a los 16.000 puntos, tras una subida con pocos descensos. En este año, al estallar la crisis financiera y pincharse la burbuja inmobiliaria, el ı́ndice se hunde hasta los 7.600 puntos en 2009, mı́nimo del que intenta repuntar pero sin éxito, descendiendo hasta los 6.000 puntos en 2012, marcando un mı́nimo desde los 5.400 de 2002. Actualmente, después de un año 2012 de gran volatilidad, el Ibex 35 cotiza en torno a los 10.000 puntos, en un claro sı́ntoma de recuperación sostenida en los últimos meses. A continuación se explicará cómo se calcula el Ibex 35. 23 Capı́tulo 4 4.2 Modelo de predicción del Ibex 35 Cálculo del Ibex 35 Para el cálculo del Ibex 35 se utiliza una fórmula matemática que recoge la capitalización bursátil (precio por número de acciones) de las 35 empresas que compongan el Ibex 35, aplicando además un coeficiente de ajuste. Por esta forma de cálculo las empresas con mayor capitalización tendrán más peso en el ı́ndice y sus oscilaciones afectarán en mayor medida al mismo. En consecuencia, únicamente las empresas Santander, Telefónica, BBVA, Inditex, Iberdrola y Repsol ya representan cerca del 70% del ı́ndice, siendo tan sólo 6 de 35. La fórmula matemática para el cálculo es: Ibex 35(t) = Ibex 35(t − 1) · 35 X Capi (t) i=1 35 X i=1 , (4.1) Capi (t − 1) + J siendo: • t, instante de cálculo del ı́ndice. • Capi (t), capitalización de la compañı́a i incluida en el ı́ndice en el instante t, es decir, S(t) × P (t). • S(t), número acciones computables para el cálculo del valor del ı́ndice en el instante t. • P (t), precio de las acciones de la compañı́a incluida en el ı́ndice en el instante t. • P35 i=1 Capi (t), suma de la capitalización de todas las compañı́as incluidas en el ı́ndice en el instante t. • J, cantidad utilizada para ajustar el valor del ı́ndice. 24 Modelo de predicción del Ibex 35 Capı́tulo 4 El valor del coeficiente J representa la capitalización de ajuste para asegurar la continuidad del ı́ndice. Esta cantidad J es introducida con motivo de determinadas operaciones financieras definidas de acuerdo a las Normas Técnicas de Composición y Cálculo del Índice. El objetivo es asegurar que el ı́ndice no se vea alterado por las operaciones financieras indicadas, como: • Dividendos ordinarios y similares. • Dividendos extraordinarios y similares. • Ampliaciones y reducciones de capital. • Emisión de instrumentos financieros convertibles o canjeables. • Variaciones del valor nominal. • Fusiones y absorciones. • Segregación patrimonial o escisión societaria con retribución a los accionistas. Con carácter general, se toma como precio el de la última transacción realizada en el SIBE. El número de acciones para el cálculo dependerá del capital flotante (que varı́a en función de las operaciones financieras arriba indicadas que tengan lugar). Sin embargo, el Comité Asesor Técnico podrá tomar otras decisiones en ambos sentidos, justificando sus decisiones en base a criterios objetivos y publicándolas con la antelación oportuna suficiente. 4.3 Necesidad de predicción del Ibex 35 En la actualidad la economı́a es cada vez más competitiva y existen múltiples factores de riesgo que afectan a la toma de decisiones. Por ello, los métodos de decisión y predicción cobran especial relevancia, y más concretamente en la predicción de la economı́a en su conjunto. Esto no sólo es útil en términos macroeconómicos, ya que si lo trasladamos al objeto del presente trabajo, la predicción de un ı́ndice bursátil puede suponer un beneficio significativo en el corto y medio plazo mediante la especulación con los valores. 25 Capı́tulo 4 Modelo de predicción del Ibex 35 Ası́ pues, el uso de métodos matemáticos, estadı́sticos y econométricos es necesario para reducir y acotar el intervalo de variación de las variables que se analizan en cada caso. Por ende, es imprescindible el conocimiento de técnicas y métodos concretos que faciliten la determinación de hipótesis o predicciones acerca de la evolución futura de determinadas variables. En función de las necesidades de cada caso, se requerirá una aproximación cualitativa o bien el uso de sofisticadas técnicas estadı́sticas y matemáticas que ofrezcan un intervalo con una confianza concreta. La necesidad de la predicción, como ya se ha adelantado, resulta obvia. Por ello, es ineludible un conocimiento del comportamiento que presentan las series temporales asociadas a las magnitudes analizadas, ası́ como de los modelos estadı́sticos que se han mostrado eficaces en la tarea de predecir los valores futuros de variables similares. Conseguir modelar la evolución del Ibex 35 nos proporcionarı́a una fuente muy importante de información sobre las perspectivas que tienen los inversores respecto a la actividad económica del paı́s y, aplicado en términos bursátiles, una orientación estimada de la dirección que tomará el Ibex 35 a efectos de invertir en un sentido u otro (Hernández, 1999). 4.4 Análisis técnico bursátil como método de predicción Dada la importancia del mercado bursátil, desde su inicio se han estudiado diversas herramientas para su predicción. En la actualidad, existen dos tendencias principales: análisis fundamental y análisis técnico. Ambos tipos de herramientas son ampliamente explicados en diversa bibliografı́a (Mateu, 2003) (Pring, 1989) y son complementarias, pero difieren notablemente una de otra en su fundamento, El análisis fundamental trata de determinar el valor real del tı́tulo bursátil, llamado valor fundamental, y que no tiene por qué corresponder con el valor de mercado. Para ello se realiza un estudio en profundidad de la empresa, del sector al que pertenece y de los paı́ses en los que opera. Con dicho estudio se realizan proyecciones financieras con un escenario probable y en base a los 26 Modelo de predicción del Ibex 35 Capı́tulo 4 resultados esperados de la empresa se determina su valor real. Este valor puede diferir con el valor en el parqué bursátil, de modo que el mercado tenderá, en un plazo indeterminado de tiempo, hacia el valor real, ya que las perspectivas actuales están sobrevaloradas o infravaloradas, según el caso. Este método es absolutamente lógico, pero tiene una serie de inconvenientes: se realizan predicciones, con sus consecuentes errores, y pueden producirse hechos significativos que automáticamente cambien el valor real. Dado que se trata de una inversión a largo plazo hasta que alcance el valor real, estos inconvenientes pueden suponer cambios drásticos en la rentabilidad de la inversión. Por su parte, el análisis técnico se trata de una herramienta para corto y medio plazo. La Teorı́a de Dow (Murphy, 2007), que debe su nombre a su creador, Dow Jones, es el origen de este tipo de análisis. El análisis técnico estudia las gráficas del valor de la acción y el volumen de negociación, basándose en una serie de premisas: • Los movimientos del mercado lo descuentan todo: esta afirmación hace referencia a que cualquier hecho que pueda afectar al valor, bien sea de origen económico, polı́tico, psicológico o cualquier otra causa, se refleja siempre en el precio de negociación. • Los precios se mueven por tendencias: entendiendo las tendencias como la existencia de una mayor probabilidad de que siga una dirección que otra. El análisis técnico trata de detectar estas tendencias y seguirlas. • La historia se repite: el mercado bursátil se mueve por las masas, y por lo tanto se mueve por la “psicologı́a de masas” (Tvede, 1990). Esta psicologı́a es aplicable tanto en la actualidad como en el pasado, por lo que los patrones identificados son válidos para predecir movimientos futuros. Este método de análisis también tiene sus inconvenientes: actualmente el mercado es muy volátil y está muy manipulado por las grandes instituciones y fondos de inversión y en muchas ocasiones los patrones son difı́ciles de identificar o se transforman en otros conforme avanza el tiempo. Dado que el presente trabajo está enfocado a una predicción del valor del Ibex 35 en parte basando la modelización en funciones deterministas que 27 Capı́tulo 4 Modelo de predicción del Ibex 35 consideran la ciclicidad, el análisis técnico es mucho más aplicable. Este planteamiento también tiene que ver con el ciclo económico. El ciclo económico y el mercado bursátil tienen una relación muy estrecha, en tanto que el mercado aglutina las expectativas de la economı́a y “lo descuenta todo”, anticipándose al mismo. El ciclo económico es como se denomina a las oscilaciones recurrentes de la economı́a, en las que una fase de expansión es seguida de una fase de contracción, que a su vez precede a una de expansión y ası́ sucesivamente. Las fases del ciclo económico se resumen brevemente en: • Depresión: la economı́a se encuentra en su punto más bajo. Existen elevadas tasas de desempleo y la economı́a se reduce, debido a una baja demanda en comparación con la oferta existente. En este punto los tipos de interés son bajos para fomentar la inversión y evitar la deflación, lo que lleva a los inversores especuladores a invertir en bolsa, la cual comienza a dar señales positivas antes que la propia economı́a. • Recuperación: poco a poco la economı́a se recupera y comienza a generarse empleo, se incrementa la confianza y se vuelve a tasas positivas de crecimiento. El tipo de interés se mantiene bajo, fomentando esta recuperación, pero comenzando a subir, y la bolsa sigue subiendo a medida que aumenta la confianza de los consumidores, sumándose los pequeños inversores que ven una oportunidad en el mercado bursátil. • Auge: la economı́a llega a su punto álgido. Existe pleno empleo y crecimiento positivo. Los tipos de interés suben para evitar una inflación excesiva de precios y los inversores, que en su dı́a invirtieron en la fase de depresión o recuperación, venden con beneficios e invierten en renta fija o depósitos, dada la baja rentabilidad de la bolsa frente a este otro tipo de inversiones. La bolsa comienza ası́ a descender, adelantándose a la economı́a real. • Recesión: cae la inversión y progresivamente el empleo y la producción. Los tipos de interés se mantienen elevados, pero comienzan a tender a la baja, y la bolsa ya ha caı́do significativamente ante las malas expectativas de la economı́a. Como se ha contrastado la economı́a es cı́clica y este patrón va estrechamente ligado al mercado bursátil. 28 Capı́tulo 5 Formulación del modelo econométrico. Regresión no lineal y ajuste por mı́nimos cuadrados En este capı́tulo se describirán las bases teóricas para la formulación del modelo econométrico que se empleará en la parte determinista del modelo desarrollado. Se describirán los principales métodos de modelización por regresión lineal, ası́ como los métodos de regresión no lineal utilizados en el modelo. Asimismo, se describirá el ajuste por mı́nimos cuadrados, la técnica utilizada en el modelo y una de las más comunes para la regresión de un modelo frente a unos datos dados. Por último, se introduce al programa estadı́stico de software libre R y las técnicas de suavizado utilizadas. 29 Capı́tulo 5 5.1 Modelo de predicción del Ibex 35 Modelización econométrica La Econometrı́a pretende dar respuesta, entre otras, a la relación que liga a una determinada variable económica con los valores de otras variables económicas (Greene, 2000). Para ello utiliza la regresión, una metodologı́a que sirve para contrastar las teorı́as económicas con la realidad económica. En el caso del ı́ndice español Ibex 35, existen algunos modelos económicos para predecir la realidad de un mercado altamente volátil (Cortés y otros, 2014). A pesar de ello todavı́a queda mucho por hacer para reflejar la realidad convenientemente. Por este motivo es necesaria la utilización de la modelización econométrica para formular un modelo estadı́stico, estimar los parámetros, medir su utilidad y definir las pruebas de hipótesis que determinen la bondad de las estimaciones realizadas y ası́ poder realizar predicciones con el modelo resultante. 5.1.1 Formulación del modelo En lo que sigue se describirán una serie de resultados estadı́sticos clásicos sobre los cuales se basará el modelo propuesto para describir la dinámica del Ibex 35. Pueden consultarse los fundamentos y detalles técnicos de dichos métodos para la regresión (Greene, 2000) (Hair, 1995) y para las series temporales (Hyndman y otros, 2012) (Trapletti y Hornik, 2012) en diversas referencias bibliográficas. En primer lugar, se debe formular el modelo que se quiere contrastar. La formulación de un modelo econométrico parte de una o varias ecuaciones en las que se relaciona la variable explicada (Y ) con las variables explicativas (Xi ), cuantificándose su relación mediante parámetros (βj ). Se debe tener en cuenta, además, que tanto la variable explicada como las variables explicativas son variables aleatorias, por lo que se produce el denominado error experimental, es decir, que los resultados de cada experimento realizado son diferentes. A este efecto hay que añadirle que el modelo no recoge todas las variables de poca importancia, pero que en conjunto podrı́an afectar a los resultados del modelo. Ambas cuestiones suponen la necesidad de añadir un término al modelo denominado perturbación aleatoria (U ). 30 Modelo de predicción del Ibex 35 Capı́tulo 5 De este modo, el modelo de regresión básico, se formula como se observa en (5.1): Y = β0 + β1 X1 + . . . + βk Xk + U. (5.1) El valor medio (o esperado) y la varianza de la distribución condicional (Y /X) son: E(Y /X) = β0 + β1 X1 + . . . + βk Xk . Var(Y /X) = σ 2 . La dificultad radica en estimar los parámetros βj de la regresión y la varianza de la distribución condicional. Para ello hay que utilizar los datos de que se dispone, la observación de n valores de la variable explicada y las explicativas. De la sustitución de los valores se obtiene la expresión (5.2): Y1 = β0 + β1 X11 + β2 X21 + ... + βk Xk1 + U1 , Y2 = β0 + β1 X12 + β2 X22 + ... + βk Xk2 + U2 , .. .. .. . . . Yn = β0 + β1 X1n + β2 X2n + ... + βk Xkn + Un . (5.2) Si se sustituye el modelo se tiene un sistema de n ecuaciones con n + k + 1 incógnitas (k + 1 incógnitas βj y n incógnitas Uj ) que no tiene una única solución. Como es necesario tener más ecuaciones (k + 1) para resolver el problema, habrá que focalizarse en la perturbación U para hallarlas. A la variable U se le denomina perturbación, pero es además un error, dado que es la diferencia entre el valor real de la variable y su valor esperado. Despejando en la ecuación (5.2), se obtiene U como error, tal y como se muestra en (5.3): Y − (β0 + β1 X1 + ... + βk Xk ) = Y − Yb = U. 31 (5.3) Capı́tulo 5 Modelo de predicción del Ibex 35 De acuerdo a esta última definición, serı́a lógico que el error fuera lo menor posible para que las estimaciones fueran óptimas. Dado que el error se trata de una variable aleatoria, lo menor posible se traduce en que su valor medio sea cero y su varianza lo más pequeña posible. De la minimización de esa varianza se obtendrán las k + 1 ecuaciones que faltan. De aquı́ el nombre de método de los mı́nimos cuadrados ordinarios (MCO). 5.1.2 Hipótesis del modelo Es necesario establer una serie de hipótesis que simplifiquen a fin de poder estimar los parámetros del modelo. Estas hipótesis se definirán respecto a la perturbación, a las variables explicativas y explicada y a los parámetros βj . Si no se establecieran estas hipótesis, estimar los parámetros se convertirı́a en una tarea inaccesible. Las hipótesis son las siguientes: • Las perturbaciones Uj son variables aleatorias de media nula, E(Uj ) = 0. • Todas las perturbaciones tienen la misma varianza, Var(Uj ) = σ 2 . • Las perturbaciones están incorrelacionadas entre sı́, Cov(Ui , Uj ) = 0. • Las perturbaciones tienen una distribución conjunta Normal, cuestión que, junto a la hipótesis anterior, concluye que las perturbaciones son independientes. • La perturbación no depende de las variables explicativas Xi . • Las variables explicativas, Xi , y la explicada, Y , se obtienen sin error de observación. • Las variables explicativas Xi son no aleatorias, se puede fijar su valor a voluntad, son controlables. • Yj es el valor observado de una variable aleatoria cuyo valor medio es una combinación lineal de los valores de Xi . • Entre las variables explicativas Xi no deben existir relaciones lineales exactas. 32 Modelo de predicción del Ibex 35 Capı́tulo 5 • Los parámetros βj del modelo son constantes en todas las muestras y forman parte del modelo de forma lineal. Cabe destacar que la última de las hipótesis formará parte del modelo de forma lineal en tanto que la función que se ajuste a los datos observados sea una función lineal. En el caso del modelo del Ibex 35, el modelo propuesto es no lineal y, por lo tanto, esta hipótesis pierde su validez. 5.1.3 Estimación de parámetros del modelo y de la varianza de la perturbación. Mı́nimos Cuadrados Ordinarios (MCO) El método de los Mı́nimos Cuadrados Ordinarios (MCO) consiste en determinar un vector b de estimadores de los parámetros que cumpla (5.4): Y = Xb + e = Yb + e, (5.4) donde Yb es la estimación de Y y e es el valor aproximado de U , el error que se comete al tomar Yb como Y . Entrando en detalle, el método de los MCO consiste en la obtención de una recta de forma que se minimice la suma de los cuadrados de las distancias (ei ) entre cada una de las observaciones de la variable y dicha recta. A las distancias ei se les denominan residuos. La expresión vectorial de los residuos se obtiene de despejar la ecuación (5.4), dando como resultado (5.5): e = Y − Xb. (5.5) Se debe minimizar entonces la suma de cuadrados de los residuos (SCR) porque son el error que se comete en el ajuste (distancia de cada observación a la recta ajustada). Al elevarlos al cuadrado se pierde el signo, y al sumarlos se acumulan los errores, como se expresa en (5.6): 33 Capı́tulo 5 SCR = n X j=1 Modelo de predicción del Ibex 35 e2j n n X X 2 b (Yj − (b0 + b1 xij + ... + bk xkj ))2 . (5.6) (Yj − Yj ) = = j=1 j=1 Al minimizar la expresión (5.6) se obtiene el resto de (k + 1) de ecuaciones necesarias para estimar los parámetros del modelo y finalmente la expresión de los estimadores b. Su forma matricial es más compacta, y es la que se presenta en (5.7): b = (X ′ X)−1 X ′ Y, (5.7) donde Y es el vector de la variable a explicar y X es la matriz de datos, como se ha visto anteriormente. Para que el sistema de ecuaciones tenga solución única, es decir, no sea indeterminado, el producto de matrices X ′ X debe ser invertible, y para ello debe cumplirse que, en primer lugar, el número de datos sea superior que el de los parámetros a estimar, n > k + 1; y, en segundo lugar, no deben existir relaciones exactas entre las variables explicativas Xi . Por otra parte, para estimar la varianza de la perturbación, σ 2 , hay que utilizar la SCR. Se puede demostrar que el estimador de la varianza de la perturbación sigue la expresión (5.8), también denominada cuadrado medio residual. Dado que la SCR ha sido minimizada, es obvio que la varianza del error también es mı́nima, tal y como se exigı́a en las hipótesis. σ2 = 5.1.4 SCR . n−k−1 (5.8) Intervalos de confianza de los parámetros y de la varianza de la perturbación Cualquier estimación que se realice debe venir acompañada del error que se comete al utilizar esa estimación en vez del valor verdadero. La forma de expresar ese error es a través de la varianza de la estimación. Sin embargo, existen formas más elaboradas de expresar dicho error. Una de las más habituales es mediante los intervalos de confianza. 34 Modelo de predicción del Ibex 35 Capı́tulo 5 Un intervalo de confianza es un intervalo que contiene al valor verdadero y desconocido del parámetro a estimar, con una cierta probabilidad (1-α) fijada. El valor α se denomina nivel de significación, y corresponde al porcentaje de veces en que se está dispuesto a aceptar equivocarse, esto es, el intervalo que no contiene al valor verdadero y desconocido del parámetro. Intervalos de confianza para uno de los parámetros βi La distribución del estimador bi menos el valor del parámetro βi dividido por el error en la estimación sbi sigue una distribución t de Student, cuyos grados de libertad son los residuales (5.9): bi − βi ≡ tn−k−1 . sbi (5.9) A partir de ella, se calcula el intervalo de confianza para el parámetro βi cuya expresión es la siguiente (5.10): h bi − α/2 tn−k−1 sbi , bi i α/2 + tn−k−1 sbi , (5.10) o bien se puede expresar como la estimación más/menos el error, como en (5.11) α/2 bi ± tn−k−1 sbi . (5.11) Intervalo de confianza para la varianza σ 2 Conocida la distribución de la suma de cuadrados de los residuos dividido por la varianza de la perturbación, como se indica en (5.12): SCR ≡ χ2n−k−1 , σ2 (5.12) se tiene el intervalo de confianza para la varianza residual, como se expresa en (5.13) 35 Capı́tulo 5 Modelo de predicción del Ibex 35 σ b2 (n − k − 1) 2(α/2) χn−k−1 5.1.5 ≤ σ2 ≤ σ b2 (n − k − 1) 2(1−α/2) χn−k−1 . (5.13) Coeficiente de determinación y coeficiente de determinación corregido La suma de cuadrados de Y puede dividirse en dos partes, una suma de cuadrados explicada debida al efecto de las variables explicativas en la variable a explicar, y otra, la suma de los cuadrados de los residuos, ya vista. Esta descomposición se justifica con la expresión (5.14): (Yi − Y ) = (Ybi − Y ) + (Yi − Ybi ), (5.14) elevando al cuadrado y sumando para todas las observaciones disponibles, se tiene la expresión (5.15), si se tiene en cuenta la independencia entre los dos sumandos de (5.14). n n n X X X (Ybi − Y )2 + (Yi − Ybi )2 ≡ SCT = SCE + SCR (Yi − Y )2 = i=1 i=1 (5.15) i=1 Las expresiones que se obtienen al desarrollar la suma de cuadrados anterior reciben las siguientes denominaciones: • Suma de cuadrados total (SCT): Suma del cuadrado de las diferencias entre cada valor observado de la variable y la media de los mismos. Indicarı́a si los valores están muy alejados del valor medio. • Suma de cuadrados explicada (SCE): Suma de los cuadrados de las diferencias entre las estimaciones y el valor medio de las observaciones. Indicarı́a si las estimaciones están muy alejadas de la media de los valores observados. 36 Modelo de predicción del Ibex 35 Capı́tulo 5 • Suma de cuadrados del residuo (SCR): Suma de los cuadrados de las diferencias entre los valores observados y los estimados. Como se ha señalado, es una medida en el error que se comete al tomar el uno por el otro, puesto que al elevar al cuadrado se pierde el signo de la diferencia. Al sumarlos se acumulan. La relación entre los tres es, por lo tanto, SCT = SCE + SCR. Si un modelo explicara completamente a la variable, su SCR deberı́a ser cero, y las SCT y SCE iguales. Si, por el contrario, no existiera relación entre las variables explicada y explicativa, la SCE deberı́a valer cero, y la SCR igual a la SCT. Como la SCE toma valores entre 0 y SCT, el cociente SCE/SCT toma valores ente 0 y 1, con lo que podrı́a ser un buen indicador de la bondad del ajuste realizado. El cociente SCE/SCT se denomina coeficiente de determinación (R2 ) y se emplea para saber si un modelo es adecuado, es decir, si explica suficientemente a la variable objeto de estudio. Por su definición, el coeficiente de determinación siempre toma valores entre cero y uno (0 ≤ R2 ≤ 1) por lo que se trata de una escala que mide lo adecuado del ajuste, o dicho de otra forma, mide el porcentaje de la variable Y explicado por el modelo propuesto. La raı́z cuadrada de dicho coeficiente recibe el nombre de coeficiente de correlación múltiple, y es el coeficiente de relación lineal simple entre la variable y su estimación, es decir, entre Y e Yb . 5.1.6 Contraste de hipótesis sobre los parámetros del modelo mediante la utilización del estadı́stico F En este apartado se presentan las pruebas de hipótesis para contrastar si un parámetro, un conjunto de ellos, e incluso todos ellos, son igual a cero. Con la prueba de hipótesis sobre un parámetro se comprobará si una variable explicativa del modelo es realmente explicativa o no. Con la prueba sobre todos los parámetros del modelo se comprobará si el modelo resulta adecuado. Y por último, con la prueba sobre un conjunto de parámetros, se estudian las restricciones que la teorı́a económica puede imponer a sus valores. 37 Capı́tulo 5 Modelo de predicción del Ibex 35 Hipótesis sobre todos los parámetros del modelo La primera prueba se refiere a todos los parámetros del modelo, excepto al término constante β0 . La hipótesis nula es que todos los parámetros son iguales a cero, o lo que es lo mismo, que el modelo no resulta adecuado. La hipótesis alternativa es que al menos uno de los parámetros es distinto de cero, o que el modelo podrı́a ser adecuado. El estadı́stico que sirve para contrastar la hipótesis nula sigue una distribución F de Snedecor con grados de libertad k y n − k − 1, siendo su expresión (5.16) Fcalc = SCE/k CME ≡ ≡ Fk,n−k−1 . SCR/(n − k − 1) CMR (5.16) En la elaboración del modelo se emplea el programa estadı́stico R, ya que la prueba de hipótesis se realiza sobre el nivel de significación, denominado pvalor. El nivel de significación, para esta prueba, es la probabilidad de que una variable con distribución Fk,n−k−1 sea mayor que el estadı́stico Fcalc calculado. Por lo tanto, si p − valor ≥ α entonces se acepta H0 y el modelo no resulta adecuado. La información necesaria para realizar esta prueba de hipótesis se encuentra recogida en lo que se conoce como tabla ANOVA (tabla 5.1) que es la forma en la que suelen presentar la información la inmensa mayorı́a de los programas estadı́sticos. El programa R también emplea esta tabla de análisis. Como aclaración, las siglas que se representan tienen el siguiente significado: • SC: Suma de Cuadrados. • SCE: Suma de Cuadrados Explicada. • SCR: Suma de Cuadrados Residual. • SCT: Suma de Cuadrados Total, siendo SCT = SCE + SCR. • CM: Cuadrado Medio. • CME: Cuadrado Medio Explicado, siendo CME = SCE/k. • CMR: Cuadrado Medio Residual, siendo CMR = SCR/(n − k − 1). • k: número de parámetros. • n: número de datos. 38 Modelo de predicción del Ibex 35 Capı́tulo 5 Tabla 5.1: Modelo de tabla ANOVA para el análisis de la varianza Origen SC GDL CM F ratio p-valor Modelo SCE k CME CME/CMR α Residuos SCR n-k-1 CMR Total SCT n-1 Fuente: Elaboración propia • GDL: Grados De Libertad. Hipótesis sobre un parámetro individual En esta segunda prueba se trata de contrastar si un parámetro cualquiera del modelo, βi , es igual a cero o distinto de cero. Si se ha realizado la prueba sobre todos los parámetros del modelo y el resultado ha sido que al menos uno de ellos es distinto de cero, es necesario entonces determinar cuál o cuáles son distintos de cero. Lo más importante de esta prueba es que, en el caso de que el parámetro acompañe a una variable explicativa y se admita que su valor es cero, la conclusión es que dicha variable no es realmente explicativa. Si por el contrario se admite que ese parámetro es distinto de cero, entonces se tienen dos conclusiones: la variable en cuestión ayuda a explicar a la variable estudiada y la estimación realizada resulta adecuada. La prueba de hipótesis se realiza mediante el calculo de un estadı́stico Fcalc , el cociente del cuadrado de la estimación del parámetro y su desviación tı́pica. Este estadı́stico se distribuye como una F de Snedecor, con grados de libertad 1 y n − k − 1. La hipótesis nula es que el parámetro vale cero, frente a la alternativa que su valor es distinto de cero. El estadı́stico se calcula como se expresa en (5.17), por ser el cuadrado de la expresión (5.9) bajo la hipótesis de que βi es cero, al ser el el cuadrado de una t de Student se distribuye F de Snedecor con los correspondientes grados de libertad. Fcalc = b2i ≡ F1,n−k−1 . s2bi 39 (5.17) Capı́tulo 5 Modelo de predicción del Ibex 35 De la misma forma que con la prueba para todos los parámetros, se puede emplear el p-valor para realizar el contraste. Si p − valor ≥ α se acepta H0 y en caso contrario se rechaza. No obstante, lo más habitual (ası́ lo realiza R) es realizar una prueba t calculando el siguiente estadı́stico, expresado en (5.18), proveniente de tomar raı́ces cuadradas en Fcalc : tcalc = bi ≡ tn−k−1 . sbi (5.18) Hipótesis sobre un subconjunto de parámetros del modelo La última prueba de hipótesis se refiere a un subconjunto de parámetros del modelo. Como hipótesis nula se propone que un subconjunto de parámetros toma unos valores determinados o que existe algún tipo de relación entre ellos. La teorı́a económica impone a menudo que los coeficientes de un modelo deban cumplir una cierta restricción lineal. Para realizar la prueba de hipótesis se debe, en primer lugar, ajustar el modelo sin las restricciones y obtener su suma de cuadrados residual (SCRc ). En segundo lugar, se ajusta el modelo con las s restricciones que se desean comprobar y se obtiene una segunda suma de cuadrados residual (SCRr ). La prueba se basa en el cálculo de un estadı́stico Fcalc efectuado como se muestra en (5.19): Fcalc = 5.1.7 ∆SCR/s (SCRr − SCRc )/s = ≡ Fs,n−k−1 . SCRc /(n − k − 1) SCRc /(n − k − 1) (5.19) Predicción Uno de los objetivos que se persiguen al realizar modelos económicos es el de poder hacer predicciones de los valores de la variable, si bien en realidad lo que permite el modelo ajustado es predecir el valor medio de dicha variable, o encontrar un intervalo que contenga con una probabilidad determinada al 40 Modelo de predicción del Ibex 35 Capı́tulo 5 valor real. Existen dos formas de realizar predicciones, puntualmente o por intervalos de confianza. Predicción puntual Si se pretende obtener el valor esperado de la variable estudiada Y asociado a unos determinados valores de las variables explicativas, lo único que se debe hacer es sustituir los valores de las variables explicativas en el modelo ajustado y calcular la estimación de Y que corresponde a su valor medio condicionado E(Y /x1 , ..., xk ), como se expresa en (5.20): Yb = b0 + b1 X1 + b2 X2 + ... + bk Xk . (5.20) Si el modelo ajustado explica el logaritmo de la variable, como sucederá con el modelo del Ibex 35, Y es log(Ibex 35). Predicción por intervalos de confianza La predicción puntual debe complementarse con la varianza de la estimación, para conocer ası́ el error en la predicción. La manera de presentar ambos valores es el intervalo de confianza que, a su vez, se realiza sobre el valor de Y y para E(Y |x1 , . . . , xn ). El intervalo de confianza a nivel α para la estimación de Y es el que se muestra en (5.21): α/2 Yb ± tn−k−1 s p 1 + R(X ′ X)−1 R′ . (5.21) Para su cálculo es necesario construir la matriz de datos X y el vector de valores de las variables explicativas R para el que se pretende realizar la predicción. Por su parte, el intervalo de confianza para el promedio de la variable Y , es decir, E(Y |x1 , . . . , xn ), a nivel α es el de la expresión (5.22): α/2 Yb ± tn−k−1 s p R(X ′ X)−1 R′ . (5.22) Esta expresión difiere de la anterior en que no se debe sumar el 1 dentro de la raı́z, con lo que el intervalo es más estrecho. Esto es consistente con el hecho de que el intervalo se hace sobre un valor promedio, no sobre su valor 41 Capı́tulo 5 Modelo de predicción del Ibex 35 verdadero, lo cual limita el rango de valores entre los cuales se encuentra dicho promedio. 5.2 Diagnosis y validación del modelo de regresión En este apartado se describen las pruebas para determinar la idoneidad del modelo propuesto mediante los residuos del ajuste. No basta con que las pruebas de hipótesis realizadas sobre los parámetros indiquen que el modelo resulta adecuado. También se establecieron unas hipótesis sobre el modelo que es necesario verificar. Aquellas restricciones que se deben cumplir son las relativas a la perturbación, descritas en el apartado 5.1.2. Para la comprobación de dichas hipótesis, la literatura (Thode, 2002) propone la realización de una serie de gráficos de los residuos del ajuste, en los que se podrán determinar si se satisfacen o no las hipótesis del modelo. Pese a la gran cantidad de información que pueda extraerse de un gráfico de residuos, el uso de los mismos puede suponer una frustración puesto que es necesario un cierto “entrenamiento” para poder aprovecharlos en toda su extensión. Los gráficos que se emplearán en la validación del modelo del Ibex 35 son el papel probabilı́stico normal y el comando tsdiag del programa estadı́stico R en su librerı́a tseries (Trapletti y Hornik, 2012), que incluye un gráfico de los residuos estandarizados, la FAS de los residuos y los p-valores para el estadı́stico de Ljung-Box. El primer gráfico, el papel probabilı́stico normal, deriva del gráfico Q-Q, el cual compara dos distribuciones a partir de sus cuartiles. El papel probabilı́stico normal no es más que un gráfico Q-Q adaptado a la distribución Normal, con el objeto de comparar si los residuos se distribuyen normalmente. El cumplimiento de la hipótesis de normalidad es indispensable para poder realizar los contrastes de significación y obtener los intervalos de confianza que permitan realizar predicciones. Además, si esta hipótesis no se cumple, los estimadores dejan de ser máximo-verosı́miles. Como apoyo al papel probabilı́stico normal, se puede representar el histograma de los residuos, para observar si tienen la forma de la campana de Gauss. El papel probabilı́stico normal ofrece una mayor cantidad de información 42 Modelo de predicción del Ibex 35 Capı́tulo 5 sobre la distribución de los residuos que cualquier otro gráfico o prueba numérica y se hace imprescindible cuando existe falta de normalidad de los residuos, puesto que permite tomar decisiones sobre la forma de transformar el modelo para conseguir la normalidad. En la figura 5.1 se puede ver un ejemplo de papel probabilı́stico normal. Figura 5.1: Ejemplo de papel probabilı́stico normal Fuente: Thode (2002) Cuando los puntos representados en el gráfico Q-Q quedan casi todos muy cerca de la lı́nea diagonal, se acepta la normalidad. De este modo, cuando las pruebas indiquen que no existe normalidad, esto será debido bien a que la asimetrı́a es muy grande o bien a que existen punto anómalos. Si los residuos no son normales, se puede hacer lo siguiente: • Comprobar si existe linealidad en el modelo. Si es éste el caso, se elige una transformación adecuada, y lo más probable es que los residuos puedan aceptarse como normales. • Renunciar a los contrastes de significación limitando el análisis al cálculo de los parámetros, y dar como medida descriptiva del ajuste el coeficiente de determinación corregido, lo cual, en general, no es una buena “solución”. • Deducir, de la distribución de los residuos, un modelo de distribución de la perturbación y construir contrastes para determinar la validez de los parámetros. El segundo análisis se realiza con el comando tsdiag de R y se compone de tres gráficos, a saber: 43 Capı́tulo 5 Modelo de predicción del Ibex 35 • El primero representa los residuos estandarizados de la serie. • El segundo es la FAS (Función de Autocorrelación Simple) de los residuos. En este gráfico se deberı́a observar que tan sólo el primer coeficiente de correlación es significativo, ya que eso indica que el residuo tan sólo está relacionado consigo mismo. • El tercer gráfico representa los p-valores del estadı́stico de Ljung-Box, que se explica a continuación. La prueba de Ljung-Box sirve para determinar la existencia de autocorrelación en los residuos, siendo muy útil cuando se dispone de una muestra grande (n grande), como es el caso de la variable objeto de estudio, los datos de cierre semanal del Ibex 35. Se denomina et a la secuencia de los residuos en el tiempo y se calculan los coeficientes de autocorrelación ρh como se indica en (5.23): ρh = n X et et+h t=h+1 n X . (5.23) e2t t=1 Se define el estadı́stico de Ljung-Box como (5.24): Q = n(n + 2) n X ρ2h ≡ χ2n−k−1 , n−k (5.24) h=1 donde n es el número de coeficientes de la suma y k + 1 es el número de parámetros estimados para calcular los residuos. Este estadı́stico permite plantear una prueba en la que como hipótesis nula se tiene que los n primeros coeficientes de autocorrelación son cero si 2(α) Q < χn−k−1 . Por lo tanto, este estadı́stico contrasta la hipótesis nula de la distribución aleatoria de los residuos. Si los principales p-valores (los primeros del gráfico) son mayores que α, entonces no podemos rechazar la hipótesis, o lo que es lo mismo, considerar que el modelo está correctamente especificado. La figura 5.2 es un ejemplo de salida en pantalla del análisis tsdiag de un modelo correctamente especificado. 44 Modelo de predicción del Ibex 35 Capı́tulo 5 Figura 5.2: Ejemplo de salida en pantalla de análisis tsdiag de un modelo correctamente especificado Fuente: Thode (2002) 45 Capı́tulo 5 Modelo de predicción del Ibex 35 Cabe subrayar que en el caso concreto del modelo del Ibex 35, tanto el papel probabilı́stico normal como el comando tsdiag se han empleado después de ajustar el modelo ARIMA, que debe cumplir unas hipótesis muy similares a las del modelo de regresión, por lo que se pueden emplear estas mismas herramientas, como bien se señala en el apartado 6.5. 5.3 Descripción de los análisis estadı́sticos utilizados En el presente epı́grafe se exponen las técnicas de regresión no lineal y suavizado de datos que, como derivaciones de la regresión lineal, son la metodologı́a empleada en la modelización de los datos del Ibex 35. La regresión no lineal emplea las mismas pruebas y tests que la regresión lineal para verificar la significatividad de los parámetros y del modelo. Puesto que ya han sido explicados con anterioridad, no se profundizará en estos aspectos nuevamente, simplemente se explican sus fundamentos y la forma de realizarlo con el programa estadı́stico R. 5.3.1 Regresión no lineal Los modelos no lineales surgen ante la dificultad o imposibilidad de asumir la relación por regresión lineal entre variables económicas. Sin embargo, esta nueva metodologı́a genera nuevos tipos de problemas y dificultades para la resolución del modelo. En primer lugar, decidir una función no lineal adecuada suele ser difı́cil. En segundo lugar, existen una serie de dificultades implı́citas en la interpretación de la estimación de los parámetros y el análisis de las estimaciones. A pesar de la existencia de dichas dificultades, hay cada vez más evidencias empı́ricas que demuestran que muchas relaciones económicas son no lineales, tal y como ocurre con el Ibex 35. La regresión no lineal consiste en estimar los parámetros de una función no lineal que se ajusta a unos datos observados. En la regresión no lineal se realiza 46 Modelo de predicción del Ibex 35 Capı́tulo 5 un ajuste de parámetros frente a una serie de datos que sigue una curvatura arbitraria. Con el desarrollo de paquetes estadı́sticos de fácil utilización para el usuario, su empleo se ha vuelto bastante común, como es el caso de R. El ajuste realizado es el que se expresa en la ecuación (5.25): y = f (x, θ) + ε, (5.25) donde f es una función no lineal respecto a algunos parámetros desconocidos θ. Como mı́nimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente con el método de los mı́nimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadı́stica tales como los intervalos de confianza para los parámetros, ası́ como pruebas de bondad de ajuste. Algunos problemas de regresión no lineal pueden linealizarse mediante una transformación en la formulación del modelo. Por ejemplo, considerando el problema de regresión no lineal propuesto en la ecuación (5.26) (ignorando el término del error): y = a · ebx . (5.26) Aplicando logaritmos a ambos lados de la ecuación se obtiene la Ecuación (5.27): ln(y) = ln(a) + bx. (5.27) Esto sugiere una estimación de los parámetros desconocidos a través de un modelo de regresión lineal de ln(y) con respecto a x, un cálculo que no requiere procedimientos de optimización iterativa. De todas formas, dado que la influencia de los datos en el modelo cambia, ası́ como la estructura del error del modelo y la interpretación e influencia de los resultados, la linealización debe usarse con cuidado. Éstos pueden ser resultados no muy convenientes (Greene, 2000). Para el caso concreto del Ibex 35, es habitual tomar logaritmos antes de modelizar los datos (Benth y Saltyte Benth, 2013), sobre todo con el objeto de 47 Capı́tulo 5 Modelo de predicción del Ibex 35 conseguir la normalidad en los residuos de la serie. En la modelización propuesta en el presente trabajo también se han tomado logaritmos, obteniéndose con ello mejores resultados que sin su aplicación. 5.3.2 Ajuste de funciones no lineales en R El programa empleado en la elaboración del modelo completo es el software estadı́stico R. Es un poderoso y flexible ambiente de programación para el análisis de datos y la elaboración de gráficas de gran calidad. Es un software libre de alta calidad, libre y gratuito en el que colaboran expertos internacionales en programación, estadı́stica y matemáticas. Al tratarse de un entorno de programación los procesos repetitivos pueden ser fácilmente automatizados. Este tipo de planteamiento estimula el pensamiento crı́tico para la solución de problemas, en contraposición al enfoque “apriete el botón”. El programa base de R contiene funciones para un gran número de procedimientos estadı́sticos. Además, existen módulos adicionales escritos por otros usuarios que extienden las capacidades de R. En el presente trabajo, R ha sido ampliamente utilizado para la descripción estadı́stica de la serie de datos, para elaborar el modelo ajustando las distintas funciones que lo componen y para realizar representaciones gráficas de los resultados. El comando nls es el acrónimo de Nonlinear Least Squares (mı́nimos cuadrados para regresión no lineal). Este comando realiza estimaciones automáticas del valor de los parámetros, pudiéndose obtener una pantalla de resultados con la tabla de estimación de los parámetros. Para operar con nls se necesitan los siguientes argumentos: • Fórmula que se quiere ajustar. • Valores iniciales para los parámetros. Esto es aconsejable cuando el programa supera el lı́mite de iteraciones necesarias para hacer el ajuste y no encuentra una solución adecuada. • Una lista opcional de criterios de control para las iteraciones. La aplicación de nls presenta los mismos problemas que cualquier algoritmo para ajuste de funciones no lineales. Como se ha descrito en el apartado 5.3.1, 48 Modelo de predicción del Ibex 35 Capı́tulo 5 al realizar el ajuste de una función no lineal cabe la posibilidad de que el resultado obtenido no sea un óptimo global, sino un óptimo local. Por ello, para asegurarse de que la iteración proporciona un modelo correcto, se deben fijar valores a los parámetros ajustados, como puntos iniciales para el ajuste. En el caso del modelo del Ibex 35, el valor de los parámetros de la función lineal se ha obtenido mediante la regresión lineal de la función frente al tiempo. Los parámetros de la función trigonométrica se han ido introduciendo paso a paso, es decir, primero se ajusta la función con un parámetro fijándo un valor a dicho parámetro y, cuando se tiene el valor ajustado y significativo del primer parámetro, se introduce un segundo parámetro siguiendo los mismos pasos. De esta forma se van estimando todos los parámetros hasta que el modelo queda completamente especificado. 5.3.3 Técnicas de suavizado de datos El suavizado de datos consiste en la obtención de una función que recoja el “comportamiento general” de los datos, dejando de lado el ruido. Los métodos de suavizado de datos son necesarios cuando los datos observados de una serie presentan muchos valores extremos, que pueden distorsionar la regresión que se realice. El método más habitual de suavizado son las medias móviles, empleadas para captar tendencias generales en las variables económicas. Concretamente, para el presente trabajo se ha utilizado la técnica loess, implementada en el programa estadı́stico R, obteniéndose una gráfica en la que se representa la tendencia general del Ibex 35, entre otros indicadores. Esta gráfica que se consigue con la función stl, sirve para descomponer series temporales de datos, como es el caso del Ibex 35. La figura 5.3 es un ejemplo de salida de pantalla del análisis obtenido con el comando stl, cuyos gráficos se describen a continuación: • Gráfico data: representa los datos observados, sin ninguna modificación. • Gráfico seasonal: representa la estacionalidad detectada para la serie, medida con ı́ndices de estacionalidad. • Gráfico trend: muestra la tendencia y el ciclo de la serie, obtenida mediante técnicas loess. 49 Capı́tulo 5 Modelo de predicción del Ibex 35 • Gráfico remainder : representa los residuos de la serie después de descontar la estacionalidad, la tendencia y el ciclo. Figura 5.3: Salida de pantalla del análisis stl Fuente: Zucchini y Nenadic (2008) La idea básica de loess (en terminologı́a anglosajona local regression, regresión local) es construir un modelo basado en ajustes locales a pequeños grupos de datos utilizando mı́nimos cuadrados, de forma que se simplifica el proceso de modelización. Con esto se consigue formular una función que recoge el comportamiento de una serie con muchas variaciones pero de forma más suavizada. Como ejemplo de suavizado, se muestra la figura 5.4, en la que 50 Modelo de predicción del Ibex 35 Capı́tulo 5 se observa una serie de datos con bastante dispersión a los que se ajusta una función que recoge su comportamiento general, mucho más suavizado. Figura 5.4: Ejemplo de suavizado loess Fuente: Zucchini y Nenadic (2008) Es habitual confundir el suavizado (o smoothing) con un concepto relacionado y que se suele solapar, la regresión no lineal. La principal diferencia entre una y otra técnica es que en el caso de la regresión no lineal, se emplea una función explı́cita para ajustar una serie de datos, mientras que el smoothing tiene como resultado una serie de datos suavizados, no una función. Además, la regresión no lineal tiene como objetivo el ajuste más exacto posible a los datos empleados, cuando el smoothing se utiliza para recoger el comportamiento general de los mismos. Ası́ pues, lo más usual es que, en primer lugar, se apliquen técnicas de suavizado a los datos para, en segundo lugar, ajustar una función mediante técnicas de regresión no lineal. Como se ha señalado anteriormente, la técnica 51 Capı́tulo 5 Modelo de predicción del Ibex 35 loess se ha empleado en el presente trabajo para determinar la existencia de tendencias y ciclos en el comportamiento del Ibex 35. 52 Capı́tulo 6 El modelo ARIMA. Análisis y descripción de series temporales Como se ha avanzado anteriormente, para la parte aleatoria del modelo del Ibex 35 se ha utilizado el modelo ARIMA, del cual describimos los fundamentos teóricos en este capı́tulo. Además, se introducen los conceptos básicos de series temporales en base a la descripción clásica de las mismas, la cual descompone la serie en cuatro elementos: tendencia, ciclo, estacionalidad y componente irregular. En lo que respecta a las técnicas ARIMA, se explicarán los pasos para la construcción del modelo mediante la metodologı́a Box-Jenkins y las herramientas de validación de la bondad del modelo. 53 Capı́tulo 6 6.1 Modelo de predicción del Ibex 35 Introducción e ideas básicas George E. P. Box, profesor de estadı́stica de la Universidad de Wisconsin, y Gwilym M. Jenkins, profesor de ingenierı́a de sistemas de la Universidad de Lancaster, introdujeron en la década de los 70 un nuevo enfoque en el análisis de series temporales, en sus trabajos sobre el comportamiento de la contaminación en la bahı́a de San Francisco. Su finalidad era establecer mejores herramientas de pronóstico y control. Sus investigaciones se publicaron en el libro Time Series Analysis: Forecasting and Control (1976) en el que describen la metodologı́a. Este manuscrito se ha convertido en un clásico gracias al amplio abanico de posibilidades que abrió en diversas ramas de las matemáticas, la economı́a, la ingenierı́a o la estadı́stica. Por sus autores, la metodologı́a descrita en el presente capı́tulo se conoce como modelos ARIMA o modelos de Box-Jenkins. Esta metodologı́a y la implementación del análisis de series temporales en R son analizados en diversa bibliografı́a (Chirivella, 2008) (Shumway y Stoffer, 2006). Un requisito para este tipo de modelos es que la serie de observaciones sea una serie estacionaria, motivo por el cual se deben realizar una serie de transformaciones. Que una serie sea estacionaria significa que ni la media, ni la varianza, ni la autocorrelación entre las observaciones dependan del tiempo. De esta forma la serie está “estabilizada”, pudiendo entonces estudiar la presencia de comportamientos regulares que permitan proponer un modelo matemático. Las herramientas que se emplean para ello son la Función de Autocorrelación Simple (FAS) y la Función de Autocorrelación Parcial (FAP), comparándose la forma obtenida en las mismas para las observaciones con el catálogo de patrones gráficos, que son tı́picos de los diferentes modelos propuestos. Se selecciona aquél que mejor se adecúe a la forma de las FAS y FAP obtenida con las observaciones empleadas. Una vez escogida la forma del modelo, se realiza una estimación de los coeficientes del mismo. Seguidamente se debe efectuar un análisis de los residuos (entendidos como la diferencia entre el valor observado y el valor previsto por el modelo), con el fin de comprobar si el ajuste del modelo a las observaciones es adecuado. Si no fuera el caso, se volverı́a a repetir el proceso estudiando la aplicación de otros modelos posibles. Cuando se ha determinado un modelo suficientemente válido, que explique de forma adecuada el comportamiento de la serie estacionaria, se deshacen los 54 Modelo de predicción del Ibex 35 Capı́tulo 6 ajustes aplicados anteriormente y se comprueba si los pronósticos obtenidos con el modelo se corresponden significativamente con las observaciones iniciales, volviendo a comenzar la búsqueda de un nuevo modelo si ello no ocurriera. Los pasos mencionados en la elaboración de un modelo ARIMA se pueden considerar, por tanto, como un método iterativo de prueba-error, por cuanto que se busca la mejora continua del ajuste del modelo a las observaciones mediante la aplicación de unas herramientas y el filtrado de datos. 6.2 Series temporales univariantes El análisis univariante es aquel que utiliza como única información para predecir los valores futuros de una variable sus propios valores pasados (historia de la serie). Los modelos univariantes parten de la hipótesis de que el comportamiento pasado de la serie se repetirá en el futuro, por lo que son relativamente útiles en predicciones a corto plazo. Sin embargo, al no considerar otras variables que puedan afectar a la variable observada, a medio y largo plazo no suelen ser útiles. Por ello, para realizar pronósticos a medio y largo plazo son más útiles los modelos multivariantes, que tienen en cuenta la interacción de otras variables que afecten a la observada. 6.2.1 Modelo clásico de descripción de series temporales La necesidad de predecir los valores futuros de determinadas variables a partir de la identificación de comportamientos regulares en el pasado dio origen a las series temporales. En el presente trabajo se utilizó para la primera aproximación a la identificación de estos comportamientos regulares el denominado modelo clásico de descripción de series temporales, que se analiza a continuación. Previamente al análisis clásico de series temporales se debe definir el concepto de serie temporal, ası́ como el conjunto de datos empleados para llevarlo a cabo. Una serie temporal es una secuencia de datos, observaciones o valores, medidos en determinados momentos del tiempo, ordenados cronológicamente y, habitualmente, espaciados entre sı́ de una forma regular. En el caso concreto 55 Capı́tulo 6 Modelo de predicción del Ibex 35 del presente trabajo, los datos de que se dispone son los valores semanales del Ibex 35. El periodo considerado para la toma de datos es desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012, último año cerrado disponible en el momento de iniciar la elaboración del presente trabajo. Se ha preferido tomar años naturales debido a la estacionalidad que tiene la bolsa en determinadas épocas del año. La obtención del dato de cierre semanal corresponde al viernes o último dı́a hábil de la semana natural, porque de igual forma que la estacionalidad durante el año, el dato de cierre, ya sea horario, diario, semanal o mensual, es un factor clave en el análisis técnico de la bolsa, y por lo tanto aquel que debe tenerse en cuenta para el presente trabajo (Velez y Capra, 2011). Con estos 15 años de datos disponibles, a 52 por año, supone un total de 780 datos sobre los cuales se formulará el modelo. Los primeros datos de 2013 se utilizarán para validar el modelo mediante predicciones. La caracterı́stica observada a través de las series temporales tiene, a su vez, distinta naturaleza temporal, pudiéndose hablar de magnitudes de flujo y de magnitudes de stock : • Magnitudes de flujo: son aquellas que se miden acumulando el valor de la variable desde la última observación realizada, como es el caso del número mensual de inquilinos en un hotel. Estas magnitudes presentan el inconveniente de que, como están definidas en un intervalo de tiempo, aunque éste se mantenga constante, puede que se estén midiendo valores no homogéneos. En el caso mencionado, el número mensual de inquilinos de un hotel, la base temporal no es homogénea, ya que está compuesta de diferente número de dı́as y no todos los dı́as pueden considerarse iguales (fin de semana, festivo, vacaciones, etc) ni aparecen en la misma proporción todos los meses. • Magnitudes de stock: son aquellas que toman valores concretos en instantes concretos del tiempo, como es el caso de la cantidad del activo circulante de una compañı́a. Su observación también se realiza a intervalos de tiempo regulares, como en el caso anterior, pero no se ve afectada por el problema de la falta de homogeneidad. Al respecto de la clasificación anterior, se puede afirmar que los datos de cierre semanales del Ibex 35 constituyen una serie temporal calificada como magnitud de stock, dado que toma un valor concreto en cada instante temporal fijado. 56 Modelo de predicción del Ibex 35 Capı́tulo 6 Por su parte, la descripción de series temporales siguiendo el modelo clásico propone que toda serie está formada por cuatro componentes teóricas: tendencia, variación cı́clica (ciclo), variación estacional (estacionalidad) y variación irregular (residual). La definición de cada una de las componentes se detalla a continuación: • Tendencia, T(t): muestra el movimiento de la serie a largo plazo, esto es, indica si el valor de la variable aumenta o disminuye con el tiempo. La figura 6.1 muestra un proceso de tendencia creciente. Tanto la definición como el cálculo de la tendencia son cuestiones delicadas en cuanto a su definición precisa. En el primer caso, debido al significado de la expresión “largo plazo”, que está relacionado con el incremento del tiempo de las observaciones y el cual es muy difı́cil delimitar. Generalmente, se establece el largo plazo como un periodo de entre 3 y 10 años, aunque esto depende de la naturaleza del problema. En el segundo caso, el cálculo, porque resulta complicado identificar la tendencia al estar generalmente confundida con otra de las componentes, la cı́clica. Figura 6.1: Ejemplo de proceso con tendencia creciente Fuente: Elaboración propia 57 Capı́tulo 6 Modelo de predicción del Ibex 35 • Variaciones cı́clicas, C(t): son oscilaciones con un periodo de tiempo superior a las variaciones estacionales, como las representadas en la figura 6.2. Son también debidas a la naturaleza de la variable (el ciclo del agua, por ejemplo) y generalmente resulta complicado observarlas porque el periodo del ciclo puede ser variable y porque habitualmente no suele aparecer un ciclo completo en los datos con los que se trabaja. Ésta es una de las razones por las que se ha escogido una serie de datos tan amplia. En el caso concreto del Ibex 35, se ha delimitado el largo plazo entre 8 y 10 años. Son una de las componentes principales cuando se estudian datos económicos como es el Ibex 35, dado el conocido comportamiento cı́clico de la economı́a. Figura 6.2: Ejemplo de proceso con variaciones cı́clicas Fuente: Elaboración propia • Variaciones estacionales (estacionalidad), E(t): son oscilaciones que se producen en un periodo de tiempo menor al año y que se repiten de forma más o menos regular a lo largo del tiempo, como se muestra en la figura 6.3. Son debidas al efecto que tienen los meses, los trimestres o cualquier otro periodo interanual sobre la variable estudiada. 58 Modelo de predicción del Ibex 35 Capı́tulo 6 Figura 6.3: Ejemplo de proceso con estacionalidad Fuente: Elaboración propia • Variaciones irregulares, residuales o erráticas, I(t): son movimientos que no muestran una estructura reconocible, como las que se representan en la figura 6.4. Se considera que estas variaciones son originadas por hechos puntuales, como puede ser un cambio en la legislación vigente, un cambio en la polı́tica fiscal de un paı́s o una noticia que afecta drásticamente a la economı́a o las empresas. Esta última componente se obtiene haciendo la diferencia entre la serie original y el resto de componentes descritas anteriormente y, por definición, deberı́a ser una variable aleatoria. El hecho de que los residuos sigan un comportamiento identificable y no aleatorio, ha sido el origen de las nuevas técnicas de descripción de series temporales (ARIMA y procesos estocásticos). 59 Capı́tulo 6 Modelo de predicción del Ibex 35 Figura 6.4: Ejemplo de proceso con comportamiento irregular Fuente: Elaboración propia 6.2.2 Procesos estocásticos Un proceso estocástico es una sucesión de variables aleatorias que evolucionan con el tiempo. Cada una de las variables aleatorias del proceso tiene su propia función de distribución de probabilidad y, entre ellas, pueden estar correlacionadas o no. El modelo estadı́stico que se propone para describir una serie temporal es el denominado proceso estocástico. A modo de explicación, se considera una serie observada compuesta por n datos, que constituirá una muestra de un vector de n variables aleatorias ordenadas en el tiempo (Z1 , Z2 , Z3 , ..., Zn ). Se denomina proceso estocástico al conjunto de esas variables {Zt }, siendo t=1, 2, 3, ..., n y la serie observada se considera una realización o trayectoria del proceso estocástico. Una representación de la idea de proceso estocástico se muestra en la figura 6.5. La estructura probabilı́stica de cualquier proceso estocástico queda determinada cuando se conoce la distribución conjunta de las n variables aleatorias Zt . La determinación de la distribución conjunta del proceso (o de un sub60 Modelo de predicción del Ibex 35 Capı́tulo 6 Figura 6.5: Realizaciones de la variable Zt y distribución en cada instante de tiempo t Fuente: Chirivella (2008) conjunto del mismo) requiere observar un gran número de realizaciones. Esta estimación se simplifica en gran medida cuando se puede suponer que la distribución conjunta es una Normal multivariada, ya que la distribución quedará determinada por las medias, las varianzas y las covarianzas. A continuación se explican las funciones que describen las caracterı́sticas de un proceso estocástico. La función de medias proporciona las medias de las distribuciones marginales Zt en cada instante del tiempo, siendo su ecuación la que se muestra en (6.1): µt = E(Zt ). (6.1) Se dice que el proceso es estable en la media si la función de medias es constante, es decir, todas las variables tienen la misma media. La función de varianzas proporciona la distribución de varianzas de las distribuciones marginales Zt en cada instante del tiempo, representada por la ecuación (6.2): σt2 = Var(Zt ). 61 (6.2) Capı́tulo 6 Modelo de predicción del Ibex 35 Se dice que el proceso es estable en la varianza si ésta es constante a lo largo del tiempo. La estructura de dependencia lineal entre las variables aleatorias del proceso se representa por las funciones de covarianza y correlación. La función de autocovarianzas del proceso describe las covarianzas en dos instantes del tiempo cualesquiera, siendo su ecuación la que aparece en (6.3): Cov(Zt ) = E[(Zt − µt )(Zt+k − µt+k )]. (6.3) Como se observa en (6.3), la covarianza depende de los parámetros t y k, siendo t el instante inicial y k el intervalo de tiempo entre las observaciones. Una condición de estabilidad que aparece en diversos fenómenos dinámicos es que la dependencia entre dos observaciones sólo depende de la longitud del intervalo de tiempo entre ellas y no del origen considerado, lo cual se expresa en la ecuación (6.4), donde k = 0, ±1, ±2, . . .. Cov(Zt1 , Zt1 +k ) = Cov(Zt2 , Zt2 +k ) = γk . (6.4) La Función de Autocorrelación se define como se muestra en (6.5). Cabe hacer una puntualización al respecto de la expresión (6.5), y es que la segunda igualdad se cumplirá en tanto en cuanto el proceso estudiado sea estable en la función de autocorrelación, no en general: ρt,t+k = Cov(Zt1 , Zt1 +k ) = ρk . σt σt+k (6.5) En el estudio de una serie temporal, el proceso estocástico existe conceptualmente, pero sólo se dispone de un valor observado para cada instante (en un conjunto finito de ellos). Para poder estimar las caracterı́sticas “transversales” (medias, varianzas y covarianzas) del proceso a partir de su evolución “longitudinal” (o a partir de una trayectoria), se debe suponer que las propiedades “transversales” son estables a lo largo del tiempo, lo cual conduce al concepto de estacionariedad, el cual se define en el siguiente apartado. 62 Modelo de predicción del Ibex 35 6.2.3 Capı́tulo 6 Procesos estacionarios Si se pretende estudiar una serie a lo largo del tiempo y se dispone de una sola observación para cada instante de tiempo t, resulta muy complicado estimar las caracterı́sticas “transversales” del proceso (media, varianza y covarianza) a partir de su evolución “longitudinal” (valores a lo largo del tiempo), y es necesario suponer que las caracterı́sticas transversales son estables a lo largo del tiempo. Un caso particular de estabilidad de estas caracterı́sticas transversales es que la media y la varianza sean constantes y que la covarianza dependa del retardo entre observaciones y no del instante del tiempo. Un proceso que cumple estas caracterı́sticas es un proceso estocástico estacionario en sentido débil, expresado como se expresa en (6.6):  µt = µ = cte,  σt2 = σ 2 = cte,  Cov(t, t + k) = Cov(t, t − k) = γk . (6.6) En caso de no cumplirse estas caracterı́sticas el proceso se denomina evolutivo, lo cual complicarı́a en exceso la predicción de los valores futuros respecto a un proceso estacionario. Los procesos que representan sistemas económicos no se ajustan a las condiciones de estacionariedad expuestas, pero es posible eliminar sus tendencias y estabilizar sus varianzas para transformarlos en otros procesos que sean aproximadamente estacionarios, lo cual simplifica y permite describirlos y realizar predicciones. La condición impuesta sobre la covarianza suele cumplirse en la realidad y no es necesario hacer nada para comprobarlo. Es posible exigir una condición más al proceso estacionario, en este caso a la distribución del proceso estacionario. Se dice que un proceso es estacionario en sentido estricto cuando las distribuciones marginales y las de cualquier subconjunto de variables tienen la misma distribución, con los mismos parámetros. Lo habitual será admitir que un proceso estocástico tenga distribución Normal multivariante, y que la distribución para cada instante de tiempo sea también Normal. Finalmente hay que señalar que lo que realmente caracteriza a un proceso estacionario es la relación existente entre la variable en el instante de tiempo actual y las variables en instantes de tiempo anteriores. Por ello, de todos los parámetros anteriores, el que define realmente a un proceso estacionario (serie 63 Capı́tulo 6 Modelo de predicción del Ibex 35 temporal), es la función de autocovarianza, con mayor precisión de su valor medio o su varianza. Ahora bien, la función de autocovarianza no es el único ni el mejor parámetro que mide el grado de relación lineal entre dos variables, ya que depende de las unidades de medida de la variable y no constituye una escala para medir el grado de relación. Una forma de solucionar estos problemas es utilizar el coeficiente de autocorrelación lineal simple, el cual mide el grado de relación total existente entre dos variables. Por su parte, si se quisiera medir el grado de relación directa entre dos variables, eliminando el efecto de variables intermedias se deberı́a calcular el coeficiente de autocorrelación parcial. Cuando se quiere analizar una serie temporal es necesario identificar la estructura que la genera, es decir, se debe determinar cómo influyen las observaciones del pasado en las observaciones del futuro. Para identificar esta dependencia se emplean dos herramientas definidas anteriormente, la FAS y la FAP. Función de Autocorrelación Simple (FAS) La FAS es la representación gráfica de los coeficientes de autocorrelación simple de un proceso, que miden el grado de relación total existente entre dos variables separadas en el tiempo por cierto retardo k. Si la dependencia (correlación ρk ) de las observaciones tiende a cero cuando aumenta el retardo, entonces el proceso estacionario recibe el nombre de ergódico. La ergodicidad es una cualidad necesaria para poder estimar las caracterı́sticas del proceso a partir de una única realización, ya que en caso contrario, al aumentar el tamaño de la muestra no se adquiere información adicional por ser todas las observaciones muy dependientes entre sı́. A los efectos del trabajo, se considerará que todos los procesos estacionarios son también ergódicos. Función de Autocorrelación Parcial (FAP) La FAP mide el grado de relación directa existente entre observaciones separadas k periodos, sin considerar el efecto de los valores intermedios. La relación entre dos variables separadas con un cierto retardo k puede ser directa o indirecta. Por lo tanto, para una serie temporal observada compuesta por n datos (Z1 , Z2 , Z3 , ..., Zn ), la variable Z1 está directamente relacionada con Z2 y entre ellas no existe otro tipo de relación. En el caso de la relación entre Z1 y Z3 , ésta se produce a través de Z2 , por lo que serı́a indirecta. 64 Modelo de predicción del Ibex 35 Capı́tulo 6 La relación de una variable con sus anteriores también podrı́a ser como la que se muestra en la figura 6.6, donde el efecto de Z2 se transmite a Z4 directamente y a través de Z3 . Por lo tanto, en la relación de Z2 con Z4 hay una relación directa, que se medirı́a con el coeficiente de autocorrelación parcial, y una relación total (directa e indirecta) que medirı́a el coeficiente de autocorrelación simple. Figura 6.6: Relación entre los valores de un proceso estacionario Fuente: Elaboración propia 6.2.4 Procesos integrados La mayorı́a de procesos económicos son no estacionarios, ya que es habitual que presenten tendencia a lo largo del tiempo. También es habitual que presenten estacionalidad y que su varianza no sea constante, tal y como ocurre con el Ibex 35. Ası́ pues, en la mayorı́a de los casos es posible eliminar de ellos los efectos de tendencia y estacionalidad, estabilizar la varianza y de esta manera transformarlos en otros procesos que sean aproximadamente estacionarios. La forma para conseguir estas transformaciones es la integración. Si el proceso tiene tendencia, es posible que se convierta en estacionario al tomar diferencias, como se representa en la figura 6.7. Esto es, restar a todos los valores de la serie su anterior. Una vez diferenciado se representa gráficamente para observar si los nuevos valores oscilan alrededor de un valor central. Si no es ası́, la tendencia no se ha eliminado, o no ha desaparecido del todo y se tomará una segunda diferencia del proceso Zt . Se dice que un proceso estocástico es integrado de orden h cuando es necesario diferenciarlo h veces para conseguir un proceso estacionario. Una propiedad importante de los procesos estacionarios es tener incrementos estacionarios. Ası́, si el proceso Zt es estacionario, entonces el proceso 65 Capı́tulo 6 Modelo de predicción del Ibex 35 Figura 6.7: Diferenciación de un proceso no estacionario Fuente: Elaboración propia ωt = Zt − Zt−1 , es a su vez estacionario, por lo que se deduce que diferenciar en exceso no tiene, en principio, consecuencias negativas para la serie. Para identificar la existencia de tendencia y/o estacionalidad se debe recurrir a la FAS. La tendencia se observa si los valores de los coeficientes de autocorrelación decrecen lentamente con el retardo (gráfica derecha de la figura 6.8) o tienen un decrecimiento lineal (gráfica izquierda de la figura 6.8) Figura 6.8: FAS de una serie con tendencia Fuente: Chirivella (2008) 66 Modelo de predicción del Ibex 35 Capı́tulo 6 Si el proceso tiene estacionalidad, también se suele solucionar mediante la diferenciación de la serie, aunque en este caso se debe hacer una diferenciación estacional. Con ello, la serie desestacionalizada Zt se calcula como se muestra en (6.7): Zt = ∇s Yt = Yt − Yt−s , (6.7) donde s es el periodo estacional del proceso, por ejemplo tomando el valor 12 para periodos mensuales. La representación gráfica de la serie transformada permite determinar si la componente estacional ha sido eliminada, pudiéndose aplicar diferencias estacionales tantas veces como sea necesario. La estacionalidad se observa en la FAS cuando aparecen unas oscilaciones en los valores de los coeficientes de autocorrelación simple o unos picos equiespaciados en el retardo. Si el proceso tiene varianza no constante también se realizan una serie de transformaciones que la estabilizan. Si la varianza es proporcional al valor medio de la misma, la forma de resolver el problema consiste en realizar la transformación logarı́tmica de la serie, que conduce a valores más o menos constantes. También se puede tomar la raı́z cuadrada de sus valores. Tomar diferencias también podrı́a estabilizar la varianza, pero es una transformación menos potente. A veces es necesario recurrir a más de una transformación para obtener una serie estacionaria. El orden en que se realicen estas transformaciones es relevante, siendo preferible hacer primero las transformaciones logarı́tmicas o las raı́ces cuadradas, ya que al tomar diferencias se pueden obtener valores negativos, por lo que una segunda transformación no permitirı́a tomar logaritmos ni raı́ces cuadradas. La varianza no constante puede observarse mediante la representación gráfica de la serie. Se puede determinar comparando la distancia vertical entre picos del primer y último dato de la serie. Si esa distancia no es la misma, la varianza no es constate. Se dice que una serie es homocedástica cuando su variabilidad (volatilidad) es constante a lo largo del tiempo. Cuando la volatilidad varı́a a lo largo del tiempo, la serie es heterocedástica. La variabilidad se refiere al “grosor” de la serie y una serie puede tener varianza constante aunque sea muy “gruesa”. 67 Capı́tulo 6 6.3 Modelo de predicción del Ibex 35 Análisis y predicción de series temporales univariantes. Metodologı́a Box-Jenkins A diferencia de lo que ocurre con los modelos de regresión, los modelos de series temporales no tienen una teorı́a económica que los respalde, sino que se proponen y se ajustan según las exigencias de la propia serie, por lo cual se denominan modelos ateóricos. Existen tres modelos fundamentales definidos para procesos estacionarios y, a partir de ellos, se obtienen modelos más elaborados y que se ajustan mejor a la realidad. Éstos son los modelos Autorregresivos Integrados de Media Móvil (ARIMA) que se utilizan para describir aquellos procesos no estacionarios pero que pueden serlo tras su diferenciación. 6.3.1 Modelos para procesos estacionarios Se trata de modelos lineales cuyos componentes son la variable que se pretende estudiar y sus valores anteriores, ası́ como una perturbación y sus valores anteriores. Los modelos propuestos son Autorregresivo (AR), Media Móvil (MA) y la combinación de ambos, Autorregresivo de Media Móvil (ARMA). Procesos Autorregresivos (AR) Se supone que el valor actual de una variable Zt está relacionado de forma lineal con su valor anterior Zt−1 , o con un cierto número de valores anteriores al actual, más el efecto de una variable aleatoria. Esta forma de dependencia se relaciona como se muestra en (6.8): Zt = α + φ1 Zt−1 + εt , (6.8) donde α y φ1 son constantes a determinar, |φ| < 1 y εt es un proceso de ruido blanco. A este proceso se le denomina proceso autorregresivo de primer orden AR(1). Generalizando el modelo, de forma que no incluya sólo el valor en el instante de tiempo anterior, sino que, de forma general, incluya ρ instantes anteriores, se obtiene la ecuación (6.9) 68 Modelo de predicción del Ibex 35 ◦ Capı́tulo 6 ◦ ◦ Z t = φ1 Z t−1 +... + φρ Z t−ρ +εt , (6.9) donde • φ1 , φ2 , ..., φρ , son constantes a determinar. ◦ • εt es un proceso de ruido blanco independiente de Z t−1 ∀h ≥ 1. ◦ ◦ • Z t es una variable centrada, la variable menos su media, Z t = Zt − µ. Determinar el orden de un proceso autorregresivo a partir de su FAS es difı́cil, ya que no presenta rasgos fácilmente identificables con el orden del proceso. Es por ello que un proceso AR se debe identificar con su FAP. Si se considera un AR(1), el efecto de Zt−2 sobre Zt es a través de Zt−1 , y conocido el valor de Zt−1 es irrelevante conocer el valor de Zt−2 para obtener el de Zt , como se observa en la figura 6.9 Figura 6.9: Relación entre valores de un AR (1) Fuente: Elaboración propia En un AR(2), figura 6.10, el efecto de Zt−2 se transmite a Zt directamente y a través de Zt−1 , por lo que es necesario conocer ambos para obtener el valor de Zt . En este caso, la FAS indica que la pareja de valores Zt y Zt−2 están relacionados en ambos procesos AR(1) y AR(2), pero si se mide la relación directa entre Zt y Zt−2 (eliminando la relación existente a través Zt−1 ), resulta que para un AR(1) esta relación no existe, mientras que para un AR(2) sı́. En general, para un AR(ρ), las observaciones separadas por 1, 2, ..., ρ retardos presentan relación directa con el valor actual y para el resto de retardos (ρ + 1, ρ + 2,...) no existe relación. El coeficiente de autocorrelación parcial de orden k es una medida de la relación lineal directa entre observaciones separadas k periodos, y se denomina 69 Capı́tulo 6 Modelo de predicción del Ibex 35 Figura 6.10: Relación entre valores de un AR (2) Fuente: Elaboración propia Función de Autocorrelación Parcial (FAP) al conjunto de los coeficientes de autocorrelación αij . De esta definición se deduce que un proceso autorregresivo de orden ρ tendrá los ρ primeros coeficientes de autocorrelación parcial distintos de cero, y por lo tanto el número de coeficientes distintos de cero en la FAP indica el orden del proceso AR. Procesos de Media Móvil (MA) El modelo autorregresivo no describe correctamente algunas series temporales por la razón de que esas series no parecen depender de sus valores anteriores. En algunos procesos el valor de la variable parece depender de un gran número de variables de poca importancia individual y sin relación entre sı́, que constituirı́an el “entorno” de la variable y de los valores anteriores de dicho entorno. Se denomina proceso de media móvil de orden q, MA(q), a un proceso en el que el valor actual de la variable depende del valor actual de otra variable, εt y de sus q valores pasados. Esta forma de dependencia se expresa en (6.10): ◦ Z t = εt − θ1 εt−1 − θ2 εt−2 − ... − θq εt−q . (6.10) La FAP de un proceso MA(q) tiene todos los coeficientes no nulos que decrecen con el retardo de forma exponencial y senoidal, por lo que para identificar su grado se debe recurrir a la FAS, donde el número de los coeficientes no nulos indica el grado del proceso MA. 70 Modelo de predicción del Ibex 35 Capı́tulo 6 Procesos Autorregresivos de Media Móvil (ARMA) Algunas series temporales presentan un comportamiento más complejo que los AR o MA. El modelo que surge para describirlas es una mezcla entre ambos, esto es, el valor presente de la variable depende tanto de sus propios valores como del “entorno” de la variable en el momento actual y pasado. A estos procesos se les denomina ARMA. En un proceso ARMA, se puede observar en la FAP que los primeros coeficientes dependen de la parte AR y que luego se produce un decrecimiento en los valores que dependen de la parte MA. Por su parte, en la FAS se observa que los primeros coeficientes dependen de la parte MA y posteriormente se produce un decrecimiento de los valores que dependen de la parte AR. Un ARMA(p,q) se expresa como se muestra en (6.11): ◦ ◦ ◦ Z t = φ1 Z t−1 +... + φρ Z t−ρ = εt − θ1 εt−1 − ... − θq εt−q . (6.11) En la tabla 6.1 se muestran las diferencias entre la FAS y la FAP de los tres procesos descritos hasta el momento, a saber, AR(p), MA(q) y ARMA(p,q). Tabla 6.1: Similitudes y diferencias en la FAS y la FAP de los modelos AR(p), MA(q) y ARMA(p,q) Proceso AR(p) FAS Muchos coeficientes no nulos que decrecen con el retardo de forma exponencial y sinusoidal MA(q) q primeros coeficientes no nulos y el resto nulos ARMA(p,q) Decrecimiento a cero FAP ρ primeros coeficientes no nulos y el resto nulos Muchos coeficientes no nulos que decrecen con el retardo de forma exponencial y sinusoidal Decrecimiento a cero Fuente: Elaboración propia 71 Capı́tulo 6 6.3.2 Modelo de predicción del Ibex 35 Modelos para procesos integrados Al igual que se pueden formular modelos para procesos estacionarios, como se ha visto anteriormente, también existen modelos para procesos no estacionarios, pero que mediante diferenciación pueden llegar a serlo. A estos procesos se les denomina Autorregresivos Integrados de Medias Móviles (ARIMA), los cuales se dividen en regulares y estacionales. Los procesos ARIMA regulares explican aquellas series que tienen tendencia. Los procesos ARIMA son procesos tipo ARMA aplicados a la serie diferenciada para eliminar su tendencia. Su notación es ARIMA (p,d,q), siendo d las diferencias regulares tomadas, p el orden del proceso autorregresivo y q el orden del proceso de media móvil. Por su parte, los procesos ARIMA estacionales explican las series que presentan estacionalidad. Se tiene con esto un proceso Autorregresivo Integrado de Media Móvil Estacional (SARIMA). Si el proceso seguido es un ARMA (el caso más general), el modelo se denomina ARIMA (P ,D,Q) debido al número de diferencias estacionales tomadas (D), y a los órdenes de la parte autorregresiva (P ) y de media móvil (Q). 6.3.3 Metodologı́a de Box-Jenkins El modelo ARIMA es lo bastante flexible y potente como para poder ajustarse a casi cualquier serie temporal, pero precisamente a esa flexibilidad y potencia se debe que la FAS y la FAP sean realmente complejas y los procesos contenidos sean de todo punto irreconocibles. La metodologı́a Box-Jenkins es la utilizada para solucionar el problema de la identificación de las funciones de autocorrelación, la cual permite identificar los modelos que describen de forma más o menos adecuada el comportamiento de la serie temporal objeto de estudio. Esta metodologı́a consta de los siguientes pasos: • Estacionariedad: se aplican las transformaciones a la serie de forma que se consiga que sea estacionaria en caso de no serlo, lo cual es habitual. • Identificación: se determina el orden de diferenciación para conseguir 72 Modelo de predicción del Ibex 35 Capı́tulo 6 la estacionariedad de la serie y los órdenes correspondientes a las partes autorregresiva y media móvil, tanto para el proceso estacional como para el regular. A partir de este paso se determina el modelo ARIMA (p, d, q)× (P, D, Q)s , cuyos valores se explican al final de 6.3.2. • Estimación: se estiman los valores de los parámetros ϕ de las partes autorregresivas y φ de las partes de media móvil para el modelo ARIMA (p, d, q) × (P, D, Q)s identificado. • Validación: mediante las hipótesis adecuadas se comprueban todas las hipótesis relativas al error y se comprueba que son significativas las estimaciones de los parámetros. De esta forma se acepta o se rechaza el modelo estimado. Si los resultados conducen al rechazo del modelo, éste se debe reformular. Si el modelo resulta adecuado, se pueden realizar predicciones con el mismo. • Reformulación: si el modelo no es adecuado, hay que plantearse qué errores se han cometido en la fase de identificación. Se debe entonces identificar un modelo complementario que sea capaz de explicar lo que el primero no ha conseguido. • Explotación: cuando se ha formulado un modelo adecuado se efectúan predicciones, que pueden ser puntuales o por medio de intervalos de confianza, como corresponde a un modelo de tipo estocástico. Los valores de ambas partes del modelo (autorregresiva y de medias móviles) ayudarán a entender el proceso y cuál es el peso de la “historia” en sus valores futuros. 6.4 Identificación y predicción del modelo ARIMA La identificación del modelo ARIMA requiere, en primer lugar, decidir las transformaciones que se deben aplicar a la serie para que ésta sea estacionaria (número de diferencias d y D) y, en segundo lugar, determinar los órdenes p y q del ARMA (p,q) de la parte regular y, si el proceso es estacional, los órdenes P y Q de la estructura ARMA (P, Q)s estacional. 73 Capı́tulo 6 6.4.1 Modelo de predicción del Ibex 35 Identificación de la estructura no estacionaria La identificación de la estructura no estacionaria consiste en llevar a cabo los siguientes pasos: • Determinar si es necesario transformar la serie para que tenga varianza constante (la denominada transformación de Box-Cox). • Determinar el número d de diferencias regulares. Si la serie estudiada tiene tendencia es necesario diferenciarla para transformarla en estacionaria. Una vez diferenciada debe observarse la ausencia de tendencia y, en caso de no ser ası́, volver a diferenciar. Si la serie se ha diferenciado en d ocasiones, se dice que el orden de diferenciación regular es d. • Determinar el número D de diferencias estacionales. La diferenciación estacional elimina la componente determinista de estacionalidad presente en la serie. Si se ha diferenciado en D ocasiones, entonces el orden de diferenciación estacional es D. 6.4.2 Identificación de la estructura ARMA La identificación de la estructura ARMA, es decir, las partes autorregresiva y de media móvil, los órdenes p y q de la parte regular del modelo ARMA (p,q), y los órdenes P y Q de la parte estacional del modelo ARMA (P, Q)s , que juntos forman el modelo ARIMA (p, d, q) × (P, D, Q)s , se realiza presentando la FAS y la FAP muestrales del proceso estudiado y observando determinados coeficientes de autocorrelación en las funciones. Una vez obtenidos los modelos (órdenes) de la parte regular y estacional por separado, el modelo ARIMA final se obtiene combinando los modelos propuestos para ambas partes. Estudio de la parte regular Para identificar la parte regular de la serie hay que fijarse únicamente en los 6-8 primeros coeficientes de autocorrelación, tanto simples como parciales de la FAS y FAP originales. Para identificar el orden del proceso se utilizarán únicamente aquellos coeficientes que sean significativos, y para confirmar el 74 Modelo de predicción del Ibex 35 Capı́tulo 6 modelo se tendrán en cuenta los 4-6 primeros coeficientes, sean o no significativos. Estudio de la parte estacional Para identificar la parte estacional, hay que fijarse únicamente en los coeficientes de autocorrelación estacionales, tanto los simples como los parciales. Para identificar el orden del proceso se utilizarán aquellos coeficientes estacionales que sean significativos. Para confirmar el modelo propuesto se tienen en cuenta los primeros coeficientes de autocorrelación estacionales sean o no significativos. 6.4.3 Estimación del modelo ARIMA Para la estimación de los parámetros del modelo ARIMA se obtiene la función de verosimilitud, que es función de los parámetros que deben estimarse y de los valores observados de la serie. Derivando la función de verosimilitud con respecto a cada parámetro a estimar, se obtiene un sistema de ecuaciones cuya solución, por métodos de optimización no lineal, permite obtener las estimaciones de los parámetros. Los estimadores obtenidos mediante estos procedimientos son máximo verosı́miles, lo cual significa que son insesgados uniformemente de mı́nima varianza y que su varianza disminuye al aumentar el número de datos. Mediante este método se obtienen las estimaciones de los parámetros para el modelo o los modelos ARIMA propuestos, ası́ como la estimación de la desviación tı́pica del error del modelo. En el caso de proponer más de un modelo, el que tenga menor varianza y estimaciones de los parámetros más significativas será el modelo elegido, a falta de comprobar su validez. 6.4.4 Predicción automática. El paquete de predicción para R Las predicciones automáticas de largas series temporales univariantes se utilizan en el mundo financiero y en muchos otros ámbitos. Las empresas 75 Capı́tulo 6 Modelo de predicción del Ibex 35 poseen cientos de lı́neas de productos y necesitan predicciones de almacenaje, ventas, etc. Incluso cuando se trata de series más pequeñas también se requiere la realización de predicciones. No muchas personas están capacitadas para usar series temporales y predecir valores, por cuanto que se pueden cometer numerosos errores de apreciación o de cálculo. En estas circunstancias, un paquete de predicción algorı́tmico, como es el paquete de predicción para R, se configura como una herramienta esencial. El paquete de predicción para R forecast (Hyndman y otros, 2005) determina el modelo más adecuado para una serie temporal concreta, estimando los parámetros y calculando las predicciones. La popular predicción algorı́tmica automática se basa en cualquier suavizado exponencial o modelos ARIMA. Para la parte aleatoria del modelo del Ibex 35 se ha empleado el módulo forecast, el cual no está contenido en el programa básico y que abre las posibilidades para ajustar el modelo ARIMA (Hyndman y otros, 2005). La predicción automática sigue los pasos que a continuación se describen: • Para cada serie, se aplican los modelos que se consideran apropiados, optimizando los parámetros del modelo para cada caso. • Se selecciona el mejor modelo de acuerdo al AIC (Akaike’s Information Criterion, o criterio de verificación de Akaike, en castellano). El AIC proporciona un método de selección entre el error del modelo aditivo y multiplicativo. Las predicciones puntuales de ambos modelos son idénticas a la predicción estándar medida con exactitud como en el MSE o el MAPE. El AIC es capaz de seleccionar ambos tipos de errores porque está basado en predicciones en más de un solo paso. La principal tarea de predicción automática del modelo ARIMA es seleccionar el orden apropiado del modelo, que son los valores de p, q, P , Q, d, D mediante un criterio de selección como es el AIC, calculándose éste como se muestra en (6.12) AIC = −2 log(L) + 2(p + q + P + Q + k), (6.12) donde k=1 si c 6= 0, (p + q + P + Q + k) es el número de parámetros en el modelo ARIMA y L es el máximo valor de la función de log-verosimilitud para el modelo ARIMA estimado. 76 Modelo de predicción del Ibex 35 Capı́tulo 6 De esta forma: • Se producen predicciones puntuales al utilizar el mejor modelo (con los parámetros optimizados). • Se obtienen predicciones mediante intervalos de confianza del mejor modelo utilizando la función de ajuste automático del modelo ARIMA, el comando auto.arima (Hyndman y otros, 2005) o mediante simulación de futuras muestras {yn+1 , ..., yn+h } y localizando los percentiles α2 y 1−α 2 de los datos de la simulación para cada horizonte de predicción. Si se utiliza la simulación, el camino de muestras pueden ser generadas utilizando la distribución Normal para los errores (bootstrap paramétrico) o usando el remuestreo de errores (bootstrap ordinario). Para muchos investigadores resulta un obstáculo el utilizar el modelo ARIMA para realizar predicciones debido al difı́cil proceso de selección del orden (estructura ARMA), ya que se considera subjetivo y complejo en su aplicación. Aunque no tiene porqué ser ası́, porque los modelos ARIMA se han automatizado hasta tal nivel que la utilización de algoritmos garantiza la elección de un modelo válido dentro de un número infinito de modelos y, como mı́nimo, uno de los modelos se aceptará. Para la ejecución del modelo se utilizan los siguientes comandos de la librerı́a forecast: • La función auto.arima ajusta de forma automática el mejor modelo. • La función forecast, para realizar las predicciones. • La función plot, para obtener los gráficos. La salida de pantalla de la función auto.arima proporciona el valor estimado, el error estándar cometido y el t-valor para la prueba de contraste de cada parámetro. Pero además, la función calcula las medidas de bondad del ajuste que se detallan en la tabla 6.2, y que sirven para comprobar la idoneidad del modelo a partir de distintas medidas del error. 77 Capı́tulo 6 Modelo de predicción del Ibex 35 Tabla 6.2: Medidas de bondad del ajuste obtenidas con el modelo ARIMA Medida ME Descripción Fórmula T 1X ǫi T Media del residuo i=1 RMSE MAE Raı́z del medio error cuadrático v u T u1X t (ǫt − ǫ)2 T i=1 T 1X |ǫi | T Error absoluto medio i=1 MPE Error porcentual medio T 1 X f t − at T at i=1 MAPE Error porcentual medio absoluto T 1 X ft − at at T i=1 Fuente: Elaboración propia 78 Modelo de predicción del Ibex 35 6.5 Capı́tulo 6 Validación del modelo ARIMA Para comprobar la validez del modelo propuesto se emplean diversos estadı́sticos de contrastes. La idea general es comprobar que se han elegido de forma correcta los órdenes d y D de la transformación estacionaria de la serie y los órdenes p, q, P y Q de la estructura ARMA del modelo, es decir, comprobar que se ha identificado correctamente el modelo ARIMA. 6.5.1 Contrastes sobre los parámetros En primer lugar debe comprobarse la significatividad de los parámetros. El método analı́tico para realizarlo es la prueba t. Mediante el software R, la significación de los parámetros se realiza con la siguiente prueba. Si p − valor > α, siendo α = 0, 05, se acepta H0 (Ψi = 0), donde Ψi representa a cada uno de los parámetros del modelo, es decir, si se acepta la hipótesis nula de que cada parámetro es no significativamente diferente de cero. En caso contrato, si p − valor < α se rechaza la hipótesis nula y, por lo tanto, se puede suponer que los parámetros son significativamente distintos de cero. El estadı́stico de contraste es el que se muestra en (6.13): tcalc = Ψi ≡ tgdlr . s Ψi (6.13) donde se divide la estimación del parámetro por su desviación tı́pica, expresión similar a (5.18) pero calculada para un modelo ARIMA. 6.5.2 Contrastes sobre el error La diagnosis del modelo requiere comprobar que las hipótesis básicas realizadas con respecto al error son aceptables, esto es: 79 Capı́tulo 6 Modelo de predicción del Ibex 35 Media cero: E(εt ) = 0 Los residuos estimados de un modelo ARIMA no están sujetos a esta restricción debido a la parte autorregresiva. El contraste para aceptar que el valor medio del error es cero es el que se expresa en (6.14): Si ε ∈ H0 : E(εt ) = 0, H h 1 : E(εt ) 6= 0, −z α/2 √σbεT , z α/2 √σbεT i (6.14) , donde T es un número de datos empleados en el ajuste (T = n − d − sD, es el número de observaciones de la serie estacionaria), y el promedio y la varianza de los residuos se calculan mediante las expresiones (6.15) y (6.16): ǫ= σ bǫ2 = P T ǫi , P (ǫt − ǫ)2 . T −p−q−P −Q (6.15) (6.16) Varianza constante: Var(εt ) = cte La homocedasticidad del error se comprueba estudiando el gráfico de los residuos frente al tiempo o frente a la propia variable estudiada. De forma numérica, se pueden tomar los residuos del ajuste, elevarlos al cuadrado y realizar el ajuste por MCO de los modelos, según las expresiones (6.17) y (6.18): e2t = ϑ0 + ϑ1 t + U, (6.17) si se postula que la varianza depende del tiempo. e2t = ϑ0 + ϑ1 Zt + U, si se postula que la varianza depende del valor de la variable. 80 (6.18) Modelo de predicción del Ibex 35 Capı́tulo 6 La hipótesis nula ϑ1 = 0 indica que no existe heterocedasticidad en los residuos y la prueba t correspondiente permitirá aceptarla o rechazarla. Incorrelación para cualquier retardo: Cov(εt , εt−k ) = 0 Mediante la observación de la FAS y la FAP, añadiendo los lı́mites de √ significación ±2/ T y comprobando que para valores altos del retardo los coeficientes se encuentran dentro de los lı́mites de confianza (95%), se comprueba si el modelo es correcto según esta última hipótesis. La herramienta que se emplea para verificar esta hipótesis es el comando tsdiag de R descrito en el apartado 5.2 Diagnosis y validación del modelo de regresión. Normalidad La normalidad de los residuos se comprueba con el papel probabilı́stico normal, descrito en el apartado 5.2 Diagnosis y validación del modelo de regresión. 6.5.3 Contrastes sobre el modelo. juste Reformulación y sobrea- El modelo ajustado también debe ser contrastado ya que no hay ninguna teorı́a económica que respalde el modelo seleccionado. La prueba de reformulación consiste en modificar el modelo original. La forma de hacerlo es considerar que los residuos son una serie temporal y analizando su estructura. En el caso de que existiera una nueva estructura, se producirı́a una reformulación del modelo incluyendo en el mismo la nueva estructura. La técnica del sobreajuste consiste en estimar un modelo de orden mayor al obtenido y comprobar si se obtienen coeficientes negativos. Si se ha ajustado un modelo ARIMA (p,d,q) el sobreajuste se aplica estimando los modelos con un orden superior de p ó q, pero no de los dos a la vez, ya que se podrı́an compensar sus efectos. Los modelos a estudiar serı́an ARIMA (p + 1,d,q) y ARIMA (p,d,q + 1), comprobando en ambos casos si los parámetros son significativos. 81 Capı́tulo 7 Predicción del Ibex 35 con un modelo estocástico de salto de Poisson compuesto En este capı́tulo se elabora el modelo del Ibex 35. En primer lugar, se realiza un análisis descriptivo de la serie histórica del Ibex 35, con el objetivo de comprender mejor su comportamiento. En segundo lugar, se hace la descomposición de la serie siguiendo el modelo clásico de descripción de series temporales, que servirá como base para proponer un modelo adecuado. Éste está compuesto por los cuatro elementos, tendencia, ciclo, estacionalidad y componente irregular, habiéndose modelizado las tres primeras con técnicas analı́ticas para obtener una parte determinista y la última con técnicas ARIMA y procesos estocásticos de tipo Poisson compuesto para completar el modelo con una componente aleatoria. Por último, se lleva a cabo la validación del modelo para comprobar su adecuación a la serie histórica y medir su capacidad predictiva. 83 Capı́tulo 7 7.1 Modelo de predicción del Ibex 35 Introducción. Selección y correcciones sobre la serie de datos El mercado bursátil es un elemento fundamental en la economı́a moderna. Se trata de un mercado que evoluciona y madura conforme se desarrollan las empresas negociantes y los sistemas financieros. A su vez, determina el futuro de compañı́as y paı́ses, mediante el valor de las acciones, futuros y demás derivados financieros. Estos valores reflejan las expectativas que los inversores tienen sobre el activo subyacente en el que invierten. En el caso de los ı́ndices bursátiles como el Ibex 35, que nos ocupa en el presente trabajo, reflejan las expectativas económicas de las principales empresas del paı́s, y por tanto, de la economı́a de dicho paı́s en su conjunto. Los grandes fondos de inversión invierten en los 35 valores que componen el Ibex 35 o bien en el propio ı́ndice, mediante derivados financieros. Por estos motivos y los ya explicados anteriormente se hace necesario conocer las caracterı́sticas de este mercado y tener una herramienta que apoye a la decisión a la hora de invertir, en este caso una herramienta basada en el análisis de series temporales. Y como suele ser habitual en este tipo de análisis, se debe seleccionar la parte de la serie más adecuada para elaborar un modelo y sobre dicha serie seleccionada es necesario realizar determinadas correcciones con el objeto de eliminar las posibles distorsiones por observaciones extremas que perjudiquen a la estimación de los parámetros del modelo. 7.1.1 La serie de datos Los valores que componen el Ibex 35 se negocian todos los dı́as hábiles de la Comunidad de Madrid de 9h de la mañana a 17:30h de la tarde. Durante este horario los valores se negocian según los principios básicos de la oferta y la demanda. Existe además una subasta de apertura media hora previa al horario de mercado abierto, ası́ como una subasta de cierre 5 minutos después. En estos intervalos los valores se negocian sin traslado efectivo en la cotización real. La variación real del dato se plasma en el momento de apertura a las 9h de la mañana. Los datos más importantes desde el punto de vista de análisis técnico 84 Modelo de predicción del Ibex 35 Capı́tulo 7 bursátil son los datos de apertura y cierre. El dato de cierre es más significativo pues es el que define cómo ha finalizado la “batalla” del dı́a entre los alcistas y bajistas, es decir, los compradores y los vendedores. En toda bibliografı́a de análisis técnico podemos encontrar esta afirmación. Si bien, también tienen importancia los valores del máximo y mı́nimo del dı́a y el precio de apertura, el precio de cierre es el que cierra el gráfico y marca el punto de partida del dı́a siguiente. Por poner un ejemplo, si un valor abre a 99, durante el dı́a alcanza 104 sin descender de 99 pero en la última hora de negociación cierra en 98, es una clara señal de debilidad. A partir de 100 los inversores consideran que el precio está sobrevalorado y venden para obtener beneficios, motivo por el cual cierra en 98 al finalizar el dı́a. Aunque el rango diario es importante, el precio de cierre es el más significativo y marca la tendencia del dı́a siguiente. Ası́ sucede en múltiples ejemplos. El tipo de gráfico más habitual es el de velas japonesas, que representa gráficamente los cuatro valores indicados (máximo, mı́nimo, apertura y cierre). En cuanto al dato utilizado para la elaboración de los gráficos, en el análisis técnico se utilizan rangos de todas las amplitudes: minutos, horas, dı́as, semanas, etc. Para el análisis a medio plazo se utiliza normalmente el periodo semanal, pues tiene un movimiento más suave y con una representación del largo plazo mucho más apropiada que los datos diarios. Por este motivo se han utilizado en el presente trabajo los datos de cierre semanal. El dato de cierre semanal es el que se utiliza normalmente en el análisis técnico para realizar las proyecciones a medio y largo plazo. Se han tomado los datos de cierre del último dı́a hábil de la semana de los últimos 15 años naturales disponibles, es decir, de 1998 a 2012, con una frecuencia de 52 semanas cada uno. Se han utilizado 15 años porque antes de 1998 los datos no serı́an válidos para la realización del modelo, pues se produjeron oscilaciones incongruentes y una volatilidad casi nula caracterı́sticos del inicio de cotización de cualquier ı́ndice o valor bursátil. Ası́ pues, el total de datos históricos disponibles son 780. Cabe señalar, no obstante, que también se recogieron los datos de los primeros 9 meses de 2013 para contrastar las predicciones que se realizaban con el modelo, pero éstas no se incluyen en la serie objeto de modelización. Respecto al número de semanas, en caso de que por circunstancias un año tuviera 53 últimos dı́as hábiles de semana, se han promediado los dos últimos para mantener la frecuencia constante. 85 Capı́tulo 7 Modelo de predicción del Ibex 35 Por otro lado, la serie presenta variaciones de tipo cı́clico, es decir, con duración mayor al año. En la figura 7.1 se observa una subida desde el punto inicial en 1998 junto a una bajada en 2003. Posteriormente otra subida cuyo pico está en 2008 que vuelve a bajar a mı́nimos a mediados de 2012, para recuperarse en la segunda mitad de este mismo año. Este ciclo que se repite es caracterı́stico de la economı́a y actualmente sufre de importantes saltos y mayor volatilidad, de ahı́ que se produzcan picos importantes dentro del mismo ciclo. 4000 6000 8000 10000 12000 14000 Logaritmo del Ibex Figura 7.1: Evolución del Ibex 35 desde el 1 de enero de 1998 al 31 de diciembre de 2012 2000 2005 2010 Tiempo (semanas) Fuente: Elaboración propia a partir de datos de cierre diarios del Ibex 35 Sin embargo, para precisar en la descripción de la serie de datos semanales del Ibex 35, se ha realizado una descomposición de la misma siguiendo el esquema clásico de descripción de series temporales descrito en el apartado 6.2.1, el cual servirá como base para la construcción del modelo. Siguiendo el esquema indicado, se van a describir las caracterı́sticas de la serie de estudio. En cuanto a la presencia de tendencia, T (t), se puede observar en la figura 7.1 que no existe una tendencia clara a simple vista. Se podrı́a decir que se observa una ligera tendencia creciente porque se puede detectar que el mı́nimo de 2012 es mayor que el de 2003, ası́ como el máximo de 2008 es superior al del año 2000. Más adelante se corroborará si existe o 86 Modelo de predicción del Ibex 35 Capı́tulo 7 no tendencia. Por lo que se refiere a los ciclos, C(t), observados en la serie objeto de estudio, se puede considerar la existencia ciclos de 8-9 años. Siguiendo la serie de datos analizada de 15 años puede observarse que el ciclo para que el Ibex 35 retorne al momento inicial es de aproximadamente esta cantidad de años, lo cual se demostrará posteriormente usando técnicas estadı́sticas. Por ejemplo, partiendo de 2001 el Ibex se encuentra en torno a 10.000 puntos y en 2010-2011 retorna a la misma cifra. Por lo que respecta a las variaciones estacionales, E(t), numerosos autores coinciden la existencia de estacionalidad en los mercados bursátiles en determinados meses del año. Según datos históricos, durante los últimos 50 años la bolsa subió en los periodos de marzo-abril y octubre-enero, bajando notablemente en junio y septiembre. Esto ha dado lugar a citas conocidas como “sell in May and go away”, pues el periodo mayo-septiembre suele ser muy volátil y negativo. Además, dado que los mercados se guı́an por el denominado “sentimiento del mercado” o “psicologı́a de masas” y la repetición histórica, es algo a tener en cuenta. Por ejemplo, es conocido que el verano es un periodo volátil porque los responsables de las grandes firmas de inversión se van de vacaciones y dejan a cargo a trabajadores sin poder para tomar decisiones importantes, que desestabilizan el mercado pero no toman posiciones claras en una dirección u otra. O por ejemplo la semana de Navidad es históricamente alcista. Otro ejemplo claro y comúnmente conocido es que los lunes son negativos y los viernes positivos. En la figura 7.2 se puede observar la rentabilidad promedio de estos dı́as en el periodo analizado que demuestra esta estacionalidad. Es importante recalcar de nuevo que el análisis técnico se basa en la psicologı́a de masas, por lo que los patrones que se identifican repetidas veces se asume que se repetirán en el futuro. De aquı́ que estos datos históricos de rentabilidad promedio haya que tenerlos en cuenta. Por último, las variaciones irregulares, I(t), se pueden observar a lo largo de toda la serie, siendo esta componente de especial relevancia para la modelización del comportamiento actual del Ibex 35. Las variaciones irregulares se observan principalmente por incrementos y descensos bruscos y repentinos del ı́ndice. Ası́ pues, las conclusiones que se pueden extraer del presente apartado son 87 Capı́tulo 7 Modelo de predicción del Ibex 35 Figura 7.2: Rentabilidad promedio histórica de los dı́as de la semana Fuente: Elaboración propia a partir de los datos diarios de la serie histórica la presencia de una serie de componentes en el comportamiento del ı́ndice Ibex 35, que deben ser recogidos en la elaboración del modelo y que son: la presencia de tendencia, la existencia de ciclos y la existencia de una estacionalidad anual en los datos del Ibex 35, además de la presencia de una componente irregular en el comportamiento de los mismos. 7.1.2 Ajustes realizados sobre la serie de datos Otro de los pasos habituales en la modelización matemática de series temporales es la realización de una serie de correcciones sobre los datos observados. La motivación de este hecho no es más que la eliminación y/o sustitución de datos que pueden no ser representativos de la serie general, es decir, son datos anómalos, y que pueden interferir en la estimación de los parámetros del modelo, produciendo en consecuencia distorsiones en el modelo construido. La primera de las correcciones consiste en considerar años con 52 cierres semanales. Las razones que justifican esta decisión se deben a los criterios del análisis técnico bursátil ya comentados anteriormente. Se han selec88 Modelo de predicción del Ibex 35 Capı́tulo 7 cionado los cierres semanales, independientemente del número de dı́as hábiles o el dı́a natural en el que se produzca el cierre semanal (por ejemplo si el viernes es festivo, se toma el jueves). Por otra parte, esto supone que en varios casos los años tengan 53 cierres semanales. En estos casos se han promediado los dos últimos datos disponibles a fin de contar con únicamente 52 datos en un año. Esto se realiza para facilitar la modelización. La segunda corrección que se ha realizado ha sido la de tomar logaritmos naturales. Esto es bastante usual al trabajar con series temporales puesto que, entre otros problemas, se elimina la heterocedasticidad (varianza no constante) y se aproxima la distribución de los datos a una distribución Normal, lo cual facilita en gran medida el proceso de modelización posterior. Múltiple bibliografı́a refuerza la decisión de la toma de logaritmos (Benth y Saltyte Benth, 2013). La última corrección se ocupa de eliminar la presencia de los denominados outliers, o datos extremos. Los outliers están representados por fuertes spikes (picos en la terminologı́a anglosajona) hacia arriba y hacia abajo. Estos picos pueden influir de manera determinante en el análisis de la tendencia y de la estacionalidad de las series temporales que definen los datos y que se desea modelizar. Por ello, es conveniente eliminar estos outliers antes de proceder a estimar los parámetros del modelo. Las explicaciones que se dan sobre la existencia de outliers son muy variadas, pero normalmente se deben a noticias económicas que afectan gravemente a los mércados bursátiles. Por ejemplo, recientemente las noticias de la quiebra de la banca o los rescates a los paı́ses en crisis de la eurozona, son motivos de graves descensos, o bien las medidas de fuerte estı́mulo de la FED (EE.UU.) o datos macroeconómicos muy buenos de determinadas economı́as, son motivos de importantes ascensos. Para detectar los outliers se calculan el cuartil inferior y superior y el rango intercuartı́lico para la serie de datos transformados logarı́tmicamente. Estos conceptos se definen de la siguiente manera: • Cuartil inferior (Q1 ): ordenados todos los datos de mayor a menor, Q1 es el valor a partir del cual se sitúa el 75% de los datos mayores que él mismo y por debajo del que está el 25% de los datos. El valor de la serie utilizada es 9, 0084. 89 Capı́tulo 7 Modelo de predicción del Ibex 35 • Cuartil superior (Q3 ): de nuevo considerando los datos ordenados, Q3 es el valor a partir del cual se sitúa el 25% de los datos mayores que él mismo y por debajo del que está el 75% de los datos. El valor que se obtiene en la serie empleada es 9, 3118. • Rango intercuartı́lico, IRQ (Q3 − Q1 ): diferencia entre el cuartil superior y el cuartil inferior. El valor obtenido para el caso de la serie utilizada es 0, 3034. El criterio que se utiliza de forma usual para determinar la existencia de outliers es considerar que una observación es un outlier si se queda fuera del intervalo determinado por [Q1 −1.5×IRQ; Q3 +1.5×IRQ]. En el caso concreto de la serie empleada, el rango resultante es [8, 5532; 9, 7670], no obteniéndose ningún outlier. Figura 7.3: Gráfico Box-Whisker del logaritmo de los datos Fuente: Elaboración propia La serie definitiva, una vez realizados estos ajustes, queda tal y como se 90 Modelo de predicción del Ibex 35 Capı́tulo 7 representa en la figura 7.4, que es la que servirá para ajustar el modelo propuesto. Con todas las correcciones, el número de datos que tiene la serie es de 780 datos de cierre semanales. Figura 7.4: Logaritmo de los datos semanales corregidos desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012 Fuente: Elaboración propia a partir de los datos diarios de la serie histórica De la observación de la serie corregida se pueden extraer cuatro componentes principales, ya descritas en el apartado del modelo clásico de descripción de series temporales: • Tendencia. En el tramo de datos seleccionado no se observa una tendencia clara en sentido creciente o decreciente, desde el 1 de enero de 1998 hasta el 31 de diciembre de 2012. Si bien, como se ha comentado, el mı́nimo de 2012 es mayor que el de 2003 y el máximo de 2008 mayor al del 2000, lo que indica una tendencia ligeramente creciente. • Evolución cı́clica. La duración del ciclo es de unos 8-9 años aproximadamente. Como se puede observar en la figura 7.1, el ciclo de esta duración se modelizará con una función trigonométrica apropiada, como más adelante se mostrará, y encaja con los ciclos económicos reflejados en el ı́ndice bursátil. 91 Capı́tulo 7 Modelo de predicción del Ibex 35 • Estacionalidad anual. Como más adelante se detalla, tras descontar las dos componentes anteriores de la serie, se observa con claridad la estacionalidad anual existente. • Componente irregular. Esta componente sigue un comportamiento para cuya modelización se utilizaran técnicas de procesos estocásticos. Estas cuatro componentes son los elementos básicos del modelo, correspondiendo las tres primeras (tendencia, ciclo y estacionalidad) a la parte determinista, y la última (componente irregular), a la parte aleatoria del modelo. A lo largo del apartado 7.2 se explica en detalle la forma de modelizar cada una de estas componentes. 7.1.3 Descripción estadı́stica de la serie de datos corregida Para realizar un análisis descriptivo de la serie de datos se ha recurrido a las herramientas habituales en estadı́stica descriptiva, esto es, el cálculo de los parámetros que caracterizan a los datos y a sus transformados logarı́tmicamente, los de posición (media y mediana), dispersión (desviación tı́pica), y los de curtosis y asimetrı́a, junto con la representación gráfica del histograma y el gráfico de caja y bigotes (Box-Whisker en terminologı́a anglosajona). En la tabla 7.1 se puede observar el resultado obtenido para el cálculo de los parámetros anteriormente señalados. De los datos calculados se deben realizar algunos comentarios. Primero en lo que respecta a los logaritmos, la media y la mediana están bastante próximas, como ocurre en las distribuciones próximas a la Normal, pero no son iguales. En efecto, la mediana es ligeramente mayor que la media. Por otro lado, los valores de la curtosis y del coeficiente de asimetrı́a se sitúan en el intervalo [−2; 2], que es el que se admite como usual para dichos valores en una distribución Normal. De todo lo anterior parece que a primera vista la distribución del logaritmo de los datos es similar a una Normal. En las figuras 7.5 y 7.6 se representan los histogramas del Ibex 35 antes y después de tomar los logaritmos, respectivamente. La lı́nea discontinua de color negro representa la densidad de la distribución del Ibex 35 y, como claramente se observa, se aproxima a la Normal. 92 Modelo de predicción del Ibex 35 Capı́tulo 7 Tabla 7.1: Parámetros principales de la serie de datos corregida Parámetro No de datos Media Mediana Varianza Desviación tı́pica Curtosis Asimetrı́a Valor sin logaritmos 780 9.830 9.680 5.108.883 2.260 −0, 075 0, 0565 Valor con logaritmos 780 9, 167 9, 178 0, 052 0, 228 −0, 418 0, 026 Fuente: Elaboración propia Figura 7.5: Histograma de los datos del Ibex 35 Fuente: Elaboración propia 93 Capı́tulo 7 Modelo de predicción del Ibex 35 Figura 7.6: Histograma del logaritmo de los datos del Ibex 35 Fuente: Elaboración propia El objetivo que se perseguı́a con la toma de logaritmos era aproximar la distribución de los datos a una Normal y hacer la serie homocedástica. Esto se consigue en cierta medida, aunque para asegurar este extremo, se ha realizado el test de Kolmogorov-Smirnov. El test de Kolmogorov-Smirnov se emplea para contrastar si la distribución de probabilidad de los datos corregidos proviene de una Normal. El contraste de hipótesis es el siguiente, tomando los valores de media y desviación tı́pica de la tabla 7.1: H0 : La distribución de probabilidad es Normal(9, 1672; 0, 2278) H1 : La distribución de probabilidad no es Normal(9, 1672; 0, 2278) El estadı́stico del contraste de Kolmogorov-Smirnov (Dn ) es la máxima distancia vertical entre la función de distribución formada por los datos corregidos (Fn (x)) y la función de distribución teórica con la que se quieren contrastar los datos (F (x)), como se expresa a continuación: Dn = max −∞<x<∞ |Fn (x) − F (x)|. 94 Modelo de predicción del Ibex 35 Capı́tulo 7 El número de datos se denota por n. Cuando n > 30, el valor crı́tico del estadı́stico para un nivel de significación del 5% es el siguiente (Dcrit ): Dn Dcrit = √ . n Siempre que se obtenga un valor para Dn menor que Dcrit , no se podrá rechazar la hipótesis nula. En términos de p-valor, si éste toma un valor mayor que el nivel de significación (5%), la hipótesis nula igualmente no se rechaza. El programa R permite hacer el test con el comando ks.test, siguiendo el razonamiento anteriormente descrito y utilizando como argumentos las propias series de datos (original y corregida) y sus medias y desviaciones tı́picas. El resultado se expresa en términos de p-valor, tomando éste en la serie de datos original un valor de 0, 01843, por lo que se rechaza la hipótesis nula a un 5% de significación, es decir, la distribución de los datos no puede considerarse una distribución Normal con la media y la desviación tı́pica especificadas. Si bien, tras la toma de logaritmos, el test ofrece un p-valor de 0, 4097, por lo que se acepta la hipótesis nula con un 5% de significación, en este caso, la distribución de los datos se puede considerar una distribución Normal. 7.1.4 Descomposición detallada de la serie de datos corregida Como base para proponer un modelo del Ibex 35 se va a descomponer la serie corregida en sus componentes, pero de una forma más detallada, ya que hasta este punto sólo se ha hecho una descripción general de las mismas. Para poder hacer una descomposición completa, se ha recurrido al comando stl del programa estadı́stico R, el cual ha permitido generar la figura 7.7. Ésta se divide en cuatro gráficas que se describen a continuación. La gráfica superior (data) representa la serie de datos corregida, es decir, se muestran los mismos datos que se han podido observar en la figura 7.4. En cuanto a la segunda gráfica (seasonal), muestra la estacionalidad detectada en cada uno de los años observados. En el extremo derecho de esta gráfica se pueden ver valores entre −0, 03 y 0, 03, que pueden ser interpretados como los ı́ndices de estacionalidad. Un ı́ndice estacional es la variación relativa que sufre el dato de una semana concreta con respecto a la media 95 Capı́tulo 7 Modelo de predicción del Ibex 35 de toda la serie de datos. Por ejemplo, si el ı́ndice de estacionalidad de la primera semana de enero es 0, 03 significa que, de media, el dato del Ibex 35 de esa semana (sea el año que sea) es un 3% superior al dato medio del año. La estacionalidad observada consiste en niveles máximos del Ibex 35 en abril de todos los años, caı́da de los mismos hasta el mı́nimo en septiembre para una posterior subida progresiva hasta abril. Esta estacionalidad encaja con la indicada anteriormente según los datos históricos que se utilizan en el análisis técnico. En la tercera gráfica (trend) se representa la tendencia de la serie corregida de datos. En esta gráfica también se pueden ver las variaciones cı́clicas que experimenta la serie, observándose un ciclo de alrededor de 8-9 años de duración. Finalmente, la gráfica inferior (remainder ), representa los coeficientes de correlación de los residuos de la serie. Se deberı́a observar comportamiento aleatorio en los residuos y por tanto que no existe regularidad en los coeficientes. Sin embargo esto no es ası́ en este caso, ya que se ven oscilaciones de grupos de coeficientes positivos y negativos, de lo que se deduce que existe regularidad. Del análisis de la serie corregida se deduce la presencia de cuatro componentes, cuyo comportamiento es el objeto de la modelización posterior: tendencia, ciclo, estacionalidad y la componente irregular. Como se ha señalado, las tres primeras componentes son deterministas y se modelizan combinando funciones lineales y trigonométricas, y la última se modeliza con técnicas ARIMA y procesos estocásticos. 7.2 Elaboración del modelo del Ibex 35 Los pasos seguidos en la elaboración del modelo del Ibex 35 semanal se han basado, con las adaptaciones pertinentes que recogen las caracterı́sticas intrı́nsecas de dicho mercado (Benth y Saltyte Benth, 2013). Después de realizar todas las correcciones descritas en los apartados precedentes, ya se dispone de los datos adecuados para poder ajustar un modelo que, a priori, puede reflejar de forma fiel el comportamiento del logaritmo de los datos del Ibex 35. El modelo propuesto es aditivo, y cada una de las componentes se 96 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.7: Descomposición de la serie completa del Ibex 35 (1998-2012) Fuente: Elaboración propia 97 Capı́tulo 7 Modelo de predicción del Ibex 35 ajusta una vez ha sido obtenida y descontada (restada) la anterior, comenzando por la componente tendencia-ciclo y acabando con la estacionalidad, que completa la parte determinista del modelo. Con los residuos de la parte determinista, se ajustará un modelo ARIMA, ya que se supone que la componente irregular es aleatoria. Con estos pasos se combinan las dos técnicas descritas en los capı́tulos 5 y 6, respectivamente. 7.2.1 Ajuste del modelo del Ibex 35. Parte determinista El modelo completo se puede observar en (7.1), en la cual se incluyen las diferentes componentes que se deben modelizar. La modelización, no obstante, se realizará por partes, recogiéndose en primer lugar el comportamiento a largo plazo (ciclo y tendencia) y posteriormente el comportamiento en el corto plazo (estacionalidad e irregularidad), P (t) = PT C (t) + PEA (t) + I(t), (7.1) donde P (t) = log(p(t)), siendo p(t) el valor de cierre del Ibex 35 en la semana t. Se ha partido de un modelo para la tendencia T (t) y el ciclo C(t), denotado como PT C (t), basado en una función lineal y una curva trigonométrica (mediante la función coseno), respectivamente. Las razones que justifican esta decisión son la sencillez de la función coseno, su comportamiento periódico y su fácil interpretación, además de que la tendencia se modeliza de forma adecuada con una función lineal. La frecuencia seleccionada para el coseno ha sido de 468 semanas (9 años), ya que el ciclo observado en el perı́odo considerado tiene una duración entre 8 y 9 años y se ha comprobado cómo la función coseno se adapta mejor al ciclo de 9 años. Por todo ello, el modelo del Ibex 35 basado en el modelo de Fourier con un armónico y una componente lineal y del cual se parte como primera propuesta, es el que se muestra en (7.4), agregando las dos componentes detalladas en (7.2) y (7.3), correspondientes a las componente tendencia y ciclo, respectivamente. T (t) = b0 + b1 · t, 98 (7.2) Modelo de predicción del Ibex 35 C(t) = b2 · cos Capı́tulo 7 2 · π · (t − b3 ) , 468 PT C (t) = T (t) + C(t). (7.3) (7.4) Los parámetros del modelo tendencia-ciclo son los siguientes: • PT C (t) denota el logaritmo del dato del Ibex 35 en la semana t. • t representa las semanas transcurridas desde el 1 de enero de 1998. • b0 representa la parte fija o autónoma del logaritmo del dato del Ibex 35. • b1 puede interpretarse como la tendencia o drift del logaritmo del dato del Ibex 35. • b2 representa la amplitud del coseno. Proporciona una medida de las oscilaciones cı́clicas de los datos. • b3 denota el desfase del coseno con respecto al 1 de enero de 1998 en semanas. Para determinar el modelo tendencia-ciclo, los parámetros que se deben calcular son b0 , b1 , b2 y b3 . Todos los parámetros se calculan mediante el ajuste no lineal que se va a realizar. El primer ajuste se realiza con el programa R empleando la función nls, que sirve, en este caso, para ajustar la función trigonométrica propuesta a la serie de datos. En primer lugar, se introducen todos los datos observados y corregidos (años de 52 semanas y eliminación de outliers). En este punto se debe recordar el problema que presentan los algoritmos de ajuste de funciones no lineales, y es que los resultados dependen del punto inicial de partida y, en ocasiones, los óptimos obtenidos no son óptimos globales. Por ello, el siguiente paso consiste en buscar un punto inicial para el ajuste del modelo dado en (7.2)–(7.4) a las observaciones de los datos corregidos. Los valores iniciales de b0 y b1 se obtienen a partir de la regresión lineal de P (t) sobre t. Posteriormente se ajusta el modelo partiendo de una semilla con b0 = 1 para encontrar el valor inicial de b2 . A partir de este último punto se 99 Capı́tulo 7 Modelo de predicción del Ibex 35 calcula el valor inicial para b3 . Finalmente se toma este punto como inicial del ajuste definitivo del modelo (7.2)–(7.4) completo. El punto inicial obtenido es b0 = 9, 011, b1 = 0, 0004, b2 = 0, 259 y b3 = 43, 24. Los valores de los parámetros obtenidos de este ajuste son los que se muestran en la tabla 7.2. En ella se observa que todos los parámetros son significativamente distintos de 0, a un nivel de confianza del 95%, dado que el p-valor correspondiente a cada parámetro es menor que 5%1 . Como comentario adicional, cabe señalar que se observa la existencia de tendencia ligeramente creciente con el valor positivo del parámetro b1 , tal y como se adelantaba anteriormente. Tabla 7.2: Resultados del ajuste del modelo tendencia-ciclo Parámetro b0 b1 b2 b3 Estimado 9, 011 0, 0003943 0, 2586 43, 24 Error estándar 0, 01002 0, 00002232 0, 006832 2, 103 t-valor 899, 23 17, 67 37, 85 20, 56 p-valor 0 0 0 0 Fuente: Elaboración propia Si se representa el modelo tendencia-ciclo se obtienen los resultados de la figura 7.8. Con el modelo cı́clico se recogen las oscilaciones regulares en los datos que se producen a lo largo de más de un año además de la tendencia, por lo que descontando estas componentes se obtiene una nueva serie de datos que no tiene ni ciclo ni tendencia, permitiendo de esta manera ajustar un modelo que recoja las variaciones interanuales o estacionales. Esta serie de datos obtenida como la diferencia entre los datos observados y el modelo tendencia-ciclo ajustado de puede observar en la figura 7.9. En un primer análisis descriptivo de la serie descontada se pueden observar oscilaciones anuales. Esto se ha comprobado en la figura 7.7, en la que se observaban los picos en abril y los valles en septiembre. Las razones de estas oscilaciones no se conocen con exactitud, si bien es lo que se produce según 1 Realmente, los parámetros son significativamente distintos de cero para cualquier nivel de significación, puesto que los p-valores toman valores muy cercanos a cero, como ocurre en los ajustes realizados posteriormente. 100 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.8: Ajuste del modelo tendencia-ciclo a los datos corregidos Fuente: Elaboración propia Figura 7.9: Serie de datos corregidos sin tendencia ni ciclo Fuente: Elaboración propia 101 Capı́tulo 7 Modelo de predicción del Ibex 35 muestran los datos históricos. Dado que la bolsa se mueve por los sentimientos de los inversores y se trata de un “movimiento de masas”, es probable que determinados factores psicológicos influyan en los motivos que provocan estas oscilaciones. De esta forma, primero se ajusta el modelo estacional anual denotado por PEA (t) en la ecuación (7.5), para el cual se ha tomado una frecuencia de 52 semanas para el coseno. En la ecuación (7.6) se expresa la operación que se realiza en este segundo paso, ajustándose el modelo estacional anual sobre la serie de datos y descontando la componente tendencia-ciclo modelizada anteriormente. Antes de entrar en los detalles del cálculo, cabe señalar que se realizó una comprobación de la inexistencia de tendencia lineal mediante la inclusión de un parámetro que multiplicaba al tiempo, el cual, al realizar el ajuste lineal, resultó ser significativamente igual a cero. 2 · π · (t − a2 ) , PEA (t) = a1 · cos 52 (7.5) 2 · π · (t − a2 ) . P (t) − PT C (t) = a1 · cos 52 (7.6) Los parámetros que se deben estimar son a1 , que es el que determina la amplitud del coseno, y a2 , que representa el desfase del coseno frente a la primera semana de enero de 1998, siempre teniendo en cuenta que ahora se trabaja con los datos sin tendencia ni ciclo. Al igual que en el modelo anterior, se debe realizar una primera estimación de los valores de a1 y a2 . Para estimar los dos parámetros del modelo estacional anual se han fijado los valores a1 = 1 y a2 = 0, obteniendo los resultados de la tabla 7.3, en la que se puede observar que ambos parámetros son significativamente distintos de cero a un nivel de significación del 5%. Se ha representado el ajuste del modelo estacional anual en la figura 7.10, y la serie después de haberle descontado las componentes tendencia, ciclo y estacionalidad anual en la figura 7.11. Con el ajuste de las componentes tendencia-ciclo y estacionalidad anual finaliza la parte determinista del modelo. El siguiente paso consiste en el ajuste de un modelo ARIMA a la componente irregular, que constituirá la 102 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.10: Ajuste del modelo estacional anual Fuente: Elaboración propia Figura 7.11: Serie descontada de tendencia, ciclo y estacionalidad anual Fuente: Elaboración propia 103 Capı́tulo 7 Modelo de predicción del Ibex 35 Tabla 7.3: Resultados del ajuste del modelo estacional Parámetro a1 a2 Estimado 0, 018353 10, 465435 Error estándar 0, 006741 3, 039692 t-valor 2, 723 3, 443 p-valor 0, 006621 0, 000606 Fuente: Elaboración propia parte aleatoria del modelo del Ibex 35. El modelo determinı́stico completo se expresa en (7.7). P (t) = 9, 011 + 0, 0004 · t 2 · π · (t − 43, 24) + 0, 2586 · cos 468 (7.7) 2 · π · (t − 10, 4654) . + 0, 0184 · cos 52 7.2.2 Modelo ARIMA para la componente irregular. Parte aleatoria La última componente de la serie de datos, la componente irregular I(t), deberı́a ser una serie estacionaria, es decir, sin tendencia ni estacionalidad, ya que, por definición, la componente irregular no debe obedecer a ningún comportamiento identificable. En caso de tener un comportamiento identificable, implicarı́a que existe alguna componente que el modelo no recoge. Para comprobar la estacionariedad de la componente irregular, se representan la FAS y la FAP de la serie descontando tendencia, ciclo y estacionalidad en la figura 7.12. Como se puede ver, en la FAS se produce un descenso de los coeficientes de autocorrelación, en el periodo objeto de estudio, de lo cual se deduce que se ha eliminado la tendencia. Por su parte, en la FAP se observa un coeficiente claramente significativo, el primero de ellos. A medida que se alarga el retardo, 104 Modelo de predicción del Ibex 35 Capı́tulo 7 hay ligeras oscilaciones de coeficientes positivos y negativos y dos coeficientes significativos aunque en escasa medida. Todo esto implica la necesidad de construir otro modelo para la componente irregular. Figura 7.12: FAS y FAP de la componente irregular Fuente: Elaboración propia Con todo ello, se ha procedido a ajustar un modelo ARIMA (1, 0, 2) para recoger el comportamiento que siguen los residuos. Este modelo se ha realizado con el comando auto.arima del software R. En el siguiente apartado se procede a la validación del modelo ARIMA obtenido. 7.3 Validación del modelo del Ibex 35 La validación del modelo es una parte esencial para comprobar la idoneidad del mismo a los efectos de conseguir el propósito indicado al principio del presente trabajo, esto es, recoger el comportamiento de los datos semanales del Ibex 35. Para realizar la validación se han seguido los puntos indicados en el apartado 6.5. 105 Capı́tulo 7 7.3.1 Modelo de predicción del Ibex 35 Contrastes sobre los parámetros En primer lugar, se debe comprobar que todos los parámetros son significativamente distintos de cero, para lo cual se emplea la prueba t-Student: tcalc = Ψi ≡ tgdlr . s Ψi (7.8) De la tabla 7.4 se obtiene el t-valor calculado de cada uno de los parámetros en el ajuste del modelo ARIMA, cumpliéndose que son mayores en valor absoluto a 1, 96, salvo el correspondiente a MA(1), que aunque no lo es está muy próximo, por lo que puede considerarse también significativo. Este valor 1, 96 es el máximo para un intervalo de confianza del 95% en una distribución N(0, 1), que es la aproximación de la distribución t-Student con elevado número de grados de libertad en (7.8). Ası́ puedes, podemos suponer que todos los parámetros estimados son significativamente distintos de cero. Tabla 7.4: Resultados del ajuste del modelo ARIMA (1,0,2) Estimado Error estándar t-valor Parámetro Parámetro AR(1) MA(1) 0, 9693 −0, 0680 0, 0095 0, 0366 102, 03 −1, 86 ME = 0,0002036901 Parámetro MA(2) 0, 0962 0, 0375 2, 57 Fuente: Elaboración propia 7.3.2 Contrastes sobre el error Por su parte, del error, ǫt , se debe comprobar que se cumplen las siguientes hipótesis: • Media cero, E(εt ) = 0. 106 Modelo de predicción del Ibex 35 Capı́tulo 7 • Varianza constante, Var(εt ) = cte. • Incorrelación para cualquier retardo, Cov(εt , εt−k ) = 0. • Distribución Normal, εt ≡ N(0, σ). Media cero. El contraste para aceptar que el valor de la media del error es cero es el especificado en (7.9), aceptándose la hipótesis nula si εt está en el intervalo definido, rechazándose en caso contrario: −z α/2 σ bε α/2 σ bε √ ,z √ . T T (7.9) Los parámetros necesarios para hacer este test son ±z α/2 = ±1, 96, la desviación tı́pica del error σ bε y T , que es el número de datos (780). El valor de σ bε se obtiene calculando la desviación tı́pica de los residuos, resultando un valor de σ̂ǫ = 0, 0332052. Con estos valores, se calcula el intervalo expresado a continuación: [−0, 002330316; 0, 002330316]. Al comparar el valor de la media del error (ME en la tabla 7.4), 0, 0002036901, con el intervalo, se concluye que no se puede rechazar la hipótesis nula, puesto que la media del error está dentro del intervalo, admitiendo entonces que no toma un valor significativamente distinto de cero. Varianza constante. La homocedasticidad del error (varianza constante) se debe comprobar estudiando el gráfico de los residuos frente al tiempo o frente a la propia variable estudiada. No obstante, existe una prueba numérica, también descrita en el apartado 6.5 Validación del modelo ARIMA, que puede aportar una mayor objetividad y fiabilidad al contraste. En primer lugar, se representa el gráfico de los residuos frente al tiempo y frente a la variable estudiada (el logaritmo de los datos del Ibex 35) en la 107 Capı́tulo 7 Modelo de predicción del Ibex 35 figura 7.13. En las figuras no se aprecia a primera vista la existencia de heterocedasticidad, ya que la variabilidad de los residuos parece constante frente a la variable estudiada y a lo largo del tiempo. Debido a que las conclusiones a partir de los gráficos parten de apreciaciones subjetivas, se recurre a los contrastes que se muestran a continuación. Figura 7.13: Residuos frente a la variable (a) y frente al tiempo (b) Fuente: Elaboración propia Para confirmar la apreciación gráfica de existencia de heterocedasticidad, se ha realizado la prueba numérica señalada anteriormente, que consiste en realizar una regresión lineal entre el error al cuadrado y el tiempo, si se piensa que la varianza depende del tiempo, o bien realizar una regresión lineal entre el error al cuadrado y la variable estudiada, en caso de que se piense que la varianza depende de ésta, tal y como se define en las expresiones (7.10) y (7.11), respectivamente: e2t = ϑ0 + ϑ1 t + U, (7.10) e2t = ϑ0 + ϑ1 Zt + U. (7.11) 108 Modelo de predicción del Ibex 35 Capı́tulo 7 Los resultados de ambas regresiones se muestran en las tablas 7.5 y 7.6. Como se puede ver, del primer ajuste resulta que el parámetro que depende del tiempo (ϑ1 ), no es significativamente distinto de cero a un nivel de confianza del 95%, puesto que su p-valor es mayor que 0, 05. En cuanto al segundo ajuste, el parámetro que depende de la variable estudiada (el logaritmo del Ibex 35) sı́ es significativamente distinto de cero, ya que su p-valor es menor que 0, 05. Del análisis de estos ajustes se puede deducir que la varianza del residuo depende de la variable pero no del tiempo, por lo que no es posible admitir la inexistencia de heterocedasticidad, incumpliéndose ası́ una de las hipótesis del modelo. Tabla 7.5: Ajuste del cuadrado de los residuos frente al tiempo Parámetro Constante Tiempo Estimado 0, 0008418 6, 642e − 07 Error estándar 0, 0002048 4, 543e − 07 t-valor 4, 111 1, 462 p-valor 0, 0000436 0, 144 Fuente: Elaboración propia Tabla 7.6: Ajuste del cuadrado de los residuos frente a la variable observada Parámetro Constante Logdato Estimado 0, 0159558 −0, 0016204 Error estándar 0, 0040923 0, 0004463 t-valor 3, 899 −3, 631 p-valor 0, 000105 0, 000301 Fuente: Elaboración propia Incorrelación para cualquier retardo. Esta hipótesis se comprueba mediante la observación de la FAS de los residuos. Para ello, se ha representado la figura 7.14, en la que se muestra el análisis realizado con el comando de R tsdiag. En el primer gráfico se representan los residuos estandarizados (los residuos divididos por su desviación tı́pica) de la serie ARIMA. En la FAS debe observarse que los residuos no tienen autocorrelación, como ası́ sucede, pues sólo el primero de los coeficientes de autocorrelación es 1, mostrando la relación del residuo consigo mismo. Finalmente, el test de Box-Pierce contrasta la hipótesis nula de la distribución aleatoria de los residuos. Esto proviene de la idea de 109 Capı́tulo 7 Modelo de predicción del Ibex 35 que unos residuos de un modelo correctamente especificado se distribuyen independientemente. Como puede deducirse de la observación del tercer gráfico, el modelo puede admitirse como correctamente especificado pues los p-valores por encima del nivel de significación (5%) llevan a no poder rechazar esta hipótesis. Figura 7.14: Resultados del análisis tsdiag −6 −2 2 Standardized Residuals 0 200 400 600 800 Time 0.6 0.0 ACF ACF of Residuals 0 5 10 15 20 25 Lag 0.0 0.4 0.8 p value p values for Ljung−Box statistic 2 4 6 8 10 lag Fuente: Elaboración propia Distribución Normal. La última de las hipótesis que debe cumplir el modelo se comprueba mediante el gráfico Q-Q, que muestra el grado en que los residuos del modelo obtenido se ajustan a una distribución Normal. La representación del gráfico 110 Modelo de predicción del Ibex 35 Capı́tulo 7 Q-Q de los residuos estandarizados2 se puede observar en la figura 7.15. En dicha figura la mayorı́a de los residuos están alineados, aunque en los extremos inferior y superior hay un ligero alejamiento de la diagonal. Se ha recurrido al test de Kolmogorov-Smirnov para comprobar numéricamente la normalidad de los residuos y el p-valor obtenido en la prueba es de 0, 001746, lo cual significa que se rechaza la hipótesis nula y no se admite la normalidad de los residuos. Figura 7.15: Gráfico Q-Q de normalidad de los residuos estandarizados Fuente: Elaboración propia Dado que se incumplen dos de las hipótesis que se establecen para la validación del modelo, la normalidad de los residuos y la inexistencia de heterocedasticidad, se ha realizado un análisis separado de los residuos para profundizar en la comprensión de su comportamiento y, por extensión, tratar de modelizarlos. 2 Se trata de los residuos divididos por su desviación tı́pica, gracias a lo cual su distribución se puede comparar con una N(0, 1). 111 Capı́tulo 7 7.4 Modelo de predicción del Ibex 35 Modelo para los residuos Para realizar un análisis y posterior modelización de los residuos, en primer lugar se debe comprender su comportamiento a lo largo del tiempo. Para ello, se ha representado en la figura 7.16 la serie de los residuos, definidos como el logaritmo del Ibex 35 menos todas las componentes modelizadas en los apartados anteriores (tendencia, ciclo, estacionalidad y componente irregular). En esta figura se observa que los residuos tienen fluctuaciones de distinta intensidad alrededor del cero, pero cada cierto tiempo aparecen saltos relativamente extremos. Este hecho motiva que se aı́slen esos saltos extremos para modelizarlos por separado de los residuos. −0.1 −0.2 Residuos 0.0 0.1 Figura 7.16: Serie de residuos del modelo 0 200 400 600 800 Tiempo (semanas) Fuente: Elaboración propia Descriptivamente, los residuos no se aproximan a una distribución Normal, dado que, como se puede ver en la figura 7.17, las observaciones de mayor frecuencia (alrededor de 250) son aquellas que están en torno al cero, pero hay un pequeño número de observaciones que toma valores extremos, principalmente valores negativos. Para aislar los saltos extremos se ha empleado una metodologı́a (Benth y 112 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.17: Histograma de los residuos Fuente: Elaboración propia Saltyte Benth, 2013) que se describe en detalle a continuación. El primer paso consiste en calcular la media y la desviación tı́pica de los residuos con el objeto de establecer unos lı́mites inferior y superior a partir de los cuales se considere que existe un salto. La media de los residuos es igual a µ = 0, 0002036901 y su desviación tı́pica toma un valor de σ = 0, 0332052. El lı́mite que se toma habitualmente viene determinado por la media más/menos dos veces la desviación tı́pica. Este hecho tiene su explicación en que para una distribución Normal el 95% de los valores de la misma se sitúa entre dichos lı́mites. Con los valores concretos para los residuos del modelo, el intervalo es el que se expresa a continuación: [−0, 0662067099; 0, 0666140901]. Cuando se han fijado los lı́mites, se realiza el primer “filtrado”, considerando que existe un salto cuando un residuo particular sobrepasa los lı́mites fijados. Si esto sucede, se sustituye el residuo por el lı́mite correspondiente. Una vez se han localizado todos los saltos del primer filtrado y han sido sustituidos tal como se ha descrito, se cuenta el número de saltos y se vuelve a 113 Capı́tulo 7 Modelo de predicción del Ibex 35 calcular la media y la desviación tı́pica de los residuos para formar unos nuevos lı́mites y volver a contar y sustituir los saltos. Este procedimiento se realiza cuantas veces sea necesario hasta que el número de saltos no aumente. El resumen de este proceso se muestra en la tabla 7.7. Tabla 7.7: Resumen del proceso de filtrado de los residuos Iteración 1 2 3 4 5 Desviación tı́pica 0, 0332 0, 0292 0, 0282 0, 0279 0, 0279 Saltos acumulados 35 52 60 61 61 Frecuencia de saltos semanal 0, 04487 0, 06667 0, 07692 0, 07821 0, 07821 Fuente: Elaboración propia Cabe hacer una serie de comentarios respecto a la tabla 7.7. El número total de iteraciones necesarias para que no se detectaran más saltos fue de 5. Nótese cómo la desviación tı́pica disminuye con cada una de las iteraciones, algo lógico por otra parte, dado que la mecánica de este filtrado consiste en la eliminación de los saltos extremos. En la columna “Saltos acumulados” se ha ido sumando el número de saltos que se producı́an en los pasos anteriores ya que, si existı́a un salto en un paso previo, también existirá en un paso posterior, en el que los lı́mites son más estrechos por la disminución progresiva de la desviación tı́pica. Por último, se ha calculado la frecuencia de saltos semanal como el cociente entre el número de saltos acumulado y el número de datos totales, que son 780. Tras realizar este procedimiento, se toman los residuos en los que se han localizado saltos y se separan de la serie de residuos. A esta nueva serie sin los saltos se le ha denominado “residuos filtrados”, cuyo histograma está representado en la figura 7.18. Se puede observar que los residuos filtrados presentan una distribución mucho más similar a la Normal, extremo éste que se confirma tras realizar el test de Kolmogorov-Smirnov, para el cual se obtiene un p-valor de 0, 2296, claramente superior al nivel de significación del 5%. Asimismo, los valores de los coeficientes de curtosis y asimetrı́a se encuentran entre los esperados para una distribución Normal, siendo −0, 5070 y −0, 1621, respectivamente. 114 Modelo de predicción del Ibex 35 Capı́tulo 7 Figura 7.18: Histograma de los residuos filtrados Fuente: Elaboración propia Por lo que respecta a los saltos se puede ver su histograma en la figura 7.19. Para comprobar que no siguen una distribución Normal, se ha realizado el test Kolmogorov-Smirnov obteniéndose un p-valor de 0, 0002453, menor que el nivel de significación del 5%, por lo que no se puede admitir que los saltos sigan una distribución Normal. El tratamiento que se propone es el de dividir los saltos en valores positivos y valores negativos y modelizarlos como se describe seguidamente, para los cuales se ha representado su histograma en la figura 7.20. A continuación se muestra en la tabla 7.8 los datos descriptivos de los saltos positivos y negativos, ası́ como de los saltos conjuntos, entendiendo éstos como los saltos observados en valor absoluto y las observaciones sin saltos con valor cero. Para modelizar los saltos, se ha propuesto un modelo S(t) definido mediante la suma de dos procesos de Poisson compuestos, los cuales describen por separado los saltos positivos y negativos. Se define el proceso S(t) como se expresa en (7.12): 115 Capı́tulo 7 Modelo de predicción del Ibex 35 Figura 7.19: Histograma de los saltos Fuente: Elaboración propia Función de densidad de los residuos Función de densidad de Normal (−0,0004; 0,0814) 200 150 100 50 0 Frecuencia absoluta 250 300 Figura 7.20: Histograma de los saltos negativos (a) y positivos (b) −0.2 −0.1 0.0 Residuos Fuente: Elaboración propia 116 0.1 Modelo de predicción del Ibex 35 Capı́tulo 7 Tabla 7.8: Datos descriptivos de los saltos Número datos Media Desv. tı́pica Saltos positivos 24 0, 0742 0, 0203 Saltos negativos 37 −0, 0835 0, 0350 Saltos conjuntos 780 0, 0062 0, 0230 Fuente: Elaboración propia S(t) = S + (t) + S − (t), (7.12) donde S ± (t) se definen tal y como se muestra en (7.13): N ± (t) ± S (t) = X Ji± , (7.13) i=1 siendo N + (t) y N − (t) procesos de Poisson cuyas intensidades son λ+ y λ− , respectivamente. En (7.12), Ji± son dos secuencias de variables aleatorias independientes e idénticamente distribuidas (i.i.d.) con las que se modeliza el tamaño de los saltos. Los pasos que se han dado para simular el proceso S(t) se detallan a continuación. De los resultados del filtrado realizado sobre los residuos, se obtienen las intensidades λ+ y λ− , las cuales se calculan como el número de saltos positivos (24) y negativos (37), respectivamente, divididos entre el número de datos totales. Los valores calculados son, λ+ = 0, 03076923, λ− = 0, 0474359, respectivamente. Como se puede ver, los saltos negativos (descensos repentinos del Ibex 35) son ligeramente más probables y más homogéneos que los saltos positivos. En primer lugar, se debe definir la función de distribución más adecuada 117 Capı́tulo 7 Modelo de predicción del Ibex 35 para los saltos. La observación del histograma de los saltos negativos (véase figura 7.20, gráfico (a)) sugiere el empleo de una distribución exponencial para modelizar los tamaños de los saltos (obviamente utilizando la misma distribución para generar la longitud de saltos positivos). La longitud de ambos saltos ha sido determinada por la media que se muestra en la tabla 7.8 en la columna de saltos conjuntos, cuya función de densidad de probabilidad es de la forma dada en (7.14): fExp (z) = 1 exp(−z/µJ ), µJ (7.14) donde el parámetro µJ es el tamaño medio del salto. La estimación del parámetro µJ para la distribución de los saltos tanto positivos como negativos se ha hecho utilizando el enfoque de máxima verosimilitud mediante la muestra de saltos conjuntos, obteniéndose el valor µ bJ = 0, 0062. A partir de la distribución exponencial cuyo parámetro ha sido estimado se genera la longitud los saltos Ji+ y Ji− de la expresión (7.12), teniendo en cuenta que en el caso de los negativos han de considerarse con dicho signo. De esta forma se tiene una especificación completa del proceso estocástico que gobierna la dinámica de los datos semanales del Ibex 35 en el periodo considerado. 7.5 Validación total del modelo del Ibex 35 Para realizar la validación final del modelo propuesto se deben cumplir dos condiciones para corroborar la normalidad de los residuos. Antes de realizar los contrastes necesarios, se muestra a continuación en la figura 7.21 el ajuste del modelo completo descomponiendo la parte determinista y estocástica. Como puede observarse, la parte determinista acompaña la evolución del Ibex 35 de una forma más suavizada. Si bien, la parte estocástica es la que sigue más fielmente la evolución real, aportando al modelo la aleatoriedad del ı́ndice bursátil. A continuación se muestra el ajuste del modelo con ambas partes sumadas, 118 Modelo de predicción del Ibex 35 Capı́tulo 7 9.2 8.8 9.0 Log(Ibex−35) 9.4 9.6 Figura 7.21: Ajuste del modelo completo del Ibex 35 descompuesto en parte determinista y la suma de la parte determinista y la estocástica Parte determinista 8.6 Parte determinista+Parte estocástica 2000 2005 2010 Tiempo (semanas) Fuente: Elaboración propia en la figura 7.22. En este caso puede observarse que el modelo recoge el comportamiento cı́clico pero no es capaz de predecir adecuadamente los picos más pronunciados, como es el caso de las bajadas de los primeros años, el brusco descenso de 2008 y 2012 y los picos del año 2000 y de 2007. Ası́ pues, como se indicaba al inicio del apartado, es necesario que se cumplan dos condiciones para la validación final del modelo, en definitiva, para demostrar la normalidad de los residuos. En primer lugar, se muestra a continuación la distribución de la diferencia de los datos reales frente a los datos del modelo en la figura 7.23. Visualmente se puede comprobar que sı́ se ajusta a una distribución Normal, ya que la función de densidad de los residuos se ajusta notablemente a la función de densidad Normal. En segundo lugar, el test de Kolmogorov-Smirnov, ya utilizado previamente en el presente trabajo, ofrece un p-valor de 0, 0562, superior al 5% del nivel 119 Capı́tulo 7 Modelo de predicción del Ibex 35 9.5 9.0 8.5 Logaritmo del Ibex 10.0 Figura 7.22: Ajuste del modelo completo del Ibex 35 2000 2005 2010 Tiempo (semanas) Fuente: Elaboración propia Figura 7.23: Histograma de los residuos del modelo del Ibex 35 Fuente: Elaboración propia 120 Modelo de predicción del Ibex 35 Capı́tulo 7 de significación. Este resultado corrobora lo que se observaba visualmente, es decir, que la distribución puede considerarse una distribución Normal. Por este motivo, el modelo puede considerarse correcto. Por último, las medidas de bondad del ajuste, descritas en el apartado 6.4.4, calculadas para el modelo construido, se muestran en la tabla 7.9. A continuación se comentan los valores obtenidos de las distintas medidas señaladas. Cabe destacar que las medidas MPE y MAPE son las más objetivas por cuanto que se expresan en valores relativos (porcentajes) y, por tanto, sirven para comparar con otros modelos incluso aplicados a otros datos. Tabla 7.9: Medidas de bondad del ajuste del modelo con logaritmos Medida ME RMSE MAE MPE MAPE Valor −0, 0818 0, 1744 0, 1016 −0, 8938% 1, 1109% Fuente: Elaboración propia Puede observarse que las pruebas de bondad de ajuste ofrecen resultados muy bajos, corroborando que el error del modelo es aceptable y el modelo en sı́ es estadı́sticamente correcto, tal y como se observa en las gráficas. 7.6 Predicciones con el modelo. Aplicación de técnica Monte Carlo El último apartado del presente capı́tulo aborda el estudio gráfico y analı́tico del ajuste del modelo a los datos observados y la realización de predicciones con el mismo mediante la técnica Monte Carlo. El método Monte Carlo se trata de una herramienta no determinı́stica usada para aproximar expresiones matemáticas complejas y costosas de evaluar con exactitud. Su aplicación consiste en la generación del modelo una cantidad determinada de veces (en nuestro caso 1.000), cuyos resultados son promediados y, en principio, deberı́a 121 Capı́tulo 7 Modelo de predicción del Ibex 35 aproximarse más a la realidad que una predicción puntual. Al añadirle un intervalo de confianza consistente en los percentiles que mantengan el 95% de las predicciones realizadas dentro del intervalo, tendremos el resultado final del modelo gráficamente, es decir, si la predicción se ajusta a lo acontecido en la realidad y, por lo tanto, es capaz de predecir el comportamiento del Ibex 35. Para ello, se han agregado todas las partes del modelo, la determinista (7.7) y la aleatoria dividida en tres partes, un modelo ARIMA, un residuo filtrado generado a partir de la N(0, 00204; 0, 00057) y el proceso descrito para los saltos (7.12). La parte determinista como su concepto indica es fija, mientras que las tres partes aleatorias son generadas cada vez manteniendo constantes los parámetros estimados originalmente. El modelo hasta las 819 semanas se ha generado 1.000 veces de esta forma y se ha obtenido la media. A los datos se les ha aplicado un intervalo de confianza mediante los cuartiles 0, 025 y 0, 975, para desestimar el 5% de datos extremos. El resultado gráfico se puede observar la figura 7.24. Figura 7.24: Ajuste del modelo completo al logaritmo del Ibex 35 y predicción a 9 meses mediante técnica Monte Carlo Fuente: Elaboración propia En el gráfico anterior se muestra el resultado de la aplicación de la técnica Monte Carlo anteriormente descrita, para el modelo sin saltos y con saltos. Como puede observarse, el modelo propuesto recoge adecuadamente el reco122 Modelo de predicción del Ibex 35 Capı́tulo 7 rrido del Ibex 35 y logra captar en los intervalos la mayorı́a de observaciones, a excepción de los picos inferiores de 1999 y 2008. Las diferencias principales entre el modelo con y sin saltos son dos: • En primer lugar, el modelo con saltos reduce el valor de la estimación, como puede observarse en el gráfico que sigue aproximadamente la misma pauta pero ligeramente por debajo. Esto se debe a que existen más saltos negativos que positivos en el modelo planteado, por lo que éstos se producen con más frecuencia y reducen el valor del Ibex. • En segundo lugar, los saltos son más frecuentes conforme más se prolonga en el tiempo la estimación. Esto se debe al proceso de Poisson utilizado. Por este motivo la diferencia entre el intervalo sin saltos y el intervalo con saltos es mayor en los últimos años que en los iniciales. Finalmente, y al igual que se ha realizado anteriormente para la validación del modelo, se han calculado las medidas de bondad del ajuste tanto con los datos obtenidos de la simulación Monte Carlo como de los datos de la predicción a 9 meses mediante la simulación Monte Carlo. Los resultados obtenidos son los que se muestran en la tabla 7.10 y la tabla 7.1. Como puede comprobarse, las pruebas de bondad de ajuste ofrecen resultados muy bajos, corroborando nuevamente que el error es aceptable estadı́sticamente con la técnica Monte Carlo tanto en el modelo en sı́ como en la predicción realizada. Tabla 7.10: Medidas de bondad del ajuste del modelo mediante técnica Monte Carlo Medida ME RMSE MAE MPE MAPE Valor 0 0, 1330 0, 1024 0, 0210% 1, 1189% Fuente: Elaboración propia Tras haber finalizado el presente Trabajo Fin de Máster, habiendo desarrollado a nivel teórico y práctico el modelo estocástico de salto de Poisson 123 Capı́tulo 7 Modelo de predicción del Ibex 35 Tabla 7.11: Medidas de bondad del ajuste de la predicción a 9 meses mediante técnica Monte Carlo Medida ME RMSE MAE MPE MAPE Valor −0, 1084 0, 0442 0, 1084 1, 2029% 1, 2029% Fuente: Elaboración propia compuesto para la predicción del Ibex 35 y validado el mismo, en el siguiente capı́tulo se exponen las conclusiones finales y las propuestas de actuación. 124 Capı́tulo 8 Conclusiones. Propuestas de actuación En el presente trabajo se ha realizado, en primer lugar, una descripción del mercado bursátil español y, posteriormente, se ha propuesto un modelo basado en técnicas estadı́sticas para tratar de describir y estimar el comportamiento del Ibex 35 en dicho mercado. Según los objetivos especificados en el capı́tulo 3, el trabajo se ha estructurado en dos partes, la primera de ellas dedicada al marco teórico y la segunda al modelo del Ibex 35. En la primera parte del trabajo, se han descrito las principales caracterı́sticas del mercado bursátil español, ası́ como su funcionamiento y los agentes que participan en el mismo. Finalmente, esta primera parte se completa con una revisión de las técnicas estadı́sticas empleadas en la elaboración del modelo. Existen diversos hechos que motivan la elaboración de un modelo de predicción del Ibex 35. El primero de ellos es el alto grado de volatilidad que se ha alcanzado en los mercados. El segundo, la propia adaptación de las herramientas cuantitativas al análisis económico tradicional, lo cual amplı́a en gran medida el conocimiento sobre los fenómenos económicos y facilita la posibilidad de realizar predicciones sobre los mismos. El tercero y último, 125 Capı́tulo 8 Modelo de predicción del Ibex 35 mucho más genérico, la creciente tendencia observada en las empresas a combinar equipos multidisciplinares en los procesos directivos de análisis y toma de decisiones, siendo necesario que los integrantes de dichos equipos conozcan los campos de conocimiento aplicados, en este caso finanzas, matemáticas y estadı́stica. En la segunda parte, se ha analizado de forma empı́rica el comportamiento del Ibex 35 desde 1998 hasta 2012. Del análisis se han podido extraer las principales caracterı́sticas del Ibex 35. El modelo propuesto parte de la descripción clásica de series temporales agregando las cuatro componentes: tendencia, ciclo, estacionalidad y componente irregular. Para las tres primeras se ha propuesto una combinación de una función lineal y funciones trigonométricas de distintas frecuencias. La parte irregular se ha modelizado combinando un modelo ARIMA con técnicas estadı́sticas basadas en procesos estocásticos. Las principales conclusiones que se pueden extraer tras la elaboración del modelo y la obtención de predicciones son las que se señalan a continuación. En primer lugar se ha determinado la existencia de cuatro fases en el comportamiento del Ibex 35: la primera desde 1998 hasta el 2000 con un comportamiento de subida inicial; la segunda que muestra una bajada significativa hasta 2003; la tercera desde el 2003 hasta el 2008 siendo observable un incremento significativo del Ibex 35; y la última desde 2008 hasta mediados de 2012, en el cual se produce un descenso a prácticamente niveles de 2003 con un comportamiento altamente volátil. Siguiendo la metodologı́a estadı́stica propia para la elaboración de modelos basados en series temporales, a esta serie se le han aplicado una corrección únicamente: toma de logaritmos naturales. Se estableció un criterio para la eliminación de outliers, pero no se localizó ninguna observación extrema en el periodo especificado. En la parte determinista del modelo se ha establecido la presencia de dos componentes. La primera, una combinación de tendencia y ciclo. La tendencia observada en la serie de datos modelizada es ligeramente creciente, y la duración del ciclo observado es de 468 semanas (9 años), como demuestra la estimación de los parámetros asociados a dichas componentes. La segunda es la estacionalidad anual, con una frecuencia de 52 semanas (un año). Los tests de hipótesis sobre los parámetros tuvieron como resultado la significatividad de los mismos. 126 Modelo de predicción del Ibex 35 Capı́tulo 8 En cuanto a la parte aleatoria, se ha propuesto un modelo ARIMA sobre los residuos de la parte determinista tras la identificación de estacionariedad en los mismos, obteniéndose un ARIMA (1,0,2). Al proceder a la validación del mismo se incumplieron las hipótesis de homocedasticidad y normalidad de los residuos, por lo que ha sido necesario profundizar en el estudio de los residuos. Los residuos del ARIMA fluctúan en torno al cero, pero con saltos extremos cada cierto tiempo. Para modelizar los residuos se ha recurrido a la realización de un filtrado para separar dichos saltos, siendo el resultado de ello que estos residuos filtrados siguen una distribución N (0, 0020; 0, 0239). Para reproducir el comportamiento de los saltos, se ha propuesto un proceso estocástico combinando dos procesos de Poisson compuestos, distribuidos simétricamente, para los saltos positivos y negativos, respectivamente. La volatilidad a la que se ha hecho referencia durante todo el trabajo y la dificultad para representarla con el modelo puede observarse gráficamente donde el modelo sobreestima el valor del Ibex 35 en los picos más bajos y subestima en los picos más altos, junto con la dificultad de predecir los movimientos bruscos que sufre el Ibex 35 entre dichos picos, limitación intrı́nseca a la modelización financiera. Ası́ pues, por lo que se puede extraer de los gráficos y datos resultantes, el modelo elaborado ha sido validadado correctamente pero no alcanza a realizar una predicción puntual fiable del Ibex 35, ya que no logra recoger adecuadamente los saltos ni los datos más extremos del ciclo. Si bien, dado que los ciclos económicos afectan también al mercado bursátil, podrı́a utilizarse el modelo para detectar los puntos mı́nimos y máximos del Ibex 35, a fin de no confundir un movimiento brusco como un punto de inflexión del ciclo. De este modo, la aplicación a priori del modelo estudiado es útil para la inversión a largo plazo, con la premisa hasta ahora correcta de que el mercado bursátil sigue el patrón ciclı́co. Los estudios posteriores sobre el trabajo realizado deberı́an contemplar un modelo distinto que permita recoger mejor la parte aleatoria de saltos. A continuación se señalan las propuestas de actuación que, a la vista de los resultados del presente trabajo, pueden ser tenidas en consideración para el futuro. La primera de ellas y más evidente, es la continuación en la toma de datos del Ibex 35 con el objeto de actualizar la estimación de los parámetros y deter127 Capı́tulo 8 Modelo de predicción del Ibex 35 minar, en su caso, posibles cambios en las distintas componentes observadas. En segundo lugar, debido a la importancia de la parte aleatoria en el comportamiento del Ibex 35, se podrı́a recurrir a otros métodos de modelización propuestos en distintos trabajos sobre la materia. Cabe señalar que la componente determinista consigue recoger las componentes clásicas de la serie, pero es claramente insuficiente en la modelización de la parte irregular, para lo cual, siguiendo el modelo de Schwarz (Benth y Saltyte Benth, 2013), se propone la aplicación de la distribución Normal Inversa Gaussiana (NIG), que profundiza en el empleo de los procesos estocásticos de la componente irregular. Como tercer punto, hay que señalar las subestimaciones y sobreestimaciones que realiza el modelo en ciertos lapsos temporales, una de sus principales debilidades. Son tal vez debidas a los periodos de tiempo establecidos para las componentes de tendencia, ciclo y estacionalidad. Por ello, si se quisiera estudiar con un mayor detalle el comportamiento del Ibex 35, se deberı́an considerar diferentes periodos de tiempo. El cuarto aspecto que se debe tener en cuenta es el cálculo de unos intervalos de confianza para las predicciones que tengan en cuenta todas las fuentes de variabilidad e incertidumbre del modelo y no sólo del ARIMA, como se ha realizado en el presente trabajo. Estas fuentes son los errores estándar de la estimación de los parámetros de la parte determinista y los procesos estocásticos de la componente irregular. En quinto lugar, cabe destacar que la parte aleatoria de la predicción mediante la técnica Monte Carlo del modelo se ha realizado manteniendo constantes los parámetros estimados con los datos originales. Si se reestimaran estos parámetros en cada simulación de la técnica Monte Carlo podrı́a fortalecerse la parte aleatoria y de este modo mejorarse el modelo. En último lugar y no por ello menos importante, no hay que dejar de lado el carácter multidisciplinar que gobierna el espı́ritu del trabajo. Esta forma de analizar los problemas cotidianos que se le pueden presentar a una empresa otorga distintos puntos de vista y diversas fuentes tanto de discusión de los propios problemas como de búsqueda de soluciones a partir de las disciplinas estudiadas, lo cual se configura como una poderosa herramienta que debe tenerse en cuenta para ser aplicada, con todas sus ventajas e inconvenientes, a la gestión de empresas. 128 Bibliografı́a Benth, F.E. y Saltyte Benth, J.: Modeling and Pricing in Financial Markets for Weather Derivatives. World Scientific, New York, 2013. Chirivella, V.: Apuntes de Econometrı́a. n0. 12059-C. Ed. Universitat Politècnica de València, Valencia, 2008. Cortés, J.C.; Debón, A. y Moreno, C.: Mathematical Modelling in Social Sciences and Engineering (Chapter 33: Portfolio composition to replicate stock market indexes. Application to the Spanish index Ibex-35). Nova Publ., 2014. Dı́az, A.: Introducción al Mercado Bursátil. McGraw Hill, Madrid, 2012. Facultad de Administración y Dirección de Empresas, Universitat Politècnica de València: Normativa del Trabajo Fin de Máster , 2010. http://www.upv.es/entidades/ADE/infoweb/fade/info/ 637966normalc.html Greene, W.H.: Análisis Econométrico. Prentice Hall, Cambridge, 2000. Hair, J.F.: Multivariate Data Analysis. Prentice Hall International, Berlı́n, 1995. Hernández, B.: Bolsa y Estadı́stica Bursátil. Dı́az de Santos, 1999. Hyndman, R. J.; Athanasopoulos, G.; Razbash, S.; Schmidt, D. y Zhou, Z.: Forecast: Forecasting Functions for Time Series and Linear Models (R package version 4.00), 2012. 129 Capı́tulo 8 Modelo de predicción del Ibex 35 Hyndman, R.J.; Koehler, A.B.; J.K., Ord y Snyder, R.D.: Forecasting with Exponential Smoothing: The State Space Approach. Springer, New York, 2005. Mateu, J.L.: Análisis Técnico de los Mercados Financieros. Instituto Superior de Técnicas y Prácticas Bancarias, Madrid, 2003. Murphy, J.J.: Análisis Técnico de los Mercados Financieros. Ediciones Gestión 2000, Madrid, 2007. Pring, M.J.: Análisis Técnico Explicado. Gesmovasa, Madrid, 1989. Shumway, R.H. y Stoffer, D.S.: Time Series Analysis and its Applications with R Examples. Springer, New York, 2006. Thode, H.C.: Testing for Normality. Marcel Dekker, New York, 2002. Trapletti, A. y Hornik, K.: R Package Time Series Analysis and Computational Finance. Free Software, 2012. Tvede, L.: Psicologı́a del Mercado Bursátil. Deusto, Madrid, 1990. Velez, O. y Capra, G.: Day Trading. Negociación Intradı́a: Estrategias y Tácticas. Deusto, Madrid, 2011. Zucchini, W. y Nenadic, O.: Time Series Analysis with R: Part I. Goettinghen University, Goettinghen, 2008. 130

Predicción del Ibex 35 con un modelo estocástico de salto de

Documentos relacionados

Productos

Apoyo

Predicción del Ibex 35 con un modelo estocástico de salto de

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib