Pronósticos - Statgraphics

Anuncio
STATGRAPHICS – Rev. 9/14/2006
Pronósticos
Resumen
El procedimiento Pronósticos esta diseñado para pronosticar valores futuros de datos de
series de tiempo. Una serie de tiempo consiste de un conjunto secuencial de datos
numéricos tomados en intervalos de tiempo equiespaciados, usualmente sobre un periodo
de tiempo o espacio. Los modelos disponibles para pronosticar valores futuros incluyen:
medias móviles, caminata aleatoria, varios tipos de suavizadores exponenciales, modelos
de tendencias, y modelos paramétricos ARIMA. Estadísticas son calculadas para
comparar el ajuste de hasta 5 modelos al mismo tiempo.
Este procedimiento esta diseñado para usuarios que desean seleccionar su propio modelo.
El procedimiento Pronósticos Automáticos ajusta varios modelos y automáticamente
selecciona el mejor modelo de acuerdo a un criterio especificado por bondad-del-ajuste.
Ejemplo StatFolio: tsforecast.sgp
Datos del Ejemplo:
El archivo golden gate.sf6 contiene volúmenes mensuales de trafico del Golden Gate
Bridge en San Francisco para un periodo de n = 168 meses desde Enero, 1968 hasta
Diciembre, 1981. La tabla de abajo muestra una lista parcial de los datos de este archivo:
Month
(Mes)
1/68
2/68
3/68
4/68
5/68
6/68
7/68
8/68
9/68
10/68
11/68
12/68
1/69
…
Trafiic
(Trafico)
73.637
77.136
81.481
84.127
84.562
91.959
94.174
96.087
88.952
83.479
80.814
77.466
75.225
…
Los datos fueron obtenidos de una publicación del Golden Gate Bridge.
Como un ejercicio, los datos de los últimos dos años (1980 y 1981) no serán usados para
estimar el modelo de pronóstico, pero serán utilizados para validación estadística.
© 2006 por StatPoint, Inc.
Pronósticos - 1
STATGRAPHICS – Rev. 9/14/2006
Entrada de Datos
La caja de dialogo para la entrada de datos solicita el nombre de la columna que
contienen los datos de la serie de tiempo:
•
Datos: Contiene la columna numérica con n observaciones numéricas igualmente
espaciadas.
•
Intervalo de Muestreo: Define el intervalo entre observaciones sucesivas. Por
ejemplo, los datos del Golden Gate Bridge fueron recolectados una vez cada mes,
empezando en Enero, 1968.
•
Estacionalidad: La longitud de la estacionalidad es s, si la hay. Los datos son
estaciónales si existen un patrón que se repite en un periodo fijo. Por ejemplo, los
datos mensuales como el trafico sobre Golden Gate Bridge tienen una estacionalidad
de s = 12. Los datos de horas que se repiten cada día tienen una estacionalidad de s =
24. Si no se ingresa nada, se asume que los datos tienen estacionalidad (s=1).
•
Ajuste de los Días: Una variable numérica con n observaciones es utilizada para
normalizar las observaciones originales, por ejemplo el número de días trabajados en
© 2006 por StatPoint, Inc.
Pronósticos - 2
STATGRAPHICS – Rev. 9/14/2006
un mes. Las observaciones en la columna Datos pueden ser divididos por estos
valores antes de dibujar un grafico o calcular un análisis. Debe haber suficientes
entradas en esta columna para cubrir tanto los datos observados como el número de
periodos en los cuales se solicitan los pronósticos.
•
Selección: La selección de un conjunto en los datos.
•
Numero de Pronósticos: Número de periodos que continúan al final de los datos
para los cuales se desean los pronósticos.
•
Retención para Validación: Número de periodos m al final de la serie con
propósitos de retención para la validación. Los datos en estos periodos no pueden
utilizarse para estimar el modelo de pronósticos. Sin embargo, se calculan estadísticas
que describen que tan bueno es el modelo estimado para poder pronosticar estas
observaciones.
En el ejemplo actual, los datos de trafico son mensuales empezando en Enero, 1968, y se
tiene una estacionalidad de s = 12. Un m = 24 observaciones al final de la serie de tiempo
con propósitos de retención para la validación, mientras los pronósticos pueden generarse
de los siguientes 36 meses.
Opciones del Análisis
El procedimiento Pronósticos es controlado por la caja de dialogo Opciones del Análisis:
© 2006 por StatPoint, Inc.
Pronósticos - 3
STATGRAPHICS – Rev. 9/14/2006
•
Modelo: El modelo para el cual las otras configuraciones sobre la caja de dialogo
aplican. Hasta cinco modelos de pronósticos pueden ser considerados al mismo
tiempo, etiquetados A, B, C, D, y E.
•
Transformar: Antes de ajustar un modelo, los datos pueden ser transformados
usando cualquiera de las operaciones indicadas. Con la excepción de la
transformación Box-Cox, las selecciones son auto-exploratorias. La transformación
Box-Cox es utilizada cuando es necesario transformar los datos a una normal. Para
una discusión detallada, vea la documentación del procedimiento Transformaciones
Box-Cox.
•
Estacionalidad: Ajusta estacionalmente los datos usando el método indicado antes de
ajustar el modelo. Los ajustes de estacionalidad están diseñados para remover
cualquier componente estacional de los datos. Los métodos usados son discutidos en
la documentación del procedimiento Descomposición Estacional.
•
Inflación: Ajusta los datos con una inflación usando la razón de inflación
especificada λ antes de ajustar el modelo. Si se aplica al principio del periodo, el
ajuste es
© 2006 por StatPoint, Inc.
Pronósticos - 4
STATGRAPHICS – Rev. 9/14/2006
y t′ =
yt
(1)
(1 + λ )(t −t +1)
0
donde t0 es el índice de la primera observación. Si se aplica en la mitad del periodo, el
ajuste es
yt′ =
yt
(1 + λ ) (t −t0 +0.5)
(2)
Nota: Las transformaciones son aplicadas a los datos antes de que el modelo de
pronósticos sea estimado. Si más de una transformación es requerida, serán aplicadas
en el siguiente orden:
1.
2.
3.
4.
Ajuste por días
Ajuste por inflación
Ajuste por transformación
Ajuste por estacionalidad
Después de que los pronósticos son generados, las transformaciones inversas pueden
aplicarse a los pronósticos en orden inverso.
•
Tipo: El tipo de modelo de pronósticos a estimar. Para una explicación de los
diferentes tipos de modelos, ver la discusión de abajo.
•
Parámetros y Términos: Las opciones para diferentes modelos de pronósticos.
o Alpha, beta, y gamma: Parámetros para los modelos de Suavizamiento
Exponencial. Cada parámetro debe ser más mayor que 0 y menor que 1. El
valor más pequeño de un parámetro, es la cantidad más grande de
suavizamiento que será desarrollado.
o Orden: El numero de términos en el modelo de Medias Móviles.
o AR, MA, SAR, y SMA: El orden de varios componentes de los modelos
ARIMA, refiérase a p, q, P, y Q respectivamente en la discusión más adelante.
o Optimizar: Cuando los valores óptimos de los parámetros serán encontrados.
Si se selecciona, los valores de los parámetros especificados son usados como
valores iniciales para los procedimientos de búsqueda. Si no se selecciona, los
valores introducidos serán usados en el modelo.
o Constante: Si un término constante deberá incluirse cuando se estima un
modelo Aleatorio Walk o ARIMA.
© 2006 por StatPoint, Inc.
Pronósticos - 5
STATGRAPHICS – Rev. 9/14/2006
•
Diferenciación: El orden de diferenciación estacional o no estacional que serán
aplicados cuando se ajuste los modelos ARIMA, llamados d y D en la discusión de
abajo.
•
Botón de Estimación: Despliega una caja de dialogo que controla el procedimiento
de la estimación no lineal utilizado cuando se optimizan los modelos ARIMA y de
suavizamiento exponencial.
Criterio de Paro 1: El algoritmo asume que convergió cuando el cambio relativo en
las sumas de cuadrados de los residuos de una iteración a otra es menor que este
valor.
Criterio de Paro 2: El algoritmo asume que convergió cuando el cambio relativo en
todos los estimadores de los parámetros de una iteración a otra es menor que este
valor.
Máximo de Iteraciones: La estimación se detiene si la convergencia no es alcanzada
en este número de iteraciones.
Pronostico Hacia Atrás: Sirve para pronosticar valores antes del tiempo t = 1. Estos
valores son usados para generar los valores iniciales los cuales son necesarios para
generar pronósticos de valores pequeños de t. Para mas detalles, ver Box, Jenkins y
Reinsel (1994).
•
Botón de Regresión: Adiciona variables independientes adicionales al modelo de
pronósticos cuando se estima un modelo de Tendencias o ARIMA. Típicamente tales
variables son valores retrasados de indicadores principales.
© 2006 por StatPoint, Inc.
Pronósticos - 6
STATGRAPHICS – Rev. 9/14/2006
Variables: Valores de las variables X que serán incluidos en el modelo. Si deseas
incluir una columna X que retrasa a los datos por 3 filas es decir que el modelo
incluye un termino Xt-3, ingresar LAG(X,3) en lugar de solo X.
Nota: Cualquier letra es seleccionada en el campo Modelo cuando la caja de dialogo es
cerrada tomada del primer modelo. Este es el modelo usado para generar todas las tablas
y graficas (excepto para el panel Comparación de Modelos, el cual compara a todos).
Modelos de Pronósticos
Cada uno de los modelos de pronósticos toma una aproximación diferente para
pronosticar valores futuros. En la discusión de abajo, la siguiente notación será usada:
Yt = valor observado en el tiempo t, t = 1, 2,…, n
n = tamaño de muestra (numero de observaciones usadas para ajustar el modelo)
Ft(k) = pronostico para el tiempo t+k hecho en el tiempo t
et = errores del pronostico un paso adelante calculados por
et = Yt - Ft-1(1)
(3)
Dado que m observaciones del final de la serie han sido usadas para propósitos de
validación, dos estadísticas importantes de validación son:
RMSE = Raíz del cuadrado medio error sobre el periodo de validación, dado por
© 2006 por StatPoint, Inc.
Pronósticos - 7
STATGRAPHICS – Rev. 9/14/2006
m
RMSE =
∑e
i =1
2
n +i
(4)
m
MAPE = Porcentaje de la media del error absoluto sobre el periodo de validación,
dado por
m
MAPE = 100
∑e
i =1
n +i
m
/ Yt +i
%
(5)
El RMSE estima la desviación estándar de los errores de pronósticos un paso adelante. El
MAPE estima el porcentaje promedio del error de pronostico un paso adelante. Los
valores pequeños de RMSE y MAPE son deseables.
Modelo Aleatorio Walk
El Modelo Aleatorio Walk es muy simple. Sin una constante, este utiliza el valor actual
de la serie para pronosticar todos los valores futuros, i.e.,
Ft(k) = Yt para toda k ≥ 1
(6)
Este modelo es frecuentemente usado para datos que no tienen una media fija y para los
cuales la historia del modelo es irrelevante dado la posición actual. La serie de tiempo es
igualmente parecida hacia delante que hacia atrás en cualquier punto del tiempo.
Si una constante es incluida, entonces el pronostico es dado por
Ft (k ) = Yt + kΔˆ
(7)
donde Δ̂ estima el cambio promedio de un periodo al otro. La función de pronostico para
tal modelo es una línea recta con pendiente igual a Δ̂ .
Para los datos del ejemplo, el modelo aleatorio de walk podría ser usado incluyendo la
constante y la serie de tiempo es primeramente ajustada periódicamente. Los resultados
son mostrados enseguida:
Modelo
Constante
AleatorioWalk Si
© 2006 por StatPoint, Inc.
Aj. Estacional
Multiplicativo
Validación RMSE
1.65
Validación MAPE
1.46%
Pronósticos - 8
STATGRAPHICS – Rev. 9/14/2006
Gráfica de Secuencia en Tiempo para Traffic
Caminata aleatoria con drift = 0.114193
153
actual
pronóstico
Límites del 95.0%
Traffic
133
113
93
73
1/68
1/72
1/76
1/80
1/84
1/88
La tabla muestra:
1. Datos Observados: Mostrados usando puntos símbolos.
2. Pronósticos un paso adelante: Mostrados como una línea sólida que pasa a través
de los datos.
3. Pronósticos para valores futuros: La extensión de los pronósticos pasados al final
de los datos.
4. Limites de predicción al 95%: Los limites rojos alrededor de los pronósticos.
Observe que los límites de predicción anchos, son típicos de un modelo aleatorio walk.
Modelos de Tendencia
La Media, Tendencia Lineal, Tendencia Cuadrática, Tendencia Exponencial, y Modelos
S-Curva todos estiman varios tipos de modelos de regresión a los datos, usando tiempo
como la variable independiente. Los modelos son ajustados por mínimos cuadrados,
resultando estimadores de hasta 3 coeficientes a, b, y c. Los pronósticos de los modelos
son como sigue:
Modelo Media: Ft ( k ) = Y
(8)
donde Y es el promedio de los datos hasta el tiempo t.
Tendencia Lineal: Ft (k ) = aˆ + bˆ(t + k )
(9)
Tendencia Cuadrática: Ft (k ) = aˆ + bˆ(t + k ) + cˆ(t + k ) 2
(10)
(
Tendencia Exponencial: Ft (k ) = exp aˆ + bˆ(t + k )
© 2006 por StatPoint, Inc.
)
(11)
Pronósticos - 9
STATGRAPHICS – Rev. 9/14/2006
(
S-Curva: Ft (k ) = exp aˆ + bˆ /(t + k )
)
(12)
Puesto que ponderan todos los datos igualmente, los modelos de regresión no son
frecuentemente los mejores métodos para pronosticar series de tiempo.
Para los datos del ejemplo, el mejor modelo de tendencia ajustado es la Tendencia
Cuadrática, estimada después de ajustar la estacionalidad.
Modelo
Tendencia
Cuadrática
Aj. Estacional
Multiplicativo
Validación RMSE
1.58
Validación MAPE
1.42%
Gráfica de Secuencia en Tiempo para Traffic
Tendencia cuadrática = 41.5321 + 0.269169 t + -0.000306429 t^2
123
actual
pronóstico
Límites del 95.0%
Traffic
113
103
93
83
73
1/68
1/72
1/76
1/80
1/84
1/88
Medias Móviles
El modelo de Medias Móviles usa el promedio de las más recientes c observaciones para
pronosticar los valores futuros. Los pronósticos son dados por:
c −1
Ft (k ) =
∑Y
t −i
i =0
c
para toda k ≥ 1
(13)
Tal modelo puede modelar series que se mueven hacia arriba y abajo, pero tienden
retrasar atrás de la serie actual.
Experimentando con varias ordenes de medias móviles, se encontró que c = 2 encuentra
el mejor ajuste para los datos de trafico durante el periodo de validación.
Modelo
Medias Móviles
Orden
2
© 2006 por StatPoint, Inc.
Aj. Estacional
Multiplicativo
Validación RMSE
1.44
Validación MAPE
1.27%
Pronósticos - 10
STATGRAPHICS – Rev. 9/14/2006
Gráfica de Secuencia en Tiempo para Traffic
Promedio móvil simple de 2 términos
123
actual
pronóstico
Límites del 95.0%
Traffic
113
103
93
83
73
1/68
1/72
1/76
1/80
1/84
1/88
Observe que la función de pronósticos no tiene tendencia, lo cual es intuitivo dado el
comportamiento observado. Sin embargo, el pronóstico un mes adelante parece ser muy
bueno.
Suavizamiento Exponencial
Los modelos Suavizamiento Exponencial Simple, Suavizamiento Exponencial Lineal de
Brown, y Suavizamiento Exponencial Cuadrático estiman tendencias similares a los
modelos de Tendencias Media, Lineal, y Cuadrática, respectivamente. Sin embargo,
estos lo hacen ponderando las observaciones recientes más pesadamente que las que están
más allá en el pasado.
Para generar los pronósticos, hasta tres pasos de un suavizamiento exponencial son
hechos:
S t′ = αYt + (1 − α ) S t′−1
(14)
S t′′ = αS t′ + (1 − α ) S t′′−1
(15)
S t′′′ = S t′′ + (1 − α ) S t′′−′1
(16)
Los valores iniciales en el tiempo t = 0 son determinados por pronósticos hacia atrás (a
menos de que se suprima usando el botón Estimación en la caja de dialogo Opciones del
Análisis), lo cual primero suaviza la serie hacia atrás y después usa el pronostico hacia
atrás para inicializar el suavizamiento hacia adelante. Los pronósticos son generados de
Suavizamiento Simple: Ft ( k ) = S t′
© 2006 por StatPoint, Inc.
(17)
Pronósticos - 11
STATGRAPHICS – Rev. 9/14/2006
Suavizamiento Lineal: Ft (k ) = 2 S t′ − S t′′ + k
α
(S t′ − S t′′)
1−α
(18)
Suavizamiento Cuadrático:
3S t′ − 3S t′′ + S t′′ + k
Ft(k)=
α
2(1 − α ) 2
((6 − 5α ) S t′ − (10 − 8α ) S t′′ + (4 − 3α ) S t′′′)
(19)
α2
(S t′ − 2S t′′ + S t′′′)
+k
2(1 − α ) 2
2
El Suavizamiento Exponencial Cuadrático produce los mejores resultados de los tres
procedimientos durante el periodo de validación cuando se pronostica un paso adelante.
Sin embargo, la extrapolación de una tendencia cuadrática en el futuro siempre es
problemática, como puede verse en la grafica anterior.
Modelo
Alfa
Aj. Estacional Validación
(Optimizado)
RMSE
0.2211
Multiplicativo 1.55
Suavizamiento
Exp.
Cuadrático
Validación MAPE
1.31%
Gráfica de Secuencia en Tiempo para Traffic
Suavización exp. cuadrática de Brown con alfa = 0.2211
120
actual
pronóstico
Límites del 95.0%
100
Traffic
80
60
40
20
0
1/68
1/72
1/76
1/80
1/84
1/88
Este ejemplo ilustra varios hechos importantes:
1. Es importante ver en los resultados cuando un modelo de pronóstico es ajustado
adecuadamente a los datos.
2. Los modelos que son buenos para pronósticos en corto plazo no pueden
pronosticar bien los valores futuros muy lejanos.
© 2006 por StatPoint, Inc.
Pronósticos - 12
STATGRAPHICS – Rev. 9/14/2006
3. Los modelos que involucran polinomios de orden 2 o mayor pueden comportarse
erráticamente.
Suavizamiento Exponencial Lineal de Holt
El Suavizamiento Exponencial Lineal de Holt es similar al Suavizamiento Exponencial de
Brown en que genera pronósticos que siguen una tendencia lineal. Aunque, el
procedimiento de Holt usa dos constantes de suavizamiento, α y β, uno para estimar el
nivel de la serie en el tiempo t y la segunda para estimar la pendiente. El procedimiento
es como sigue:
1. Suavizar los datos para estimar el nivel usando
S t = αYt + (1 − α )(S t −1 + Tt −1 )
(20)
2. Suavizar el primer suavizador para estimar la pendiente usando
Tt = β (S t − S t −1 ) + (1 − β )Tt −1
(21)
3. Calcular el pronóstico usando
Ft (k ) = S t + kTt
(22)
Lo siguiente muestra los resultados de optimizar el suavizador de Holt después de ajustar
la estacionalidad:
Modelo
Alfa
Beta
Aj. Estacional Validación
(optimizado) (optimizado)
RMSE
0.0152
Multiplicativo 1.48
Suavizamiento 0.6843
Exponencial
Lineal de Holt
© 2006 por StatPoint, Inc.
Validación
MAPE
1.32
Pronósticos - 13
STATGRAPHICS – Rev. 9/14/2006
Gráfica de Secuencia en Tiempo para Traffic
Suavización exp. De Holt con alfa = 0.6843 y beta = 0.0152
153
actual
pronóstico
Límites del 95.0%
Traffic
133
113
93
73
1/68
1/72
1/76
1/80
1/84
1/88
Los resultados parecen bastantes razonables.
Suavizamiento Exponencial de Winter
Todos los métodos de pronósticos descritos anteriormente manejan la estacionalidad
primero ajustando estacionalmente los datos, después aplicando el modelo de pronóstico,
y por último regresando la estacionalidad. El procedimiento Suavizamiento Exponencial
de Winter maneja la estacionalidad directamente al mismo tiempo que estima el nivel y la
tendencia. Esto extiende el procedimiento de Holt adhiriendo un parámetro adicional γ
para usar un tercer suavizador. El procedimiento es como sigue:
1. Estimar la estacionalidad suavizando la razón de los datos al nivel estimado en el
tiempo t usando:
It = γ
Yt
+ (1 − γ ) I t − s
St
(23)
donde s es el tamaño de la estacionalidad.
2. Estimar el nivel de la serie suavizando los datos divididos por la estacionalidad
estimada usando
St = α
Yt
+ (1 − α )(S t −1 + Tt −1 )
I t −s
(24)
3. Estimar la pendiente de la serie usando
Tt = β (S t − S t −1 ) + (1 − β )Tt −1
© 2006 por StatPoint, Inc.
(25)
Pronósticos - 14
STATGRAPHICS – Rev. 9/14/2006
4. Calcular el pronostico usando
Ft (k ) = (S t + kTt )I t − s + m
(26)
Lo siguiente muestra los resultados de optimizar el suavizamiento de Winter:
Modelo
Alfa
Beta
Gama
(optimizado) (optimizado) (optimizado)
0.0180
0.4993
Suavizamiento 0.5162
Exponencial
de Winter
Validación
RMSE
1.81
Validación
MAPE
1.57%
Gráfica de Secuencia en Tiempo para Traffic
Suavización exp. de Winter con alfa = 0.5162, beta = 0.018, gama = 0.4993
153
actual
pronóstico
Límites del 95.0%
Traffic
133
113
93
73
1/68
1/72
1/76
1/80
1/84
1/88
Su desarrollo con los datos del tráfico no es muy bueno como los otros métodos. También
los estimadores son mas difíciles de estimar numéricamente y pueden variar bastante
dependiendo de los valores iniciales del procedimiento de búsqueda.
Modelos ARIMA
La opción final de los modelos de pronósticos, los modelos ARIMA, son los mas
generales e incluyen muchos de los otros modelos como casos particulares. Los modelos
ARIMA (es un acrónimo de “AutoRegressive, Integrated, Moving Average”), expresan la
observación en el tiempo t como una función lineal de las observaciones previas, un
termino del error actual, y una combinación lineal de los términos del error previo.
La forma general del modelo es mas fácilmente expresada en términos del operador de
rezago B, el cual opera en el índice del tiempo de un dato tal como BjYt = Yt-j. Usando este
operador, el modelo toma la forma
(1 − B − B
2
)(
)
− ... − B p 1 − B s − B 2 s − ... − B Ps (1 − B ) d (1 − B s ) D Z t
(
)(
)
= 1 − B − B 2 − ... − B q 1 − B s − B 2 s − ... − B Qs a t
© 2006 por StatPoint, Inc.
(27)
Pronósticos - 15
STATGRAPHICS – Rev. 9/14/2006
donde
Z t = Yt − μ
(28)
y at es un error aleatorio o choque del sistema en el tiempo t, usualmente asumido normal
con media 0 y desviación estándar σa. Para una serie estacionaria, μ representa la media
del proceso. En caso contrario, esta relacionada a la pendiente de la función de
pronóstico, μ es algunas veces asumida igual a 0.
El modelo anterior es frecuentemente representado como ARIMA(p,d,q)x(P,D,Q)s Esto
consiste de varios términos:
1.
2.
3.
4.
5.
6.
Un término auto-regresivo no estacional de orden p.
Diferenciación no estacional de orden d.
Un término de media móvil no estacional de orden q.
Un termino auto-regresivo estacional de orden P
Diferenciación estacional de orden D.
Un término de media móvil estacional de orden Q.
Mientras que el modelo general luce formidable, los modelos mas comúnmente usados
son casos relativamente simples especiales. Estos incluyen:
AR(1) – Auto-regresivo de orden 1
La observación en el tiempo t es expresada como una media más un múltiplo de la
desviación de la media en el periodo de tiempo previo más un error aleatorio:
Yt = μ + φ1 (Yt −1 − μ ) + a t
(29)
AR(2) – Auto-regresivo de orden 2
La observación en el tiempo t es expresada como una media más un múltiplo de la media
en dos periodos previos más un error aleatorio:
Yt = μ + φ1 (Yt −1 − μ ) + φ 2 (Yt − 2 − μ ) + a t
(30)
MA(1) – Media móvil de orden 1
La observación en el tiempo t es expresada como una media más un error aleatorio en el
periodo de tiempo actual más un múltiplo del error aleatorio en el periodo de tiempo
previo:
Yt = μ + a t − θ 1 a t −1
© 2006 por StatPoint, Inc.
(31)
Pronósticos - 16
STATGRAPHICS – Rev. 9/14/2006
MA(2) – Media móvil de orden 2
La observación en el tiempo t es expresada como una media más un error aleatorio en el
periodo de tiempo actual más múltiplos de los errores aleatorios en los 2 periodos de
tiempo previos:
Yt = μ + a t − θ 1 a t −1 − θ 2 a t − 2
(32)
ARMA(1,1) – Modelo mixto con dos términos de primer orden
La observación en el tiempo t es expresada como una media más un múltiplo de la
desviación media en el periodo de tiempo previo más un error aleatorio en el periodo de
tiempo actual más un múltiplo del error aleatorio en el periodo de tiempo previo:
Yt = μ + φ1 (Yt −1 − μ ) + a t − θ 1 a t −1
(33)
ARIMA(0,1,1) – Media móvil de orden 1 aplicada a la primer diferencia
La diferencia entre el periodo actual y el previo es expresada como un error aleatorio del
periodo actual más un múltiplo del error aleatorio en el periodo de tiempo previo:
Yt − Yt −1 = a t − θ 1 a t −1
(34)
Esto modelo es equivalente al modelo de Suavizamiento Exponencial Simple.
ARIMA(0,2,2) – Media móvil de orden 2 aplicada a la segunda diferencia
La diferencia de las diferencias es expresada como un error aleatorio en el periodo de
tiempo actual más múltiplos de los errores aleatorios en los 2 periodos de tiempo previos:
(Yt
− Yt −1 ) − (Yt −1 − Yt − 2 ) = a t − θ 1 a t −1 − θ 2 a t − 2
(35)
Este modelo es equivalente al modelo de Suavizamiento Exponencial Lineal de Holt.
ARIMA(0,1,1)x(0,1,1)s –MA términos de orden 1 estaciónales y no estaciónales
La observación en el tiempo t es expresada como una combinación de la observación en
estacionalidad más la diferencia entre la observación del ultimo periodo y su contraparte
estacional mas un múltiplo de error de este periodo, el ultimo periodo y dos periodos uno
estacional:
Yt = Yt − s + Yt −1 − Yt − s −1 + a t − θ 1 a t −1 −Θ 1 a t − s + θ 1 Θ 1 a t − s −1
(36)
Muchas series de tiempo económicas con un componente estacional pueden
representarse con este modelo. Este modelo también representa muy bien a los datos del
tráfico Golden Gate Bridge:
© 2006 por StatPoint, Inc.
Pronósticos - 17
STATGRAPHICS – Rev. 9/14/2006
Modelo
MA(1)
SMA(1)
ARIMA
0.2273
0.8568
Validación
RMSE
1.47
Validación
MAPE
1.27%
Gráfica de Secuencia en Tiempo para Traffic
ARIMA(0,1,1)x(0,1,1)12
133
actual
pronóstico
Límites del 95.0%
123
Traffic
113
103
93
83
73
1/68
1/72
1/76
1/80
1/84
1/88
Intuitivamente, el modelo expresa la diferencia del trafico en este mes comparado con el
mismo mes del ultimo año como si fuera igual a la diferencia observada en el ultimo mes,
mas una combinación de ruido observada del ultimo mes, del ultimo año y hace 13
meses.
La referencia clásica para construir modelos ARIMA es Box, Jenkins y Reinsel (1994).
© 2006 por StatPoint, Inc.
Pronósticos - 18
STATGRAPHICS – Rev. 9/14/2006
Resumen del Análisis
Los resultados para ajustar un modelo de pronósticos son mostrados en Resumen del
Análisis. Como ejemplo, la tabla siguiente muestra los resultados de ajustar el modelo
ARIMA(0,1,1)x(0,1,1)12 a los datos de trafico del puente Golden Gate:
Pronósticos - Traffic
Datos/Variable: Traffic (Golden Gate Bridge Traffic Volume)
Número de observaciones = 168
Indice Inicial = 1/68
Intervalo de Muestra = 1.0 mes(es)
Longitud de la estacionalidad = 12
Resumen de Pronósticos
Diferenciación no estacional de orden: 1
Diferenciación estacional de orden: 1
Modelo de pronóstico seleccionado: ARIMA(0,1,1)x(0,1,1)12
Número de pronósticos generados: 36
Número de periodos retenidos para validación: 24
Estadístico
RMSE
MAE
MAPE
ME
MPE
Periodo de
Estimación
2.1868
1.38616
1.52679
-0.0410165
-0.080606
Periodo de
Validación
1.46574
1.23025
1.26567
-0.000900154
-0.0111287
Resumen de Modelo ARIMA
Parámetro Estimado
Error Estd. t
Valor-P
MA(1)
0.277336
0.0843672
3.28724
0.001255
SMA(1)
0.85681
0.0283923
30.1776
0.000000
Pronóstico Histórico: sí
Varianza estimada de ruido blanco = 4.93026 con 153 grados de libertad
Desviación estándar estimada de ruido blanco = 2.22042
Número de iteraciones: 6
Hay varias secciones importantes en esta salida:
•
Resumen de los Datos: La sección superior resume los datos de entrada y el tamaño
de la estacionalidad s, si la hay.
•
Resumen del Pronóstico: Indica cualquier transformación que fue hecha a los datos,
como tan bien el tipo de modelo que fue ajustado. El numero de periodos m que
fueron usados para propósitos de validación también son mostrados.
•
Tabla de Estadísticas: Muestra las estadísticas calculadas del error un paso adelante
durante los periodos de estimación y validación. Además la raíz del cuadrado medio
del error (RMSE) y el porcentaje de la media de error absoluto (MAPE) descrito
anteriormente, el programa también despliega la medio del error absoluto (MAE), la
media del error (ME), y el porcentaje medio del error (MPE). Idealmente, RMSE,
© 2006 por StatPoint, Inc.
Pronósticos - 19
STATGRAPHICS – Rev. 9/14/2006
MAE, y MAPE deben ser pequeños, ya que miden la variabilidad de los errores del
pronóstico. ME y MPE deben acercarse a 0 si el pronostico no esta sesgado.
•
Resumen del Modelo ARIMA – Despliega estadísticas para los coeficientes del
modelo ARIMA estimado. Una tabla similar será desplegada cuando los modelos de
tendencias son ajustados usando regresión de mínimos cuadrados. Es de interés:
o Estimación: Los coeficientes estimados.
o Error Est.: El error estándar de los coeficientes.
o Valor t: El valor de un estadístico t calculado dividiendo el coeficiente estimado
entre su error estándar.
o Valor-P: El valor-P de los dos lados calculado de la distribución t de Student con
los grados de libertad indicados debajo de la tabla. Los valores P pequeños
(menores que 0.05 si opera a un nivel de confianza del 95%) corresponden a
coeficientes estadísticamente significativos. Si cualquier Valor-P es mayor que
0.05, se debe considerar reducir la complejidad del modelo.
o Estimación Desviación Estándar del Ruido Blanco: Para estimar la desviación
estándar del ruido blanco σˆ a que es acumulada por el modelo.
o Numero de Iteraciones: El numero de iteraciones usadas por el procedimiento de
estimación no lineal.
En el ejemplo, el modelo ARIMA estimado tiene 2 parámetros, ambos son
estadísticamente significativos. El ME y MPE son cercanos a 0 en la estimación y en la
validación, indicando poco sesgo sobre el pronostico un paso adelante. Examinando el
RMSE, MAE, y MAPE, el modelo no parece ser peor (y posiblemente mejor) durante el
periodo de validación que en el periodo de estimación.
Gráfico Secuencial del Tiempo
El Gráfico Secuencial del Tiempo despliega los datos, los pronósticos y los límites de
pronóstico:
© 2006 por StatPoint, Inc.
Pronósticos - 20
STATGRAPHICS – Rev. 9/14/2006
Gráfica de Secuencia en Tiempo para Traffic
ARIMA(0,1,1)x(0,1,1)12
133
actual
pronóstico
Límites del 95.0%
123
Traffic
113
103
93
83
73
1/68
1/72
1/76
1/80
1/84
1/88
El grafico muestra:
1. Los datos observados Yt, incluyendo algunos remplazaos para datos perdidos,
mostrados como puntos símbolos.
2. El pronostico un paso adelante Ft(1), grafica una línea sólida a través de los
puntos. Esta es creada usando el modelo estimado, pronosticando cada periodo de
tiempo t+1 usando solo la información disponible hasta el tiempo t. Los errores
del pronostico un paso adelante et son observables como la distancia vertical entre
las observaciones y la línea sólida.
3. Los pronósticos para valores futuros Fn+m(k) hechos en el tiempo t = n+m, para el
ultimo tiempo en el cual los datos son disponibles. Estos son mostrados por la
extensión de la línea de pronósticos sólida más allá de la última observación.
4. Los limites de probabilidad para los pronósticos en el nivel 100(1-α)% de
confianza, son calculados asumiendo que el ruido en el sistema sigue una
distribución normal. Los limites están dados por
Fn + m (k ) ± zα / 2 Vˆ (k )
(37)
donde Vˆ (k ) es igual a la varianza estimada del pronostico k periodos antes del
final de los datos. La formula para la varianza depende del modelo usado,
conforme a la sección Cálculos. Se deberá notar que los límites son solamente
validos si varias suposiciones se cumplen, incluyendo:
a. El modelo apropiado ha sido seleccionado.
b. El modelo seleccionado fue valido para todo el historial de los
datos.
© 2006 por StatPoint, Inc.
Pronósticos - 21
STATGRAPHICS – Rev. 9/14/2006
c. El modelo seleccionado continua siendo valido en el futuro.
d. Los errores del sistema siguen una distribución normal.
e. El modelo ha sido estimado de una serie suficientemente larga tal
que el error de estimación del modelo es pequeño comparado con
la variabilidad del termino error (excepto para modelos
estimados por regresión lineal los cuales incluyen el error de
estimación del modelo).
En la practica, los límites se deben considerar como una aproximación de hasta
dónde la serie de tiempo puede variar los valores pronosticados en el futuro.
El patrón pronosticado para el tráfico del Puente Golden Gate tiene una tendencia
ascendente con una fuerte oscilación estacional. Aunque los límites de pronósticos
pueden parecer bastante amplios, se debe permitir la posibilidad de eventos dramáticos
tales como los que fueron observados un par de veces en el pasado.
Opciones del Panel
•
Nivel de Confianza: El porcentaje usado para los limites de probabilidad.
© 2006 por StatPoint, Inc.
Pronósticos - 22
STATGRAPHICS – Rev. 9/14/2006
Tabla de Pronósticos
La Tabla de Pronósticos despliega los pronósticos para el histórico y el futuro. Una
porción de la salida se muestra abajo:
Tabla de Pronósticos para Traffic
Modelo: ARIMA(0,1,1)x(0,1,1)12
V = Retenido para validación
Periodo Datos
Pronóstico Residuo
1/68
8/81
9/81
10/81
11/81
110.652
104.117
99.1015
96.5951
73.637
109.385
103.266
99.432
93.965
-1.26658
-0.850957
0.330487
-2.63007
V
V
V
V
Inferior 95.0% Superior 95.0%
Periodo Pronóstico (Límite)
(Límite)
1/82
2/82
3/82
4/82
5/82
90.5668
93.3945
96.3379
98.8411
99.3509
86.1802
87.9823
90.0656
91.8132
91.6412
94.9535
98.8067
102.61
105.869
107.061
La sección superior de la salida muestra:
•
Periodo: El periodo de tiempo t correspondiente a cada observación histórica.
•
Datos: Los valores observados Yt, incluyendo reemplazos por valores perdidos.
•
Pronóstico: El pronostico para el tiempo t usando toda la información disponible
hasta el tiempo t-1.
•
Residuos: El error del pronostico un paso adelante et, es calculado sustrayendo el
pronostico del valor observado.
•
V: Indica que la observación correspondiente no fue usada para ajustar el modelo
pero en lugar de eso fue incluida para la validación.
La sección inferior de la salida muestra:
•
Periodo: El periodo de tiempo t correspondiente a periodos mas allá del final de
los datos observados.
•
Pronóstico: El pronostico Fn+m(k) para el tiempo t usando toda la información
disponible .
•
Limites: Limites de probabilidad para los pronósticos.
© 2006 por StatPoint, Inc.
Pronósticos - 23
STATGRAPHICS – Rev. 9/14/2006
Por ejemplo, el tráfico pronosticado en el puente Golden Gate en junio de 1982, fue
hecho al final de 1981, con 104.8. El límite al 95% es de 96.5 hasta 113.2.
Gráfico del Pronóstico
El Gráfico del Pronostico muestra las últimas observaciones, los pronósticos y los limites
de pronósticos:
Gráfica de Pronósticos para Traffic
ARIMA(0,1,1)x(0,1,1)12
134
actual
pronóstico
Límites del 95.0%
124
Traffic
114
104
94
84
74
12/81
12/82
12/83
12/84
12/85
Es similar al Gráfico Secuencial del Tiempo, excepto que proporciona una vista más
cercana sobre los pronósticos.
© 2006 por StatPoint, Inc.
Pronósticos - 24
STATGRAPHICS – Rev. 9/14/2006
Comparación de Modelos
El panel Comparación de Modelos despliega estadísticas que comparan cada uno de los
modelos seleccionados en la caja de dialogo Opciones del Análisis.
Comparación de Modelos
Variable de datos: Traffic
Número de observaciones = 168
Indice Inicial = 1/68
Intervalo de Muestra = 1.0 mes(es)
Longitud de la estacionalidad = 12
Número de periodos retenidos para validación: 24
Modelos
(A) ARIMA(0,1,1)x(0,1,1)12
(B) Suavización exp. de Winter con alfa = 0.5167, beta = 0.0209, gama = 0.4997
Periodo de Estimación
Modelo
RMSE
MAE
(A)
2.1868
1.38616
(B)
2.40367
1.55478
Modelo
(A)
(B)
RMSE
2.1868
2.40367
RUNS
OK
OK
Periodo de Validación
Modelo
RMSE
MAE
(A)
1.46574
1.23025
(B)
1.81155
1.56671
MAPE
1.52679
1.70574
RUNM
OK
OK
MAPE
1.26567
1.57305
ME
-0.0410165
-0.272691
AUTO
OK
OK
MPE
-0.080606
-0.312487
MEDIA
OK
OK
ME
-0.000900154
-0.0889473
VAR
***
***
MPE
-0.0111287
-0.0567873
Clave:
RMSE = Root Mean Squared Error (Raíz del Cuadrado Medio del Error)
RUNS = Prueba corridas excesivas arriba y abajo
RUNM = Prueba corridas excesivas arriba y abajo de la mediana
AUTO = Prueba de Box-Pierce para autocorrelación excesiva
MEDIA = Test for difference in mean 1st half to 2nd half
VAR = Prueba para diferencia en varianza entre la 1ª mitad y la 2ª mitad
OK = no significativo (p >= 0.05)
* = marginalmente significativo (0.01 < p <= 0.05)
** = significativo (0.001 < p <= 0.01)
*** = altamente significativo (p <= 0.001)
Las tablas etiquetadas Periodo de Estimación y Periodo de Validación despliegan
estadísticas calculadas de los errores de pronósticos un paso adelante et en sus periodos
respectivos:
RMSE: Raíz del cuadrado medio del error.
MAE: La media del error absoluto.
MAPE: El porcentaje de la media del error absoluto.
ME: La media del error.
MPE: El porcentaje de la media del error.
© 2006 por StatPoint, Inc.
Pronósticos - 25
STATGRAPHICS – Rev. 9/14/2006
Los mejores modelos tienen RMSE, MAE y MAPE más pequeños, los cuales miden la
varianza de los errores del pronóstico. ME y MPE son medidas del sesgo y deberán ser
cercanos a 0.
Para el periodo de estimación solamente, varias pruebas son aplicadas a los errores de
pronósticos para determinar si el modelo toma en cuenta toda la estructura en los datos.
Estas pruebas son diseñadas para determinar si los residuos forman una serie aleatoria
(“ruido blanco”) y son descritas en la documentación Métodos Descriptivos de Series
Tiempo – Estas incluyen:
RUNS: Prueba basada sobre el número de corridas arriba y abajo.
RUNM: Prueba basada sobre el número de corridas por encima y por debajo de la
mediana.
AUTO: Prueba chi-cuadrada basada en los primeras k auto-correlaciones de los
residuos, donde k es fijado en Opciones del Panel en la tabla que despliega las
auto-correlaciones de los residuos.
MEAN: Prueba t que compara la medias de los residuos en la primera y segunda
mitad de los datos.
VAR: Prueba F que compara la varianza de los residuos en dos mitades.
Si la entrada para una prueba particular es OK, entonces la prueba no es estadísticamente
significativa a un nivel del 95% de confianza y la suposición de residuos aleatorios no
será rechazada. En caso contrario, el numero de estrellas (*) indican el nivel de
significancia sobre el cual la suposición de residuos aleatorios será rechazada.
Ambos modelos estimados a los datos del tráfico pasan todas las pruebas excepto la que
compara las dos varianzas. La última prueba es altamente significativa. Esto se observara
cuando los residuos sean examinados, esta falla es debido a la presencia de tres grandes
residuos durante la segunda mitad del periodo de estimación.
Gráficos de Residuos
El Gráfico de Residuos despliega el error un paso adelante et de varias maneras. Por
defecto la grafica muestra los residuos en orden secuencial:
© 2006 por StatPoint, Inc.
Pronósticos - 26
STATGRAPHICS – Rev. 9/14/2006
Gráfica de Residuos para ajustada Traffic
ARIMA(0,1,1)x(0,1,1)12
8
Residuo
4
0
-4
-8
-12
1/68
1/71
1/74
1/77
1/80
1/83
Observe que los tres más grandes picos ocurren entre marzo y abril de 1974 y mayo de
1979. El tráfico en esos meses cambia mucho de lo normal.
Usando Opciones del Panel, un gráfico de probabilidad de residuos puede ser
desplegado:
Gráfica de Probabilidad Normal para Residuos
ARIMA(0,1,1)x(0,1,1)12
99.9
99
porcentaje
95
80
50
20
5
1
0.1
-12
-8
-4
0
4
8
Residuo
Si los residuos vienen de una distribución normal, deberían caer cerca de la línea recta.
La grafica anterior muestra alguna curvatura en las colas, más 3 datos atípicos.
© 2006 por StatPoint, Inc.
Pronósticos - 27
STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel
Tres diferentes graficas pueden desplegarse:
1. Gráfico Secuencial del Tiempo – Grafica de residuos contra el tiempo.
2. Gráfico de Probabilidad (Horz.) – Grafica de probabilidad con los porcentajes
desplegados sobre el eje horizontal.
3. Gráfico de Probabilidad (Vert.) – Grafica de probabilidad con los porcentajes
desplegados sobre el eje vertical (como se mostró anteriormente).
Auto-correlaciones de Residuos
Es usual también examinar las auto-correlaciones de los residuos. La auto-correlación de
los residuos en un retraso k mide la fuerza de la correlación entre residuos de k periodos
distantes. La auto-correlación de los residuos un retraso k es calculada de
n−k
rk =
∑ (e
t =1
t
− e )(et + k − e )
n
∑ (e
t =1
t
− e)
(38)
2
Si el modelo describe toda la estructura dinámica de la serie de tiempo, entonces los
residuos deberán ser aleatorios y sus auto-correlaciones insignificantes.
El panel Auto-correlaciones de Residuos muestra las auto-correlaciones de los residuos
junto con sus errores estándar y limites de probabilidad:
© 2006 por StatPoint, Inc.
Pronósticos - 28
STATGRAPHICS – Rev. 9/14/2006
Autocorrelaciones Estimadas para residuos
Variable de datos: Traffic
Modelo: ARIMA(0,1,1)x(0,1,1)12
Retraso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Autocorrelación
0.020701
-0.14092
-0.0782807
-0.0613474
-0.0687687
0.0266528
0.0390244
0.0182106
-0.0183478
-0.0917506
0.040521
-0.0970784
0.0550271
-0.0223925
0.0119691
0.0101773
-0.00617232
0.00450753
0.0562645
-0.00489781
-0.125667
0.0167626
0.0627018
-0.059002
Error Estd.
0.0803219
0.0803563
0.0819352
0.0824163
0.0827104
0.0830785
0.0831336
0.0832517
0.0832774
0.0833035
0.0839529
0.084079
0.0847991
0.0850291
0.0850672
0.085078
0.0850859
0.0850888
0.0850903
0.08533
0.0853318
0.0865176
0.0865385
0.0868311
Inferior 95.0%
Límite de Prob.
-0.157428
-0.157496
-0.16059
-0.161533
-0.16211
-0.162831
-0.162939
-0.163171
-0.163221
-0.163272
-0.164545
-0.164792
-0.166203
-0.166654
-0.166729
-0.16675
-0.166766
-0.166771
-0.166774
-0.167244
-0.167248
-0.169572
-0.169613
-0.170186
Superior 95.0%
PLímite de Prob.
0.157428
0.157496
0.16059
0.161533
0.16211
0.162831
0.162939
0.163171
0.163221
0.163272
0.164545
0.164792
0.166203
0.166654
0.166729
0.16675
0.166766
0.166771
0.166774
0.167244
0.167248
0.169572
0.169613
0.170186
Cualquier auto-correlación que cae fuera de los límites de probabilidad es
estadísticamente significativa en el nivel indicado. El StatAdvisor resalta cualquiera de
estas correlaciones en rojo.
Opciones del Panel
•
Numero de retrasos: El máximo retraso k para calcular la auto-correlación.
•
Nivel de Confianza: El valor de 100(1-α)% usado para calcular los limites de
probabilidad.
© 2006 por StatPoint, Inc.
Pronósticos - 29
STATGRAPHICS – Rev. 9/14/2006
Función de Auto-correlación Residual
La Función de Auto-correlación Residual despliega las auto-correlaciones de los residuos
y los limites de probabilidad:
Autocorrelaciones Residuales para ajustada Traffic
ARIMA(0,1,1)x(0,1,1)12
Autocorrelaciones
1
0.6
0.2
-0.2
-0.6
-1
0
5
10
15
20
25
retraso
Las barras que se extienden más allá de los límites corresponden a auto-correlaciones
estadísticamente significativas.
Para los datos del trafico, la única estimación que esta cercana a un limite de probabilidad
es la estimación con k = 2. De hecho, una leve reducción leve de RMSE durante el
periodo de estimación puede realizarse incrementando el orden con el termino no
estacional MA de 1 a 2. Sin embargo, la realización del modelo durante el periodo de
validación es peor que con el modelo actual, se seleccionara el modelo más simple.
Auto-correlaciones Residuales Parciales
Si el modelo se ajusta bien, las auto-correlaciones parciales de los residuos deberán ser
también insignificantes. El panel Auto-correlaciones Residuales Parciales despliega las
auto-correlaciones parciales de los residuos junto con sus errores estándar de retraso y los
limites de probabilidad:
© 2006 por StatPoint, Inc.
Pronósticos - 30
STATGRAPHICS – Rev. 9/14/2006
Autocorrelaciones Parciales Estimadas para residuos
Variable de datos: Traffic
Modelo: ARIMA(0,1,1)x(0,1,1)12
Retraso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Parcial
Autocorrelación
0.020701
-0.141409
-0.0735248
-0.0805431
-0.0916127
0.000904756
0.00389133
0.004734
-0.0212021
-0.092355
0.0442202
-0.129774
0.0568189
-0.0730993
0.00455603
-0.00205713
-0.0218083
0.0148837
0.0466933
-0.0104909
-0.10974
0.0036704
0.0558175
-0.104699
Error Estd.
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
0.0803219
Inferior 95.0%
Límite de Prob.
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
-0.157428
Superior 95.0%
PLímite de Prob.
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
0.157428
El StatAdvisor resaltara cualquier auto-correlación parcial significativa con rojo.
Opciones del Panel
•
Número de Retrasos: Máximo retraso para estimar la auto-correlación parcial.
•
Nivel de Confianza: Nivel usado para calcular los limites de probabilidad.
© 2006 por StatPoint, Inc.
Pronósticos - 31
STATGRAPHICS – Rev. 9/14/2006
Función de Auto-correlación Parcial Residual
La Función de Auto-correlación Parcial Residual grafica las auto-correlaciones parciales
de los residuos y los limites de probabilidad:
Autocorrelaciones Residuales Parciales para ajustada Traffic
ARIMA(0,1,1)x(0,1,1)12
Autocorrelaciones Parciales
1
0.6
0.2
-0.2
-0.6
-1
0
5
10
15
20
25
retraso
Todos las auto-correlaciones deberán estar dentro de estos límites, como en la grafica
anterior.
Tabla de Períodograma Residual
También usual examinar los residuos sobre el dominio de frecuencia, considerando
cuanta variabilidad existe en las diferentes frecuencias. Como se describe en la
documentación Métodos Descriptivos en Series de Tiempo, el períodograma grafica la
potencia en cada una de las frecuencias de Fourier. Si los residuos son aleatorios, deberán
ser aproximadamente iguales en todas las frecuencias, lo cual es una serie de tiempo
aleatoria llamada frecuentemente “ruido blanco”.
El panel Tabla de Períodograma Residual despliega la siguiente tabla:
© 2006 por StatPoint, Inc.
Pronósticos - 32
STATGRAPHICS – Rev. 9/14/2006
Periodograma para residuos
Variable de datos: Traffic
Modelo: ARIMA(0,1,1)x(0,1,1)12
i
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Frequency
0.0
0.00645161
0.0129032
0.0193548
0.0258065
0.0322581
0.0387097
0.0451613
0.0516129
0.0580645
0.0645161
0.0709677
0.0774194
0.083871
0.0903226
0.0967742
Period
155.0
77.5
51.6667
38.75
31.0
25.8333
22.1429
19.375
17.2222
15.5
14.0909
12.9167
11.9231
11.0714
10.3333
Ordinate
5.15304E-32
0.377934
7.63606
2.11531
2.96824
8.73905
1.13413
10.7466
4.51085
3.25441
20.2058
2.03049
5.83907
6.57417
0.310867
19.5081
Cumulative
Sum
5.15304E-32
0.377934
8.01399
10.1293
13.0975
21.8366
22.9707
33.7174
38.2282
41.4826
61.6884
63.7189
69.558
76.1321
76.443
95.9511
Integrated
Periodogram
7.71106E-35
0.000565545
0.0119922
0.0151576
0.0195993
0.0326765
0.0343736
0.050455
0.0572051
0.062075
0.0923111
0.0953496
0.104087
0.113925
0.11439
0.143582
La tabla incluye:
•
Frecuencia: La i-ésima frecuencia de Fourier fi = i/n.
•
Periodo: El periodo asociado con la frecuencia de Fourier , dado por 1/ fi. Esto es el
número de observaciones en un ciclo completo de esta frecuencia.
•
Ordenada: La ordenada del períodograma I(fi).
•
Suma Acumulada: La suma acumuladas de las ordenadas del períodograma en todas
las frecuencias hasta la i-ésima.
•
Períodograma Integrado: La suma acumulada dividida por la suma de las ordenadas
del períodograma en todas las frecuencias de Fourier. Esta columna representa la
proporción de la potencia en la serie en o por debajo de la i-ésima frecuencia.
A diferencia del períodograma a la serie original del tráfico, no presenta grandes picos en
una frecuencia de una vez cada 12 meses.
Opciones del Panel
© 2006 por StatPoint, Inc.
Pronósticos - 33
STATGRAPHICS – Rev. 9/14/2006
•
Remover media: Activar para restar la media de la serie de tiempo antes de calcular
el períodograma.
•
Ahusamiento: Porcentaje de los datos al final de la serie a los cuales un dato de
ahusamiento será aplicado antes de que el períodograma sea calculado. Siguiendo
Bloomfield (2000), STATGRAPHICS usa un coseno de ahusamiento para las
observaciones con ponderación baja a las cercanas en i = 1 y i = n. Esto es útil para
corregir sesgo si las ordenadas del períodograma son suavizadas para crear un
estimador de la función de densidad espectral subyacente.
Períodograma de Residuos
El Períodograma de Residuos grafica las ordenadas del períodogramas de los residuos:
Periodograma Residual para ajustada Traffic
ARIMA(0,1,1)x(0,1,1)12
40
Ordenada
30
20
10
0
0
0.1
0.2
0.3
frecuencia
0.4
0.5
Si los residuos son aleatorios, no deberá haber picos notables. Permitiendo algún sesgo
natural en la distribución de las ordenadas, la grafica anterior no muestra grandes picos.
Opciones del Panel
© 2006 por StatPoint, Inc.
Pronósticos - 34
STATGRAPHICS – Rev. 9/14/2006
•
Remover media: Activar para restar la media de la serie de tiempo antes de calcular
el períodograma.
•
Puntos: Si se selecciona, puntos símbolos que serán mostrados.
•
Líneas: Si se selecciona, las ordenadas serán conectadas por una línea.
•
Ahusamiento: Porcentaje de los datos al final de la serie a los cuales un dato de
ahusamiento será aplicado antes de que el períodograma sea calculado.
Períodograma Integrado de Residuos
El Períodograma Integrado de Residuos despliega las sumas acumuladas de las
ordenadas del períodograma de los residuos, divididas por la suma de las ordenadas sobre
todas las frecuencias de Fourier:
Periodograma para Residuos
1
Ordenada
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
frecuencia
0.4
0.5
Una línea diagonal será incluida en el grafico, junto con límites de Kolmogorov-Smirnov
al 95% y 99%. Si los residuos son aleatorios, el períodograma integrado debería caer
entre de estos límites al 95% y 99%. Para los datos del tráfico, los residuos parecen ser
ruido blanco.
© 2006 por StatPoint, Inc.
Pronósticos - 35
STATGRAPHICS – Rev. 9/14/2006
Pruebas de Aleatoriedad
El panel Pruebas de Aleatoriedad muestra resultados de pruebas para corridas
adicionales para determinar si los residuales son o no puramente aleatorios:
Prueba de Aleatoriedad de residuos
Variable de datos: Traffic
Modelo: ARIMA(0,1,1)x(0,1,1)12
(1) Corridas arriba o abajo de la mediana
Mediana = 0.092978
Número de corridas arriba o abajo de la mediana = 79
Número esperado de corridas = 78.0
Estadístico z para muestras grandes = 0.0808469
Valor-P = 0.935558
(2) Corridas arriba y abajo
Número de corridas arriba y abajo = 99
Número esperado de corridas = 103.0
Estadístico z para muestras grandes = 0.670684
Valor-P = 0.50242
(3) Prueba Box-Pierce
Prueba basada en las primeras 24 autocorrelaciones
Estadístico de prueba para muestras grandes = 13.6096
Valor-P = 0.914755
Tres pruebas son realizadas:
1. Corridas por encima y por debajo de la mediana: Cuenta el número de veces que
la serie va por arriba y por debajo de su mediana. Este número es comparado con
el valor esperado para una serie aleatoria. Los valores P pequeños (menores que
0.05 si opera a un nivel de confianza del 95%) indican que los residuos no son
puramente aleatorios.
2. Corridas arriba y abajo: Cuenta el número de veces que la serie sube o baja. Este
número es comparado con el valor esperado para una serie aleatoria. Los valores
P pequeños indican que los residuos no son puramente aleatorios.
3. Prueba Box-Pierce: Construye un estadístico de prueba basada en las primeras k
auto-correlaciones de residuos, calculado por:
k
Q = n∑ ri 2
(39)
i =1
Este estadístico es comparado en una distribución chi-cuadrada con k grados de
libertad. Como con las otras dos pruebas, los valores P pequeños indican que los
residuos no son puramente aleatorios.
Ya que los valores P para las tres pruebas están por encima de 0.05, no hay razón para
dudar que los residuos sean ruido blanco.
© 2006 por StatPoint, Inc.
Pronósticos - 36
STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel
•
Numero de Retrasos: Numero de retrasos k para incluirse en la prueba Box-Pierce.
Correlaciones Cruzadas de los Residuos
El panel Correlaciones Cruzadas de los Residuos despliega correlaciones cruzadas entre
residuos y una segunda serie, se especifica usando Opciones del Panel. Las correlaciones
cruzadas entre una serie Y en el tiempo t y una segunda serie X en el tiempo t-k es
denotada por cxy(k). Un uso típico de correlaciones cruzadas es la identificación
“indicadores leadings” o en una relación entrada salida. Por ejemplo, Box, Jenkins y
Reinsel (1994) presentan datos de la entrada y salida de un horno de gas en intervalos de
9 segundos, contenidos en el archivo furnace.sf6. Los datos consisten de:
1. Salida de la Serie Y: % CO2 del gas a la salida
2. Entrada de la Serie X: Razón de gas a la entrada en pies cúbico por minuto
La salida de la serie de tiempo esta bien descrita por un modelo ARIMA(3,1,0).
La siguiente tabla muestra las auto-correlaciones de residuos para el modelo de salida y
similarmente para serie tiempo en la entrada diferenciada:
Correlaciones Cruzadas Estimadas para residuos con DIFF(Input)
Variable de datos: Output
Modelo: ARIMA(3,1,0)
Retraso Retraso
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
-0.0530088
0.00912287
0.0463566
0.127723
0.13986
0.163528
0.206428
0.174213
0.09082
-0.0977499
-0.364327
-0.515241
-0.417341
-0.237661
-0.0153997
0.0512618
0.0298728
© 2006 por StatPoint, Inc.
Pronósticos - 37
STATGRAPHICS – Rev. 9/14/2006
Alguna correlaciones negativas grandes son observadas, despuntando en k = 3. Esto
sugiere que los cambios en la razón del gas a la entrada están correlacionados con los
residuos del modelo ajustado a la salida y podrían ser utilizados para mejorar el
pronóstico.
Opciones del Panel
•
Segunda Serie de Tiempo: Las observaciones para la serie X. Observe el uso del
operador DIFF para calcular la primera diferencia de la columna de Entrada.
•
Numero de Retrasos: Máximo retraso k (positivo y negativo) para calcular la
correlación cruzada
Gráfico de Correlaciones Cruzadas de los Residuos
El Gráfico Correlaciones Cruzadas de los Residuos muestra las correlaciones cruzadas
estimadas:
© 2006 por StatPoint, Inc.
Pronósticos - 38
STATGRAPHICS – Rev. 9/14/2006
Correlaciones Cruzadas Estimadas para Residuos con DIFF(Input)
ARIMA(3,1,0)
Correlaciones Cruzadas
1
0.6
0.2
-0.2
-0.6
-1
-25
-15
-5
5
15
25
retraso
Observe los picos más grandes de correlaciones negativas en el retraso 3. Esto implica
que los cambos los cambios en la razón del gas a la entrada están correlacionados con los
residuos del modelo ajustado a la salida y podrían ser utilizados para mejorar el
pronóstico.
Grabar Resultados
Los siguientes resultados pueden ser guardados en una hoja de datos:
1. Datos – Las observaciones originales, junto con cualquier reemplazamiento para
valores perdidos.
2. Datos Ajustados – La serie de tiempo para los datos después de cualquier ajuste
hecho.
3. Pronósticos – Los valores de pronósticos dentro y más allá del periodo muestral.
4. Limites Superior de Pronósticos – Los límites superiores de probabilidad para los
pronósticos.
5. Limites Inferior de Pronósticos – Los límites inferiores de probabilidad para los
pronósticos.
6. Residuos – Los errores del pronostico un paso adelante.
7. Autocorrelaciones – Las auto-correlaciones de los residuos.
8. Autocorrelaciones Parciales – Las auto-correlaciones parciales de los residuos.
© 2006 por StatPoint, Inc.
Pronósticos - 39
STATGRAPHICS – Rev. 9/14/2006
9. Correlaciones Cruzadas – Las correlaciones cruzadas entre los residuos y la
segunda serie.
10. Ordenadas residuales de períodograma – Calcula las ordenadas del períodograma
para los residuos.
11. Frecuencias de Fourier – Las frecuencias de Fourier correspondientes a las
ordenadas del períodograma para los residuos.
Cálculos
Estadísticos del Error – periodo de validación
RMSE = Raíz del Cuadrado Medio del Error
m
∑e
i =1
RMSE =
2
n +i
(40)
m
MAPE = Porcentaje de la Media del Error Absoluto
m
MAPE = 100
∑e
i =1
n+i
/ Yt +i
m
%
(41)
MAE = Media del Error Absoluto
m
MAE =
∑e
i =1
n +i
(42)
m
ME = Media del Error
m
ME =
∑e
i =1
n +i
(43)
m
MPE = Porcentaje de la Media del Error
m
MPE = 100
en +i
∑Y
i =1
n +i
m
© 2006 por StatPoint, Inc.
%
(44)
Pronósticos - 40
STATGRAPHICS – Rev. 9/14/2006
Función de Varianza para Pronósticos
Modelo Aleatorio de Walk
Vˆ (k ) = kσˆ a
(45)
Modelo de Medias
⎛ 1⎞
Vˆ (k ) = σˆ a ⎜1 + ⎟
⎝ n⎠
(46)
Modelo de Media Móvil
⎛ 1⎞
Vˆ (k ) = σˆ a ⎜1 + ⎟
⎝ c⎠
(47)
Suavizamiento Exponencial Simple
(
Vˆ (k ) = σˆ a 1 + (k − 1)α 2
)
(48)
Suavizamiento Exponencial Lineal y Cuadrático de Brown
⎞
⎛
k (k − 1)(2k − 1)λ12
2
Vˆ (k ) = σˆ a ⎜⎜1 + (k − 1)λ0 +
+ λ0 λ1 k (k − 1) ⎟⎟
6
⎠
⎝
(49)
donde λ0 = α (2-α) y λ1 = α2
Suavizamiento Exponencial Lineal de Holt
⎞
⎛
k (k − 1)(2k − 1)λ12
2
Vˆ (k ) = σˆ a ⎜⎜1 + (k − 1)λ0 +
+ λ0 λ1 k (k − 1) ⎟⎟
6
⎠
⎝
(50)
donde λ0 = α y λ1 = αβ
Suavizamiento Exponencial de Winter
La varianza del pronóstico es calculada de manera similar a Holt con la contribución
adicional de los índices de estacionalidad.
© 2006 por StatPoint, Inc.
Pronósticos - 41
STATGRAPHICS – Rev. 9/14/2006
Modelos de Tendencias
Los limites de pronostico son calculados con formulas de regresión para predecir una
nueva observación en el tiempo t = n + m + k, incluidas el uso de la distribución t de
Student con el numero apropiado de grados de libertad.
Modelos ARIMA
Los cálculos que siguen los métodos de Box, Jenkins y Reinsel (1994), los cuales
involucran encontrar la función Ψ para expresar las observaciones en el tiempo t en
términos de errores actuales y previos.
© 2006 por StatPoint, Inc.
Pronósticos - 42
Descargar