Texto - Universidad Nacional Abierta

Anuncio
UNIVERSIDAD NACIONAL ABIERTA
VICERRECTORADO ACADEMICO
AREA DE INGENIERIA
CARRERA DE INGENIERIA DE SISTEMAS
PRONOSTICO DE MATRICULA DE ASIGNATURAS SIN PREREQUISITOS MEDIANTE MODELOS BASADOS EN SERIES DE TIEMPO
Autor: Mirna Liliana González González, C.I. V10.790.445
Tutor Académico: Ing. Edgar González, C.I. V-6.524.564
Asesor Empresarial: Lic. Celeste Longa, C.I. V-9.095.088
Caracas, Centro Local Metropolitano
Junio, 2005
UNIVERSIDAD NACIONAL ABIERTA
VICERRECTORADO ACADEMICO
AREA DE INGENIERIA
CARRERA DE INGENIERIA DE SISTEMAS
PRONOSTICO DE MATRICULA DE ASIGNATURAS SIN PREREQUISITOS MEDIANTE MODELOS BASADOS EN SERIES DE TIEMPO
Trabajo de grado presentado ante la
Universidad Nacional Abierta por
Mirna Liliana González González .
del Centro Local Metropolitano para
optar al título de Ingeniero de
Sistemas
Caracas, Junio de 2005
RESUMEN
El presente Trabajo de Grado se fundamenta en el pronóstico de la
matrícula de alumnos a inscribirse en las asignaturas sin pre-requisitos de
todas las carreras del Centro Local Metropolitano de la Universidad Nacional
Abierta, mediante la aplicación de algoritmos basados en series de tiempo.
La data utilizada en este pronóstico es la suministrada por la Unidad
de Computación del Centro Local Metropolitano, la cual posee un histórico
desde el primer semestre del año 1995 hasta la actualidad.
Una vez determinado los modelos a utilizar con base en nuestro
estudio, se hace uso de la tecnología web, y de programas de software libre
para desarrollar una aplicación computacional, donde de una manera sencilla
y eficiente se logre obtener el resultado de aplicar dichos modelos
matemáticos.
Con esto hemos garantizado, la adecuación y mantenimiento posterior
de la herramienta resultado del presente trabajo.
Palabras clave:
Pronóstico, series de tiempo, análisis clásico, modelos Arima.
ÍNDICE
Pág
Introducción…………………………………………………………………….. 1
Capítulo I: El Problema……………………………………………………….. 3
1.1Planteamiento del problema…………………………………………. 6
1.2 Formulación del problema…………………………………………… 6
1.3 Objetivos………………………………………………………………. 6
1.3.1 Objetivo General: ……………………………………………... 6
1.3.2 Objetivos específicos…………………………….…………… 6
1.4 Justificación de la Investigación……………………………………. 7
1.5 Limitaciones…………………………………………………………… 7
Capítulo II: Marco Teórico……………………………………………………. 8
2.1 Antecedentes de la Investigación…………………………………... 8
2.2 Bases Teóricas……………………………………………………….. 10
2.2.1 Definiciones Básicas………………………………………….. 10
2.2.2 Series temporales……………………………………………... 19
2.2.2.1 Análisis Clásico de series temporales…………………….. 24
2.2.2.2 Procesos de Box-Jenkins………………………………….. 50
2.2.2.3 Modelo Espectral……………………………………………. 55
2.2.2.4 Modelo UCARIMA…………………………………………... 58
2.2.2.5 Modelo ARCHI………………………………………………. 59
2.2.2.6 Modelo de Cointegración…………………………………… 59
2.2.2.7 Modelo AFRIMA…………………………………………….. 60
2.2.2.8 Modelo del Caos…………………………………………….. 60
2.3. Formulación del Modelo…………………………………………….. 61
Capitulo III marco metodológico……………………………………………... 65
3.1 Nivel de Investigación:……………………………………………….. 65
3.2 Diseño de la investigación:………………………………………….. 65
3.3 Población y Muestra:………………………………………………… 66
3.4 Técnicas e Instrumentos de Recolección de Datos:……………. 66
3.5 Técnicas de procesamiento de Datos …………………………… 67
3.6 Análisis de los Datos……………………………………………….. 71
Capítulo IV Resultados……………………………………………………….. 75
4.1 Software desarrollado……..……………………………………………… 75
4.1 Datos de entrada………………………………………………………….. 76
4.1 Salida de la simulación…………………………………………………… 77
Conclusiones…………………………………………………………………… 80
Recomendaciones…………………………………………………………….. 82
Bibliografía……………………………………………………………………… 83
Anexos………………………………………………………………………….. 84
A: Gráfica de todas las series
B: Instalación del EasyPHP
C: Manual de MySQL FRONT
D: Instalación de Promatric V1.0
E: Manual de usuario de Promatric V1.0
F: Datos suministrados por el Centro Local Metropolitano
G: Decreto 3390 Uso del Software Libre
INTRODUCCIÓN
Debido a lo cambiante de la realidad, siempre ha existido la
necesidad de hacer pronósticos. El ser humano, consciente y temeroso de la
incertidumbre, siempre ha buscado la forma de enfrentar el porvenir tomando
decisiones que condicionen y afecten su futuro propio y el de las
organizaciones donde se involucra.
Las técnicas de pronóstico han evolucionado considerablemente a lo
largo del tiempo, desde la intuición, pasando por las técnicas basadas en la
experiencia del pronosticador, hasta llegar a las más sofisticadas que utilizan
modelos matemáticos.
Casi cualquier organización, grande o pequeña, pública o privada,
utiliza el pronóstico ya sea implícito o explicito, debido a la necesidad de
planear, en forma responsable, la forma de enfrentar las condiciones futuras
de las cuales se tiene un conocimiento imperfecto. Quienes tienen a su cargo
la responsabilidad de tomar las decisiones, lo harán mejor si tienen una base
que las soporte de manera adecuada. Además, la necesidad de hacer
pronósticos cruza todas las líneas funcionales al igual que todo tipo de
organizaciones.
Las herramientas modernas de pronóstico, junto con la capacidad de
la computadora se han hecho indispensables para las organizaciones que
operan en el mundo moderno, al punto de que muchas decisiones
importantes están soportadas por los resultados que arrojan estas
predicciones, incluso con mucho tiempo de anterioridad.
Una de las razones de más peso para justificar el pronóstico, es la
administración de recursos. Si se tuviera conocimiento previo de la
ocurrencia de ciertas situaciones, los recursos pudieran ser mejor
administrados, sin incurrir en deficiencias ni en excesos que pudieran afectar
la organización incluso a niveles caóticos. En función de la imposibilidad de
tener conocimiento exacto de lo que ocurrirá en el futuro, el pronóstico es la
única herramienta.
El propósito de este Trabajo de Grado es precisamente establecer un
pronóstico que permita a la Universidad Nacional Abierta, aunque sea en
forma parcial, enfrentar de manera mas eficiente la planificación de sus
recursos para el próximo semestre. Específicamente, este trabajo pretende
realizar el pronóstico de la matricula de alumnos a inscribirse en las
asignaturas sin pre-requisitos de ingreso del Centro Local Metropolitano,
utilizando algoritmos de análisis de series de tiempo.
El proyecto está integrado esencialmente por cuatro capítulos: en el
primero se establece y delimita claramente el problema a tratar, junto con los
objetivos que se persiguen y la justificación y limitaciones del proyecto. En el
segundo se detalla todo el marco teórico en el que se basa la solución del
mismo, así como los antecedentes y la definición de los términos básicos. El
capítulo tres ubica la investigación dentro del nivel y diseño correspondiente
y establece la forma de conseguir y adaptar los datos antes de comenzar su
manipulación. El capítulo cuatro muestra los resultados obtenidos después
de la simulación, con su consecuente información de pronóstico, que es el
objeto primordial de toda la investigación.
CAPITULO I
EL PROBLEMA
1.1 Planteamiento del problema
La Universidad Nacional Abierta (UNA), fundada en 1977, es pionera
en educación a distancia en Venezuela. En realidad es el único instituto
formal del país cuyo sistema educativo es completamente a distancia. El
objetivo de la Universidad es “llevar la educación superior a todos los
rincones del país”, bajo una metodología que se caracteriza por la separación
física entre los alumnos y los profesores y la construcción de conocimientos
relevantes, mediante la utilización de “medios instruccionales indirectos” que
facilitan el aprendizaje individual y estimulan la capacidad y la creatividad de
los alumnos, permitiéndoles adelantar estudios universitarios de alta calidad,
independientemente de su ubicación geográfica y sin apartarse de sus
obligaciones laborales y familiares.
Además del Nivel Central, donde se gerencian los aspectos
académicos, logísticos y administrativas de la Universidad, la UNA cuenta, a
todo lo largo del territorio nacional, con 67 ubicaciones, 22 de las cuales son
Centros Locales ubicados en capitales de estado y 45 son Unidades de
Apoyo ubicadas en poblaciones aledañas. Los Centros Locales han
transitado a lo largo de un importante proceso que les ha permitido
evolucionar operativamente hasta constituir verdaderos centros académicos,
de investigación y extensión que, manteniendo relaciones estrechas con el
Nivel Central, son capaces de planificar actividades académicas, gerenciar
aspectos administrativos y brindar atención y apoyo a los requerimientos de
los estudiantiles y de las comunidades.
Operativamente, el Nivel Central se encarga de todo el proceso
académico, administrativo y logístico a nivel global, mientras que los Centros
Locales y Unidades de Apoyo se encargan de la interacción con el
estudiante.
Al inicio de cada período de estudio (régimen semestral), el estudiante
se inscribe de acuerdo a las asignaturas que haya elegido y satisfaga los
requisitos, con lo cual es provisto de un material de auto instrucción y un
documento explicativo de la forma de evaluación de cada asignatura, los
objetivos a lograr y la forma de hacerlo, de acuerdo a la correspondencia
entre los objetivos y el contenido del material de auto instrucción; además de
un calendario donde se establecen las fechas de presentación de pruebas y
los objetivos evaluables. Oportunamente, la Universidad publica las
direcciones de los Centros donde se aplicarán las pruebas.
En la fecha prevista para cada prueba, la Universidad despliega toda
una logística destinada a la aplicación de la evaluación a nivel general en
todo el país a la misma hora. Para ello, contrata centros de estudio (colegios,
liceos) y distribuye los alumnos de acuerdo a su ubicación. Estudiantes que
por razones de cualquier tipo, se encuentren fuera de sus centros habituales,
pueden gestionar la presentación de su prueba en cualquier centro a nivel
nacional. Dada la cantidad de estudiantes que maneja la Universidad, se
contratan también Supervisores de Pruebas, los cuales se encargan de velar
por la correcta aplicación de las mismas.
Obviamente, para el éxito de sus actividades, la Universidad requiere,
durante el semestre en curso, la planificación objetiva de recursos para el
próximo semestre, estimando el volumen de una serie de actividades dentro
de las que se encuentran la reproducción del material de auto instrucción, la
contratación del personal para atender las pruebas, la tramitación de los
locales para la presentación de exámenes, etc. La estimación de todos estos
recursos tanto materiales como humanos, que serán empleados el próximo
semestre en atender la operatividad de la universidad, está muy ligada a la
cantidad de alumnos que se inscribirán en las diferentes asignaturas
ofertadas en las carreras que ofrece la institución. Sin embargo, el obvio
desconocimiento de esta matrícula, hace que en muchas oportunidades la
estimación de recursos no sea la óptima, pudiendo incurrir en situaciones
como falta de material de auto instrucción para determinadas materias,
insuficiencia del personal para atender las pruebas, o situaciones igualmente
graves como el gasto excesivo de recursos que no se llegan a utilizar,
incluyendo la obsolescencia o daño del material de auto instrucción por el
tiempo. Cabe igualmente destacar que la planificación debe hacerse por
Centro Local, ya que cada uno tiene sus características propias.
En particular, es posible lograr una estimación objetiva de las
matrículas de ciertas asignaturas, dado que dependen de variables
conocidas, como alumnos aprobados de las materias pre-requisito según la
oferta, alumnos reprobados de semestres anteriores, etc. Sin embargo, las
asignaturas que no tienen pre-requisitos de inscripción, las cuales pueden
ser inscritas por cualquier estudiante de la carrera que lo desee, requieren
otro tipo de tratamiento, debido a que su inscripción está supeditada sólo a
la decisión del estudiante, pudiendo interferir sobre ello una gran cantidad de
factores que objetivamente se tornan inmanejables.
Sobre esta variable matrícula (para cada asignatura) de las materias
sin pre-requisitos, los únicos datos certeros que posee la Universidad, son
las estadísticas de registros de semestres anteriores, aspecto sobre el cual
se basa este Trabajo de Grado, en la manipulación de esos datos para lograr
un pronóstico científico de la matrícula de las mencionadas asignaturas
haciendo uso del conocimiento que se tiene de su comportamiento pasado.
1.2 Formulación del problema
¿Cuál será la matrícula de las asignaturas sin pre-requisitos de todas
las carreras de la Universidad Nacional Abierta del Centro Local
Metropolitano para un
semestre dado, teniendo en consideración el
comportamiento pasado de dichas matrículas?
1.3 Objetivos
1.3.1 Objetivo General:
Pronosticar la matrícula de alumnos a inscribirse en un semestre
determinado en cada una de las materias de todas las carreras de la
Universidad Nacional Abierta del Centro Local Metropolitano que no tengan
ningún pre-requisito para su inscripción, mediante el desarrollo de modelos
matemáticos basados en series de tiempo.
1.3.2 Objetivos específicos
•
Recolectar y analizar los datos históricos de matrícula de la Universidad
en el Centro Local Metropolitano.
•
Determinar los modelos en series de tiempo en función del histórico de
cada asignatura.
•
Adaptar los modelos obtenidos al caso específico del Centro Local
Metropolitano.
•
Validar los modelos definitivos mediante reproducción del histórico.
•
Programar la aplicación computacional para correr los modelos
desarrollados.
1.4 Justificación de la Investigación
El presente Trabajo de Grado es conveniente para la Universidad
Nacional Abierta debido a que pone a disposición una herramienta confiable,
basada en una investigación científica, que le servirá de punto de partida
para la asignación de recursos destinados a la operatividad de sus
actividades para el próximo semestre, en las asignaturas sin pre-requisitos
de todas las carreras que ofrece como institución en el Centro Local
Metropolitano. La Investigación también es viable debido a que se cuenta con
todas las herramientas necesarias para llevarla a cabo.
1.5 Limitaciones
De acuerdo a las investigaciones preliminares realizadas sobre el
problema a tratar, las limitaciones que pueden influir en el resultado final de
este Trabajo de Grado o que pueden restringir su efectividad son las
siguientes:
•
La inconsistencia de los datos: Los datos han sido suministrados de dos
fuentes: la Unidad de Computación y el Área de Matemática, siendo que
entre ellos hay algunas diferencias leves. Se han tomado sólo los de la
Unidad de Computación por ser los más completos y se realizará el
trabajo partiendo de éstos.
•
Solamente se tomarán en cuenta los datos del Centro Local
Metropolitano.
CAPITULO II
MARCO TEÓRICO
2.1 Antecedentes de la Investigación
Para el Centro Local Metropolitano la estimación de la matrícula ha
sido un problema que ha venido atacándose con diversas herramientas que
van desde utilizar la matrícula del semestre inmediato anterior, el promedio
de los dos o seis últimos semestres, hasta el uso de herramientas basadas
en modelos de regresión, utilizadas actualmente en el Área de Matemática
del Centro Local.
Estudios similares de pronóstico de matrícula basados en series de
tiempo se han realizado en instituciones extranjeras como la Universidad de
la República (UDELAR) en Uruguay 1. En la literatura revisada no se
encontraron evidencias de casos concretos de uso de modelos para efectos
de pronóstico de matrícula, sin embargo, si se ha utilizado el modelo para
otros
fines
de
pronóstico,
tales
como
aplicaciones
hidrológicas,
meteorológicas y econométricas
El gobierno venezolano, en la actualidad, ha realizado su pronóstico
de matrícula de alumnos de la “Educación Bolivariana” (alumnos a todos los
niveles en las distintas instituciones públicas) para el período 2004-2005,
utilizando las estadísticas de matrícula de los años anteriores, tomando como
base el incremento interanual promedio 2. La siguiente tabla muestra la
estimación de la matrícula de alumnos de educación media calculada
mediante este método:
1
2
http://www.rau.edu.uy/sui/Publicaciones/algunosTopicos/doc_tr3.pdf
www.me.gob.ve/sistema_de_educacion_bolivariana
Estimado de la Matrícula estudiantil para el
período escolar 2004-2005 Fecha: 27-06-05
Entidad Federal
Estimado
Cargado
Diferencia
DTTO. CAPITAL
523831
390937
132894
AMAZONAS
42407
36471
5936
ANZOATEGUI
400547
317838
82709
APURE
150556
123711
26845
ARAGUA
453259
188894
264365
BARINAS
227663
189684
37979
BOLIVAR
420174
251648
168526
CARABOBO
588724
375788
212936
COJEDES
92126
70282
21844
DELTA AMACURO
48838
38822
10016
FALCON
272940
208639
64301
GUARICO
223042
63010
160032
LARA
486961
326407
160554
MERIDA
237550
171309
66241
MIRANDA
677166
372042
305124
MONAGAS
259009
160381
98628
NVA. ESPARTA
124520
97405
27115
PORTUGUESA
256061
154579
101482
SUCRE
278994
130215
148779
TACHIRA
321952
256687
65265
TRUJILLO
207541
162780
44761
YARACUY
178240
119128
59112
ZULIA
960376
580625
379751
VARGAS
87278
18141
69137
Total Cargado
7519753
4805423
2714330
TablaN° 1 Estimación de la matrícula de Educación Media Venezolana
Fuente: http://planteles.me.gob.ve/estimadoalumno2.php
2.2 Bases Teóricas
2.2.1. Definiciones Básicas
2.2.1.1 Proceso estocástico
Se llama Proceso estocástico al conjunto de variables aleatorias Xt
cuya distribución varía de acuerdo a un parámetro, generalmente el tiempo.
{Xt}, t= 0, 1..., ∞
La variable tiempo t toma valores en un subconjunto de los números
enteros positivos. Las variables aleatorias Xt toman valores en un conjunto
que se denomina espacio de estados, el cual esta compuesto por todos los
resultados posibles.
Existen algunos casos especiales de procesos estocásticos:
•
Proceso
estacionario:
Cumplen
con
las
condiciones
de
estacionariedad (ver definición mas adelante)
•
Proceso de Markov: Cuya evolución solo depende del estado actual,
sin tomar en cuenta los estados anteriores.
•
Proceso de Gauss: En el que toda combinación lineal de variables es
una variable de distribución normal.
•
Proceso de Poisson : Es un proceso donde el número de sucesos en
dos intervalos siempre es independiente, la probabilidad de que un
suceso ocurra en un intervalo es proporcional a la longitud del
intervalo y la probabilidad de que ocurra más de un suceso en un
intervalo muy pequeño es 0.
•
Proceso de Gauss-Markov: Son procesos que satisfacen al mismo
tiempo, las condiciones de los procesos de Gauss y de Markov.
•
Proceso de Bernoulli: Donde cada intento tiene sólo dos resultados
posibles. La probabilidad del resultado de cualquier intento permanece
fija en el tiempo. Los intentos son estadísticamente independientes.
2.2.1.2 Ruido Blanco
Se llama ruido blanco a una sucesión de variables aleatorias con
distribución
normal,
esperanza
nula,
varianza
constante
y
no
correlacionadas (Novales, 1991).
Para algunos autores, las variables no deben tener necesariamente
distribución normal, en cuyo caso las suponen independientes en el tiempo
(covarianza nula) en vez de no correlacionadas.
2.2.1.3 Variable aleatoria
Una variable aleatoria se define como el resultado numérico
de un experimento aleatorio. Matemáticamente, es una aplicación
que da un valor numérico a cada suceso en el espacio de los
resultados posibles del experimento.
2.2.1.4 Procesos estacionarios
Un proceso estocástico es estacionario si para todo entero m >0, los
conjuntos de variables aleatorias
{Yt1 , Yt2 , Yt3 ... Ytm } ;
Ytm = Observaciones de la serie en los momentos tm
tienen la misma distribución de probabilidad, independientemente del valor
del tiempo t (Novales, 1990).
Esto quiere decir, que un conjunto determinado de variables aleatorias
del proceso estocástico, tiene la misma distribución que cualquier otro
conjunto de m variables aleatorias extraídas del mismo proceso. Un ejemplo
de proceso estacionario es el ruido blanco, por ser una sucesión de variables
aleatorias de igual distribución e independientes a lo largo del tiempo.
La estacionariedad implica que la esperanza y la varianza son iguales
para todas las variables Ytm
Figura N° 1 Proceso estacionario de ruido blanco
Fuente: http://www.ccee.edu.uy
2.2.1.5 Series de tiempo estacionarias
Una serie se puede definir como estacionaria si cumple las siguientes
características:
•
La tendencia es lineal (la esperanza de todas las variables Ytm son
iguales). Algunos autores se refieren a estas series como “sin
tendencia”.
•
Es homocedástica, es decir, la variabilidad se mantiene constante a lo
largo de la serie.
Serie Homocedástica
15
10
5
0
1
2
3
4
5
6
7
8
9
10 11 12 13
Figura N° 2 Serie Homocedástica
Fuente: elaboración propia
Serie Heterodástica
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
12
13
Figura N° 3 Serie Heterocedástica
Fuente: elaboración propia
•
No tiene ciclos estacionales, lo cual implica que, si la serie no es
anual, no existen períodos de comportamientos típicos durante ciertas
épocas del año. Las series anuales normalmente no presentan ciclos
estacionales, sin embargo, podrían determinarse ciclos estacionales
cada cierto período de años. La serie homocedástica de la figura N° 2
no tiene ciclos estacionales, pero la siguiente, descrita en meses tiene
un claro ciclo de estacionalidad:
Figura N° 4 Temperatura en Madrid
Fuente: www.españahoy.com
•
La estructura de dependencia se mantiene constante, es decir si una
observación influye sobre la siguiente, esto siempre ocurre. Esta
condición es importante para modelar la serie, pues si el fenómeno
que genera la serie cambia, es imposible que podamos prever la
evolución de la serie.
•
La influencia de las observaciones de los valores de la serie sobre las
siguientes, disminuye con el tiempo.
2.2.1.6 Estacionariedad en sentido débil
La estacionariedad en sentido estricto es poco aplicable a las series
temporales ya que se tiene una sola observación de cada una de las
distribuciones de probabilidad que componen el proceso en cada período de
tiempo. En la práctica, se aplica más bien la estacionariedad en sentido débil
o de segundo orden como lo llaman algunos autores, lo que implica que
todos sus momentos de primer y segundo orden son independientes del
tiempo, es decir, Un proceso es estacionario en sentido débil (o de 2º orden)
si y solo si para todo t se cumple:
•
Media constante
•
Varianza constante
•
La covarianza entre dos observaciones Yt y Yt-k , COV(Yt ,Yt-k ) ,
depende solamente de la distancia k que haya entre ellas.
La siguiente es una serie estacionaria en media y varianza:
Figura N° 5 Consumo de Gasolina en España
Fuente: http://www.uam.es
2.2.1.7 Covarianza y correlación
Los conceptos de covarianza y correlación implican dos maneras de
medir la relación entre dos variables aleatorias. Sean X e Y variables
aleatorias (discretas o continuas), la covarianza entre X e Y, denotada
COV [ X , Y ] ó σ X Y , está dada por:
COV [ X , Y ] = E ⎡⎣( X − μ x ) (Y − μ y ) ⎤⎦ = E [ XY ] − μ x μ y
(1)
donde μ x es la media de X y μ y es la media de Y
Una covarianza alta implica un alto grado de dependencia entre X e Y
(sea negativa o positiva). Una covarianza cercana a cero implica poca
dependencia entre X e Y. El problema de la covarianza es que es sensible a
la escala de medición de las variables involucradas, por ejemplo, si una
variable se mide en millones de bolívares, la covarianza aumentaría en esa
misma
medida.
Luego,
es
posible
tener
covarianzas
altas
y
no
necesariamente una alta dependencia entre las variables. Al mismo tiempo
es posible tener una covarianza cero y las variables no ser independientes.
La correlación evita este problema ya que calcula la relación entre las
variables de acuerdo a un coeficiente expresado entre -1 y 1. Un coeficiente
de correlación nulo, significa que no hay correlación lineal entre las dos
variables. Se calcula según la siguiente ecuación:
r=
E [ XY ] − μ x μ y
Sx S y
(2)
Donde S x y S y son la desviación típica de las variables X e Y.
2.2.1.8 Autocorrelación
La Autocorrelación es la correlación consecutiva de series de tiempo
igualmente espaciadas entre sus miembros. Algunos autores utilizan los
términos
correlación
rezagada,
y
persistencia
para
referirse
a
la
autocorrelación. A diferencia de los datos estadísticos que son muestras
aleatorias que nos permiten realizar análisis estadísticos, las series de
tiempo
son
generalmente
autocorrelacionadas,
haciendo
posible
la
predicción y el pronóstico.
2.2.1.9 Función de Autocorrelación (FAC)
Es una función real que mide la correlación que existe entre los
valores de la serie temporal en distintos instantes de tiempo. Su objetivo es
determinar como se influyen las observaciones de la serie separadas un
numero de períodos determinados. De esta forma, la función de
autocorrelación será una sucesión de números denotados por:
ρ1 , ρ 2 , ρ3 ...ρ k ...
Por ejemplo,
si se quiere medir el factor de correlación de las
observaciones de la serie Y entre el instante t y el instante anterior t-1, es
decir, Yt y Yt-1 , se está hablando del coeficiente de autocorrelación de primer
orden y viene dado por:
ρ1 =
Cov(Yt ,Yt-1 )
Var(Yt )Var(Yt-1 )
(3)
Si se supone estacionariedad en la serie Var (Yt ) = Var (Yt −1 ) , luego
ρ1 =
Cov(Yt ,Yt-1 )
Var(Yt )
(4)
En general, para k períodos, se tiene
ρ1 =
Cov(Yt ,Yt-k )
Var(Yt )
(5)
Una FAC cercana a cero indica que no existe efecto de una
observación con otra separada k períodos. Una FAC cercana a 1 indica una
alta influencia de una observación sobre la otra.
2.2.1.10 Función de Autocorrelación Parcial (FACP)
Esta función responde a la misma idea que la FAC, pero a diferencia
de ésta, mide la correlación entre dos observaciones de la serie, ajustada por
el efecto de los períodos intermedios. Por ejemplo, parte de la correlación
que pueda detectarse entre dos valores de de la serie Y en los tiempos t y t-
2, ( Y t , Yt − 2 ) es debida a que ambas variables están correlacionadas con el
valor de la variable en t-1.
2.2.1.11 Hipótesis de los componentes subyacentes (HCS)
La HCS expone que una serie temporal Yt puede descomponerse en
todos o alguno de los siguientes elementos: tendencia (T), ciclo (C),
estacionalidad (E) e irregularidad (I), que estos elementos se estiman por
separado y luego se combinan de forma conveniente para modelar el
comportamiento de la serie.
2.2.1.12 Outlier
Es aquella observación que tiene un comportamiento muy diferente
con respecto al resto de los datos, frente al análisis que se desea realizar
sobre ellos. Esto implica, que dada una serie de datos, existen algunos que
se diferencian sustancialmente del resto y cuya ocurrencia puede deberse a
causas muy específicas, no normales en el comportamiento de la serie,
razón por la cual deben ser revisados con detenimiento. Por ejemplo,
teniendo una serie de datos que guarda la altura promedio de los niños en
edad preescolar, durante varios años, y los valores oscilan entre 0,75mt y 1
mt., conseguir un valor en la serie de 1,5mt puede ser considerado como
outlier y debe ser investigado para determinar si es correcta tal magnitud o si
se debe a un error.
2.2.1.13 Método de los mínimos cuadrados
Es el método de estimación mas usado comúnmente para ajustar una
serie de puntos de datos a ecuaciones de curvas conocidas. La sumatoria del
cuadrado de las distancias Dn entre la curva conocida y los datos originales,
es una medida de la bondad de ajuste de la curva, es decir, mientras mas
pequeño sea este valor, mejor es el ajuste de la curva.
“Una tal curva se dice que ajusta los datos en el sentido de mínimos
cuadrados y se llama curva de mínimos cuadrados. Así pues, una recta con
esa propiedad se llama recta de mínimos cuadrados, una parábola se llama
parábola de mínimos cuadrados, etc”.(Spiegel, 1990)
•
Recta de mínimos cuadrados
Por este método se ajusta un conjunto de puntos (X1 , Y1 ) , (X 2 , Y2 ) a una
recta cuya ecuación tiene la forma
Y = a0 + a1 X
(6)
a0 y a1 se calculan, resolviendo en forma simultánea las siguientes
ecuaciones:
∑Y = a N + a ∑ X
∑ XY = a ∑ X + a ∑ X
0
0
(7)
1
1
2
(8)
2.2.2 Series temporales
Los fenómenos sociales pueden ser estudiados estadísticamente
teniendo en cuenta su evolución en el tiempo. La cantidad de alumnos que
se inscriben semestralmente en cada materia del pénsun de estudios de
cualquier carrera en cualquier universidad puede ser concebida como uno de
estos fenómenos.
En el caso que nos compete, la Universidad Nacional Abierta, y
seguramente en todas las universidades, la matrícula de algunas materias
depende mayormente de factores que pueden medirse (pre-requisitos de
ingreso, repitencias, etc.) y por lo tanto pueden estimarse usando métodos
más concretos, sin embargo, para otras materias la matrícula depende de
muchos factores y situaciones complejas que sería muy difícil abarcar por
completo y aún cuando se pudiera, sería muy difícil medirlas. Este es el caso
de las asignaturas sin pre-requisitos (típicamente en los primeros semestres),
donde la matrícula no exhibe necesariamente un patrón determinado.
El siguiente, es un ejemplo de la matrícula de una asignatura en un
período de tiempo. Muestra la cantidad de alumnos inscritos por semestre.
Semestre
Matrícula
1995-1
1007
1995-2
1061
1996-1
1127
1996-2
1416
1997-1
1119
1998-1
1376
1998-2
487
1999-1
755
1999-2
1603
2000-1
1169
2000-2
1117
2001-1
1339
2001-2
1178
2002-1
909
2002-2
1126
2003-1
1154
2003-2
759
2004-1
1869
2004-2
1521
Tabla N°2: Matrícula de alumnos de la asignatura Lengua y Comunicación I.
Fuente: Unidad de Computación CLM.
La figura Nº 6 muestra la gráfica de los datos de la tabla Nº 2, donde
puede observarse el comportamiento de la serie entre 1995 y 2004.
Lengua y Comunicación I (102)
2000
1800
1600
1400
1200
1000
800
Serie1
600
400
20
04
-2
20
02
-2
20
03
-2
20
01
-2
20
00
-2
19
99
-2
19
98
-2
19
96
-1
19
97
-1
19
95
-1
200
0
Figura N° 6 Matrícula de la asignatura 102
Fuente: Elaboración propia
En estos casos, el estudio puede ser enfocado desde dos puntos de
vista: un punto de vista que estudia el comportamiento pasado de la variable
de estudio por ella misma (univariado) o un enfoque que utiliza una serie de
variables que permitan describir el mismo comportamiento (multivariado). El
primer enfoque puede ser incluido en el análisis estadístico que se denomina
Análisis de Series Temporales.
Una Serie Temporal está formada por un conjunto de valores
obtenidos de observaciones referentes al mismo fenómeno, realizadas en
una sucesión de momentos de tiempo, normalmente a intervalos iguales
(Sierra, 1994).
El análisis del comportamiento de una variable basado en Series de
Tiempo, es con frecuencia bastante práctico, dado que se enfoca en estudiar
la evolución de la variable en el tiempo, sin tomar en cuenta las causas que
la generaron ni los factores que influyeron en dicha evolución.
El estudio de series temporales ha sido un punto importante de estudio
en las ciencias econométricas, siendo muchos los autores que han trabajado
en ese sentido desde comienzos del siglo pasado.
El análisis clásico, o modelo de descomposición, ya utilizado en la
década de los treinta, sigue teniendo vigencia debido a su sencillez, aun
cuando han surgido muchos otros métodos que lo han complementado e
incluso intentado desplazar.
Los modelos conocidos como “macroeconométricos”, cuyo estudio
tuvo auge entre los años cincuenta-sesenta, se basaban en el uso de
ecuaciones simultáneas para la descripción y el pronóstico de ciertos
fenómenos tanto económicos como sociales. Estos modelos llegaron a tener
más de cien ecuaciones, lo cual fue posible de manipular gracias a la enorme
ayuda de la informática que les permitía hacer cálculos de forma más rápida.
Adicionalmente, y gracias a la estabilidad económica que existió durante ese
tiempo, los resultados hicieron pensar que se había conseguido el modelo
óptimo. Sin embargo, el surgimiento de la explosión petrolera, las crisis
inflacionarias, el desempleo y otras situaciones inesperadas mostraron la
incapacidad de estos modelos para representar la realidad del momento.
Un enfoque diferente para abordar las series de tiempo, lo introdujeron
en la década de los años 70, G.E.P. Box, profesor de estadística de la
Universidad de Wisconsin, y G.M. Jenkins, profesor de Ingeniería de
Sistemas de la Universidad de Lancaster, en sus trabajos sobre el
comportamiento de la contaminación en la bahía de San Francisco, que
resultaron en los modelos ARIMA 3, los cuales permitieron establecer mejores
mecanismos para el pronóstico de las series temporales, convirtiéndose
rápidamente en un clásico. También son conocidos como modelos BoxJenkins y su metodología fue de gran ayuda para simplificar los pronósticos
sobre series de tiempo, basándose en la estructura de correlaciones de la
propia serie.
Estos modelos lineales univariantes, con pocos parámetros a estimar,
proporcionaron
mejores
predicciones
que
los
complicados
modelos
macroeconométricos y pusieron en entredicho la utilidad de los mismos.
Varios estudios comparativos realizados para la fecha, confirmaron esa idea.
Esto provocó una cierta división entre los económetras, por un lado, los
partidarios de los métodos de series temporales, acusaban a los modelos
multiecuacionales de no ser capaces de explicar la realidad económica, y
defendían la mayor simplicidad y eficacia de los modelos ARIMA, por otro
lado, los partidarios de los modelos econométricos, se defendían acusando a
los modelos uniecuacionales de series de tiempo de no suministrar
información de las causas de variación de la variable dependiente, lo que los
invalidaba para efectuar ciertos análisis económicos.
Ante las nuevas perspectivas de la econometría, iban a la par los
estudios de series temporales., además de la utilización de los modelos
ARIMA y la metodología Box-Jenkins, se añadieron los modelos estructurales
de series temporales,
los cuales son una especie de síntesis entre el
planteamiento tradicional de descomposición y la metodología de BoxJenkins, en el sentido de que cada componente se modela como un proceso
ARIMA.
3
Los modelos ARMA (autorregresivos y de media móvil), habían sido ya propuestos por Yule (1921, 1926) y Wold
(1938)
Actualmente nadie cuestiona la utilidad de la metodología ARIMA para
el modelaje econométrico, y se mantiene vigente el análisis clásico de
descomposición, con algunas variantes en la estimación de sus parámetros.
La vigencia de ambas metodologías queda reflejada en el hecho de que la
mayoría de los libros de texto de econometría, incluyen de preferencia sólo
estos métodos, sin embargo, una gran cantidad de metodologías han surgido
para complementar las existentes e incluso han surgido teorías que proponen
enfoques totalmente diferentes. En el resto del documento se analizaran las
más conocidas
2.2.2.1 Análisis Clásico de series temporales
El método clásico de análisis de series temporales, también llamado
por algunos autores método de descomposición o método de extracción de
señales, supone que la serie de tiempo está compuesta por cuatro
parámetros que pueden ser estimados individualmente para luego establecer
un modelo que permita pronosticar el comportamiento futuro de la serie, así
como explicar el comportamiento pasado.
El primer paso obligatorio para la descomposición de la serie es
establecer la consistencia de los datos. La serie debe cumplir con las
siguientes características:
•
Debe estar completa, es decir, no deben faltar valores en períodos
intermedios
•
Datos considerados como outliers, deben ser revisados para determinar si
se deben a condiciones atípicas cuya probabilidad de ocurrencia futura
sea muy baja
Una vez establecida la consistencia de los datos, y partiendo de la
gráfica de la serie, se pueden distinguir, de acuerdo a este método cuatro
componentes principales:
1. Un componente que se mantiene en el tiempo, cuyo comportamiento
es el mismo a lo largo de todos los valores de la serie. Esto significa
por ejemplo que a simple vista se puede observar que la gráfica de la
serie tiene tendencia a subir, bajar o mantenerse estable. Por ejemplo:
Figura N° 7: Indice de Actividad Económica
http://ciberconta.unizar.es/leccion/seriest/100.HTM
Este componente es denominado Tendencia ( T ) por casi todos los autores.
2. Un componente cíclico, cuyos valores están alrededor de la
Tendencia, generalmente de poca duración. Este componente es un
valor que se repite a lo largo de la serie y dependiendo del tamaño de
ésta (numero de observaciones) podría no ser tan fácil de observar, de
hecho es la componente más difícil de determinar, refleja movimientos
oscilatorios por encima y por debajo de la tendencia de la serie y se
debe principalmente a los periodos de prosperidad y de depresión. La
siguiente gráfica muestra una serie con un claro ciclo de crecimiento y
decrecimiento:
Figura N°8: Ciclos de operatividad debido a alteraciones de presión y temperatura
Fuente: www.aeportugal.pt.
3. Un componente estacional, que representa cortas variaciones que
pueden repetirse periódicamente cada cierto período de tiempo, lo
cual puede representar situaciones temporales tanto típicas como
atípicas de la estructura de los datos que se está observando. Estos
valores pueden ser notados a simple vista, por ejemplo picos de
incremento, disminución o variación aleatoria similar cada cierto
número de períodos. Las variaciones estacionales se refieren
normalmente a periodicidades anuales, con lo cual, si solo se tienen
datos anuales, estos valores son nulos. Sin embargo, pueden existir
variaciones estacionales, dependiendo de los datos,
intervalo de tiempo
Figura N° 9: Componente Estacional
http://ciberconta.unizar.es/leccion/seriest/100.HTM
a cualquier
4. Un componente irregular, formado por variaciones aleatorias que no
tienen una representación definida ni un patrón de ocurrencia. Este
valor puede representar las situaciones atípicas que suelen estar
presentes en todos los fenómenos sociales y que no pueden
predecirse ni medirse de ninguna forma determinista. Pueden deberse
a sucesos de azar tales como huelgas, inundaciones, elecciones, etc.
y aunque se supone que dichas variaciones pierden su influencia en el
tiempo, cabe la posibilidad de que sean tan intensos que den lugar a
nuevos movimientos cíclicos o de otro tipo.
Estos cuatro componentes tienen su correspondencia en los factores
que lógicamente podrían interesar del fenómeno en estudio y que aislándolos
podrían permitir tanto explicar el comportamiento del mismo, como
pronosticar su comportamiento futuro.
El análisis exige que la serie cronológica sea descompuesta en sus
cuatro componentes para que sean estudiados por separado y luego se
relacionen de acuerdo a un modelo determinado. Los modelos que se utilizan
generalmente son dos, el aditivo y el multiplicativo dependiendo de la
interacción entre los componentes de la serie, aunque existen autores que
promueven el uso de un tercer modelo llamado mixto que es una
combinación de los dos anteriores
Modelo Aditivo
En este modelo se supone que cualquier valor Y de la serie temporal
es la suma de los cuatro componentes y puede calcularse de la siguiente
forma:
Y= T+C+E+I
(9)
Los componentes de la serie se suponen no relacionados entre si,
esto significa que no hay dependencia de un componente con otro. La
dependencia existe si la variación de un componente implica la variación de
otro u otros componentes.
Algunos autores consideran que a menos que existan relaciones
claramente definidas, las series deben considerarse siempre aditivas, ya que
las relaciones que no están bien delimitadas pueden ser tomadas como
irrelevantes para el desarrollo del modelo.
Modelo Multiplicativo
En este modelo se supone que cualquier valor Y de la serie temporal
es el producto de los cuatro componentes y puede calcularse de la siguiente
forma:
Y= T*C*E*I
(10)
En
el
modelo
multiplicativo
los
componentes
tienen
alguna
dependencia entre ellos, lo cual hace que la variación de uno implique la
variación de los otros. Tiende a ser el más utilizado debido a que no siempre
se sencillo establecer esta independencia. Para algunos autores solo existe
el modelo multiplicativo, debido a que parten del hecho de que siempre existe
alguna relación dependiente entre los componentes de la serie de tiempo,
aun cuando no se muestre a simple vista, otros establecen que la relación
puede estar encubierta por la componente irregular.
Modelo Mixto
En este modelo se supone que cualquier valor Y de la serie temporal
es el producto de los tres componentes T, E y C pero la componente irregular
I es un componente independiente. Esto implica que el modelo a seguir es el
siguiente:
Y= T*C*E +I
(11)
En el cual se está asumiendo que existen relaciones de dependencia
entre 3 de los componentes de la serie excepto para el componente irregular.
Elección del modelo
Para elegir el mejor modelo no existe un método determinado, ya que
no se tiene información a priori que permita escogerlo, sin embargo, Arellano
(2001) recomienda el llamado método de los Coeficientes de Variación (CV),
que consiste en, una vez determinada la tendencia, calcular la tabla de
residuos para ambas series, eliminando la tendencia. Esto significa:
•
Si el modelo es aditivo, la serie con los efectos de tendencia removidos,
se representa con:
Rt = Yt − Tt ; t = 1, 2...n
(12)
•
Análogamente, si el modelo es mixto o multiplicativo, la siguiente
ecuación representa la serie, una vez removidos los efectos de tendencia
Y
Wt = t
Tt
(13)
Luego se deben ordenar las series de residuos por períodos, calcular
la media por cada período y elegir una estación determinada (la misma para
cada período en ambas series). El CV se calcula dividiendo el valor de la
estación determinada entre la media de cada período. Por ejemplo:
Período
Estación
1
2
K
1
W(1)
W(5)
W(4k-3)
2
W(2)
W(6)
W(4k-2)
Promedio
STD
Fila
Fila
S
1
W (1)
S2
W (2)
3
W(3)
W(7)
W(4k-1)
W (3)
S3
4
W(4)
W(8)
W(4k)
W (4)
S4
C.V.
Fila
S1
W (1)
S2
W ( 2)
S2
W ( 3)
Tabla N° 3: Residuos del modelo aditivo
Fuente: http://ciberconta.unizar.es/leccion/seriest/100.HTM
Período
Estación
1
2
K
1
R(1)
R(5)
R(4k-3)
2
R(2)
R(6)
R(4k-2)
3
R(3)
R(7)
4
R(4)
R(8)
Promedio
Fila
STD
Fila
C.V.
Fila
R (1)
S1
S1
R (2)
S2
S2
R(4k-1)
R (3)
S3
S2
R(4k)
R (4)
S4
R (1)
R ( 2)
R ( 3)
Tabla N° 4: Residuos del modelo Mixto/Multiplicativo
Fuente: http://ciberconta.unizar.es/leccion/seriest/100.HTM
El modelo a elegir, será aquel cuya variación sea menor en términos
de valor absoluto.
La elección entre el modelo mixto y el multiplicativo dependerá de la
experiencia del investigador, ya que puede suponer o no, de acuerdo al caso
que esté estudiando, que la componente irregular está correlacionada con el
resto de los valores de la serie.
Detección y corrección de outliers
Existen procedimientos específicos para detectar y corregir los
outliers. El método más usado para la detección de outliers se basa en fijar
intervalos o regiones tales que fuera de ellas, las observaciones sean
posiblemente outliers y consideradas como tales. Este método está basado
en la desigualdad de Tchebychev 4:
f {Xi : |Xi - Xj| < kS } ≥ 1 −
1
k2
(14)
Donde k es un valor decidido por el investigador y significa la mayor
distancia que la variable puede estar alejada de su media. Generalmente
toma valores enteros. S es la desviación típica. La elección de k significa
Se deduce que en el intervalo ( X - kS, X + kS) se encuentran al menos
el 100*(1 −
1
1
)% de las observaciones. Así si k es tal que 1 − 2
2
k
k
es próximo
a 1, observaciones fuera de ( X - kS, X + kS) pueden ser declaradas como
outliers. Por ejemplo, si k=3 , el intervalo ( X - 3S, X + 3S) contiene al menos
el 88.88% de las observaciones.
Para la corrección de outliers, el método mas usado en el caso de
series temporales es el de interpolación lineal entre el valor anterior y el
siguiente.
Existen otros mecanismos como el de recorte y reemplazamiento que
se emplean tanto para la detección como la corrección de outliers. En el
primero se eliminan de los datos los valores mas pequeños y los más
grandes luego de lo cual se calculan la media y la desviación típica
recortada, esto permite decidir cuales son datos outliers y cuales no. Con el
4
Pafnouti Lvovitch Tchebychev. Matemático ruso (1821-1894)
reemplazamiento se sustituyen los valores más pequeños por el menor valor
y los más grandes, por el mayor valor de la serie no considerados como
outliers.
Es de notar que para las series de tiempo, la eficacia de su análisis
depende en gran medida de la veracidad de sus datos, luego, esto debe ser
tomado en cuenta en el sentido de que una serie con muchos valores que
deben ser corregidos (en relación con la cantidad de datos), probablemente
no suministre un pronóstico adecuado.
Ejemplo práctico: Si tomamos la serie expresada en la tabla N°2:
Semestre
1995-1
1995-2
1996-1
1996-2
1997-1
1998-1
1998-2
1999-1
1999-2
2000-1
2000-2
2001-1
2001-2
2002-1
2002-2
2003-1
2003-2
2004-1
2004-2
Matrícula
1007
1061
1127
1416
1119
1376
487
755
1603
1169
1117
1339
1178
909
1126
1154
759
1869
1521
Podemos observar a simple vista que no existen datos para el
semestre 1997-2. Siendo una situación real, lo primero sería investigar si la
causa se debe a un error humano o realmente no existe el dato. En este
último caso, se procede a interpolar el mencionado dato por el método de
interpolación lineal:
Se toman los datos de la tabla donde se desea interpolar el valor
1997-1
1119
Y
X
1998-1
1376
El valor deseado es el semestre 1997-2, que en la tabla representa el
semestre 6, luego aplicando la fórmula (5), tenemos:
f (6) = 1119 +
1376 − 1119
*(6 − 5) = 1248
7−5
Con esto se completa la serie y se puede comenzar el análisis.
Y
X
1997-1
1119
1997-2
1248
1998-1
1376
Estimación de los componentes de la serie
La estimación de los diferentes componentes de la serie puede
hacerse de varias formas teniendo en cuenta parámetros como tamaño de la
serie, tipo de información almacenada en los datos, estructura, etc. El empleo
de alguna técnica en particular debe realizarse con base en estos parámetros
y tomando en cuanta también la experiencia, ya que no existe una forma
estándar de realizar la selección.
Estimación de la Tendencia
Para estimar la tendencia las técnicas más conocidas son las de los
semipromedios, la de los promedios móviles y la de los mínimos cuadrados.
•
Técnica de los semipromedios: Consiste en dividir la serie cronológica en
dos partes, de ser posible iguales, calcular la media aritmética de ambas
partes, situar los dos puntos hallados en el gráfico de la serie y unirlos
mediante una línea recta, que se supone la Tendencia buscada. Se aplica
cuando la tendencia es lineal o aproximadamente lineal.
Ejemplo práctico: Tomando en cuenta la serie de la tabla N°2 (después
del ajuste de outliers) primero se divide en dos partes la serie y se
calculan las medias aritméticas de cada una:
Semestre
Matrícula
Semestre
Matrícula
1995-1
1007
2000-1
1169
1995-2
1061
2000-2
1117
1996-1
1127
2001-1
1339
1996-2
1416
2001-2
1178
1997-1
1119
2002-1
909
1997-2
1248
2002-2
1126
1998-1
1376
2003-1
1154
1998-2
487
2003-2
759
1999-1
755
2004-1
1869
1999-2
1603
2004-2
1521
Media
1119.9
Media
1214, 1
Tabla N° 5: Matrícula de alumnos de la asignatura Lengua y Comunicación I.
Fuente: Unidad de Computación UNA
Mediante una grafica se pueden posicionar ambas medias en
cada punto central de la serie (en este caso se puede ubicar el centro
indistintamente entre los semestres 1997-1 y 19972 en la primera
parte y 2002-1 ó 2002-2 en la segunda parte) y trazar una línea recta
que permita establecer la tendencia, sin embargo, para efectos de
cálculo es mas preciso realizar un análisis como el que sigue:
En diez semestres (desde 1997-1, hasta 2002-1 se puede notar
que ha habido un incremento de 1214,1-119,9 = 94,2 alumnos, es
decir, un incremento de 94,2/10 = 9,42 semestral. Sabiendo esto,
podemos calcular los valores de tendencia para todos los semestres,
de la siguiente forma: El semestre 1996-2 (un período antes de la
media) viene dado por 1119,9 –9,42 = 1110,48, el anterior (1996-1)
será igual a 1119,9 –2*9.42= = 1101.06 y así sucesivamente. Los
semestres posteriores a la media serán 1119,9 + 9,42 (1997-2) 1119,9
+ 2 *9,42 (1998-1) . La gráfica de la siguiente figura muestra una
aproximación de lo anterior:
-1
04
20
20
03
-1
-1
02
20
20
01
-1
-1
00
20
19
99
-1
-1
98
19
97
-1
-1
19
96
19
19
95
-1
2000
1800
1600
1400
1200
1000
800
600
400
200
0
Figura N°.10 Aplicación del Método de los Semipromedios
Fuente: Elaboración propia
•
Técnica de los promedios móviles: Esta técnica permite seguir de cerca la
evolución de la serie, aunque se pierden los años del extremo superior e
inferior y en ocasiones no es posible ajustar a una curva conocida (Sierra,
1994).
Se determinan en la serie los períodos de tres o cinco años, según
convenga (se pueden combinar los períodos), luego se calculan los
totales móviles correspondientes. Para ello, se suman los totales del
período completo y el resultado se centra en el año intermedio del período
tomado (año 2 si es de 3 años o año 3 si es de 5 años), seguidamente se
descarta el primer año y se repite el procedimiento con los siguientes
años de acuerdo al periodo establecido, hasta el último valor. Por último,
cada total se divide por el número de años que comprenda el período,
obteniendo los promedios o medias móviles buscadas. El siguiente
gráfico muestra un promedio móvil a tres años de la serie de la Tabla N°2.
19
95
19 -1
95
19 -2
96
19 -1
96
19 -2
97
19 -1
97
19 -2
98
19 -1
98
19 -2
99
19 -1
99
20 -2
00
20 -1
00
20 -2
01
20 -1
01
20 -2
02
20 -1
02
20 -2
03
20 -1
03
20 -2
04
20 -1
04
-2
2000
1800
1600
1400
1200
1000
800
600
400
200
0
Figura N° 11 Aplicación del Método de los Promedios Móviles
Fuente: Elaboración propia
Técnica de los mínimos cuadrados: Consiste en buscar por el
procedimiento de los mínimos cuadrados, la ecuación de la recta,
curva parabólica, exponencial, logarítmica, etc. que mejor se ajuste al
conjunto de valores de la serie. Una vez hallada la ecuación, se
pueden determinar los valores de tendencia para cada momento.
(Sierra, 1994). La siguiente figura muestra un ejemplo del ajuste de
los datos de la tabla N°2 a una recta de mínimos cuadrados:
Título del gráfico
2000
1500
1000
500
20
04
-1
20
02
-1
20
03
-1
20
01
-1
20
00
-1
19
99
-1
19
98
-1
19
97
-1
19
96
-1
0
19
95
-1
•
Figura N°.12 Aplicación del Método de los Promedios Móviles
Fuente: Elaboración propia
Estimación de las variaciones estacionales
Las técnicas más usadas son la técnica del porcentaje promedio, la
técnica del porcentaje promedio móvil y la técnica del porcentaje de
tendencia.
•
Técnica del porcentaje promedio: Los valores de cada mes se
expresan como porcentajes de la media anual. Por lo tanto, la suma
de los porcentajes de todos los meses debe ser igual a 1200, en el
caso de que la serie tenga valores mensuales, 400 en caso de que
sean valores trimestrales y así sucesivamente. De nos ser así, deben
multiplicarse por la proporción adecuada para que se produzca ese
ajuste. Luego de obtenido el índice mensual de varios años, se forma
un índice común obteniendo su media. Siguiendo con el ejemplo de la
tabla N°2, lo primero es reordenar la serie en períodos anuales, para
luego calcular la media:
Año
Semestre 1 Semestre 2
Suma
1995
1007
1061
1034
1996
1127
1416
1271,5
1997
1119
1248
1183,5
1998
1376
487
931,5
1999
755
1603
1179
2000
1169
1117
1143
2001
1339
1178
1258,5
2002
909
1126
1017,5
2003
1154
759
956,5
2004
1869
1521
1695
Tabla N° 6: Datos reordenados por períodos
Fuente: Elaboración propia
Seguidamente, se expresan los valores de cada mes como
porcentajes de la media anual
Año
Semestre 1 Semestre 2
Suma
1995
97,39
102,61
200
1996
88,64
111,36
200
1997
94,55
105,45
200
1998
147,72
52,28
200
1999
64,04
135,96
200
2000
102,27
97,73
200
2001
106,40
93,60
200
2002
89,34
110,66
200
2003
120,65
79,35
200
2004
110,27
89,73
200
Tabla N° 7: Datos expresados como porcentajes de la media anual
Fuente: Elaboración propia
Afortunadamente, la suma de los porcentajes anuales es 200 (lo
deseado, dado que es una serie semestral), por lo tanto no es
necesario hacer ningún ajuste. En caso de que así fuera,
un
procedimiento como el siguiente serviría para lograrlo:
Si se tiene por ejemplo:
2004
110
87
197
Multiplicando 110 y 87 por 200/197 tenemos los nuevos valores
ajustados que ahora si suman 200:
2004
111.68
88.32
200
El último paso es calcular el índice común con la media de cada
semestre en todos los años:
Índices Estacionales
1
102,13
2
97,87
•
Técnica del porcentaje promedio móvil: Consiste en calcular primero el
promedio móvil de doce meses para los datos originales, y luego el
promedio móvil de dos meses para centrar los resultados en el centro
del mes a que se refieren y no entre dos meses. Luego los datos
originales se expresan como porcentajes del valor que corresponda al
promedio móvil centrado de doce meses. Esta técnica es la más
usada, por ser más satisfactoria matemáticamente. Para dar un mejor
ejemplo de este método se requiere una serie mensual mas que una
semestral como la que se ha venido ejemplificando. La siguiente serie
hipotética permitirá demostrar el método:
Mes
Vuelos
Mes
Vuelos
Enero
178
Julio
186
Febrero
175
Agosto
146
Marzo
120
Septiembre
161
Abril
165
Octubre
119
Mayo
132
Noviembre
170
Junio
135
Diciembre
185
Julio
145
Enero
168
Agosto
168
Febrero
133
Septiembre
196
Marzo
144
Octubre
137
Abril
179
Noviembre
155
Mayo
198
Diciembre
152
Junio
164
Enero
178
Julio
198
Febrero
163
Agosto
175
Marzo
172
Septiembre
129
Abril
165
Octubre
137
Mayo
139
Noviembre
163
Junio
195
Diciembre
169
Tabla N° 8: Tabla Hipotética con valores mensuales
Fuente: Elaboración propia
Calculando primero un promedio móvil de 12 meses y luego otro de 2
meses se tiene:
Mes
P. móvil
Mes
P. móvil
Enero
Julio
164,50
Febrero
Agosto
162,83
Marzo
Septiembre
160,42
Abril
Octubre
159,83
Mayo
Noviembre
162,88
Junio
Diciembre
164,04
Julio
154,83
Enero
163,25
Agosto
154,33
Febrero
164,96
Septiembre
156,00
Marzo
164,83
Octubre
158,17
Abril
164,25
Noviembre
158,46
Mayo
164,71
Diciembre
161,25
Junio
Enero
165,46
Julio
Febrero
166,25
Agosto
Marzo
163,88
Septiembre
Abril
161,67
Octubre
Mayo
161,54
Noviembre
Junio
163,54
Diciembre
Tabla N° 9: Promedio centrado a 12 meses
Fuente: Elaboración propia
Dividiendo cada valor real entre su correspondiente promedio móvil y
expresándolo en porcentajes:
Ene
Feb
Mar
Abr
May
Jun
Jul
93,65
107,58
98,05
112,78 102,91
104,96 102,06
86,05
80,63
108,98 120,21
87,36
119,24 113,07
Oct
Nov
Dic
108,86 125,64
Ago
Sep
86,62
97,82
94,26
89,66
74,45
104,37 164,04
100,36
Tabla N° 10: Técnica del Promedio Móvil
Fuente: Elaboración propia
Calculando el promedio y ajustando los valores se tienen finalmente
los índices estacionales para cada mes:
Ene
Feb
Mar
Abr
May
Jun
Jul
Ago
Sep
Oct
Nov
Dic
92,594 107,63 124,22 85,641 96,715 93,201
104,45 93,089
101,9
99,089
83,54
115,76 109,78 87,051
110,41 100,75 78,933 85,526 106,69 117,69
97,44
72,284 101,33 159,26
107,43 96,919 90,417 92,308 95,116 116,73 101,19
97,34
110,83 78,963 99,025 126,23
Tabla N° 11: Índices Estacionales
Fuente: Elaboración propia
•
Técnica del porcentaje de tendencia: En esta técnica se procede
eliminando de los datos el componente de la tendencia expresando los
resultados de cada mes como porcentajes de los valores de tendencia
mensuales. Se halla la media de las cantidades obtenidas para el
mismo mes dentro de cada año como porcentaje de los valores de
tendencia mensuales. Utilizando la serie de la tabla N°2, junto con el
cálculo de la tendencia ya realizado por el método de los mínimos
cuadrados, podemos reagrupar por semestre para tener lo siguiente
Año
Semestre 1
Semestre 2
Matrícula Tendencia Matrícula Tendencia
1995
1007
1082,22
1061
1091,64
1996
1127
1101,06
1416
1110,48
1997
1119
1119,9
1248
1129,32
1998
1376
1138,74
487
1148,16
1999
755
1157,58
1603
1167
2000
1169
1176,42
1117
1185,84
2001
1339
1195,26
1178
1214,1
2002
909
1223,52
1126
1232,94
2003
1154
1242,36
759
1251,78
2004
1869
1261,2
1521
1270,62
Tabla N° 12: Datos de Matrícula y Tendencia reagrupados por semestre
Fuente: Elaboración propia
Aquí se hallan los valores de cada mes expresados como porcentajes
de la tendencia (ver tabla N°13) Y luego se ajustan los valores
dependiendo de la suma por período, los resultados son mostrados en
la tabla N° 14.
Año
Semestre 1 Semestre 2
Suma
1995
93,05
97,19
190,24
1996
102,36
127,51
229,87
1997
99,92
110,51
210,43
1998
120,84
42,42
163,25
1999
65,22
137,36
202,58
2000
99,37
94,19
193,56
2001
112,03
97,03
209,05
2002
74,29
91,33
165,62
2003
92,89
60,63
153,52
2004
148,19
119,71
267,90
Tabla N° 13: Valores como porcentaje de Tendencia
Fuente: Elaboración propia
Año
Semestre 1 Semestre 2
Suma
1995
97,82
102,18
200,00
1996
89,06
110,94
200,00
1997
94,97
105,03
200,00
1998
148,04
51,96
200,00
1999
64,39
135,61
200,00
2000
102,67
97,33
200,00
2001
107,17
92,83
200,00
2002
89,72
110,28
200,00
2003
121,01
78,99
200,00
2004
110,63
89,37
200,00
Tabla N° 14: Datos ajustados del porcentaje de Tendencia
Fuente: Elaboración propia
Sólo resta promediar cada período para conseguir los índices
estacionales:
Indices Estacionales
1
69,81
2
70,19
Estimación de las variaciones cíclicas e irregulares
Aquí hay que hacer una distinción entre si se usan valores anuales o
mensuales. En el primer caso, los datos generalmente no contienen
variaciones estacionales y por lo tanto se deben dividir o restar los datos
entre los valores de tendencia, de acuerdo al modelo elegido.
Modelo aditivo: Y − T = C + I
Modelo Multiplicativo/Mixto: Y / T = C * I
En el segundo caso se deben dividir o restar los datos de las
estimaciones de tendencia y estacional, esto da como resultado el producto
C*I, procurando eliminar luego la componente irregular utilizando un
promedio móvil. Los resultados se dan en porcentajes.
El componente cíclico y el regular, en la práctica tienden a ser
inspeccionados primero para determinar su influencia real en la serie, de esta
forma, si el producto C*I, expresado en porcentajes no supera un cierto
criterio establecido (por ejemplo 5%, entonces puede asumirse como 1 y
eliminarse de la serie, de esta forma la serie puede ser expresada como
Modelo aditivo: Y = T + E
Modelo Multiplicativo/Mixto: Y = T * E
Si la contribución de estos componentes (cíclicos e irregulares) es
considerable,
entonces
el
procedimiento
consiste
en
eliminar
los
componentes de tendencia y estacional, luego suavizar la serie con un
promedio móvil, con lo cual el resultado sería el componente cíclico. Este
componente debe ser estudiado en detalle para luego construir índices de la
misma forma que los índices estacionales.
La estimación del componente irregular, se hace ajustando los valores
originales según los valores de tendencia, estacionales y cíclicos
encontrados. Esto se hace dividiendo o restando sucesivamente de los datos
originales, los valores de T, E y C.
Un ejemplo práctico de aplicación lo tenemos determinando los
componentes cíclicos e irregulares de los datos de la tabla N°2, a quienes ya
le fueron calculados los componentes de tendencia en párrafos anteriores.
Recopilando nuevamente los datos tenemos:
Datos
T
E
Originales
1995-1
1007
1082,22
102,13
1995-2
1061
1091,64
97,87
1996-1
1127
1101,06
102,13
1996-2
1416
1110,48
97,87
1997-1
1119
1119,9
102,13
1997-2
1248
1129,32
97,87
1998-1
1376
1138,74
102,13
1998-2
487
1148,16
97,87
1999-1
755
1157,58
102,13
1999-2
1603
1167
97,87
2000-1
1169
1176,42
102,13
2000-2
1117
1185,84
97,87
2001-1
1339
1195,26
102,13
2001-2
1178
1214,1
97,87
2002-1
909
1223,52
102,13
2002-2
1126
1232,94
97,87
2003-1
1154
1242,36
102,13
2003-2
759
1251,78
97,87
2004-1
1869
1261,2
102,13
2004-2
1521
1270,62
97,87
Tabla N° 15: Componentes de Tendencia y Estacional
Fuente: Elaboración propia
Donde T fue hallada por el método de los semipromedios y E por el
método del porcentaje promedio.
Asumiendo un modelo multiplicativo, los indices C*I puden verse
calculados en la tabla N° 16.
Graficando el componente C*I podemos observar que si existen
variaciones cíclicas e irregulares considerables (Ver figura N° 13), por lo cual,
haciendo un promedio móvil de 3 semestres podemos suavizar las
variaciones irregulares y quedarnos con el componente cíclico únicamente
(pueden seguir existiendo variaciones irregulares, aunque en menos escala).
Datos
T
E
Y/T
Y/TS=C*I
Originales
1995-1
1007
1082,22
102,13
93,05
91,11
1995-2
1061
1091,64
97,87
97,19
99,30
1996-1
1127
1101,06
102,13
102,36
100,23
1996-2
1416
1110,48
97,87
127,51
130,28
1997-1
1119
1119,9
102,13
99,92
97,84
1997-2
1248
1129,32
97,87
110,51
112,91
1998-1
1376
1138,74
102,13
120,84
118,32
1998-2
487
1148,16
97,87
42,42
43,34
1999-1
755
1157,58
102,13
65,22
63,87
1999-2
1603
1167
97,87
137,36
140,34
2000-1
1169
1176,42
102,13
99,37
97,30
2000-2
1117
1185,84
97,87
94,19
96,24
2001-1
1339
1195,26
102,13
112,03
109,69
2001-2
1178
1214,1
97,87
97,03
99,13
2002-1
909
1223,52
102,13
74,29
72,75
2002-2
1126
1232,94
97,87
91,33
93,31
2003-1
1154
1242,36
102,13
92,89
90,95
2003-2
759
1251,78
97,87
60,63
61,95
2004-1
1869
1261,2
102,13
148,19
145,11
2004-2
1521
1270,62
97,87
119,71
122,30
Tabla N° 16: Componentes de Tendencia, Estacional y Ciclico-Irregulares
Fuente: Elaboración propia
La Grafica de la figura N° 15 muestra la serie suavizada donde se
puede observar un ciclo de aproximadamente 10 semestres. Un ciclo
completo puede observarse desde el semestre 1988-2 hasta el 2003-1. Con
esta información procedemos a calcular los índices cíclicos de manera similar
a como se calcularon los índices estacionales.
160,00
140,00
120,00
100,00
80,00
60,00
40,00
20,00
2004-2
2004-1
2003-2
2003-1
2002-2
2002-1
2001-2
2001-1
2000-2
2000-1
1999-2
1999-1
1998-2
1998-1
1997-2
1997-1
1996-2
1996-1
1995-2
1995-1
0,00
Figura N°.13 Variaciones cíclicas e irregulares
Fuente: Elaboración propia
120
100
80
60
40
20
41
20
0
31
20
0
21
20
0
11
20
0
01
20
0
91
19
9
81
19
9
71
19
9
61
19
9
19
9
51
0
Figura N°.14 Variaciones cíclicas
Fuente: Elaboración propia
Luego, retomando los datos originales, ordenándolos de acuerdo a los
ciclos encontrados, se tiene entonces la información de la tabla N° 17. Es de
notar que una vez establecidos los ciclos, pueden colocarse en el orden
deseado, siempre y cuando se respete el número de períodos que lo
componen.
Sem1 Sem2 Sem3 Sem4 Sem5 Sem6 Sem7 Sem8 Sem9 Sem10
487
755 1603 1169 1117 1339 1178
909 1126
1154
1007 1061 1127 1416 1119 1248
1376
759 1869 1521
Tabla N° 17: Datos reorganizados de acuerdo al ciclo
Fuente: Elaboración propia
Media
1083,70
1193,43
1383,00
Los datos ajustados, junto con el índice cíclico se muestran en la tabla N° 18.
Sem1
44,94
0
54,88
49,91
Sem2 Sem3 Sem4 Sem5 Sem6 Sem7 Sem8 Sem9 Sem10
69,67 147,9 107,9 103,1 123,6 108,7 83,88 103,9 106,49
0
0
84,38 88,9 94,43 118,6 93,76 104,6 115,30
135,1 110
0
0
0
0
0
0
0,00
102,4 128,9 96,12 95,99 109 113,7 88,82 104,2 110,89
Tabla N° 18: Datos ajustados e índices cíclicos
Fuente: Elaboración propia
Suma
1000
700
300
Los datos de los componentes T, E y C se pueden resumir en la tabla
N° 19.
Finalmente, teniendo tres de los cuatro componentes, se pueden
calcular las variaciones irregulares, ajustando la serie con los valores de T, E
y C. Esto implica dividir los valores originales de la serie por T, E y C.
Normalmente estos valores, aunque se expresen en porcentajes, suelen ser
bastante pequeños. Los datos completos pueden verse en la tabla N° 20.
Es fácilmente observable que multiplicando los valores calculados de
T, E, C e I podemos reproducir los datos originales. Por ende, la elección de
los métodos para estimar las componentes, es notoriamente importante a la
hora de descomponer cualquier serie.
Datos
T
E
C
Originales
1995-1
1007
1082,22
102,13
49,91
1995-2
1061
1091,64
97,87
102,40
1996-1
1127
1101,06
102,13
128,95
1996-2
1416
1110,48
97,87
96,12
1997-1
1119
1119,9
102,13
95,99
1997-2
1248
1129,32
97,87
109,00
1998-1
1376
1138,74
102,13
113,68
1998-2
487
1148,16
97,87
49,91
1999-1
755
1157,58
102,13
102,40
1999-2
1603
1167
97,87
128,95
2000-1
1169
1176,42
102,13
96,12
2000-2
1117
1185,84
97,87
95,99
2001-1
1339
1195,26
102,13
109,00
2001-2
1178
1214,1
97,87
113,68
2002-1
909
1223,52
102,13
88,82
2002-2
1126
1232,94
97,87
104,24
2003-1
1154
1242,36
102,13
110,89
2003-2
759
1251,78
97,87
49,91
2004-1
1869
1261,2
102,13
102,40
2004-2
1521
1270,62
97,87
128,95
Tabla N° 19: Componentes de Tendencia, Estacional y Cíclico
Fuente: Elaboración propia
Pronóstico de la serie.
De acuerdo a como se haya decidido el modelo, el pronóstico de un
valor de la serie para un momento determinado estará determinado por éste.
De esta forma, si se eligió el modelo aditivo, una vez establecidos los
parámetros de composición de la serie, y estimada la tendencia para el
período n+1, se escoge el índice estacional y el índice cíclico calculados de
los períodos correspondientes, y para el caso del componente irregular, se
puede tomar un valor promedio del obtenido en la serie de datos. Se pueden
pronosticar varios períodos si se desea.
Retomando nuevamente el ejemplo de la tabla N°2, se puede
pronosticar el semestre 2005-1 mediante el siguiente cálculo:
•
Se estima la Tendencia para el semestre 2005-1, la cual resulta de
sumar 9,42 (el crecimiento intersemestral) al último valor de Tendencia
calculada, siendo el resultado 1280, 04.
•
Dado que es el semestre 1, el índice estacional correspondiente es
102,13.
•
El componente cíclico correspondiente es 96.12
•
El componente irregular promedio es 0,01
•
Aplicando el método multiplicativo, se obtiene como resultado
1256,58, equivalente a 1257 estudiantes a inscribirse en el semestre
2005-1 en la asignatura Lengua y Comunicación I.
Datos
T
E
Originales
1995-1
1007
1082,22
102,13
1995-2
1061
1091,64
97,87
1996-1
1127
1101,06
102,13
1996-2
1416
1110,48
97,87
1997-1
1119
1119,9
102,13
1997-2
1248
1129,32
97,87
1998-1
1376
1138,74
102,13
1998-2
487
1148,16
97,87
1999-1
755
1157,58
102,13
1999-2
1603
1167
97,87
2000-1
1169
1176,42
102,13
2000-2
1117
1185,84
97,87
2001-1
1339
1195,26
102,13
2001-2
1178
1214,1
97,87
2002-1
909
1223,52
102,13
2002-2
1126
1232,94
97,87
2003-1
1154
1242,36
102,13
2003-2
759
1251,78
97,87
2004-1
1869
1261,2
102,13
2004-2
1521
1270,62
97,87
Tabla N° 20: Componentes de Tendencia, Estacional,
Fuente: Elaboración propia
C
I
49,91
0,02
102,40
0,01
128,95
0,01
96,12
0,01
95,99
0,01
109,00
0,01
113,68
0,01
49,91
0,01
102,40
0,01
128,95
0,01
96,12
0,01
95,99
0,01
109,00
0,01
113,68
0,01
88,82
0,01
104,24
0,01
110,89
0,01
49,91
0,01
102,40
0,01
128,95
0,01
Cíclico e Irregular
2.2.2.2 Procesos de Box-Jenkins
El análisis de series temporales basado en el trabajo de Box y Jenkins
propone una metodología de trabajo rigurosa para tratar las series a través
de modelos dinámicos que se conoce como metodología Box-Jenkins o
metodología ARIMA.
Los modelos ARIMA, Modelos Autorregresivos Integrados de Medias
Móviles de orden p, d, q, o abreviadamente ARIMA (p,d,q), están basados
en estudios anteriores, realizados por Yule (1921, 1926) y aseveradas por
Wold (1938), no es más que un modelo ARMA (p,q) aplicado a una serie
integrada de orden d, I (d), es decir, a la que ha sido necesario diferenciar d
veces para eliminar la tendencia.
Tipos de Procesos de Series Temporales- Ecuaciones de Yule-Wold
Si se tiene una Serie Temporal, es interesante descubrir si existe
algún patrón de comportamiento de la serie, de manera de poder hacer
predicciones.
Cuando se habla de procesos, se está suponiendo que es una forma
de generar series de números. La idea es conseguir el proceso que mejor
genere nuestra serie de datos, teniendo en cuenta que también podría estar
generada por varios procesos. Los tipos de procesos a revisar
siguientes:
•
Procesos Autoregresivos (AR)
•
Procesos de Medias Móviles (MA)
•
Modelos Autoregresivos y de Medias Móviles (ARMA)
son los
Procesos Autoregresivos (AR)
Se puede definir un modelo AR de orden p, también escrito AR(p),
como
Yt = φ1Yt −1 + φ2Yt − 2 + φ 3Yt −3 + ...φ pYt − p + ε t
(15)
Es decir, se escribe Yt (valor de la serie en el momento t), en función
de valores pasados de la propia serie y se incluye en la ecuación un término
de perturbación o error ε t que se supone se comporta como ruido blanco.
Ejemplo: Si se intenta explicar la evolución de las ventas de la
empresa SSC Sistemas, mediante un proceso autorregresivo, se podría
expresar como sigue:
Las ventas de la empresa este año (Ventast) dependen directamente
de las ventas de los dos últimos años según la relación de ventas:
Ventast = 0.8*Ventast −1 + 0.5*Ventast − 2
En este caso puede decirse que la serie de ventas sigue un proceso
autoregresivo de orden 2, cuyos coeficientes son
φ1 = 0.8;φ2 = 0.5; ε t = 0
Con ayuda de una hoja de cálculo, se puede generar, a partir de los
dos primeros datos aleatorios, una columna de números que sigan un
proceso AR(2). El resultado se da en el siguiente cuadro:
Año
Ventas
2003
Bs 763.192,92
2004
Bs 219.993,06
2005
Bs 557.590,91
2006
Bs 556.069,26
2007
Bs 723.650,86
2008
Bs 856.955,32
2009
Bs 1.047.389,69
2010
Bs 1.266.389,41
2011
Bs 1.536.806,37
2012
Bs 1.862.639,80
2013
Bs 2.258.515,03
2014
Bs 2.738.131,92
2015
Bs 3.319.763,05
Tabla N° 21 : Pronóstico de ventas de la empresa SSC Sistemas C.A
Fuente: SSC Sistemas y Suministros
Graficando esta tabla, tenemos:
7000000
6000000
5000000
4000000
Ventas
3000000
Año
2000000
1000000
0
1
2
3
4
5
6
7
8
9 10 11 12 13
Figura N° 15 Pronóstico de ventas de la empresa SSC Sistemas C.A
Fuente:SSC Sistemas y Suministros C.A.
Obviamente, esto sería el resultado final de una investigación donde
se ha determinado, primero que estamos ante un proceso AR(2) y luego, se
han estimado los parámetros φ1 , φ2 , ε t . El reconocimiento de este tipo de
procesos se hace con base en su FAC y FACP.
En la práctica, estos procesos, se hallan de orden 1 ó 2. A medida que
el orden del proceso (p) es mas grande, la estimación de los parámetros se
complica porque involucra muchos mas datos de los observados por la
variable.
Procesos de Medias Móviles (MA)
Un modelo de los denominados de medias móviles es aquel que
explica el valor de una determinada variable en un período t en función de un
término independiente y una sucesión de errores correspondientes a
períodos precedentes, ponderados convenientemente. Estos modelos se
denotan normalmente con las siglas MA, seguidos, como en el caso de los
modelos autorregresivos, del orden entre paréntesis. Así, un modelo con q
términos de error MA(q) respondería a la siguiente expresión:
Yt = μ + ε t + ϕ1ε t −1 + ϕ2ε t − 2 + ϕ3ε t −3 + ... + ϕqε t − q
(16)
Donde ε t es ruido blanco
Un modelo de medias móviles puede obtenerse a partir de un modelo
autorregresivo sin más que realizar sucesivas sustituciones.
Suponiendo que se desea modelar el precio de un producto agrícola
en un contexto no inflacionario y se dispone de una serie cuya periodicidadad
corresponde al ciclo de cultivo del producto. Un ejemplo del modelo que
podría describir este producto es:
Yt = 10 + ε t + 0.8ε t −1
Obviamente ya se ha determinado la media del proceso μ , el
coeficiente ϕ1 y la distribución del ruido blanco.
Procesos Autoregresivos y de Medias Móviles (ARMA)
En el análisis empírico de series temporales, es frecuente encontrar
representaciones
que
tienen
una
componente
autoregresiva
y
una
componente de medias móviles, estos modelos se denotan como
ARMA(p,q), donde p y q denotan los componentes autorregresivos y de
medias móviles respectivamente.
Normalmente estos modelos no se encuentran en órdenes superiores
a los que usualmente se hallan en modelos AR y MA.
La formulación general del un proceso ARMA, denotada por
ARMA(p,q) viene dada por:
Yt = φ1Yt −1 + φ2Yt − 2 + φ 3Yt −3 + ...φ pYt − p + ε t + ϕ1ε t −1 + ϕ 2ε t − 2 + ϕ3ε t −3 + ... + ϕ qε t − q
(17)
Su FAC y su FACP serán combinación de ambos procesos y tendrán la
siguiente estructura:
•
FAC: Los primeros q coeficientes de la FAC vendrán establecidos por
la parte MA. A partir del momento q se producirá un decrecimiento de
los coeficientes vendrá dado por la estructura AR.
•
FACP: Los primeros coeficientes de la FACP vendrán establecidos
por la parte AR. A partir del momento p se producirá un decrecimiento
de los coeficientes que vendrá dado por la estructura MA.
Modelos ARIMA
En los puntos anteriores (modelos AR, MA, y ARMA) hemos supuesto
que se satisfacen las características para que el proceso sea estacionario,
sin embargo, encontramos en muchas situaciones, series que no lo son,
como es el caso de las series de datos económicos, que
suelen
caracterizarse por ser claramente no estacionarias, en cuyo caso no es
posible utilizar dichos modelos en forma inmediata.
Para estos casos, existen procedimientos que permiten, tomando las
primeras o segundas diferencias de la serie, obtener series que son
estacionarias o simplemente no son no estacionarias en forma obvia.
Los modelos ARIMA, son modelos realizados para este tipo de series,
en los cuales se transforma la serie original para formar otra serie que si
satisfaga las condiciones para aplicar los procedimientos de los procesos
estudiados anteriormente, luego de lo cual , se recuperan las predicciones
para la serie original, con base en las predicciones elaboradas con la serie
transformada.
2.2.2.3 Modelo Espectral
Se demuestra que cualquier proceso periódico se puede modelar, con
la precisión deseada, mediante series de términos de funciones senoidales
(seno y coseno), lo que se conoce como series de Fourier, y se denomina
espectro a la representación de las amplitudes, en el eje de las Y, que
constituyen los diferentes términos de la serie para toda la gama de
frecuencias (eje de las X).
La idea básica del análisis espectral es que un proceso estacionario
Yt puede ser descrito como la suma de movimientos de seno y coseno de
diferente frecuencia y amplitud. La meta es determinar cuales son los ciclos
de diferentes frecuencias importantes para describir el comportamiento de
Yt . Estos ciclos pueden ser de corto o largo plazo, por lo que no se realiza
una descomposición de la serie en la forma usual de tendencia, ciclo,
estacionalidad y componente irregular, sino que en su lugar se descompone
la serie en la totalidad de frecuencias existentes.
Además, es importante resaltar el hecho de que el análisis espectral
no depende de un modelo para generar resultados. Este analiza la serie en
forma puramente matemática y no está basado en ninguna teoría acerca de
los procesos que definen las series. Por esto se requiere una gran cantidad
de datos para utilizar esta técnica (se recomienda al menos 100
observaciones).
En la siguiente figura se muestra una imagen típica del espectro de
frecuencias de una serie, en el que se representa en el eje de las Y la
amplitud y en el de las X la frecuencia, y partiendo de la estimación directa
del espectro a partir de los datos (esquina superior izquierda), se va
refinando mediante procedimientos de alisado y nos permite en este caso
detectar la presencia de un factor de periodicidad para la frecuencia en torno
del valor 1.
Figura N° 16: Modelo Espectral
Fuente: http://www.bccr.fi.cr/ndie/Documentos/COMPENDIO%20N%B01.PDF
Las principales ventajas que posee esta técnica son:
•
No es necesario eliminar los componentes irregular y estacional de
las series para estudiar su comportamiento.
•
Analiza relaciones económicas con más detalle de lo que los
métodos tradicionales de construcción de modelos econométricos
son capaces. Describe las fluctuaciones de los ciclos económicos
de una serie de tiempo en forma más correcta, por cuanto
considera todo el comportamiento histórico de la serie en estudio y
no sólo sus picos y valles. Es un método matemáticamente más
riguroso y general que los modelos ARIMA,
•
Puede utilizarse para series con cualquier tipo de periodicidad.
Las desventajas son:
•
Las series de tiempo deben ser estacionarias. Transformar una
serie puede alterar el espectro de la serie básica.
•
Utiliza únicamente las frecuencias de Fourier, que son aquellas
que contienen un número completo de ciclos desde la primera
hasta la última observación. Por ello, las frecuencias particulares
utilizadas dependen de la extensión de las series y es enteramente
posible que un ciclo importante en los datos no sea tomado en el
análisis. Si se conoce la existencia de la periodicidad de la serie y
se quiere mostrar claramente, entonces la extensión de la serie
debe ser un múltiplo de esa periodicidad
•
El método espectral requiere más datos (sobre 100 observaciones)
que otros técnicas, debido a que no utiliza la muestra en forma
eficiente.
•
Es un modelo no teórico, en el sentido de que no responde a
alguna teoría económica.
2.2.2.4 Modelo UCARIMA
La metodología UCARIMA (“unobserved components ARIMA”) asume
que tanto la serie observada como los componentes inobservables
responden a modelos ARIMA, cómo veremos la estimación de los mismos no
consiste más que en la aplicación de filtros de características adecuadas. La
ventaja que aporta este método está ligada a la estimación-especificación
previa de un modelo a la serie observada lo que resuelve los problemas de
adecuación del filtrado a la naturaleza de las series. De manera adicional,
este método permite la obtención de medidas estadísticas de confianza
sobre la estimación, así como efectuar predicciones sobre los componentes.
El modelo UCARIMA coincide en que las series temporales pueden
ser descompuestas de acuerdo con las especificaciones de la Hipótesis de
los componentes subyacentes (HCS) basada en modelo ARIMA. Según la
HCS una serie temporal Y , puede descomponerse en cuatro elementos:
Tendencia (T), Ciclo (C) , Estacionalidad (E) e Irregularidad (I) según un
esquema aditivo o multiplicativo.
2.2.2.5 Modelo ARCHI
Desarrollado por Robert F. Ingle (premio Nobel compartido 2003)
permite analizar series de tiempo con volatilidad temporal. Es usado
intensivamente en el campo de las finanzas para replicar la volatilidad del
precio de los activos en el tiempo. El modelo plantea que la varianza de las
series de precios evoluciona de acuerdo a un proceso autorregresivo,
generalmente lineal. La aplicación de este método es común en la evaluación
del riesgo de activos financieros. Está basado en la metodología de BoxJenkins.
2.2.2.6 Modelo de Cointegración
Clive W.J. Granger ( premio Nobel compartido 2003), desarrolló el
método
para
analizar
series
de
tiempo
con
tendencias
comunes
(cointegración). Este método explora las series de tiempo para detectar
relaciones de largo plazo que encierran sentido económico. Con frecuencia
se encuentran relaciones estadísticas entre variables económicas no
estacionarias
2.2.2.7 Modelo AFRIMA
Propuestos por Granger, Joyeux (1980) y Hosking (1981). Los
modelos ARFIMA permiten modelizar procesos con dependencias a largo
plazo. Para ello aprovechan el concepto de procesos fraccionarios
introducidos por Mandelbrot y Van Ness (1968). Existen múltiples estudios
sobre modelización ARFIMA de mercados financieros.
2.2.2.8 Modelo del Caos
Un planteamiento distinto al de los procesos estocásticos es el que
presenta a las series temporales no como originadas por un proceso
estocástico, sino como un proceso determinista. El desarrollo de la teoría del
caos propiciado en los años 70, gracias a las contribuciones de autores como
Ruelle, Takens, Lorenz, Li, Yorke, May, Feigenbaum y Mandelbrot,
proporciona una explicación teórica alternativa para la existencia de sistemas
dinámicos con comportamientos irregulares sin necesidad de recurrir a las
variables aleatorias.
El paso definitivo de los sistemas dinámicos caóticos teóricos al
análisis de series temporales fue propuesto por Packard, Crutchfield, Farmer
y Shaw en 1980. La idea de estos físicos era que todo el sistema dinámico
podría estudiarse a través de una sola variable, pues la historia de ésta
guardaría información sobre el resto del sistema. Una versión formalizada
matemáticamente de dicho concepto se conoce como el teorema de Takens,
desarrollado por este en 1981, sobre el que está construido el análisis
caótico de las series temporales.
En los años 80 se desarrollan dentro de la física toda una serie de
herramientas para diferenciar series temporales aleatorias de series
temporales caóticas. Estas herramientas han tenido éxito para detectar
comportamientos caóticos en campos tan dispares como la física, la química
o la medicina.
2.3. Formulación del Modelo
Del análisis realizado, surgen muchas expectativas sobre cual
metodología se debe usar para tratar las series de datos que le competen a
este trabajo, sin embargo, dada la estructura de la información que se tiene,
es posible ver con claridad muchas ventajas que representa el método
clásico sobre los otros métodos.
•
La sencillez de uso del método.
•
El hecho de que el fenómeno estudiado es un fenómeno social más
que económico. Los métodos como el de Box-Jenkins, y todos los que
se basan en él, son recomendados para situaciones principalmente
económicas, pero aunque pueden usarse para otros casos tanto
sociales como físicos, químicos, ambientales, etc., su verdadera
fortaleza está en las series económicas. El método clásico es un
método que hace bastante abstracción del origen de los datos.
•
No se tiene una gran cantidad de períodos en los datos de las series
para justificar el uso de algunos modelos como el espectral, por
ejemplo, que requiere una gran cantidad de datos.
•
Facilidad de programación.
Para tomar la decisión sobre la mejor estimación de los parámetros de
la serie, el primer paso dependerá de la gráfica de todas las series que se
tienen.
Para efectos de estimación de la tendencia se debe elegir entre los
tres métodos existentes: el método de los promedios móviles, el método de
los semipromedios y el método de los mínimos cuadrados, de acuerdo al que
represente mejor la tendencia aplicando el método de la bondad de ajuste, el
cual consiste en buscar la curva cuya suma del cuadrado de las desviaciones
Dn entre la curva original ya la curva estimada sea menor.
Para estimar la estacionalidad se empleará el método del porcentaje
promedio, debido a que es el que mejor se ajusta. El porcentaje promedio
móvil no se usará debido a que mayormente es útil para series con valores
mensuales y en nuestro caso, las series solo tienen valores semestrales. El
método del porcentaje de tendencia se descartó también debido a que si
existen variaciones grandes, los índices estacionales pueden contener
variaciones cíclicas e irregulares
Con respecto a la estimación del ciclo, será necesario la determinación
del modelo a a ser usado (el aditivo, el multiplicativo o el mixto). La mejor
forma es aplicar el método de variación de los coeficientes (CV) a los datos
obtenidos y luego determinando el mejor modelo entre el aditivo y el
multiplicativo o mixto.
Si resultase mejor el método multiplicativo ó mixto se debe usar el
multiplicativo por dos razones primordiales:
•
Es más fácil de manipular.
•
No existe certeza real de que la componente irregular de las series
sea un parámetro absolutamente desligado del resto de los
parámetros de la serie.
Una vez determinado el modelo que va a ser empleado, deben
dividirse o restarse los valores de la serie de los componentes Tendencia y
Estacional para lograr un residuo C*I ó C+I según convenga. Estos residuos
serán evaluados para determinar su incidencia sobre la serie. Si el valor de
esta incidencia no supera el 5% se pueden obviar estos componentes.
De no haber incidencia de los residuos sobre la serie, se debe asumir
este valor como uno para el caso del modelo multiplicativo, con lo cual la
serie quedará descrita por el producto T * E ó se tendrá por nulo (valor 0)
para el caso del modelo aditivo, siendo entonces la serie descrita por la suma
T+E.
Si existe incidencia de los residuos sobre la serie, se suaviza la con
una media móvil corta de 3 períodos para eliminar la componente irregular,
con lo que se tendrá entonces la componente cíclica pura. Esta componente
debe ser evaluada para determinar si existen ciclos, aunque sea aproximado,
luego de lo cual se determinarán de la misma forma que el componente
estacional.
Determinado el componente cíclico, se ajustan los datos originales de
la serie por los valores calculados de T, S y C para aislar la componente
irregular.
Teniendo ya descrita completamente la serie, se puede hacer la
predicción del período n+1, de acuerdo al siguiente procedimiento:
•
Siguiendo el mismo esquema de la Tendencia calculada, se estima el
valor de ésta para el período n+1, dependiendo del método utilizado.
•
Se ubica el índice estacional calculado para ese período (semestre 1 o
semestre 2) de acuerdo al período a predecir.
•
De acuerdo a la evaluación que se haya hecho sobre la incidencia de
los residuos cíclico-irregulares se determina si el modelo va a incluir o
no estos componentes.
•
En caso afirmativo se puede emplear directamente el componente
cíclico-irregular C*I ó C+I.
•
Teniendo a mano todos los componentes de la serie, pronosticar el
período n+1 no es más que aplicar las ecuaciones 7 u 8 dependiendo
del modelo más conveniente.
•
Pronosticar períodos superiores a n+1, es decir n+2, n+3 etc. es
posible tomando en cuenta que se incluirían en la serie, los valores
pronosticados y se reutilizaran para calcular de nuevo el pronóstico.
La validación del modelo se realizará una vez que se tengan los valores
reales, semestre a semestre, el algoritmo se irá recalculando para arrojar,
aparte del valor pronosticado, la desviación con respecto al valor real. Con
esto, se podrá evaluar fácilmente la funcionalidad del modelo.
CAPITULO III
MARCO METODOLÓGICO
En esta parte del documento, se mostrará información detallada acerca de
cómo se aplicaron los conceptos desarrollados en el marco teórico para la
ejecución de la investigación, así como también ubicar la investigación en el
marco de estudio que le corresponde.
3.1 Nivel de Investigación:
Esta investigación es de tipo explicativa, dado que pretende establecer
el comportamiento de las variables matrícula de alumnos ubicada en el
contexto específico del Centro Local Metropolitano de la Universidad
Nacional Abierta.
3.2 Diseño de la investigación:
Dado que los datos provienen directamente de la realidad donde
ocurren,
es decir, son datos primarios que no han sido manipulados ni
controlados, se puede decir que estamos en presencia de una investigación
de campo.
Es intensiva, dado que se está estudiando un caso particular cuyo
marco se encuentra centrado en el Centro Local Metropolitano de la
Universidad Nacional Abierta, lo cual imposibilita su generalización a
universidades u otros ámbitos similares.
El diseño de campo utilizado es el post-facto ya que se utilizan datos
ya ocurridos sin posibilidad de manipular las variables independientes.
Adicionalmente, la investigación también es documental, porque
involucró
la
el
análisis
e
interpretación
de
información
obtenida
primordialmente de fuentes bibliográficas documentales tanto impresas como
electrónicas. Adicionalmente, también se tomaron en cuenta los trabajos
realizados con anterioridad con respecto al tema en el Centro Local
Metropolitano.
3.3 Población y Muestra:
La Población en estudio serán todos aquellos estudiantes inscritos con
anterioridad en las asignaturas sin prerrequisitos del Centro Local
Metropolitano de la Universidad Nacional Abierta. En este caso la muestra es
igual a la población.
3.4 Técnicas e Instrumentos de Recolección de Datos:
Los datos fueron generados por la Unidad de Computación del Centro
Local Metropolitano de la Universidad Nacional Abierta, quienes son los
responsables de mantener y controlar este tipo de información para uso
interno de la Universidad. Fueron entregados en formato digital, en archivos
con formato
texto (extensión .txt), donde se incluyen por semestre los
alumnos inscritos, los regulares y los repitientes en cada asignatura.
La figura N° 16 muestra el detalle de uno de los archivos obtenidos
para el semestre 1997-1 con la relación estadística por asignaturas emitida
por la Unidad de Computación. La información contenida en estos archivos
debe ser depurada para dejar solamente lo necesario y no recargar el
sistema de información que debe manipularlos con datos que no van a ser
necesarios.
Figura N° 24: Archivo con datos de la matrícula semestral por asignatura
Fuente: Centro Local Metropolitano U.N.A
3.5 Técnicas de procesamiento de Datos
Los archivos obtenidos en formato texto, fueron depurados para
mantener sólo los datos necesarios. Para ello se realizó el siguiente
procedimiento:
•
Se borró el encabezado de los archivos para dejar solamente información
de la matrícula. La figura N° 17 muestra un ejemplo del archivo sin
encabezado, solamente con los datos necesarios para continuar su
exportación hacia la aplicación Microsoft Excel.
•
Se abrieron los archivos con la aplicación Microsoft Excel y se ajustaron
las columnas para lograr la tabulación exacta de los datos
Figura N°:17 Archivos sin encabezado
Fuente: Elaboración propia
Figura N° 18: Paso1 del Asistente de importación de Excel
Fuente: Elaboración propia
Figura N° 19: Paso2 del Asistente de importación de Excel
Fuente: Elaboración propia
•
Los archivos importados en Microsoft Excel fueron consolidados en uno
solo, teniendo en cuenta las siguientes consideraciones:
o Algunas asignaturas, como Matemática I (código 100) fueron
reemplazadas por otras, con lo cual los datos aparecen nulos a partir
de un semestre determinado.
o Nuevas asignaturas fueron creadas para reemplazar algunas otras.
Por ejemplo la asignatura Matemática I, código 177, luego, no tiene
valores para semestres anteriores a su creación.
o Algunas asignaturas, como Procesos Estocásticos, código 322, fueron
ofertadas solo en algunos semestres, por ende no aparece en todos
los archivos suministrados. Fue necesario ajustar el espacio necesario
en el archivo consolidado para mantener la integridad de los datos.
•
El archivo consolidado en Excel fue guardado como consolidado.txt bajo
el formato archivo separado por tabulador, con lo cual se facilita su
exportación hacia la herramienta de gestión de Base de Datos My SQL.
•
Luego para importarlo desde My SQL, se utiliza la sentencia
•
“LOAD
DATA
INFILE
'C:/Archivos
de
programa/EasyPHP1-
8\\tmp\\php94.tmp' INTO TABLE `dataoriginal` FIELDS TERMINATED
BY'”
Figura Nº 20 Importación de Datos a MySQL desde MySQL Front.
Fuente: Elaboración propia. 2005
•
Adicionalmente, se filtraron las asignaturas sin pre-requisitos, para tener
solamente la información importante para el estudio. Este procedimiento
se realizó manualmente con base en la oferta académica de todas las
carreras.
3.6 Análisis de los Datos
El análisis de los datos para desarrollar los modelos de series de
tiempo adaptados a los datos de la matrícula que nos compete, parte de la
gráfica de todas las series cronológicas. No se tomaron en cuenta las
asignaturas que ya no estaban vigentes y las que fueron creadas a posteriori
se analizaron solamente con los datos que se tienen.
Es de notar que los datos indican la falta de información en un
semestre (1997-2) para todas las asignaturas,
el cual no se realizó por
razones que no debido a que es requisito indispensable que las series estén
completas para poder comenzar su análisis.
Estos valores nulos o inexistentes, conocidos como outliers, se
reemplazaron en todas las series por el valor resultante de la interpolación
entre el valor del semestre 1997-1 y el semestre 1998-1. No se realizaron
detecciones adicionales de outliers en el resto de los datos, partiendo de la
confiabilidad de los mismos dado su origen y su forma de manipulación,
amén de la poca cantidad de datos que se tienen lo cual minimiza la
ocurrencia de errores.
Muchas asignaturas tienen valores cero en algunos semestres lo cual
indica que no hubo estudiantes inscritos en ese momento. Estos valores se
asumieron como nulos partiendo del hecho de las múltiples ocurrencias
Ahora bien, una vez superado el tema de los outliers y graficadas las
series, se comenzó el análisis de los componentes de cada una de ellas.
La estimación de la tendencia, se realizó utilizando los tres métodos
existentes: el método de los promedios móviles, el método de los
semipromedios y el método de los mínimos cuadrados, luego de lo cual se
estableció cual representaba mejor la tendencia aplicando el método de la
bondad de ajuste.
Se estimó la estacionalidad con la técnica del porcentaje promedio.
El siguiente paso consistió en determinar, mediante el método de los
Coeficientes de Variación, cuál es el modelo más conveniente. Una vez
determinado el modelo a ser empleado, se ajustaron los valores de la serie
de los componentes Tendencia y Estacional para lograr un residuo C*I ó C+I,
los cuales fueron evaluados para determinar su incidencia sobre la serie. Se
tomaron en cuenta sólo si esta incidencia superaba el 5%.
En los casos donde no hubo incidencia de este parámetro, se tomaron
sólo los parámetros T y E. En caso contrario, se calcularon los índices
cíclicos y luego el componente irregular para completar el estudio.
Con todos los componentes calculados de la serie,
se validó el
modelo obtenido reproduciendo el pasado de la serie. En virtud de que ya se
validó la estimación de la tendencia de acuerdo a la bondad de ajuste de la
curva y se tienen dos métodos para calcular la componente Estacional, se
comprobó la bondad de ajuste de las dos series calculadas con los dos
métodos para determinar cual se ajustaba mejor a la serie original y se eligió
aquella cuya bondad de ajuste fuera mejor.
Teniendo ahora establecidos los cuatro parámetros, se realizó el
pronóstico de los períodos necesarios para cada serie de acuerdo al
siguiente procedimiento:
1. Estimación la tendencia para el período solicitado.
2. Ubicación del índice estacional calculado para ese período (semestre
1 o semestre 2) de acuerdo al período a predecir.
3. Determinación del índice cíclico, si existe.
4. Promedio del valor de la componente irregular
5. Validación del modelo de acuerdo al histórico.
6. Cálculo del valor pronosticado de la serie para el período deseado
7. Cálculo de la desviación aproximada del pronóstico.
8. Repetición de los pasos del 1 al 6 para los siguientes períodos, si
fuera el caso.
Pronósticos deseados para períodos superiores a n+1, requiere que
se utilice el método sucesivamente para lograr estimaciones sobre la base de
estimaciones anteriores.
La aplicación desarrollada para calcular los modelos, denominada
Promatric V1.0, le dio solución de forma automática a todas las series
permitiendo generar un archivo de pronóstico con todas las asignaturas sin
pre-requisitos indicando adicionalmente la desviación que podría tener.
Promatric V1.0 fue diseñada en el lenguaje de programación PHP
soportado por el motor de base de datos MySQL Server. La elección de
estas
herramientas
estuvo
condicionada
por
el
reciente
decreto
gubernamental (ver anexo G: Decreto 3390 uso del Software Libre) en el
cual se establece el uso de Software Libre para las instituciones del estado.
Otros aspectos como la sencillez de programación, la transportabilidad y el
bajo uso de recursos en cuanto a espacio de memoria, también incidieron en
la elección de las mismas. Por último, el hecho de ser una aplicación Web,
abre muchos caminos de utilización futura como integración en portales,
posibilidad de uso remoto, alimentación de otras aplicaciones similares, etc.
CAPITULO 4
RESULTADOS
En este capítulo, se pueden observar los resultados de la aplicación
del modelo formulado en la parte final del capitulo dos, aplicando la
metodología y el análisis descrito en el capítulo tres, dándole finalmente
solución al problema planteado en el primer capítulo.
Debido al tamaño de los datos originales, las gráficas de las
asignaturas se encuentran en el anexo A al final del documento.
4.1 Software desarrollado
La aplicación desarrollada,
Promatric V1.0 realiza los cálculos
necesarios para pronosticar la matrícula de las asignaturas sin pre-requisitos
de todas las carreras del Centro Local Metropolitano de la Universidad
Nacional Abierta, mediante la aplicación de un algoritmo basado en series de
tiempo aplicado a los datos históricos de matrícula de las mencionadas
asignaturas, guardados desde 1995 hasta el 2004.
La aplicación Promatric V1.0 consta de los siguientes módulos:
•
Consulta de histórico: Aquí se pueden observar los datos
cargados como históricos que le sirven de base a la aplicación.
Los datos no son modificables. Permite además ver la gráfica
del comportamiento de la matrícula, por asignatura
•
Nuevos datos: Permite cargar los datos del nuevo semestre una
vez realizadas las inscripciones para poder realizar los nuevos
pronósticos basados en datos reales.
•
Cálculo de pronóstico. Arroja el pronóstico de la matrícula de
las asignaturas sin pre-requisitos.
•
Mantenimiento de tablas: Permite manipular las tablas de
carreras, materias, centros locales y prerrequisitos.
4.1 Datos de entrada
Los datos de entrada suministrados por la Unidad de Computación
del Centro Local Metropolitano, inicialmente en formato texto (.txt) fueron
formateados de acuerdo a la estructura siguiente, para estandarizar los datos
de acuerdo a lo establecido en los parámetros del sistema. El archivo de
materias sin pre-requisitos tiene los siguientes campos:
•
Código de asignatura: 3 dígitos numéricos, por ejemplo: 102.
•
Descripción de la asignatura: 20 dígitos alfanuméricos, por ejemplo:
Lengua y Comunicación I.
•
Inscritos regulares: 4 dígitos numéricos.
•
Inscritos repitientes: 4 dígitos numéricos.
•
Total inscritos: 4 dígitos numéricos.
Figura N° 21 Formato de los datos de entrada
Fuente: Elaboración propia
Los datos son ingresados al sistema a través del módulo nuevos
datos, una vez estandarizados en el formato establecido.
Figura N° 22 Pantalla de importación de datos
Fuente: Elaboración propia
4.1 Salida de la simulación
Para comenzar la simulación es necesario acceder al módulo de
pronóstico y elegir la opción de materias sin pre-requisitos. Es importante
recordar que este Trabajo de Grado está complementado por otro de
condiciones similares cuya función es determinar el pronóstico de las
asignaturas con pre-requisitos de la carrera Ingeniería de Sistemas del
Centro Local Metropolitano y se decidió elaborar una sola aplicación que
permitiera recuperar el pronóstico de ambos grupos de materias. Por esta
razón, para iniciar la simulación, es necesario elegir a que grupo se referirá el
pronóstico. La figura N° 23 muestra la pantalla donde se inicia la simulación.
Figura N° 23 Pantalla de Pronóstico de Materias
Fuente: Elaboración propia
Eligiendo convenientemente el rango de asignaturas deseadas, el
semestre a pronosticar y el grupo sin pre-requisitos, se comienza el
pronóstico presionando la tecla Aceptar.
La simulación produce una pantalla con los valores arrojados luego de
los cálculos de pronóstico. La figura N° 24 muestra el detalle del reporte de
pronóstico. El campo Desviación, estará en blanco para este primer
pronóstico, sin embargo, a medida que se vayan incluyendo los datos reales
esta columna se recalculará para indicar la desviación promedio del
pronóstico con respecto a la realidad. Esto permitirá la revisión del modelo
para su optimización en el tiempo. Desde esta pantalla se podrá imprimir el
reporte de pronóstico.
Figura N° 24 Reporte de Pronóstico de Materias
Fuente: Elaboración propia
Descargar