Analisis econométrico - Politécnico Grancolombiano

Anuncio
1
Análisis econométrico de variables que determinaron
la producción de bananos en colombia en el periodo
1961 - 2012
JUAN CAMILO PERDOMO1
NOVIEMBRE DE 2015.
RESUMEN
La econometría, basada en la estadística económica y en la matemática, es la rama de la economía
encargada de tomar los modelos económicos y con ellos un grupo de datos a explicar. Y a través de ellos,
realizar algunas estimaciones o pronósticos que permitan realizar un análisis sobre dichos modelos. En
este trabajo, se utilizará la econometría para explicar algunas variables o factores que determinan la
producción de un bien de la economía nacional.
Por otra parte, el banano es un producto de fundamental relevancia para los países en vía de desarrollo.
Es uno de los productos de exportación colombiana de mayor importancia. Por lo tanto; este trabajo
explicará y analizará la producción de bananos en Colombia en el periodo 1961 – 2012 a través de algunas
variables explicativas que permitan correr el modelo econométrico y entender de qué manera estos
factores determinan la producción de este alimento. O también, en algunos casos tratar de descifrar el
por qué las variables que se creía podían explicar el modelo realmente no lo hacen. Para esto, se
utilizarán algunas herramientas econométricas básicas, así como una base de datos sobre las variables
nombradas anteriormente.
PALABRAS CLAVE: Banano, variables, producción, econometría, hipótesis, explicativa, cultivo.
ABSTRACT
Econometrics, based on economic statistics and mathematics is the branch of economics take charge of
economic models and with them a set of data to explain. And through them, make some estimates or
forecasts that allow for an analysis of these models. In this paper, econometrics is used to explain some
variables or factors that determine the production of a good of the national economy.
Moreover, banana is a product of fundamental importance for developing countries. It is one of the
Colombian export products of greater importance. Therefore; This paper will explain and analyze banana
production in Colombia in the period 1961 - 2012 through some explanatory variables to run the
econometric model and understand how these factors determine the production of this food. Or, in some
cases trying to decipher why the variables that are believed could explain the model really do not. For
this, some basic econometric tools and a database on the variables listed above are used.
KEY WORDS: Bananas, variables, production , econometrics , hypotheses, explanatory, crop.
1
Estudiante de Economía, séptimo semestre, del Politécnico Grancolombiano. Trabajo entregado para
la asignatura Econometría al Profesor Carlos Ariel Ramírez. El correo institucional del autor es:
[email protected]
2
Introducción
El banano es un producto de fundamental importancia para los países en vía de
desarrollo. Debido a su alta presencia en el comercio mundial, es considerado el cuarto
cultivo alimentario del planeta, después del arroz, el trigo y el maíz 2. Además, dado
que es un alimento de extraordinaria exportación, este fruto es muy influyente en las
economías agropecuarias de los países de clima tropical. En explicación a esto, el
banano es considerado uno de los productos de exportación colombiana de mayor
relevancia. El país representa algo más del 3% de la producción mundial de bananos.
Siendo países como EEUU y la Unión Europea sus mayores compradores.
Es por todo esto, que se considera importante investigar a fondo la producción de este
fruto en la economía nacional. Para saber cuáles son algunas variables o factores que
determinan dicha producción, cómo la afectan, o de qué depende que se generen más
toneladas del banano. Para efectos de lo anterior, se utilizará la econometría,
considerada la rama de la economía que se encarga de realizar este tipo de análisis e
investigaciones.
Por lo tanto, este trabajo está guiado a analizar y explicar la producción de bananos en
Colombia en el periodo 1961 – 2012. Se utilizará algunas herramientas econométricas
básicas, así como una base de datos donde se relacione todas las variables. Se correrá
el modelo y se tratará de identificar algunos problemas o errores que muestran la
mayoría de modelos econométricos, como cambio estructural, multicolinealidad, la
heteroscedasticidad, auto correlación y no normalidad. Se corregirá los problemas
identificados, de forma que permitan tener un modelo más creíble y explicativo y por
último, se llegará a algunas conclusiones de análisis.
Ante esto, AUGURA, la organización de bananeros en Colombia tiene un gran número
de documentos que detallan esta producción. Sin embargo, todos estos documentos
carecen de un análisis econométrico sino que se basan en otras formas de investigación.
Documentos como ‘‘Coyuntura bananera colombiana’’ explican la fabricación de dicho
fruto a través de variables macroeconómicas. (AUGURA, 2013) Otro escrito resaltado
que habla al respecto, es ‘‘El entorno de la actividad bananera en Colombia 2012’’
realizado por la organización AKTIVA habla también sobre el producto bananero y
explica su tendencia decreciente en algunos años.
2
Ver en: (Arias, Cora, Liu, & Pilkauskas, 2004, pág. 9)
3
Objetivo general
El objetivo principal de este artículo será investigar y analizar de forma econométrica
de qué forma algunas variables explican la producción de banano en Colombia.
Objetivos específicos

Conseguir, de manera detallada, datos reales tanto de la producción como de
variables consideradas las más importantes, que permitan explicar la fabricación
del banano en el territorio nacional.

Obtener un modelo econométrico, con sus respectivos problemas ya
identificados y corregidos, que permita entender, de forma estadística y
matemática, la relación de estas variables.

Realizar un análisis final que concluya cuáles de las variables mencionadas
realmente afectan la producción y de qué manera lo hacen. Lo esperado sería
que todas las variables pensadas tengas alguna relación en el modelo.
Metodología
Lo más importante para poder realizar esta investigación será la obtención y
conformación de la base de datos. Principalmente para esto, se utilizará la FAO
(organización de las naciones unidas dedicada a la alimentación y a la agricultura) como
fuente. Luego, la mayoría de las cifras serán obtenidas de la página de la FAO
(FAOSTAT.org). Dado que se necesita una base extensa, se utilizarán todos los años de
los que se tenga presencia en esta página. Para el producto en cuestión, el banano, los
datos están desde el año 1961 hasta el año 2012. Otro factor de gran relevancia son las
variables o factores que conformarán el modelo. Para efectos de este, las siguientes
fueron las variables consideradas pertinentes:

La producción (toneladas): Es la variable explicada o dependiente. Es la
que estima y se mira para analizar cuáles son los determinantes o factores
que la afectan, y de qué manera lo hacen. Habla de la producción anual
de bananos en Colombia.

Área cultivada (hectáreas): Esta variable habla básicamente de qué tantas
hectáreas de tierra se utilizaron para la producción de bananos en
Colombia. Es la primera de las variables explicativas o independientes y
se considera una de las más significativas para el modelo.
4

Cantidades exportadas (toneladas): Otra determinante que debería ser
muy importante para la explicación de la variable dependiente. Habla de
cuántas toneladas de bananos se exportaron en Colombia desde el año
1961 hasta el año 2012.

Población rural (por mil personas): Habla específicamente de la población
que vive en el campo en Colombia. Cuántos son, y si son importantes estas
cantidades con respecto a la producción de bananos en el país. Es decir,
¿a medida que crece la población rural aumenta la producción de bananos?

Valor comercial de los fertilizantes (1000 USD): A precio mundial en
dólares, saber qué tanto los insumos entre ellos los fertilizantes se
relacionan con la producción del fruto en Colombia. Saber si a medida que
sube el precio se disminuye la producción, como se piensa debería ser, ya
que se considera este un costo de fabricación.

Producción de Ecuador (toneladas): En toneladas, Ecuador ha sido por un
largo tiempo el mayor productor de bananos en el mundo y con esto, el
mayor exportador. Por lo tanto, con esta variable se busca saber si a
medida que disminuye la producción en Ecuador, la misma en Colombia
sube o baja. De qué manera se relacionan la producción de este fruto
respecto a ambos países.

Importaciones de la Unión Europea (toneladas): De acuerdo a (Gómez,
2014) el mayor comprador o importador del banano colombiano es la Unión
Europea en específico, países como Bélgica, Alemania y el Reino Unido.
Por lo tanto se espera que haya una relación directa entre ambas variables.
Es decir, a medida que las importaciones de la UE aumentan la producción
colombiana tendería también a crecer. Esta dado en toneladas y habla
únicamente de la importación de bananos.

Tasa de cambio (COP- USD): Esta última variable, lo que trata de explicar
es la tasa a la que se cambian los pesos colombianos por un dólar
americano. Es la relación o proporción que tiene una moneda respecto a
otra. Es claro, que a medida que el peso se devalúa se compran menos
dólares, o también que se reciben más pesos por cada dólar obtenido. Por
lo tanto, a la hora de exportar éste debe ser un factor importante para
explicar aumentos o disminuciones en la fabricación del fruto en cuestión.
5
La periodicidad de los datos anteriormente nombrados es medida de forma anual. Es
decir, cada dato que se incluya en la base esta medido para un año en específico. Como
se dijo anteriormente los años van de 1961 a 2012. Con la base de datos ya conformada
se procederá a realizar los procedimientos econométricos.
Lo primero que hay que resaltar, es que los programas que serán utilizados para efectos
de lo anterior serán primordialmente Excel, GRETL y adicional se usará unas pocas
pruebas del software Eviews. Algunos procedimientos de Excel se harán de forma
matricial, mientras que GRETL no pide más que la base de datos para obtener resultados.
Inicialmente con los datos, se llevará a cabo un modelo de mínimos cuadrados ordinarios
(MCO), el cual es considerado el modelo econométrico más básico y sencillo. Sin
embargo, existen algunos problemas estadísticos que no permiten que estos sean muy
explicativos, para lo cual, en caso de ser necesario se utilizará un modelo de mínimos
cuadrados generalizados (MCG) que permita identificar y corregir dichos problemas.
Los problemas estadísticos que se busca identificar son: cambio estructural,
multicolinealidad, heteroscedasticidad, auto correlación, y no normalidad. Se medirán
y corregirán en ese respectivo orden.
Cambio estructural: El curso virtual de econometría de la página de la Universidad
Nacional de Colombia define el cambio estructural como: ‘‘Una de las hipótesis
estructurales del modelo es la constancia de los parámetros del modelo de regresión,
es decir la existencia de una estructura única, válida para todo el periodo de
observación y que sugerimos se mantiene para el horizonte de predicción. Existen no
obstante, motivos para que tal hipótesis de constancia estructural puede ser rechazada
en determinadas ocasiones.
El caso más evidente es aquel que corresponde a un cambio profundo del sistema que
el modelo trata de representar. Cuando se trabaja en series temporales es habitual
encontrarse con cambios institucionales o de contexto socioeconómico, que cambian la
estructura interna de funcionamiento de los fenómenos’’. (Universidad Nacional, 2007)
La forma de medirlo aplicada para este documento será a través de un test de Chow
que consiste en dividir la base de datos en el número de veces se crea que se presenta
el cambio estructural. Por ejemplo, para este trabajo que busca explicar la producción
de banano, se espera que haya cambio estructural en el año 1991 donde Colombia
realizó su procedimiento de apertura económica. Para lo cual, se divide la base de
datos en dos, la primera parte antes de dicho año y la otra, después del mismo. Se
realizan dos regresiones y con los coeficientes de determinación encontrados en las
regresiones se halla el coeficiente F o distribución F. Si este cociente supera el valor
crítico dado por las tablas para una distribución
grados de libertad, debe
rechazarse la hipótesis. Por lo tanto, querría decir que si existe cambio estructural en
6
el modelo. De lo contrario, no habrá cambio estructural. En caso de existencia de este
problema se intentará resolver o corregir mediante una variable Dummy.
Multicolinealidad:
Según el profesor (Gujarati, 2003), es un hecho que muchas de las variables explicativas
presentan un alto grado de colinealidad, definiendo la Multicolinealidad como ‘‘la
existencia de una relación lineal perfecta o exacta entre algunas o todas las variables
explicativas de un modelo de regresión’’. Dice que hay relación lineal exacta si se
cumple esta relación:
; donde los λ son constantes distintas a
cero. Hoy en día se expande un poco la definición para incluir la correlación no perfecta.
Al punto que, si se presenta una correlación perfecta o casi perfecta entre dos variables
explicativas podría excluirse una de estas. Sin embargo, es muy poco probable que se
dé una relación exacta entre dos parámetros, especialmente en información económica
relacionada con series de tiempo. Lo que sí es muy común, es que se presente una
relación alta entre estas. Y aunque no estén explicando exactamente lo mismo en el
modelo es probable que si estén explicando algo uy parecido. Tan fuertes son las
consecuencias de la multicolinealidad que el profesor Gujarati decide titular uno de sus
apartados sobre este problema ‘‘Multicolinealidad: ¿Mucho trabajar para nada?’’.
(Gujarati, 2003)
El procedimiento para medir la multicolinealidad en este caso será el FIV, factores de
inflación fe varianza, el cual (Gujarati, 2003) define como ‘‘indicador de la
multicolinealidad: entre mayor es el FIV mayor problema de colinealidad tiene la
variable X sobre las regresoras restantes del modelo’’. Si el FIV de una variable es
superior a 10 (esto sucederá si su R cuadrado supera 0,90) se dice que esa variable es
altamente colineal.
Heterocedasticidad: Este problema lo define el Profesor Gujarati como el caso en el
que la varianza de los errores o residuos no es constante. Según el autor, un modelo
homocedástico es aquel en el que las perturbaciones o errores que aparecen en la
regresión tienen la misma varianza. Heterocedasticidad se da cuando pasa exactamente
lo contrario. Cuando la varianza de u (los errores) no permanece igual sin importar los
valores que tome las variables X. De manera, que si las variables explicativas varían y
con ellas varía la varianza de los errores se procederá a decir que el modelo sufre de
heteroscedasticidad.
Para hallarlo se usará inicialmente una prueba de White en Gretl, la cual el profesor
Gujarati define como una prueba de heteroscedasticidad pura o prueba de error de
especificación. Según él, el test propuesto por White no se apoya en el supuesto de
normalidad y es fácil de llevar a cabo. Con los residuos al cuadrado de la regresión
original se hace la regresión sobre las variables X originales, sobre sus valores al
7
cuadrado, y sobre los productos cruzados de las regresoras. A través, de una función
Chi cuadrado se obtiene un valor de probabilidad. Si este valor de P supera el valor de
significancia de 0,05 se acepta la hipótesis nula. Luego, no hay heteroscedasticidad.
Por el contrario, si el valor de P obtenido es menor a la significancia se rechazará la Ho
diciendo que si hay heteroscedasticidad. Adicionalmente, se realizará la prueba de
White con términos cruzados en el software Eviews. De igual manera, si en esta prueba
el Valor de probabilidad supera el de significancia se aceptará la hipótesis nula, que
dice lo mismo que la de la anterior prueba.
Por último, para estar seguro de la no existencia de heterocedasticidad en el modelo
se realizará una prueba adicional. La prueba se hará mediante Gretl y es conocida como
prueba ARCH.
Auto correlación: Los términos error están correlacionados. El término auto correlación
se puede definir como ‘‘la correlación entre miembros de series de observaciones
ordenadas en el tiempo (como en datos de series de tiempo) o en el espacio (como en
datos de corte transversal). En el contexto de regresión, el modelo clásico de regresión
lineal supone que no existe tal auto correlación en las perturbaciones u. (Gujarati,
2003)
Por su parte, el curso de econometría de la universidad nacional define este problema
como ‘‘el caso en el que la matriz de covarianzas no es escalar debido a que algunos
elementos fuera de la diagonal principal son estadísticamente distintos de cero, esto
significa que el término de error del modelo tiene correlación consigo mismo a través
del tiempo, es decir no hay independencia entre los residuos en diferentes periodos’’.
(Universidad Nacional, 2007) De manera que; el modelo:
No cumple con el supuesto
Para este problema se realizarán dos pruebas diferentes. La primera, será la prueba
gráfica para realiza una primera sospecha de si hay auto correlación positiva, negativas
o aleatoría. Sin embargo, debido a la dificultad que la interpretación de la gráfica
genera, se procederá a realizar distintas pruebas. La segunda, será la prueba Durbin –
Watson que se hará a través de Eviews.
En esta prueba se busca identificar el valor DW (por las siglas de sus expositores) de
manera, que se pueda comparar con la tabla de valores estadísticos de DW. Dicho valor
se ubicará dentro de una tabla donde hay distintos valores y dependiendo de donde
quede se pensará que tipo de auto correlación hay o si no existe este problema. Por
último, se realizará la prueba LM de auto correlación de Gretl en la cual se busca
8
contrastar el valor de P con un valor de significancia. Al igual que con las demás pruebas
que tienen un objetivo parecido, si su P es mayor se aceptará la hipótesis.
No normalidad: Este supuesto no es utilizado en el teorema de Gauss-Markov para
estimación por MCO, de aquí que las propiedades de los estimadores de MCO se siguen
conociendo aun cuando no se cumpla el supuesto de normalidad, es decir, los
estimadores siguen siendo lineales, insesgados y tienen mínima varianza. Sin embargo,
sobre la hipótesis de normalidad se han edificado la mayor parte de los contrastes
habituales utilizados y en particular la de significancia de los parámetros del modelo.
Aunque los contrastes t y F pueden mantener su validez en forma aproximada en
situaciones de no normalidad, aunque utilizadas en forma más conservadora, que la
habitual (haciendo más restrictivas las pruebas y niveles de significancia más bajos).
(Universidad Nacional, 2007)
Para medir la normalidad de los residuos se realizará la prueba de distribución de
frecuencias entregada por Gretl. De manera que, si el valor P obtenido es mayor al
valor de significancia (0,05) se procederá a aceptar la hipótesis nula que dice que los
residuos se distribuyen normalmente. Sin embargo, es clara la importancia de la prueba
gráfica en este problema. Luego, el resultado de la anterior prueba se comparará con
la gráfica para saber un producto final sobre la normalidad de los residuos.
Prueba lineal: Por último, se realizará una prueba de restricción lineal sobre los
parámetros tipo F. Una hipótesis estadística es un enunciado sobre los valores que
pueden tomar algunos parámetros. Se busca conocer si un valor estimado de un
parámetro es compatible con una hipótesis estimada. Para esto, se tratará de probar
la certeza o la falsedad de una hipótesis cualquiera. Esto se hará a través de una
distribución F en Excel. Contrastando el valor P obtenido con un nivel de significancia
0,05.
En otras palabras, con esta prueba lo que se busca es a través de unos procedimientos
matriciales demostrar la veracidad de una hipótesis cualquiera inventada. La hipótesis
que se prueba se conoce como hipótesis nula (Ho). Y ésta se contrasta contra una
hipótesis llamada hipótesis alternativa. La probabilidad de rechazar Ho cuando de
hecho es verdadero se conoce como nivel de significancia o error tipo 1. Se utiliza la
letra α (alfa) para mostrarlo.
Con todo lo anterior ya expuesto, se procede a correr el modelo de mínimos cuadrados
ordinarios. De manera, que a través de este, se pueda identificar los problemas
mencionados, corregirlos y volver el modelo más creíble y explicativo. Así, poder
mediante las variables ya mencionadas explicar a grandes rasgos el modelo de
producción de banano en Colombia para el periodo 1961- 2012. Obteniendo de esta
forma los siguientes resultados.
9
Resultados
Los primeros resultados obtenidos del modelo de mínimos cuadrados ordinarios fueron:
1. Regresión con intercepto negativo y significativo.
Coeficientes
Intercepción
-1529750,959
Área cultivada (Ha)
14,88039643
Cantidades exportadas (toneladas)
0,5080189
Población rural (1000)
196,3688771
Valor comercial de fertilizantes (USD) -0,650537711
Producción Ecuador (toneladas)1
-0,033163348
Cantidades importadas por la Unión
Europea (toneladas)2
-0,020614887
COP - USD3
-111,658641
Error típico
433135,1533
2,645302656
0,062235076
45,14320241
0,266019775
0,020442583
Estadístico t
-3,531809753
5,625215094
8,162903233
4,349910212
-2,445448695
-1,622268021
Probabilidad
0,000982499
1,19602E-06
2,35671E-10
7,96587E-05
0,018537989
0,111890606
0,036546652
31,71285517
-0,564070457
-3,52092678
0,575570296
0,001014417
Ilustración 1. Fuente: Elaboración propia en Excel.
Dado el resultado anterior, se procedió a realizar una regresión con la constante igual
a cero. De manera que, se obtuvo el siguiente análisis de significancia de variables.
variable
Intercepción
Área cultivada (Ha)
Cantidades exportadas (toneladas)
Probabilidad
#N/A
3,18847E-05
1,08546E-14
2,34052E-07
Población rural (1000)
Valor comercial de fertilizantes (1000
0,256341708
USD)
Producción Ecuador (toneladas)
0,003703276
Cantidades importadas por la Unión
0,874420961
Europea (toneladas)
0,079783136
COP - USD3
Ilustración 2. Fuente: Elaboración propia en Excel.
Contrastando la probabilidad de cada una de las variables con el nivel de significancia
0,05 correspondiente al 5%, se entiende que las variables significativas para el modelo
serán las resaltadas en verde y en rojo las no significativas. Luego, de aquí en adelante
el modelo se moverá con sus variables representativas.
10
Resultados de las pruebas

Cambio estructural:
Ilustración 3. Fuente: Elaboración propia en Gretl, a través de contraste de Chow.
Dado que el valor de P obtenido es menor al valor de significancia 0,05 se intuye que sí
hay evidencia suficiente de cambio estructural en el modelo. A continuación se
presenta la prueba de Chow en Excel con todas las variables para confirmar la presencia
de cambio estructural en el modelo.
SRC
SRC1
SRC2
3,03497E+11
1,24919E+11
68899731766
K
N1
N2
8
30
22
F
Probabilidad
3,67823941
0,00182066
Ilustración 4. Fuente: Elaboración propia en Excel.
Como se puede ver en el gráfico anterior, la probabilidad en el caso de las regresiones
con todas las variables sigue siendo menor al valor 0,05 de significancia. Obteniendo
entonces que en ambos casos, tanto con las variables significativas como con todas las
variables se encuentra presente el problema de cambio estructural.
11
Adicionalmente, se probó con una variable Dummy solucionar el problema de cambio
estructural. Sin embargo, el problema todavía se presentaba. Así:
Ilustración 5. Fuente: Elaboración propia en Gretl mediante contraste de Chow.
Lo anteriores resultados fueron obtenidos de la forma que solo contempla las variables
significativas. A continuación se presenta con todas las variables.
Ilustración 6. Fuente: Elaboración propia en Gretl mediante contraste de Chow.
Se ve que se sigue presentando el problema dado que las probabilidades de ambas
pruebas siguen siendo bastante pequeñas. Luego, la variable Dummy no fue
representativa para corregir el problema.
12

Multicolinealidad:
Ilustración 7. Fuente: elaboración propia en Gretl.
La prueba de factores de inflación de varianza indica que existe relación lineal o
correlación entre las variables explicativas si el valor obtenido de dicho análisis es
mayor a 10. Como se puede ver en la imagen anterior, ninguna de las variables presenta
el valor dicho anteriormente. Luego, se acepta la hipótesis nula de no correlación entre
las variables X.

Heterocedasticidad:
Para medir la heterocedasticidad se consideraron dos distintas pero parecidas formas.
Primero la prueba de contraste de White entregada por Gretl. Y segundo, La prueba de
White con términos cruzados hallada a través del también programa econométrico
Eviews. Obteniendo los siguientes resultados:
Ilustración 8. Fuente: Elaboración propia a través de Gretl.
13
Del primer análisis, se puede comprender que a un nivel de significancia de 0,05, la
probabilidad obtenida del 0,13 es mayor. Luego, existe alta sospecha de no existencia
de heterocedasticidad en el modelo. Sin embargo, se considera necesario realizar la
prueba White con términos cruzados.
Ilustración 9. Fuente: Elaboración propia mediante Eviews.
Con esta forma de análisis, el valor de probabilidad hallado con la distribución F se
aumenta. Luego, se considera que con las dos pruebas hechas existe evidencia
suficiente de no heterocedasticidad.
Por último, se incluye el valor de ARCH.
Ilustración 10. Fuente: Elaboración propia a través de Gretl.
El cual, se considera otra forma de medir la heterocedasticidad. Su valor P comparado
con el de significancia demuestra de nuevo la no existencia de heterocedasticidad.
14

Auto correlación:
Generalmente, para determinar si existe auto correlación en un modelo lo primero que
se hace es la prueba gráfica.
Ilustración 11. Fuente: Elaboración propia mediante Gretl.
Sin embargo, llegar a una conclusión a través de la prueba gráfica es bastante
apresurado y arriesgado. Lugo es necesario realizar otras pruebas. Dado lo anterior, se
realiza la prueba Durbin – Watson a través de Eviews.
Ilustración 12. Fuente: Elaboración propia mediante Eviews.
15
Con un valor hallado DW=1.035, por la tabla de Durbin-Watson con un nivel de
significancia de 0.05 contrastando con las tablas se ve que, dl=1.378 du=1.721. Por lo
tanto, hay evidencia de auto correlación positiva. Por último, para confirmar la
sospecha de no auto correlación, se procederá a realizar la prueba de contraste de LM
entregada por Gretl.
Ilustración 13. Fuente: Elaboración propia mediante Gretl.
No obstante, el valor de P obtenido en esta última prueba s bastante bajo. Luego hay
sospecha de auto correlación en el modelo.

No normalidad:
Para medir la normalidad de los residuos se realizará la prueba de distribución de
frecuencias entregada por Gretl. Llegando al siguiente resultado:
Ilustración 14. Fuente: realización propia mediante Gretl.
16
Se obtiene un valor de P bastante alto, lo que permite tener evidencia suficiente para
aceptar la hipótesis nula y decir que efectivamente los residuos se distribuyen
normalmente. Sin embargo, es clara la importancia de la prueba gráfica en este
problema. Luego la gráfica de la distribución de los errores se presenta a continuación.
Ilustración 15. Fuente: realización propia mediante Gretl.
En la gráfica es también claro que, aunque tiene algunas desviaciones, los errores del
modelo tienden a distribuirse de forma normal. Es decir, bajo la forma de la campana
resaltada en negro.
PRUEBA DE RESTRICCIÓN LINEAL:
Hipótesis: El área cultivada y las unidades exportadas son las únicas variables que afectan el modelo.
R
r
1
0
Varianza error
6744385312,9242
F
23,186
P
1,27022E-14
1
0
0
0
0
Teniendo en cuenta un nivel de significancia del 0,05 o del 5% mayor a la
probabilidad hallada por la distribución F se rechaza la hipótesis lo que quiere
decir que es falso el que las únicas variables explicativas del modelo son el área
cultivada y las cantidades exportadas
0
17
Discusión
Cambio estructural: Cuando el modelo utilizado involucra series de tiempo es muy
probable que sufra un cambio estructural. Este problema lo que indica es que no existe
una estabilidad estructural del modelo de regresión.
En lo que concierne a este documento, se busca saber si el año 1991 cuando Colombia
realizó su proceso de apertura económica afectó estructuralmente la producción de
banano. Se realizó el test de Chow de dos maneras. La primera, a través de las variables
que fueron determinadas significativas al comienzo en la regresión. Y la segunda, con
todas las variables. Así, el valor F hallado con solo las variables significativas fue de
9,25 mayor a 4, dando evidencia de cambio estructural. Y que el resultado de F obtenido
con todas las variables fue menor a 4 de 3,67 pareciendo indicar que cuando se mide
este producto con todas las variables hay estabilidad estructural. Sin embargo, en
ambos casos se obtuvo un coeficiente de probabilidad mucho menos al de significancia.
Para el caso de la regresión solo con las variables significativas, el resultado P fue
5,32897E-006. Y respecto a la regresión con todas las variables, el valor P fue de 0,0018.
Por lo tanto, es importante concluir que el modelo presenta un problema de cambio
estructural dada la apertura económica del año 91. Por lo cual, se procedió a corregir
este dilema. A saber, que para resolver este obstáculo lo ideal es utilizar una variable
Dummy o variable ficticia. Para efectos de lo anterior, el procedimiento es muy sencillo.
Se procede a poner una columna adicional, en la que cada celda, anterior al año crítico
donde se presentó el cambio estructural, tendrá un valor de cero (0). Por el contrario,
los periodos siguientes al año de la apertura económica obtendrán un valor de uno (1).
No obstante, diferente a los que se pensaba no se dio realmente un cambio tras este
procedimiento. El problema no se corrigió realmente. Ya que, como se ve en las
ilustraciones 5 y 6, que incluyen la variable Dummy, el valor de probabilidad siguió
siendo menor al de significancia.
Multicolinealidad:
El procedimiento para medir la multicolinealidad en este caso fue el FIV, factores de
inflación fe varianza, el cual (Gujarati, 2003) define como ‘‘indicador de la
multicolinealidad: entre mayor es el FIV mayor problema de colinealidad tiene la
variable X sobre las regresoras restantes del modelo’’. Si el FIV de una variable es
superior a 10 (esto sucederá si su R cuadrado supera 0,90) se dice que esa variable es
altamente colineal.
En el caso de este documento, los FIV obtenidos para las 4 variables consideradas nunca
superaron (10) el valor estimado de que se deduce hay problema de multicolinealidad.
Lo que quiere decir que, no existe relación alta ni exacta entre las variables explicativas
18
del modelo. Y que por tanto, cada variable está explicando algo diferente. Es decir,
que las cuatro variables significativas sin importantes para el modelo, y no se encuentra
ninguna correlacionada con la otra. Luego, no hay problema que corregir.
Por lo tanto, para concluir este problema, es importante decir que los estimadores en
este modelo, gracias a la falta de presencia de multicolinealidad, no presentan
varianzas y covarianzas que hagan difícil la estimación precisa. Y que se tiende a evitar
el caso de un r cuadrado grande con pocas variables significativas.
Heterocedasticidad:
Es considerado el problema en el que la varianza de los errores o residuos no es contante.
De manera que cualquier cambio en una variable X va a cambiar dichas varianzas. Para
medir este problema se utilizaron tres diferentes pruebas. La primera, un coeficiente
de White sin términos agrupados. La segunda, el valor de White pero esta vez con
términos agrupados. La tercera, el valor de ARCH.
En las primeras pruebas realizadas para este modelo se obtuvo un valor de P
moderadamente alto. Para la prueba inicial, sin términos cruzados; el valor de
probabilidad determinado fue de 0,13 bastante mayor al 0,05. Y para la prueba dos,
con términos cruzados, el resultado fue aún más alto. Con una probabilidad de 0,31, un
valor considerablemente alto, se termina de dar evidencia para aceptar la hipótesis
nula. Por lo tanto, en este modelo, se piensa que existe evidencia suficiente de que no
se considera el problema de heterocedasticidad. Por último el valor de ARCH, prueba
que se utiliza para medir la heterocedasticidad la probabilidad fue del 0,23, luego es
alta y se rechaza de nuevo la existencia de heterocedasticidad.
Lo que quiere decir, que en este modelo la varianza de los residuos si es constante y no
varía a cambios en las variables X. La no presencia de este problema ayuda a limitar la
existencia de datos atípicos en el modelo. Ya que, permite que los errores mantengan
una distribución parecida y no de una manera desordenada. Lo que hace que el modelo
sea mucho más creíble y explicativo. Luego es más fácil explicar la producción de
bananos con un modelo que no presenta heterocedasticidad. Ya que, entre tantas cosas
permite que los datos de los errores de los factores que explican la variable
dependiente sean más juiciosos a la organización, y no que se distribuyan como datos
atípicos o en forma desordenada. Esto hace que las variables explicativas sean más
creíbles.
Es por todo lo anterior, que es muy importante cerciorarse realmente y de forma
sustentada de la no existencia de heterocedasticidad. Porque es un problema que puede
afectar gravemente un modelo. Y su mala estimación, permitiría seguir funcionando
bajo un modelo problemático que puede afectar las estimaciones y explicaciones.
19
Auto correlación: Pero no es solo la organización de los residuos el tema esencial. Es
también fundamental conocer si estos errores están correlacionados. Como en el caso
del problema de heterocedasticidad, la presencia de auto correlación en un modelo
hace que los estimadores sigan siendo lineales e insesgados. Respecto a este modelo,
mediante distintas pruebas se conformó la presencia de auto correlación. Luego existe
alguna clase de relación entre los residuos del modelo.
Primero se intentó medir la auto correlación a través de la forma gráfica. Sin embargo
denotar realmente este problema en la pura gráfica es bastante difícil. Por lo tanto, se
procedió a realizar pruebas un poco más complejas. La prueba Durbin Watson realizada
a través de Eviews arrojó un resultado de probabilidad de siente ceros. Lo que quiere
decir que inicialmente existe evidencia de auto correlación. Adicional a eso, el valor
DW obtenido se presenció dentro del cuadro de auto correlación positiva. Es decir, la
sospecha persiste.
Dado que la auto correlación también es un problema muy relevante para cualquier
modelo. Es importante cerciorarse asegurarse de la existencia de este modelo. Con el
fin de no seguir manejando un modelo que presenta problemas. Luego, se realizó una
prueba adicional entregada por Gretl. El test LM de auto correlación. Se obtuvo un valor
de probabilidad bastante pequeño. Por lo tanto, se asegura la presencia de correlación
entre los errores.
Respecto a este modelo, es negativo el que haya presencia de auto correlación. Ya que,
dificulta le estimación y explicación de los datos. Se dificulta la explicación de la
variable producción de bananos en Colombia. Por ende, es importante corregir este
modelo. La forma más eficiente de lograrlo mediante los mínimos cuadrados
generalizados.
No normalidad: Aunque este no es considerado un problema tan importante. Es
necesario medirlo y en cuyo caso toque corregirlo. La prueba hecha para valorar la
existencia de este problema fue a través de Gretl. Y fue bastante sencilla. Se utilizó la
prueba de distribución de frecuencias. La cual arrojó una probabilidad de 0,57,
bastante alta. Lo que quiere decir que bajo este test se niega la existencia de no
normalidad en la distribución de los residuos. Sin embargo, dado que se está evaluando
la distribución, se hace importante y necesario evaluar la prueba gráfica. De la cual, se
obtiene también que la distribución sigue y tiende hacia la orientación de campana
característica de una distribución normal.
El que el modelo no presente este problema es bastante positivo ya que corrobora la
organización en la distribución de los errores. Lo que permite que no se tienda a
modelar con datos que se encuentran lejanos a lo que se va a estimar o a explicar. Los
errores siguen a una distribución en la que se mantienen. Esto hace que la elaboración
de este modelo y su manejo sea bastante positivo.
20
Conclusiones.
 En concusión, las variables que mejor afectan y explican la producción de banano
en Colombia son: el área cultivada o utilizada para este cultivo, las cantidades
exportadas, la población rural, y por último la producción de Ecuador quien hoy
en día se posesiona como el mayor productor mundial de bananos.
 En términos generales el modelo función. De siente variables que se ingresaron
inicialmente, cuatro fueron significativas. Y de los problemas solo dos presenta
el modelo.
 Dado el coeficiente obtenido para cada una de las variables significativas. Estas
afectan al modelo así: El área cultivada afecta positivamente la producción de
banano en 10. Por lo tanto, por cada unidad de área cultivada la producción va
a tener que aumentar en 10 toneladas. Las cantidades exportadas no afectó
tanto el modelo como se esperaba. A pesar de ser cierto que gran parte de lo
que se produce se exporta, el coeficiente de este variable fue bastante pequeño
(0,55). La población rural, es según su parámetro, la variable que más afecta la
producción de banano. Su coeficiente es de 103. Lo que quiere decir que por
cada unidad de población rural la producción aumentará en 103 toneladas. Y por
último, como se esperaba la producción de Ecuador afecta negativamente la
producción colombiana. Aunque en muy poco, -0.06. Quiere decir que a medida
que la producción del país vecino aumenta la producción acá decrece y viceversa.
21
Referencias
Arce, R. D. (2004). CONTRASTES DE SIGNIFICACIÓN CONJUNTA. Obtenido de Universidad Autónoma de
Madrid:
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CCAQFjAAahUKE
wjV7ZHxydjIAhULJB4KHcYLB4&url=https%3A%2F%2Fwww.uam.es%2Fpersonal_pdi%2Feconomicas%2Fjmalonso%2Fsignif_conju
nta.pdf&usg=AFQjCNH8WBffwUL9d2ad1kDTqvzLRJ11ug&sig2=0rrROPyNCLNk
Arias, P., Cora, D., Liu, P., & Pilkauskas, P. (2004). La economía mundial del banano. Obtenido de
Organización de las naciones unidas para la agricultura y la alimentación (FAO) :
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=
0CCAQFjAAahUKEwj_8JyV1djIAhWCFR4KHSg4Dww&url=http%3A%2F%2Fwww.fao.org%2Fdocrep%
2F007%2Fy5102s%2Fy5102s00.htm&usg=AFQjCNEBJMTISw6hq7cnlIv9qUzeV6tCoQ&sig2=Mo1PoRuYA8QxluNL8X
AUGURA.
(2013).
Coyuntura
bananera
Colombiana.
Obtenido
de
AUGURA:
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=
0ahUKEwic2L6p4LDJAhUC2SYKHakPDWMQFggdMAA&url=http%3A%2F%2Fbibliotecadigital.agrone
t.gov.co%2Fjspui%2Fbitstream%2F11348%2F7201%2F2%2FCOYUNTURA%2520BANANERA%2520COL
OMBIANA201
Bello, O. (2013). La depreciación del dólar ¿es el fin de su supremacía como moneda divisa? Obtenido de
Banco Central de Nicaragua: http://www.bcn.gob.ni/blog/?p=29
Gómez, E. M. (Julio de 2014). Mercado global de banano. Obtenido de Centro de aprovechamiento de
acuerdos
comerciales:
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=
0CCQQFjABahUKEwihmOKM7dfIAhWIbB4KHWLOCM0&url=http%3A%2F%2Fwww.mincit.gov.co%2F
caac%2Fdescargar.php%3Fid%3D72136&usg=AFQjCNFvuJWI0wvhWLO14pfiDLW8cLz9Q&sig2=ZaNRDcrjLgSSjijw
Gujarati, D. (2003). Econometría. México D.F: Mc Graw Hill.
Universidad Nacional. (2007). Curso virtual econometría. Obtenido de Universidad Nacional de Colombia:
http://www.virtual.unal.edu.co/cursos/economicas/2001078/docs_curso/descripcion.html
ANEXOS
22
ANEXO 1. BASE DE DATOS.
AÑO
Valor
Cantidades Área
Cantidades Población comercial
Producción
producidas cultivada exportadas rural
de
Ecuador
(toneladas) (Ha)
(toneladas) (1000)
fertilizantes (toneladas)1
(1000 USD)
Cantidades
importadas
COP
por la Unión
USD3
Europea
(toneladas)2
1961
571600
25000
205630
8850
13171
2.597.000
1.611.622 6,70
1962
519100
24000
147090
8896
13339
2.486.000
1.680.742 6,96
1963
580600
28000
202590
8936
8410
2.473.000
1.666.420 9,00
1964
559600
29000
171570
8968
10359
3.300.000
1.616.217 9,00
1965
653000
29000
253460
9090
4040
3.304.000
2.040.302 10,50
1966
720000
29000
310864
9214
11294
2.522.089
2.187.278 13,50
1967
764000
29000
325582
9334
929
2.556.828
2.202.618 14,51
1968
770000
29000
401552
9448
2798
2.765.117
2.168.944 16,29
1969
780000
29500
334464
9553
3845
3.031.113
2.159.964 17,32
1970
780100
29200
261857
9644
6553
2.911.342
2.035.867 18,44
1971
803500
30000
229087
9720
3671
2.742.948
2.221.108 19,93
1972
827600
31000
212476
9785
1785
2.581.639
2.515.313 21,87
1973
900000
33000
214364
9841
12153
2.495.927
2.511.438 23,57
1974
954000
31000
336329
9894
22956
2.676.411
2.366.406 26,06
1975
1050000
26600
371736
9949
1114
2.544.327
2.306.030 30,93
1976
1060000
33100
456804
10004
2443
2.570.925
2.186.915 34,70
1977
1050000
34500
455479
10058
17306
2.450.690
2.371.603 36,77
1978
1050000
30300
622345
10110
31165
2.152.192
2.481.908 39,10
1979
1040000
29300
626415
10158
22936
2.031.559
2.432.980 42,55
1980
1030000
23800
691608
10202
45689
2.269.479
2.210.187 47,28
1981
1109600
22100
802885
10243
36837
2.009.850
2.146.595 54,49
-
23
1982
1146600
21700
804180
10278
35691
1.998.749
2.135.194 64,09
1983
1173000
27400
786927
10309
31044
1.642.073
1.976.719 78,86
1984
1450000
30300
1029823
10334
37925
1.677.571
2.155.816 100,82
1985
1200000
28000
783039
10354
41529
1.969.559
2.272.837 142,31
1986
1350000
30900
987132
10397
31683
2.316.437
2.383.767 194,26
1987
1175950
34900
993977
10447
41082
2.386.503
2.552.014 242,61
1988
1225000
35050
977726
10491
64041
2.576.096
2.768.485 299,17
1989
1241920
36160
985436
10531
45705
2.576.220
3.138.042 382,57
1990
1243614
32400
1148197
10566
56964
3.054.566
3.575.775 502,26
1991
1521332
34858
1473446
10596
59626
3.525.302
4.134.145 633,05
1992
1740059
51697
1415098
10621
63821
3.994.641
4.524.893 680,10
1993
1920244
54939
1580502
10641
53312
4.422.010
4.789.687 786,67
1994
1987604
57400
1703718
10703
74286
5.085.920
5.358.201 826,56
1995
1631576
54394
1360278
10783
99131
5.403.304
5.616.036 912,78
1996
1491109
51074
1476523
10861
91739
5.726.620
5.927.778 1036,55
1997
1607960
51457
1586029
10936
79383
7.494.119
5.339.476 1141,08
1998
1518474
50216
1408820
11008
75086
5.463.442
5.237.772 1427,04
1999
1725951
50407
1697518
11077
66337
6.392.022
5.545.362 1758,58
2000
1593628
48588
1564400
11142
68999
6.477.039
5.599.607 2087,42
2001
1469642
51055
1344231
11202
86919
6.077.040
5.381.897 2299,77
2002
1561058
55363
1460245
11259
78226
5.611.438
5.512.534 2507,96
2003
1647699
56702
1424819
11312
104130
6.453.806
5.830.239 2877,50
2004
1702565
62985
1471394
11362
137864
6.132.276
5.839.356 2626,22
2005
1798709
67405
1621746
11409
172406
6.118.425
5.798.750 2320,77
2006
1863746
73469
1567898
11453
167335
6.127.060
6.423.277 2357,98
2007
1819874
71075
1639833
11494
217738
6.002.302
6.760.541 2078,35
24
2008
1987603
72396
1696508
11532
327161
6.701.146
7.118.944 1966,26
2009
1993759
71566
1838412
11565
213666
7.637.324
6.765.408 2156,29
2010
2019625
78089
1691788
11594
230370
7.931.060
6.726.789 1897,89
2011
2042926
78567
1828281
11619
358810
7.427.776
6.915.142 1848,17
2012
1962986
79034
1733354
11638
358313
7.012.244
6.613.162 1798,23
ANEXO 2. Coeficiente de determinación.
Estadísticas de la regresión
Coeficiente de correlación múltiple
Coeficiente de determinación R^2
R^2 ajustado
Error típico
Observaciones
0,998450445
0,99690329
0,974268174
82124,20662
52
Análisis del modelo a partir de la bondad de ajuste: El análisis de la bondad de ajuste
se haría con el coeficiente de determinación (R^2) que busca expresar qué tanto del
modelo se está explicando realmente. Según este análisis, si se quisiera hacer
pronósticos y aceptar hipótesis lo que está dando a entender, es el que modelo serían
muy preciso o muy bueno. Ya que un R cuadrado del 99% lo que está diciendo es que la
calidad del modelo es buenísima y que cualquier cosa que éste trate de explicar será
muy acertado. Luego, según la bondad de ajuste el modelo es bastante bueno.
ANEXO 3. Regresión, constante igual a cero.
25
ANEXO 4. Regresión, variables significativas.
26
ANEXO 5. Gráfica de la variable explicada contra e tiempo.
Descargar