1 Análisis econométrico de variables que determinaron la producción de bananos en colombia en el periodo 1961 - 2012 JUAN CAMILO PERDOMO1 NOVIEMBRE DE 2015. RESUMEN La econometría, basada en la estadística económica y en la matemática, es la rama de la economía encargada de tomar los modelos económicos y con ellos un grupo de datos a explicar. Y a través de ellos, realizar algunas estimaciones o pronósticos que permitan realizar un análisis sobre dichos modelos. En este trabajo, se utilizará la econometría para explicar algunas variables o factores que determinan la producción de un bien de la economía nacional. Por otra parte, el banano es un producto de fundamental relevancia para los países en vía de desarrollo. Es uno de los productos de exportación colombiana de mayor importancia. Por lo tanto; este trabajo explicará y analizará la producción de bananos en Colombia en el periodo 1961 – 2012 a través de algunas variables explicativas que permitan correr el modelo econométrico y entender de qué manera estos factores determinan la producción de este alimento. O también, en algunos casos tratar de descifrar el por qué las variables que se creía podían explicar el modelo realmente no lo hacen. Para esto, se utilizarán algunas herramientas econométricas básicas, así como una base de datos sobre las variables nombradas anteriormente. PALABRAS CLAVE: Banano, variables, producción, econometría, hipótesis, explicativa, cultivo. ABSTRACT Econometrics, based on economic statistics and mathematics is the branch of economics take charge of economic models and with them a set of data to explain. And through them, make some estimates or forecasts that allow for an analysis of these models. In this paper, econometrics is used to explain some variables or factors that determine the production of a good of the national economy. Moreover, banana is a product of fundamental importance for developing countries. It is one of the Colombian export products of greater importance. Therefore; This paper will explain and analyze banana production in Colombia in the period 1961 - 2012 through some explanatory variables to run the econometric model and understand how these factors determine the production of this food. Or, in some cases trying to decipher why the variables that are believed could explain the model really do not. For this, some basic econometric tools and a database on the variables listed above are used. KEY WORDS: Bananas, variables, production , econometrics , hypotheses, explanatory, crop. 1 Estudiante de Economía, séptimo semestre, del Politécnico Grancolombiano. Trabajo entregado para la asignatura Econometría al Profesor Carlos Ariel Ramírez. El correo institucional del autor es: [email protected] 2 Introducción El banano es un producto de fundamental importancia para los países en vía de desarrollo. Debido a su alta presencia en el comercio mundial, es considerado el cuarto cultivo alimentario del planeta, después del arroz, el trigo y el maíz 2. Además, dado que es un alimento de extraordinaria exportación, este fruto es muy influyente en las economías agropecuarias de los países de clima tropical. En explicación a esto, el banano es considerado uno de los productos de exportación colombiana de mayor relevancia. El país representa algo más del 3% de la producción mundial de bananos. Siendo países como EEUU y la Unión Europea sus mayores compradores. Es por todo esto, que se considera importante investigar a fondo la producción de este fruto en la economía nacional. Para saber cuáles son algunas variables o factores que determinan dicha producción, cómo la afectan, o de qué depende que se generen más toneladas del banano. Para efectos de lo anterior, se utilizará la econometría, considerada la rama de la economía que se encarga de realizar este tipo de análisis e investigaciones. Por lo tanto, este trabajo está guiado a analizar y explicar la producción de bananos en Colombia en el periodo 1961 – 2012. Se utilizará algunas herramientas econométricas básicas, así como una base de datos donde se relacione todas las variables. Se correrá el modelo y se tratará de identificar algunos problemas o errores que muestran la mayoría de modelos econométricos, como cambio estructural, multicolinealidad, la heteroscedasticidad, auto correlación y no normalidad. Se corregirá los problemas identificados, de forma que permitan tener un modelo más creíble y explicativo y por último, se llegará a algunas conclusiones de análisis. Ante esto, AUGURA, la organización de bananeros en Colombia tiene un gran número de documentos que detallan esta producción. Sin embargo, todos estos documentos carecen de un análisis econométrico sino que se basan en otras formas de investigación. Documentos como ‘‘Coyuntura bananera colombiana’’ explican la fabricación de dicho fruto a través de variables macroeconómicas. (AUGURA, 2013) Otro escrito resaltado que habla al respecto, es ‘‘El entorno de la actividad bananera en Colombia 2012’’ realizado por la organización AKTIVA habla también sobre el producto bananero y explica su tendencia decreciente en algunos años. 2 Ver en: (Arias, Cora, Liu, & Pilkauskas, 2004, pág. 9) 3 Objetivo general El objetivo principal de este artículo será investigar y analizar de forma econométrica de qué forma algunas variables explican la producción de banano en Colombia. Objetivos específicos Conseguir, de manera detallada, datos reales tanto de la producción como de variables consideradas las más importantes, que permitan explicar la fabricación del banano en el territorio nacional. Obtener un modelo econométrico, con sus respectivos problemas ya identificados y corregidos, que permita entender, de forma estadística y matemática, la relación de estas variables. Realizar un análisis final que concluya cuáles de las variables mencionadas realmente afectan la producción y de qué manera lo hacen. Lo esperado sería que todas las variables pensadas tengas alguna relación en el modelo. Metodología Lo más importante para poder realizar esta investigación será la obtención y conformación de la base de datos. Principalmente para esto, se utilizará la FAO (organización de las naciones unidas dedicada a la alimentación y a la agricultura) como fuente. Luego, la mayoría de las cifras serán obtenidas de la página de la FAO (FAOSTAT.org). Dado que se necesita una base extensa, se utilizarán todos los años de los que se tenga presencia en esta página. Para el producto en cuestión, el banano, los datos están desde el año 1961 hasta el año 2012. Otro factor de gran relevancia son las variables o factores que conformarán el modelo. Para efectos de este, las siguientes fueron las variables consideradas pertinentes: La producción (toneladas): Es la variable explicada o dependiente. Es la que estima y se mira para analizar cuáles son los determinantes o factores que la afectan, y de qué manera lo hacen. Habla de la producción anual de bananos en Colombia. Área cultivada (hectáreas): Esta variable habla básicamente de qué tantas hectáreas de tierra se utilizaron para la producción de bananos en Colombia. Es la primera de las variables explicativas o independientes y se considera una de las más significativas para el modelo. 4 Cantidades exportadas (toneladas): Otra determinante que debería ser muy importante para la explicación de la variable dependiente. Habla de cuántas toneladas de bananos se exportaron en Colombia desde el año 1961 hasta el año 2012. Población rural (por mil personas): Habla específicamente de la población que vive en el campo en Colombia. Cuántos son, y si son importantes estas cantidades con respecto a la producción de bananos en el país. Es decir, ¿a medida que crece la población rural aumenta la producción de bananos? Valor comercial de los fertilizantes (1000 USD): A precio mundial en dólares, saber qué tanto los insumos entre ellos los fertilizantes se relacionan con la producción del fruto en Colombia. Saber si a medida que sube el precio se disminuye la producción, como se piensa debería ser, ya que se considera este un costo de fabricación. Producción de Ecuador (toneladas): En toneladas, Ecuador ha sido por un largo tiempo el mayor productor de bananos en el mundo y con esto, el mayor exportador. Por lo tanto, con esta variable se busca saber si a medida que disminuye la producción en Ecuador, la misma en Colombia sube o baja. De qué manera se relacionan la producción de este fruto respecto a ambos países. Importaciones de la Unión Europea (toneladas): De acuerdo a (Gómez, 2014) el mayor comprador o importador del banano colombiano es la Unión Europea en específico, países como Bélgica, Alemania y el Reino Unido. Por lo tanto se espera que haya una relación directa entre ambas variables. Es decir, a medida que las importaciones de la UE aumentan la producción colombiana tendería también a crecer. Esta dado en toneladas y habla únicamente de la importación de bananos. Tasa de cambio (COP- USD): Esta última variable, lo que trata de explicar es la tasa a la que se cambian los pesos colombianos por un dólar americano. Es la relación o proporción que tiene una moneda respecto a otra. Es claro, que a medida que el peso se devalúa se compran menos dólares, o también que se reciben más pesos por cada dólar obtenido. Por lo tanto, a la hora de exportar éste debe ser un factor importante para explicar aumentos o disminuciones en la fabricación del fruto en cuestión. 5 La periodicidad de los datos anteriormente nombrados es medida de forma anual. Es decir, cada dato que se incluya en la base esta medido para un año en específico. Como se dijo anteriormente los años van de 1961 a 2012. Con la base de datos ya conformada se procederá a realizar los procedimientos econométricos. Lo primero que hay que resaltar, es que los programas que serán utilizados para efectos de lo anterior serán primordialmente Excel, GRETL y adicional se usará unas pocas pruebas del software Eviews. Algunos procedimientos de Excel se harán de forma matricial, mientras que GRETL no pide más que la base de datos para obtener resultados. Inicialmente con los datos, se llevará a cabo un modelo de mínimos cuadrados ordinarios (MCO), el cual es considerado el modelo econométrico más básico y sencillo. Sin embargo, existen algunos problemas estadísticos que no permiten que estos sean muy explicativos, para lo cual, en caso de ser necesario se utilizará un modelo de mínimos cuadrados generalizados (MCG) que permita identificar y corregir dichos problemas. Los problemas estadísticos que se busca identificar son: cambio estructural, multicolinealidad, heteroscedasticidad, auto correlación, y no normalidad. Se medirán y corregirán en ese respectivo orden. Cambio estructural: El curso virtual de econometría de la página de la Universidad Nacional de Colombia define el cambio estructural como: ‘‘Una de las hipótesis estructurales del modelo es la constancia de los parámetros del modelo de regresión, es decir la existencia de una estructura única, válida para todo el periodo de observación y que sugerimos se mantiene para el horizonte de predicción. Existen no obstante, motivos para que tal hipótesis de constancia estructural puede ser rechazada en determinadas ocasiones. El caso más evidente es aquel que corresponde a un cambio profundo del sistema que el modelo trata de representar. Cuando se trabaja en series temporales es habitual encontrarse con cambios institucionales o de contexto socioeconómico, que cambian la estructura interna de funcionamiento de los fenómenos’’. (Universidad Nacional, 2007) La forma de medirlo aplicada para este documento será a través de un test de Chow que consiste en dividir la base de datos en el número de veces se crea que se presenta el cambio estructural. Por ejemplo, para este trabajo que busca explicar la producción de banano, se espera que haya cambio estructural en el año 1991 donde Colombia realizó su procedimiento de apertura económica. Para lo cual, se divide la base de datos en dos, la primera parte antes de dicho año y la otra, después del mismo. Se realizan dos regresiones y con los coeficientes de determinación encontrados en las regresiones se halla el coeficiente F o distribución F. Si este cociente supera el valor crítico dado por las tablas para una distribución grados de libertad, debe rechazarse la hipótesis. Por lo tanto, querría decir que si existe cambio estructural en 6 el modelo. De lo contrario, no habrá cambio estructural. En caso de existencia de este problema se intentará resolver o corregir mediante una variable Dummy. Multicolinealidad: Según el profesor (Gujarati, 2003), es un hecho que muchas de las variables explicativas presentan un alto grado de colinealidad, definiendo la Multicolinealidad como ‘‘la existencia de una relación lineal perfecta o exacta entre algunas o todas las variables explicativas de un modelo de regresión’’. Dice que hay relación lineal exacta si se cumple esta relación: ; donde los λ son constantes distintas a cero. Hoy en día se expande un poco la definición para incluir la correlación no perfecta. Al punto que, si se presenta una correlación perfecta o casi perfecta entre dos variables explicativas podría excluirse una de estas. Sin embargo, es muy poco probable que se dé una relación exacta entre dos parámetros, especialmente en información económica relacionada con series de tiempo. Lo que sí es muy común, es que se presente una relación alta entre estas. Y aunque no estén explicando exactamente lo mismo en el modelo es probable que si estén explicando algo uy parecido. Tan fuertes son las consecuencias de la multicolinealidad que el profesor Gujarati decide titular uno de sus apartados sobre este problema ‘‘Multicolinealidad: ¿Mucho trabajar para nada?’’. (Gujarati, 2003) El procedimiento para medir la multicolinealidad en este caso será el FIV, factores de inflación fe varianza, el cual (Gujarati, 2003) define como ‘‘indicador de la multicolinealidad: entre mayor es el FIV mayor problema de colinealidad tiene la variable X sobre las regresoras restantes del modelo’’. Si el FIV de una variable es superior a 10 (esto sucederá si su R cuadrado supera 0,90) se dice que esa variable es altamente colineal. Heterocedasticidad: Este problema lo define el Profesor Gujarati como el caso en el que la varianza de los errores o residuos no es constante. Según el autor, un modelo homocedástico es aquel en el que las perturbaciones o errores que aparecen en la regresión tienen la misma varianza. Heterocedasticidad se da cuando pasa exactamente lo contrario. Cuando la varianza de u (los errores) no permanece igual sin importar los valores que tome las variables X. De manera, que si las variables explicativas varían y con ellas varía la varianza de los errores se procederá a decir que el modelo sufre de heteroscedasticidad. Para hallarlo se usará inicialmente una prueba de White en Gretl, la cual el profesor Gujarati define como una prueba de heteroscedasticidad pura o prueba de error de especificación. Según él, el test propuesto por White no se apoya en el supuesto de normalidad y es fácil de llevar a cabo. Con los residuos al cuadrado de la regresión original se hace la regresión sobre las variables X originales, sobre sus valores al 7 cuadrado, y sobre los productos cruzados de las regresoras. A través, de una función Chi cuadrado se obtiene un valor de probabilidad. Si este valor de P supera el valor de significancia de 0,05 se acepta la hipótesis nula. Luego, no hay heteroscedasticidad. Por el contrario, si el valor de P obtenido es menor a la significancia se rechazará la Ho diciendo que si hay heteroscedasticidad. Adicionalmente, se realizará la prueba de White con términos cruzados en el software Eviews. De igual manera, si en esta prueba el Valor de probabilidad supera el de significancia se aceptará la hipótesis nula, que dice lo mismo que la de la anterior prueba. Por último, para estar seguro de la no existencia de heterocedasticidad en el modelo se realizará una prueba adicional. La prueba se hará mediante Gretl y es conocida como prueba ARCH. Auto correlación: Los términos error están correlacionados. El término auto correlación se puede definir como ‘‘la correlación entre miembros de series de observaciones ordenadas en el tiempo (como en datos de series de tiempo) o en el espacio (como en datos de corte transversal). En el contexto de regresión, el modelo clásico de regresión lineal supone que no existe tal auto correlación en las perturbaciones u. (Gujarati, 2003) Por su parte, el curso de econometría de la universidad nacional define este problema como ‘‘el caso en el que la matriz de covarianzas no es escalar debido a que algunos elementos fuera de la diagonal principal son estadísticamente distintos de cero, esto significa que el término de error del modelo tiene correlación consigo mismo a través del tiempo, es decir no hay independencia entre los residuos en diferentes periodos’’. (Universidad Nacional, 2007) De manera que; el modelo: No cumple con el supuesto Para este problema se realizarán dos pruebas diferentes. La primera, será la prueba gráfica para realiza una primera sospecha de si hay auto correlación positiva, negativas o aleatoría. Sin embargo, debido a la dificultad que la interpretación de la gráfica genera, se procederá a realizar distintas pruebas. La segunda, será la prueba Durbin – Watson que se hará a través de Eviews. En esta prueba se busca identificar el valor DW (por las siglas de sus expositores) de manera, que se pueda comparar con la tabla de valores estadísticos de DW. Dicho valor se ubicará dentro de una tabla donde hay distintos valores y dependiendo de donde quede se pensará que tipo de auto correlación hay o si no existe este problema. Por último, se realizará la prueba LM de auto correlación de Gretl en la cual se busca 8 contrastar el valor de P con un valor de significancia. Al igual que con las demás pruebas que tienen un objetivo parecido, si su P es mayor se aceptará la hipótesis. No normalidad: Este supuesto no es utilizado en el teorema de Gauss-Markov para estimación por MCO, de aquí que las propiedades de los estimadores de MCO se siguen conociendo aun cuando no se cumpla el supuesto de normalidad, es decir, los estimadores siguen siendo lineales, insesgados y tienen mínima varianza. Sin embargo, sobre la hipótesis de normalidad se han edificado la mayor parte de los contrastes habituales utilizados y en particular la de significancia de los parámetros del modelo. Aunque los contrastes t y F pueden mantener su validez en forma aproximada en situaciones de no normalidad, aunque utilizadas en forma más conservadora, que la habitual (haciendo más restrictivas las pruebas y niveles de significancia más bajos). (Universidad Nacional, 2007) Para medir la normalidad de los residuos se realizará la prueba de distribución de frecuencias entregada por Gretl. De manera que, si el valor P obtenido es mayor al valor de significancia (0,05) se procederá a aceptar la hipótesis nula que dice que los residuos se distribuyen normalmente. Sin embargo, es clara la importancia de la prueba gráfica en este problema. Luego, el resultado de la anterior prueba se comparará con la gráfica para saber un producto final sobre la normalidad de los residuos. Prueba lineal: Por último, se realizará una prueba de restricción lineal sobre los parámetros tipo F. Una hipótesis estadística es un enunciado sobre los valores que pueden tomar algunos parámetros. Se busca conocer si un valor estimado de un parámetro es compatible con una hipótesis estimada. Para esto, se tratará de probar la certeza o la falsedad de una hipótesis cualquiera. Esto se hará a través de una distribución F en Excel. Contrastando el valor P obtenido con un nivel de significancia 0,05. En otras palabras, con esta prueba lo que se busca es a través de unos procedimientos matriciales demostrar la veracidad de una hipótesis cualquiera inventada. La hipótesis que se prueba se conoce como hipótesis nula (Ho). Y ésta se contrasta contra una hipótesis llamada hipótesis alternativa. La probabilidad de rechazar Ho cuando de hecho es verdadero se conoce como nivel de significancia o error tipo 1. Se utiliza la letra α (alfa) para mostrarlo. Con todo lo anterior ya expuesto, se procede a correr el modelo de mínimos cuadrados ordinarios. De manera, que a través de este, se pueda identificar los problemas mencionados, corregirlos y volver el modelo más creíble y explicativo. Así, poder mediante las variables ya mencionadas explicar a grandes rasgos el modelo de producción de banano en Colombia para el periodo 1961- 2012. Obteniendo de esta forma los siguientes resultados. 9 Resultados Los primeros resultados obtenidos del modelo de mínimos cuadrados ordinarios fueron: 1. Regresión con intercepto negativo y significativo. Coeficientes Intercepción -1529750,959 Área cultivada (Ha) 14,88039643 Cantidades exportadas (toneladas) 0,5080189 Población rural (1000) 196,3688771 Valor comercial de fertilizantes (USD) -0,650537711 Producción Ecuador (toneladas)1 -0,033163348 Cantidades importadas por la Unión Europea (toneladas)2 -0,020614887 COP - USD3 -111,658641 Error típico 433135,1533 2,645302656 0,062235076 45,14320241 0,266019775 0,020442583 Estadístico t -3,531809753 5,625215094 8,162903233 4,349910212 -2,445448695 -1,622268021 Probabilidad 0,000982499 1,19602E-06 2,35671E-10 7,96587E-05 0,018537989 0,111890606 0,036546652 31,71285517 -0,564070457 -3,52092678 0,575570296 0,001014417 Ilustración 1. Fuente: Elaboración propia en Excel. Dado el resultado anterior, se procedió a realizar una regresión con la constante igual a cero. De manera que, se obtuvo el siguiente análisis de significancia de variables. variable Intercepción Área cultivada (Ha) Cantidades exportadas (toneladas) Probabilidad #N/A 3,18847E-05 1,08546E-14 2,34052E-07 Población rural (1000) Valor comercial de fertilizantes (1000 0,256341708 USD) Producción Ecuador (toneladas) 0,003703276 Cantidades importadas por la Unión 0,874420961 Europea (toneladas) 0,079783136 COP - USD3 Ilustración 2. Fuente: Elaboración propia en Excel. Contrastando la probabilidad de cada una de las variables con el nivel de significancia 0,05 correspondiente al 5%, se entiende que las variables significativas para el modelo serán las resaltadas en verde y en rojo las no significativas. Luego, de aquí en adelante el modelo se moverá con sus variables representativas. 10 Resultados de las pruebas Cambio estructural: Ilustración 3. Fuente: Elaboración propia en Gretl, a través de contraste de Chow. Dado que el valor de P obtenido es menor al valor de significancia 0,05 se intuye que sí hay evidencia suficiente de cambio estructural en el modelo. A continuación se presenta la prueba de Chow en Excel con todas las variables para confirmar la presencia de cambio estructural en el modelo. SRC SRC1 SRC2 3,03497E+11 1,24919E+11 68899731766 K N1 N2 8 30 22 F Probabilidad 3,67823941 0,00182066 Ilustración 4. Fuente: Elaboración propia en Excel. Como se puede ver en el gráfico anterior, la probabilidad en el caso de las regresiones con todas las variables sigue siendo menor al valor 0,05 de significancia. Obteniendo entonces que en ambos casos, tanto con las variables significativas como con todas las variables se encuentra presente el problema de cambio estructural. 11 Adicionalmente, se probó con una variable Dummy solucionar el problema de cambio estructural. Sin embargo, el problema todavía se presentaba. Así: Ilustración 5. Fuente: Elaboración propia en Gretl mediante contraste de Chow. Lo anteriores resultados fueron obtenidos de la forma que solo contempla las variables significativas. A continuación se presenta con todas las variables. Ilustración 6. Fuente: Elaboración propia en Gretl mediante contraste de Chow. Se ve que se sigue presentando el problema dado que las probabilidades de ambas pruebas siguen siendo bastante pequeñas. Luego, la variable Dummy no fue representativa para corregir el problema. 12 Multicolinealidad: Ilustración 7. Fuente: elaboración propia en Gretl. La prueba de factores de inflación de varianza indica que existe relación lineal o correlación entre las variables explicativas si el valor obtenido de dicho análisis es mayor a 10. Como se puede ver en la imagen anterior, ninguna de las variables presenta el valor dicho anteriormente. Luego, se acepta la hipótesis nula de no correlación entre las variables X. Heterocedasticidad: Para medir la heterocedasticidad se consideraron dos distintas pero parecidas formas. Primero la prueba de contraste de White entregada por Gretl. Y segundo, La prueba de White con términos cruzados hallada a través del también programa econométrico Eviews. Obteniendo los siguientes resultados: Ilustración 8. Fuente: Elaboración propia a través de Gretl. 13 Del primer análisis, se puede comprender que a un nivel de significancia de 0,05, la probabilidad obtenida del 0,13 es mayor. Luego, existe alta sospecha de no existencia de heterocedasticidad en el modelo. Sin embargo, se considera necesario realizar la prueba White con términos cruzados. Ilustración 9. Fuente: Elaboración propia mediante Eviews. Con esta forma de análisis, el valor de probabilidad hallado con la distribución F se aumenta. Luego, se considera que con las dos pruebas hechas existe evidencia suficiente de no heterocedasticidad. Por último, se incluye el valor de ARCH. Ilustración 10. Fuente: Elaboración propia a través de Gretl. El cual, se considera otra forma de medir la heterocedasticidad. Su valor P comparado con el de significancia demuestra de nuevo la no existencia de heterocedasticidad. 14 Auto correlación: Generalmente, para determinar si existe auto correlación en un modelo lo primero que se hace es la prueba gráfica. Ilustración 11. Fuente: Elaboración propia mediante Gretl. Sin embargo, llegar a una conclusión a través de la prueba gráfica es bastante apresurado y arriesgado. Lugo es necesario realizar otras pruebas. Dado lo anterior, se realiza la prueba Durbin – Watson a través de Eviews. Ilustración 12. Fuente: Elaboración propia mediante Eviews. 15 Con un valor hallado DW=1.035, por la tabla de Durbin-Watson con un nivel de significancia de 0.05 contrastando con las tablas se ve que, dl=1.378 du=1.721. Por lo tanto, hay evidencia de auto correlación positiva. Por último, para confirmar la sospecha de no auto correlación, se procederá a realizar la prueba de contraste de LM entregada por Gretl. Ilustración 13. Fuente: Elaboración propia mediante Gretl. No obstante, el valor de P obtenido en esta última prueba s bastante bajo. Luego hay sospecha de auto correlación en el modelo. No normalidad: Para medir la normalidad de los residuos se realizará la prueba de distribución de frecuencias entregada por Gretl. Llegando al siguiente resultado: Ilustración 14. Fuente: realización propia mediante Gretl. 16 Se obtiene un valor de P bastante alto, lo que permite tener evidencia suficiente para aceptar la hipótesis nula y decir que efectivamente los residuos se distribuyen normalmente. Sin embargo, es clara la importancia de la prueba gráfica en este problema. Luego la gráfica de la distribución de los errores se presenta a continuación. Ilustración 15. Fuente: realización propia mediante Gretl. En la gráfica es también claro que, aunque tiene algunas desviaciones, los errores del modelo tienden a distribuirse de forma normal. Es decir, bajo la forma de la campana resaltada en negro. PRUEBA DE RESTRICCIÓN LINEAL: Hipótesis: El área cultivada y las unidades exportadas son las únicas variables que afectan el modelo. R r 1 0 Varianza error 6744385312,9242 F 23,186 P 1,27022E-14 1 0 0 0 0 Teniendo en cuenta un nivel de significancia del 0,05 o del 5% mayor a la probabilidad hallada por la distribución F se rechaza la hipótesis lo que quiere decir que es falso el que las únicas variables explicativas del modelo son el área cultivada y las cantidades exportadas 0 17 Discusión Cambio estructural: Cuando el modelo utilizado involucra series de tiempo es muy probable que sufra un cambio estructural. Este problema lo que indica es que no existe una estabilidad estructural del modelo de regresión. En lo que concierne a este documento, se busca saber si el año 1991 cuando Colombia realizó su proceso de apertura económica afectó estructuralmente la producción de banano. Se realizó el test de Chow de dos maneras. La primera, a través de las variables que fueron determinadas significativas al comienzo en la regresión. Y la segunda, con todas las variables. Así, el valor F hallado con solo las variables significativas fue de 9,25 mayor a 4, dando evidencia de cambio estructural. Y que el resultado de F obtenido con todas las variables fue menor a 4 de 3,67 pareciendo indicar que cuando se mide este producto con todas las variables hay estabilidad estructural. Sin embargo, en ambos casos se obtuvo un coeficiente de probabilidad mucho menos al de significancia. Para el caso de la regresión solo con las variables significativas, el resultado P fue 5,32897E-006. Y respecto a la regresión con todas las variables, el valor P fue de 0,0018. Por lo tanto, es importante concluir que el modelo presenta un problema de cambio estructural dada la apertura económica del año 91. Por lo cual, se procedió a corregir este dilema. A saber, que para resolver este obstáculo lo ideal es utilizar una variable Dummy o variable ficticia. Para efectos de lo anterior, el procedimiento es muy sencillo. Se procede a poner una columna adicional, en la que cada celda, anterior al año crítico donde se presentó el cambio estructural, tendrá un valor de cero (0). Por el contrario, los periodos siguientes al año de la apertura económica obtendrán un valor de uno (1). No obstante, diferente a los que se pensaba no se dio realmente un cambio tras este procedimiento. El problema no se corrigió realmente. Ya que, como se ve en las ilustraciones 5 y 6, que incluyen la variable Dummy, el valor de probabilidad siguió siendo menor al de significancia. Multicolinealidad: El procedimiento para medir la multicolinealidad en este caso fue el FIV, factores de inflación fe varianza, el cual (Gujarati, 2003) define como ‘‘indicador de la multicolinealidad: entre mayor es el FIV mayor problema de colinealidad tiene la variable X sobre las regresoras restantes del modelo’’. Si el FIV de una variable es superior a 10 (esto sucederá si su R cuadrado supera 0,90) se dice que esa variable es altamente colineal. En el caso de este documento, los FIV obtenidos para las 4 variables consideradas nunca superaron (10) el valor estimado de que se deduce hay problema de multicolinealidad. Lo que quiere decir que, no existe relación alta ni exacta entre las variables explicativas 18 del modelo. Y que por tanto, cada variable está explicando algo diferente. Es decir, que las cuatro variables significativas sin importantes para el modelo, y no se encuentra ninguna correlacionada con la otra. Luego, no hay problema que corregir. Por lo tanto, para concluir este problema, es importante decir que los estimadores en este modelo, gracias a la falta de presencia de multicolinealidad, no presentan varianzas y covarianzas que hagan difícil la estimación precisa. Y que se tiende a evitar el caso de un r cuadrado grande con pocas variables significativas. Heterocedasticidad: Es considerado el problema en el que la varianza de los errores o residuos no es contante. De manera que cualquier cambio en una variable X va a cambiar dichas varianzas. Para medir este problema se utilizaron tres diferentes pruebas. La primera, un coeficiente de White sin términos agrupados. La segunda, el valor de White pero esta vez con términos agrupados. La tercera, el valor de ARCH. En las primeras pruebas realizadas para este modelo se obtuvo un valor de P moderadamente alto. Para la prueba inicial, sin términos cruzados; el valor de probabilidad determinado fue de 0,13 bastante mayor al 0,05. Y para la prueba dos, con términos cruzados, el resultado fue aún más alto. Con una probabilidad de 0,31, un valor considerablemente alto, se termina de dar evidencia para aceptar la hipótesis nula. Por lo tanto, en este modelo, se piensa que existe evidencia suficiente de que no se considera el problema de heterocedasticidad. Por último el valor de ARCH, prueba que se utiliza para medir la heterocedasticidad la probabilidad fue del 0,23, luego es alta y se rechaza de nuevo la existencia de heterocedasticidad. Lo que quiere decir, que en este modelo la varianza de los residuos si es constante y no varía a cambios en las variables X. La no presencia de este problema ayuda a limitar la existencia de datos atípicos en el modelo. Ya que, permite que los errores mantengan una distribución parecida y no de una manera desordenada. Lo que hace que el modelo sea mucho más creíble y explicativo. Luego es más fácil explicar la producción de bananos con un modelo que no presenta heterocedasticidad. Ya que, entre tantas cosas permite que los datos de los errores de los factores que explican la variable dependiente sean más juiciosos a la organización, y no que se distribuyan como datos atípicos o en forma desordenada. Esto hace que las variables explicativas sean más creíbles. Es por todo lo anterior, que es muy importante cerciorarse realmente y de forma sustentada de la no existencia de heterocedasticidad. Porque es un problema que puede afectar gravemente un modelo. Y su mala estimación, permitiría seguir funcionando bajo un modelo problemático que puede afectar las estimaciones y explicaciones. 19 Auto correlación: Pero no es solo la organización de los residuos el tema esencial. Es también fundamental conocer si estos errores están correlacionados. Como en el caso del problema de heterocedasticidad, la presencia de auto correlación en un modelo hace que los estimadores sigan siendo lineales e insesgados. Respecto a este modelo, mediante distintas pruebas se conformó la presencia de auto correlación. Luego existe alguna clase de relación entre los residuos del modelo. Primero se intentó medir la auto correlación a través de la forma gráfica. Sin embargo denotar realmente este problema en la pura gráfica es bastante difícil. Por lo tanto, se procedió a realizar pruebas un poco más complejas. La prueba Durbin Watson realizada a través de Eviews arrojó un resultado de probabilidad de siente ceros. Lo que quiere decir que inicialmente existe evidencia de auto correlación. Adicional a eso, el valor DW obtenido se presenció dentro del cuadro de auto correlación positiva. Es decir, la sospecha persiste. Dado que la auto correlación también es un problema muy relevante para cualquier modelo. Es importante cerciorarse asegurarse de la existencia de este modelo. Con el fin de no seguir manejando un modelo que presenta problemas. Luego, se realizó una prueba adicional entregada por Gretl. El test LM de auto correlación. Se obtuvo un valor de probabilidad bastante pequeño. Por lo tanto, se asegura la presencia de correlación entre los errores. Respecto a este modelo, es negativo el que haya presencia de auto correlación. Ya que, dificulta le estimación y explicación de los datos. Se dificulta la explicación de la variable producción de bananos en Colombia. Por ende, es importante corregir este modelo. La forma más eficiente de lograrlo mediante los mínimos cuadrados generalizados. No normalidad: Aunque este no es considerado un problema tan importante. Es necesario medirlo y en cuyo caso toque corregirlo. La prueba hecha para valorar la existencia de este problema fue a través de Gretl. Y fue bastante sencilla. Se utilizó la prueba de distribución de frecuencias. La cual arrojó una probabilidad de 0,57, bastante alta. Lo que quiere decir que bajo este test se niega la existencia de no normalidad en la distribución de los residuos. Sin embargo, dado que se está evaluando la distribución, se hace importante y necesario evaluar la prueba gráfica. De la cual, se obtiene también que la distribución sigue y tiende hacia la orientación de campana característica de una distribución normal. El que el modelo no presente este problema es bastante positivo ya que corrobora la organización en la distribución de los errores. Lo que permite que no se tienda a modelar con datos que se encuentran lejanos a lo que se va a estimar o a explicar. Los errores siguen a una distribución en la que se mantienen. Esto hace que la elaboración de este modelo y su manejo sea bastante positivo. 20 Conclusiones. En concusión, las variables que mejor afectan y explican la producción de banano en Colombia son: el área cultivada o utilizada para este cultivo, las cantidades exportadas, la población rural, y por último la producción de Ecuador quien hoy en día se posesiona como el mayor productor mundial de bananos. En términos generales el modelo función. De siente variables que se ingresaron inicialmente, cuatro fueron significativas. Y de los problemas solo dos presenta el modelo. Dado el coeficiente obtenido para cada una de las variables significativas. Estas afectan al modelo así: El área cultivada afecta positivamente la producción de banano en 10. Por lo tanto, por cada unidad de área cultivada la producción va a tener que aumentar en 10 toneladas. Las cantidades exportadas no afectó tanto el modelo como se esperaba. A pesar de ser cierto que gran parte de lo que se produce se exporta, el coeficiente de este variable fue bastante pequeño (0,55). La población rural, es según su parámetro, la variable que más afecta la producción de banano. Su coeficiente es de 103. Lo que quiere decir que por cada unidad de población rural la producción aumentará en 103 toneladas. Y por último, como se esperaba la producción de Ecuador afecta negativamente la producción colombiana. Aunque en muy poco, -0.06. Quiere decir que a medida que la producción del país vecino aumenta la producción acá decrece y viceversa. 21 Referencias Arce, R. D. (2004). CONTRASTES DE SIGNIFICACIÓN CONJUNTA. Obtenido de Universidad Autónoma de Madrid: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CCAQFjAAahUKE wjV7ZHxydjIAhULJB4KHcYLB4&url=https%3A%2F%2Fwww.uam.es%2Fpersonal_pdi%2Feconomicas%2Fjmalonso%2Fsignif_conju nta.pdf&usg=AFQjCNH8WBffwUL9d2ad1kDTqvzLRJ11ug&sig2=0rrROPyNCLNk Arias, P., Cora, D., Liu, P., & Pilkauskas, P. (2004). La economía mundial del banano. Obtenido de Organización de las naciones unidas para la agricultura y la alimentación (FAO) : https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved= 0CCAQFjAAahUKEwj_8JyV1djIAhWCFR4KHSg4Dww&url=http%3A%2F%2Fwww.fao.org%2Fdocrep% 2F007%2Fy5102s%2Fy5102s00.htm&usg=AFQjCNEBJMTISw6hq7cnlIv9qUzeV6tCoQ&sig2=Mo1PoRuYA8QxluNL8X AUGURA. (2013). Coyuntura bananera Colombiana. Obtenido de AUGURA: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved= 0ahUKEwic2L6p4LDJAhUC2SYKHakPDWMQFggdMAA&url=http%3A%2F%2Fbibliotecadigital.agrone t.gov.co%2Fjspui%2Fbitstream%2F11348%2F7201%2F2%2FCOYUNTURA%2520BANANERA%2520COL OMBIANA201 Bello, O. (2013). La depreciación del dólar ¿es el fin de su supremacía como moneda divisa? Obtenido de Banco Central de Nicaragua: http://www.bcn.gob.ni/blog/?p=29 Gómez, E. M. (Julio de 2014). Mercado global de banano. Obtenido de Centro de aprovechamiento de acuerdos comerciales: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved= 0CCQQFjABahUKEwihmOKM7dfIAhWIbB4KHWLOCM0&url=http%3A%2F%2Fwww.mincit.gov.co%2F caac%2Fdescargar.php%3Fid%3D72136&usg=AFQjCNFvuJWI0wvhWLO14pfiDLW8cLz9Q&sig2=ZaNRDcrjLgSSjijw Gujarati, D. (2003). Econometría. México D.F: Mc Graw Hill. Universidad Nacional. (2007). Curso virtual econometría. Obtenido de Universidad Nacional de Colombia: http://www.virtual.unal.edu.co/cursos/economicas/2001078/docs_curso/descripcion.html ANEXOS 22 ANEXO 1. BASE DE DATOS. AÑO Valor Cantidades Área Cantidades Población comercial Producción producidas cultivada exportadas rural de Ecuador (toneladas) (Ha) (toneladas) (1000) fertilizantes (toneladas)1 (1000 USD) Cantidades importadas COP por la Unión USD3 Europea (toneladas)2 1961 571600 25000 205630 8850 13171 2.597.000 1.611.622 6,70 1962 519100 24000 147090 8896 13339 2.486.000 1.680.742 6,96 1963 580600 28000 202590 8936 8410 2.473.000 1.666.420 9,00 1964 559600 29000 171570 8968 10359 3.300.000 1.616.217 9,00 1965 653000 29000 253460 9090 4040 3.304.000 2.040.302 10,50 1966 720000 29000 310864 9214 11294 2.522.089 2.187.278 13,50 1967 764000 29000 325582 9334 929 2.556.828 2.202.618 14,51 1968 770000 29000 401552 9448 2798 2.765.117 2.168.944 16,29 1969 780000 29500 334464 9553 3845 3.031.113 2.159.964 17,32 1970 780100 29200 261857 9644 6553 2.911.342 2.035.867 18,44 1971 803500 30000 229087 9720 3671 2.742.948 2.221.108 19,93 1972 827600 31000 212476 9785 1785 2.581.639 2.515.313 21,87 1973 900000 33000 214364 9841 12153 2.495.927 2.511.438 23,57 1974 954000 31000 336329 9894 22956 2.676.411 2.366.406 26,06 1975 1050000 26600 371736 9949 1114 2.544.327 2.306.030 30,93 1976 1060000 33100 456804 10004 2443 2.570.925 2.186.915 34,70 1977 1050000 34500 455479 10058 17306 2.450.690 2.371.603 36,77 1978 1050000 30300 622345 10110 31165 2.152.192 2.481.908 39,10 1979 1040000 29300 626415 10158 22936 2.031.559 2.432.980 42,55 1980 1030000 23800 691608 10202 45689 2.269.479 2.210.187 47,28 1981 1109600 22100 802885 10243 36837 2.009.850 2.146.595 54,49 - 23 1982 1146600 21700 804180 10278 35691 1.998.749 2.135.194 64,09 1983 1173000 27400 786927 10309 31044 1.642.073 1.976.719 78,86 1984 1450000 30300 1029823 10334 37925 1.677.571 2.155.816 100,82 1985 1200000 28000 783039 10354 41529 1.969.559 2.272.837 142,31 1986 1350000 30900 987132 10397 31683 2.316.437 2.383.767 194,26 1987 1175950 34900 993977 10447 41082 2.386.503 2.552.014 242,61 1988 1225000 35050 977726 10491 64041 2.576.096 2.768.485 299,17 1989 1241920 36160 985436 10531 45705 2.576.220 3.138.042 382,57 1990 1243614 32400 1148197 10566 56964 3.054.566 3.575.775 502,26 1991 1521332 34858 1473446 10596 59626 3.525.302 4.134.145 633,05 1992 1740059 51697 1415098 10621 63821 3.994.641 4.524.893 680,10 1993 1920244 54939 1580502 10641 53312 4.422.010 4.789.687 786,67 1994 1987604 57400 1703718 10703 74286 5.085.920 5.358.201 826,56 1995 1631576 54394 1360278 10783 99131 5.403.304 5.616.036 912,78 1996 1491109 51074 1476523 10861 91739 5.726.620 5.927.778 1036,55 1997 1607960 51457 1586029 10936 79383 7.494.119 5.339.476 1141,08 1998 1518474 50216 1408820 11008 75086 5.463.442 5.237.772 1427,04 1999 1725951 50407 1697518 11077 66337 6.392.022 5.545.362 1758,58 2000 1593628 48588 1564400 11142 68999 6.477.039 5.599.607 2087,42 2001 1469642 51055 1344231 11202 86919 6.077.040 5.381.897 2299,77 2002 1561058 55363 1460245 11259 78226 5.611.438 5.512.534 2507,96 2003 1647699 56702 1424819 11312 104130 6.453.806 5.830.239 2877,50 2004 1702565 62985 1471394 11362 137864 6.132.276 5.839.356 2626,22 2005 1798709 67405 1621746 11409 172406 6.118.425 5.798.750 2320,77 2006 1863746 73469 1567898 11453 167335 6.127.060 6.423.277 2357,98 2007 1819874 71075 1639833 11494 217738 6.002.302 6.760.541 2078,35 24 2008 1987603 72396 1696508 11532 327161 6.701.146 7.118.944 1966,26 2009 1993759 71566 1838412 11565 213666 7.637.324 6.765.408 2156,29 2010 2019625 78089 1691788 11594 230370 7.931.060 6.726.789 1897,89 2011 2042926 78567 1828281 11619 358810 7.427.776 6.915.142 1848,17 2012 1962986 79034 1733354 11638 358313 7.012.244 6.613.162 1798,23 ANEXO 2. Coeficiente de determinación. Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 0,998450445 0,99690329 0,974268174 82124,20662 52 Análisis del modelo a partir de la bondad de ajuste: El análisis de la bondad de ajuste se haría con el coeficiente de determinación (R^2) que busca expresar qué tanto del modelo se está explicando realmente. Según este análisis, si se quisiera hacer pronósticos y aceptar hipótesis lo que está dando a entender, es el que modelo serían muy preciso o muy bueno. Ya que un R cuadrado del 99% lo que está diciendo es que la calidad del modelo es buenísima y que cualquier cosa que éste trate de explicar será muy acertado. Luego, según la bondad de ajuste el modelo es bastante bueno. ANEXO 3. Regresión, constante igual a cero. 25 ANEXO 4. Regresión, variables significativas. 26 ANEXO 5. Gráfica de la variable explicada contra e tiempo.