ALGUNAS APLICACIONES DE LA TEORÍA MATEMÁTICA DE LA INFORMACIÓN AL ANÁLISIS INPUT-OUTPUT Carmen Ramos Carvajal(1) Rubén Álvarez Herrero(2) Esteban Fernández Vázquez(3) Ana Salomé García Muñiz (4) Departamento de Economía Aplicada, Facultad de Ciencias Económicas, Avda. del Cristo s/n, 33071, Oviedo. (1) [email protected],(2)[email protected],(3)[email protected] (4) [email protected] ALGUNAS APLICACIONES DE LA TEORÍA MATEMÁTICA DE LA INFORMACIÓN AL ANÁLISIS INPUT-OUTPUT El objeto de esta comunicación es mostrar distintas posibilidades de utilización de la teoría matemática de la información al análisis input-output. Abordaremos este cometido desde tres ópticas diferentes. La primera de ellas se refiere al proceso de agregación de una matriz. El empleo de medidas de información permitirá cuantificar qué cantidad de información se pierde cuando dicha matriz experimenta un mayor nivel de agregación. La actualización de los coeficientes input-output es un recurso al que frecuentemente es preciso recurrir, dada la dificultad que conlleva la construcción de una matriz de contabilidad social. Para ello es posible aplicar, entre otras, una técnica denominada entropía cruzada y que se basa en la distancia introducida por Kullback-Leibler. Por último, también se planteará la utilización de medidas derivadas de la teoría de la información para el análisis de la fiabilidad de los coeficientes actualizados. En suma, consideramos que la teoría de la información constituye una herramienta potente y con un amplio espectro de aplicaciones en el análisis input-output. SOME APPLICATIONS OF MATHEMATICAL THEORY OF INFORMATION TO INPUT-OUTPUT ANALYSIS The goal of this communication is to introduce the application of some concepts derived from the mathematical theory of information to input-output analysis. We cover this study on the basis of three levels. The first of them is related to the aggregation of the matrix, that is, we employ measurements of information to calculate to what extend information is lost as aggregation gets greater. The second one consists of the application of the updating of input-output coefficients: given that the elaboration of a social matrix by survey techniques is a difficult task, it is often needed to make used of an updating technique of a prior matrix. To fulfil this aim, it is possible to apply, among others, technique so-called ‘cross entropy’ based on Kullback-Leibler’s measure of distance. Lastly, to measure the reliability of the updating coefficients, the use of measures derived from information theory will be raised, as well. Sum up, we consider that information theory makes up a powerful tool with a wide range of applications in input-output analysis. PALABRAS CLAVE: Teoría de la información, Análisis input-output, Matrices de contabilidad social 1 ALGUNAS APLICACIONES DE LA TEORÍA MATEMÁTICA DE LA INFORMACIÓN AL ANÁLISIS INPUT-OUTPUT 1.INTRODUCCIÓN El objetivo fundamental de esta comunicación es presentar la teoría estadística de la información como una herramienta de apoyo en el tratamiento de problemas encuadrados en el marco input-output. Para conseguir tal objetivo efectuaremos la exposición de algunas de las aplicaciones, a nuestro juicio, más relevantes de la misma. Dichas aplicaciones se presentarán agrupadas en tres conceptos, a saber: - la cantidad de información como elemento diferenciador de los distintos niveles de agregación de una tabla input-output - estimación de coeficientes input-output - análisis de la fiabilidad de los coeficientes estimados En este trabajo utilizaremos como información base las matrices de contabilidad social (MCS), ya que aportan un amplio conocimiento en los estudios socioeconómicos tanto de ámbito nacional como regional. Recogen el total de las transacciones efectuadas en una economía, dado que no sólo analizan la estructura productiva sino que, además, completan el flujo circular de la renta al considerar el resto de agentes. Por ello, permiten un conocimiento exhaustivo y global de la realidad económica, así como detectar los efectos que producen políticas económicas concretas en los diferentes grupos socioeconómicos o sobre los presupuestos gubernamentales, constituyendo, por lo tanto, la base cuantitativa que posibilita la construcción y evaluación de los modelos de equilibrio general. Dado que hasta la fecha no existen publicadas matrices de contabilidad social de la comunidad asturiana previamente hemos debido proceder a su elaboración. En concreto, construiremos las matrices referentes a 1990 y 1995, ya que se dispone de la Contabilidad Regional y tabla input-output para ambos años1. 2.CONSTRUCCIÓN DE LAS MATRICES DE CONTABILIDAD SOCIAL Como el objetivo central de esta comunicación no es la construcción de matrices de contabilidad social sino la aplicación de la teoría de la información, hemos elaborado unas matrices con un alto nivel de agregación, siguiendo el esquema pionero de Pyatt (1988) en el que se recoge el flujo circular de la renta. Una MCS es una tabla de doble entrada en la que se recogen en filas y columnas distintas cuentas de una economía. En concreto, en columnas se recogen los empleos y en filas los recursos. Por equilibrio contable los márgenes fila y columna coinciden. Esto es, 1 En el momento de realizar esta comunicación, la última Contabilidad Regional y Tabla input-output disponible, se referían a 1995. 2 Tabla Nº 1. Esquema general de una MCS Empleos Recursos Cuenta1 Cuenta 2 Cuenta 3 ... Cuenta n Cuenta 1 Cuenta 2 Cuenta 3 ... Cuenta n Pyatt distingue las cuentas siguientes: Bienes y Servicios, Actividades, Factores, Renta, Utilización de la Renta, Capital y Resto del Mundo. La estructura de la matriz de contabilidad social es la siguiente: en la primera cuenta se recogerán la Producción de Bienes y Servicios y las Importaciones, en columnas, y Consumo Intermedio, Consumo Interior Residente, Formación Bruta de Capital y Exportaciones y Consumo Interior de no Residentes, en la fila. En la columna de Actividades aparecerá recogido, además de los Consumos Intermedios, el Valor Añadido Bruto y por filas la Producción de Bienes y Servicios. En la columna de Factores están las partidas: Salarios Interiores Pagados a Residentes, Impuestos Indirectos Netos, Excedente Bruto de Explotación y Salarios Interiores Pagados a no Residentes. En la fila se recoge la cuenta del Valor Añadido Bruto. En la columna de Renta aparece la Renta Bruta Disponible, las Rentas de la Propiedad Pagadas al Resto del Mundo y Transferencias Pagadas al Resto del Mundo. En la fila correspondiente se recogen Salarios Interiores Pagados a Residentes, Impuestos Indirectos Netos, Excedente Bruto de Explotación y Salarios Recibidos del Resto del Mundo, Rentas de la Propiedad Recibidas del Resto del Mundo y Transferencias Recibidas del Resto del Mundo. Dentro de la columna de Utilización de la Renta: se recogen las cuentas de Consumo Interior de Residentes, Ahorro y Consumo en el Exterior de los Residentes. En la fila sólo aparece la Renta Bruta Disponible. En la columna de Capital, se sitúa Formación Bruta de Capital, Transferencias de Capital Pagadas al Resto del Mundo y Capacidad de Financiación de la Nación. En la fila se muestran las partidas de Ahorro y Transferencias de Capital Recibidas al Resto del Mundo. Por último en la columna del Resto del Mundo se recogen las Exportaciones y Consumo Interior de los no Residentes, los Salarios Recibidos del Resto del Mundo, Rentas de la Propiedad Recibidas del Resto del Mundo, Transferencias Recibidas del Resto del Mundo y Transferencias de Capital Recibidas del Resto del Mundo. A partir de la matriz de flujos es habitual construir una matriz de propensiones medias al gasto, sin más que dividir las celdas de cada una de las columnas entre su total. Por tanto, la suma de todos los elementos de cada columna de coeficientes es la xi j unidad. Esto es, p i = , donde X j = ∑ x ij , por tanto, 0≤pi≤1 y ∑ p i = 1. Xj i i 3 Si en lugar de dividir entre el total de cada columna, efectuamos el cociente x ij respecto al total de la tabla, ∑ X j = X , obtendríamos p ij = , donde 0≤pij≤1y X j ∑∑ p i i ij =1. 3. ENTROPÍA Y CANTIDAD DE INFORMACIÓN DE SHANNON A continuación expondremos algunos de los conceptos derivados de la teoría de la información que posteriormente utilizaremos. La entropía de una distribución puede ser entendida como el desorden existente en la misma, es decir, la incertidumbre asociada a un determinado fenómeno. Dicha incertidumbre puede ser cuantificada a partir de un sistema de probabilidad. 3.1. La entropía de Shannon Sea X una variable aleatoria discreta con distribución de probabilidad P=(p1, p2...pn), se denomina entropía de Shannon de dicha variable o de la distribución P a la expresión siguiente: n H ( X ) = H ( p1 , p 2 ,... p n ) = −∑ p i log p i i =1 La entropía de Shannon está acotada inferiormente por cero, alcanzándose este valor cuando la variable es degenerada, esto es, cuando son nulas n-1 probabilidades y la restante es la unidad. Alcanzará su mayor valor, log(n), en el caso de que todas las 1 probabilidades coincidan, p1=p2=... =pn= , esto es, cuando la distribución es uniforme. n A partir de la noción de incertidumbre podemos tener una representación de cómo es la estructura del gasto (ingreso) de una economía. Esto es, si dicha distribución es aproximadamente uniforme o si, por el contrario, presenta un reparto desigual. Consideremos ahora una variable aleatoria bidimensional discreta (X,Y) que toma valores (xi, yj), ∀i=1,2...n y ∀j=1,2...,m, con probabilidades p(xi,yj)≥0, tales que n m ∑∑ p( x , y i =1 j =1 i j ) =1 Se puede definir la entropía asociada a dicha variable del siguiente modo: H(X,Y)=- ∑ ∑ p( x i , y j ) log p( x i , y j ) i j 3.2. Divergencia y cantidad de información Sean X e Y dos variables aleatorias discretas, con distribuciones de probabilidad respectivas {p1, p2,...pn} y {q1, q2,...qn}. Se define la distancia de Kullback (1951) como la expresión siguiente: n p D( X , Y ) = ∑ p i log i qi i =1 La distancia de Kullback permite conocer la divergencia que existe entre dos distribuciones de probabilidad. Cuando ambas distribuciones coinciden, dicha medida toma el valor cero, y alcanzará su máximo cuando la diferencia entre ambas distribuciones sea la mayor posible. La anterior expresión puede escribirse como: D(X,Y)= -H(p1,…,pn) - ∑ p i log q i i 4 El primer sumando de esta medida representa la entropía asociada a una variable X, el segundo sumando recoge una entropía combinada o cruzada donde se relacionan ambas distribuciones en comparación. A partir del concepto de incertidumbre podemos definir el de cantidad de información que la variable aleatoria Y contiene sobre X, la cual puede interpretarse como la reducción de la incertidumbre de X entre la situación inicial y la que se produce después de conocer Y. La expresión de la cantidad de información será: I(X,Y)=H(X)+H(Y)-H(X,Y) donde operando convenientemente llegamos a la expresión siguiente2: p ij I ( X , Y ) = ∑ ∑ p ij log pi p j i j La cantidad de información es mayor o igual que cero y no superior a la entropía de X, por lo tanto, podemos escribir 0≤I(X,Y)≤H(X)=log(n) La cantidad de información coincide con la distancia de Kullback, cuando se consideran las divergencias entre las distribuciones P={pij} y Q={pipj}. 4. AGREGACIÓN VERSUS PÉRDIDA DE CANTIDAD DE INFORMACIÓN Una de las aplicaciones de la teoría de la información sugeridas, se refiere al nivel de agregación de una matriz. Frecuentemente, en el análisis input-output se realiza una agregación de sectores o cuentas económicas, sin considerar cómo influye ésta en la pérdida de la cantidad de información contenida en la tabla. Para cuantificar este aspecto hemos procedido a desagregar en la matriz de contabilidad social de 1995, la partida de Actividades en cuatro sectores: Agricultura, Industria, Construcción y Servicios. Esto es, ahora tendríamos dos tablas en comparación, una agregada a siete cuentas y otra a diez. Hemos cuantificado la información asociada a cada tabla, obteniendo los siguientes resultados: Cuadro Nº 2. Cantidad de información asociada a la MCS 1995 según su nivel de agregación MCS a 7 sectores MCS a 10 sectores I(X,Y) 1,2862 1,6003 La cantidad de información de ambas tablas no es demasiado elevada, ya que estamos trabajando a un alto nivel de agregación y además, por construcción, en una matriz de contabilidad social existen celdas con ceros. Así, si calculamos el porcentaje de la información obtenida respecto al máximo valor que I(X,Y) puede tomar en cada caso, obtenemos el 33,04% en la primera y el 34,75%, en la segunda. Hemos procedido a calcular la pérdida de información relativa asociada a un mayor nivel de agregación. Se ha obtenido un 1,71% de pérdida asociado a la agregación. Esto es, pasar de una agregación de diez a siete cuentas, ha supuesto que la cantidad de información ha descendido en aproximadamente un 2%. 5. ESTIMACIÓN DE LOS COEFICIENTES DE UNA MCS Otro de los aspectos a los que vamos a referirnos en esta comunicación es a la utilización de medidas de información para la estimación de coeficientes input-output. 2 Obsérvese que H (Y ) = −∑ p j log p j . j 5 La construcción de una MCS es una tarea muy laboriosa y para la que se precisa de una gran cantidad de información estadística, por ello, en la actualidad en Asturias no se encuentra publicada ninguna matriz de contabilidad social con el suficiente nivel de desagregación. Consecuentemente, resulta una tarea fundamental utilizar procedimientos de estimación de los coeficientes de la misma. En las últimas décadas ha comenzado a aplicarse la teoría estadística de la información para llevar a cabo la estimación de coeficientes input-output. En concreto, a partir de la distancia de Kullback, se deriva el método denominado de la entropía cruzada, el cual es muy flexible en la forma en la que permite incorporar la información3. Para llevar a cabo la estimación, el paso previo es decidir el enfoque (temporal o espacial) que se va a utilizar; para aplicar el primero de ellos se empleará como matriz de partida la referente a Asturias, pero de un período anterior al que se desea estimar, es decir, MCSAt-k, siendo t el período de estimación. Si, por el contrario, pretendemos aplicar una óptica espacial, se partirá de una matriz nacional referida al mismo momento de la estimación, MCSEt. En este trabajo emplearemos un enfoque temporal, ya que se ha comprobado empíricamente que proporciona mejores resultados que el espacial4; por lo tanto, tomaremos como matriz inicial la correspondiente a Asturias del año 1990. Como ya se ha señalado, el método empleado en la realización de esta estimación es el denominado de la entropía cruzada. A partir de la formulación anteriormente expuesta de la distancia de Kullback, Golan, Judge y Robinson (1994) proponen la siguiente función que permite efectuar estimaciones de los coeficientes de una matriz de contabilidad social: p ij p ln ∑∑ ij i j q ij donde pij representa un coeficiente de la matriz de la que se desea efectuar la estimación y q ij es un coeficiente genérico de la tabla que se toma como punto de partida. El problema, entonces, consiste en minimizar la “distancia” existente entre la matriz que se desea estimar y la inicial, sujeta a un conjunto de restricciones. El programa, por tanto, tendrá la forma siguiente: p ij Min ∑∑ p ij ln i j q ij s.a. ∑ p ij X j = X i j ∑∑ i p ij = 1 j 0 ≤ p ij ≤ 1 Donde Xi representa la suma por filas e Xj la suma por columnas “real”. Esto es, el primer grupo de restricciones permiten garantizar que los coeficientes estimados son consistentes con los totales de filas y columnas observados, mientras que las restantes hacen referencia a la propia naturaleza de los coeficientes que por construcción estarán acotados entre cero y uno. 3 En el trabajo de Álvarez (2001) puede verse una amplia descripción de los diferentes métodos de estimación de coeficientes input-output. 4 Una evaluación de los enfoques espacial y temporal puede verse en Ramos, Presno y Pérez (1999). 6 Como es bien sabido, la solución del programa se obtiene utilizando el método de los multiplicadores de Lagrange. El resultado que se deriva es el siguiente 5: q ij exp(λ i X j ) p ij = ∑ ∑ qij exp(λi X j ) i j Donde λi representan los multiplicadores de Lagrange asociados a las restricciones y el denominador es un factor de normalización. Procederemos, entonces, a estimar la matriz de contabilidad social de Asturias referente a 1995, tomando como punto de partida la tabla de 1990. La implementación del método de estimación se ha realizado dentro del programa de optimización GAMS, usando su lenguaje de comandos. 6. ANÁLISIS DE LA FIABILIDAD DE LAS ESTIMACIONES Una cuestión fundamental en el ajuste de coeficientes input-output es el análisis de la fiabilidad de los resultados obtenidos, ya que de esta forma será posible discernir entre la conveniencia de aplicar un enfoque (método) u otro. Para efectuar tal análisis se han venido considerando distintas medidas que, en términos generales, sólo permiten recoger las diferencias existentes entre los coeficientes estimados y los reales. En este trabajo se propone la utilización de un indicador que además de comparar los valores estimados con los reales, proporciona información sobre la alteración que ha provocado el proceso de estimación en las estructuras productivas. Por ello, hemos denominado a este tipo de medidas como estructurales, ya que permiten incorporar dicho aspecto. Uno de estos indicadores estructurales es la entropía: determinaremos las entropías asociadas a las tablas real y estimada, de esta forma compararemos la incertidumbre derivada de cada una de ellas, lo cual proporciona conocimiento de ambas estructuras productivas y, por lo tanto, permite evaluar las alteraciones provocadas por el proceso de estimación. Dado que se dispone de la Contabilidad Regional de 1995, hemos podido construir la MCS de dicho año, a partir de métodos directos y, por lo tanto, efectuar la comparación entre las tablas real y estimada. En el cuadro siguiente se recogen los resultados de la determinación de la entropías de Shannon sobre las matrices de contabilidad social de Asturias real y estimada. Tabla Nº 3. Entropías de las tablas estimada y real Cuentas Tabla estimada Tabla real Bienes y Servicios 0,5434 0,5429 Actividades 0,6902 0,6903 Factores 0,0000 0,0000 Renta 0,3588 0,3577 Utilización de la Renta 0,7310 0,6397 Capital 0,4196 0,5815 Resto del Mundo 0,8364 0,8134 Los resultados obtenidos muestran, para ambos casos, que la distribución del gasto no se haya próxima a la uniforme. 5 Dadas las características del problema, éste ha de ser resuelto numéricamente. 7 Por otra parte, se observa que existe una similitud bastante elevada entre las entropías de ambas tablas para las diferentes cuentas, lo que en principio, parece mostrar que la estimación no ha distorsionado excesivamente la estructura productiva. Sin embargo, la entropía indica cómo es la estructura global, pero no permite detectar diferencias en el orden de los valores que toma la variable, ya que verifica la propiedad de simetría (anonimato), lo que conducirá a obtener el mismo valor de la entropía si sólo se altera el orden de las probabilidades, esto es, se derivará la misma incertidumbre de esta distribución p1=p2=...pn-1=0, pn=1 que de esta otra p1=1, p2=p3=...pn=0 Sin embargo, en el problema que a nosotros nos ocupa, ambas distribuciones serían sustancialmente distintas, por lo tanto, se habría estimado inadecuadamente la matriz y se habría provocado una fuerte alteración del entramado económico. También es cierto, que este problema se hace más patente cuando la incertidumbre toma un valor próximo a cero que cuando se aproxima a su cota superior, ya que en este último caso todas las probabilidades tendrían valores muy similares. Por lo tanto, podemos concluir que unos valores muy similares de las entropías asociadas a las tablas real y estimada es una condición necesaria, pero no suficiente de una adecuada fiabilidad. Para intentar resolver esta cuestión, efectuamos la siguiente propuesta: se definirá una matriz que recoja las diferencias entre los valores reales ( p ijR ) y estimados ( p ) , dado que sólo es relevante la existencia de dichas diferencias y no su signo, las E ij divergencias serán determinadas en valor absoluto. Tendremos, entonces, una matriz D cuyos elementos son {d ij }, donde d ij = 1 − p ijR − p ijE . Obviamente, cuanto más próximas a uno estén las diferencias más adecuadamente habremos estimado los coeficientes. A partir de dicha matriz se puede determinar un sistema de probabilidades de la forma d ij pi = ∑ d ij j Pequeñas diferencias entre los coeficientes real y estimado llevarán asociadas probabilidades de valores similares, con lo cual la entropía asociada será elevada, y viceversa. A continuación hemos determinado la entropía de Shannon y el porcentaje que representa respecto de la cota superior. Se puede apreciar que los valores de la entropía están muy próximos a dichas cotas superiores, por lo tanto la fiabilidad es, en general, bastante elevada. 8 Tabla Nº 4. Ratio de entropía de la matriz de diferencias respecto a la cota superior H(X) (%) Bienes y Servicios 99,9 Actividades 99,7 Factores 99,7 Renta 99,8 Utilización de la Renta 99,9 Capital 99,7 Resto del Mundo 99,9 7.CONCLUSIONES La teoría matemática de la información es una importante herramienta aplicada en numerosos campos, uno de ellos puede ser el análisis input-output. En concreto, nos hemos referido a tres aplicaciones en este ámbito: como ayuda para discernir qué nivel de agregación es más adecuado; como herramienta de estimación y como medida de la fiabilidad de las estimaciones obtenidas. Hemos construido mediante técnicas de estimación directas las matrices de contabilidad social de Asturias de 1990 y 1995. La pérdida de información asociada a un mayor nivel de agregación es en nuestro caso aproximadamente de un 2%, si se considera una matriz constituida por siete cuentas en lugar de diez. Hemos estimado mediante la distancia de Kullback, la matiz de contabilidad social de Asturias de 1995, utilizando el enfoque temporal. Se ha analizado la fiabilidad de las anteriores estimaciones cuantificando la entropía a partir de una matriz de diferencias entre los coeficientes real y estimado. 8.BIBLIOGRAFÍA Álvarez, R (2001): Métodos de estimación indirecta de coeficientes input-output: una aplicación a la comarcalización de tablas. Trabajo de Investigación presentado en la Universidad de Oviedo. Cabrer, B., Contreras, D. y Sancho, A. (1991): Selection and validation methods for the estimation of an input-output regional table. Documento de trabajo. Departamento de Análisis Económico. Universidad de Valencia. Gil, P. (1981): Teoría matemática de la información. Ed. ICE. Golan, A., Judge G. y Robinson S. (1994): Recovering information from incomplete or partial multisectoral economic data. The Review of Economics and Statistics. Nº 76, pág. 541-549. Miller, R. E. y Blair, P. D. (1985): Input-Output Analysis: Foundations and Extensions, Prentice-Hall, Nueva Jersey. Pardo, L. (1997): Teoría de la información estadística. Ed. Hespérides. Pedreño, A. (1986): Deducción de las tablas input-output: consideraciones críticas a través de la contrastación “survey-nonsurvey”. Investigaciones Económicas, Vol. X, Nº 3, pp. 579-99. Pulido, A. y Fontela E. (1993): Análisis input-output. Modelos, datos y aplicaciones. Editorial Pirámide. Ramos, C., Presno, M. J. y Pérez, R. (1999): Estimación de tablas input-output: un enfoque espacial-temporal. XII Reunión ASEPELT, Burgos. 9 Ramos, C, Álvarez, R y Fernández E. (2002): Medidas estructurales de la fiabilidad de la estimación de coeficientes input-output. XXVIII Reunión de la Asociación Española de Ciencia Regional. Murcia. Robinson, S., Cattaneo, A. y El-Said, M. (2000): Updating and Estimating a Social Accounting Matrix Using Cross Entropy Methods. Documento de Trabajo Nº 58, Trade and Macroeconomics División, International Food Policy Research Institute, USA. SADEI (Diversos años): Cuentas Regionales de Asturias. Tabla Input-Output. Contabilidad Regional. Oviedo. Tilanus, C.B. y Theil H. (1965): The Information approach to the evaluation of inputoutput forecast. Econometrica, Vol. 32, Nº 4, pág. 847-862. 10