Taller 2. Distancia entre variables y sujetos. Objetivo: Fortalecer el concepto de medición en múltiples variables con diferentes dimensiones. Utilizar el análisis de cluster Utilizar el Análisis de Componentes Principales Procedimiento: Utilizar las bases de datos: HATCO, Colombia. Leer las lecturas asignadas a final de la página wiki Pasos del análisis. Con la base de datos colombia y utilizando el SPSS, calcular 1. Vector de medias, matriz varianza covarianza (Σ), matriz r. En un párrafo explicar el significado de estas tres mediciones. 2. Calcular la distancia euclidiana entre la ciudad de Bogotá y el Departamento del Huila con respecto a las variables NBI e industria. Explicar en un párrafo el significado del resultado. 3. Calcular la distancia euclidiana entre la ciudad de Bogotá y el resto de Departamentos de Colombia con respecto a las variables: % N.B.I. Industria Comercio Servicios Otras Act. Económicas Unidades Auxiliares Tipo Gerencia Unidades Auxiliares Diferentes de Gerencia Desocupada Alfab SI Población Explicar en un párrafo el significado del resultado. Explicitar los principales problemas presentados en la medida. ¿Cómo la matriz r, podría ayudar a nuestros análisis? Calcular la distancia normalizada entre la ciudad de Bogotá y el resto de Departamentos de Colombia con respecto a las variables enunciadas en el apartado 3). Explicar en un párrafo el significado del resultado. Explicitar cómo se superó problemas presentados en la medida euclidiana. 4. Utilizar el análisis de clúster. 5. Utilizar el Análisis de Componentes Principales 6. Crear un mapa de Colombia, donde se clasifique a los Departamentos según su nivel de desarrollo económico, poblacional y económico. 7. Escribir una hoja, donde usted explicite el posible uso de estas técnicas en su trabajo como economista. Solución 1. Estadísticos descriptivos N Media Desv. típ. Varianza % N.B.I. 33 51,1155 19,81604 392,675 Industria 33 4846,36 7540,356 5,686E7 Comercio 33 22739,39 31657,657 1,002E9 Servicios 33 14873,03 24574,259 6,039E8 Otras Act. Económicas 33 3109,21 4653,531 2,166E7 Unidades Auxiliares Tipo 33 27,36 58,682 3443,614 33 708,06 1338,445 1791435,121 Desocupada 33 752,73 2701,964 7300606,955 Alfab SI 33 81,00 7,412 54,937 Población 33 1181387,42 1455956,328 2,120E12 N válido (según lista) 33 Gerencia Unidades Auxiliares Diferentes de Gerencia El vector de medias nos representa el valor promedio que toman las variables en base a los datos que se tienen, la matriz varianza covarianza nos muestra las distancias que se encuentran entre dos variables y la correlación explica cuál es el grado de vinculación de una variable sobre la otra, en un intervalo de -1 a 1 para determinar si su relación es inversa o directamente proporcional. 2. La diferencia en el %NBI es de 23,2% lo que demuestra que Huila muchas más necesidades que Bogotá, tiene razón ya que el distrito capital es la potencia en el interior del país mientras que Huila ha tenido problemas para ser competitivo. En el caso de la industria se tiene una diferencia de 33.250 empresas industriales, quiere decir que Bogotá tiene un nivel de producción y avance tecnológico mucho mayor. 3. NBI En una escala de 0 a 1 (donde los más cercanos a 1 son los de mayor distancia), los departamentos en donde hay más diferencia es en Choco y Vichada con 0,88 y 1 respectivamente; los más similares a Bogotá son Quindío y Valle del Cauca con 0,093y 0,103. Industria Los departamentos con más diferencias son Vaupés y Guainía con valores de 36´696.000 y 36´665.000 lo que muestra mucha distancias respecto a Bogotá; por otro lado los departamento que más se parecen al distrito capital son Antioquia y Santander con 12´343.000 y 23´486.000, vemos en este caso que las diferencias son menores ya que estas regiones son mucho más industriales como la del calzado para Santander y la textil para Antioquia. Comercio Los departamento más comercializadores después de Bogotá son Antioquia y Valle del Cauca con diferencias de 51´567.000 y 81´688.000 respectivamente; las regiones con menos comercio son Vaupés y Guainía con 151´859.000 y 151´835.000, lo anterior deja evidenciar que él hay una gran brecha si de comercio se habla con estos departamentos. Como vemos los departamentos con menos diferencias respecto a Bogotá son Antioquia, Santander y Valle del Cauca mientras que los mas disimilares son Vaupés, Guainía y Vichada, demostrando que estos últimos tienen serios problemas en su crecimiento económico y desarrollo, anteriormente se han tratado variables como el comercio, NBI e industria con el fin de mostrar lo anteriormente planteado, sin embargo en variables como empleo, departamentos como la Guajira tiene las tasas más bajas de paro, esto sucede ya que la población en la Guajira es muy pequeña y por tanto el número de parados es menor, mientras que Valle del Cauca es un departamento con una tasa de desempleo muy alta, a pesar de ser un departamento muy competitivo, este vive el flagelo del paro el cual es difícil de combatir ya que los mercados cada día son más inestables, Valle del Cauca e un buen ejemplo de lo anterior. Los principales problemas en la medida es que la distancia euclidiana arroja las diferencias mucho más grandes de lo necesario, lo que hace que su análisis sea mucho más dispendiosos como se evidencia en párrafos anteriores, sin embargo no quiere decir que estas cifras sean erróneas, simplemente cuando los datos se llevan a medidas más cómodas como la normalizadas su análisis es mucho más práctico. ¿Cómo nos ayuda la matriz r a los análisis? Esta matriz de coeficiente de asociación nos permite evaluar a primera vista la relación que tienen las variables entre si ya sea directa o inversamente proporcional, de esta manera conocemos el grado de explicación de unas variables sobre otras, es decir, cual es la variación en B cuando la variable D cambia. Normalización de las distancias euclidianas Al normalizar las distancias, los valores se reducen siendo estos mucho más fáciles de manejar e interpretar, sin embargo recomendaría que los resultados se mostraran en intervalos de uno a cero con el fin de interpretarlos en relativos para una mejor comprensión. 4. Análisis clúster Lo que se busca con el método clúster es agrupar los datos de una manera homogénea para una mejor interpretación, en este caso los conglomerados son 7 en los que se encontró que: Número de casos en cada conglomerado Conglomerado 1 1 2 11 3 1 4 8 5 4 6 1 7 7 Válidos 33 Perdidos 0 En el grupo 2 se ubican 11 departamentos que son Amazonas, Arauca, Caquetá, Córdoba, Guainía, Guaviare, Putumayo, San Andrés, Vaupés y Vichada que son los departamentos con las cifras más desfavorables en las variables analizadas y por esta razón son tan similares. Se puede observar que en el grupo 1, 3 y 6 lo componen solo un caso: Bogotá, Antioquia y Valle del Cauca respectivamente, lo anterior sucede porque el primero es mucho más desarrollado que cualquier otro departamento, el segundo y tercero son potencias nacionales y su competitividad es grande también por esta razón se encuentra a una gran distancia de los demás pero a la sombra del distrito capital. Los centros de conglomerados muestran el valor al que se acercan los datos de los diferentes casos, así pues podemos decir que es una especie de promedio en dicha variable, por ejemplo los entes comercializadores en el conjunto 2 es en promedio 3.475 en cada uno de los 11 departamentos que lo componen. El dendrograma ubicado en la parte de abajo, En este queda reflejado la formación de los conglomerados, así como las distancias entre ellos. Podemos comprobar por ejemplo que la observación más distante del resto de departamentos es 1,3 y 31 ya que son las últimas (mayores distancias) en incorporarse al clúster final. Por el contrario las observaciones más cercanas entre si son 16,17, 32, 33, 13 y 19 que forman el primer grupo (distancias más próxima a cero) y la segunda más alta son 33 hasta la 2. VARIANZA TOTAL EXPLICADA En el siguiente cuadro podemos comprobar el porcentaje de varianza explicada cada componente y cuáles son las componentes que han sido extraídas. Entre las dos componentes extraídas se acumula el 86.503% de la variabilidad de las variables originales. En otras palabras, de la totalidad o 100% del fenómeno estudiado, el componente 1 explica dicho fenómeno en un 74.437% y el componente 2 lo explica en un 12.066%, entonces, si unimos ambos componentes, se obtiene que el porcentaje que explican los dos componentes del fenómeno investigado es de 86.503%, o que la varianza total del fenómeno es explicada en un 86.503% por los componentes 1 y 2. Sumas de las saturaciones al cuadrado de la extracción % de la Componente Total varianza % acumulado 1 7.444 74.437 74.437 2 1.207 12.066 86.503 El primer componente me arrojo un dato del 74,437 lo que me indica que es un dato muy satisfactorio, ya que puedo decir que todas las variables anteriormente analizadas me contribuyen para mejoramiento de los departamentos el país. Y para esto las variables que más contribuyen son industria, comercio, servicios, otras actividades económicas y población. En cambien el segundo componente me representa del total de varianza acumulada el 12,066 el cual la variables que mas me representa de forma negativa es alfabetismo con un -0, 807.