Taller 2. Distancia entre variables y sujetos. Objetivo: Fortalecer el

Anuncio
Taller 2. Distancia entre variables y sujetos.
Objetivo:
Fortalecer el concepto de medición en múltiples variables con diferentes dimensiones.
Utilizar el análisis de cluster
Utilizar el Análisis de Componentes Principales
Procedimiento:
Utilizar las bases de datos: HATCO, Colombia.
Leer las lecturas asignadas a final de la página wiki
Pasos del análisis.
Con la base de datos colombia y utilizando el SPSS, calcular
1. Vector de medias, matriz varianza covarianza (Σ), matriz r. En un párrafo explicar
el significado de estas tres mediciones.
2. Calcular la distancia euclidiana entre la ciudad de Bogotá y el Departamento del
Huila con respecto a las variables NBI e industria. Explicar en un párrafo el
significado del resultado.
3. Calcular la distancia euclidiana entre la ciudad de Bogotá y el resto de
Departamentos de Colombia con respecto a las variables:
 % N.B.I.
 Industria
 Comercio
 Servicios
 Otras Act. Económicas
 Unidades Auxiliares Tipo Gerencia
 Unidades Auxiliares Diferentes de Gerencia
 Desocupada
 Alfab SI
 Población
Explicar en un párrafo el significado del resultado.
Explicitar los principales problemas presentados en la medida.
¿Cómo la matriz r, podría ayudar a nuestros análisis?
Calcular la distancia normalizada entre la ciudad de Bogotá y el resto de Departamentos
de Colombia con respecto a las variables enunciadas en el apartado 3). Explicar en un
párrafo el significado del resultado. Explicitar cómo se superó problemas presentados en
la medida euclidiana.
4. Utilizar el análisis de clúster.
5. Utilizar el Análisis de Componentes Principales
6. Crear un mapa de Colombia, donde se clasifique a los Departamentos según su
nivel de desarrollo económico, poblacional y económico.
7. Escribir una hoja, donde usted explicite el posible uso de estas técnicas en su
trabajo como economista.
Solución
1.
Estadísticos descriptivos
N
Media
Desv. típ.
Varianza
% N.B.I.
33
51,1155
19,81604
392,675
Industria
33
4846,36
7540,356
5,686E7
Comercio
33
22739,39
31657,657
1,002E9
Servicios
33
14873,03
24574,259
6,039E8
Otras Act. Económicas
33
3109,21
4653,531
2,166E7
Unidades Auxiliares Tipo
33
27,36
58,682
3443,614
33
708,06
1338,445
1791435,121
Desocupada
33
752,73
2701,964
7300606,955
Alfab SI
33
81,00
7,412
54,937
Población
33
1181387,42
1455956,328
2,120E12
N válido (según lista)
33
Gerencia
Unidades Auxiliares
Diferentes de Gerencia
El vector de medias nos representa el valor promedio que toman
las variables en base a los datos que se tienen, la matriz
varianza covarianza nos muestra las distancias que se
encuentran entre dos variables y la correlación explica cuál es el
grado de vinculación de una variable sobre la otra, en un
intervalo de -1 a 1 para determinar si su relación es inversa o
directamente proporcional.
2. La diferencia en el %NBI es de 23,2% lo que demuestra que
Huila muchas más necesidades que Bogotá, tiene razón ya que
el distrito capital es la potencia en el interior del país mientras
que Huila ha tenido problemas para ser competitivo. En el caso
de la industria se tiene una diferencia de 33.250 empresas
industriales, quiere decir que
Bogotá tiene un nivel de
producción y avance tecnológico mucho mayor.
3. NBI
En una escala de 0 a 1 (donde los más cercanos a 1 son los de
mayor distancia), los departamentos en donde hay más
diferencia es en Choco y Vichada con 0,88 y 1 respectivamente;
los más similares a Bogotá son Quindío y Valle del Cauca con
0,093y 0,103.
Industria
Los departamentos con más diferencias son Vaupés y Guainía
con valores de 36´696.000 y 36´665.000 lo que muestra mucha
distancias respecto a Bogotá; por otro lado los departamento que
más se parecen al distrito capital son Antioquia y Santander con
12´343.000 y 23´486.000, vemos en este caso que las
diferencias son menores ya que estas regiones son mucho más
industriales como la del calzado para Santander y la textil para
Antioquia.
Comercio
Los departamento más comercializadores después de Bogotá
son Antioquia y Valle del Cauca con diferencias de 51´567.000 y
81´688.000 respectivamente; las regiones con menos comercio
son Vaupés y Guainía con 151´859.000 y 151´835.000, lo
anterior deja evidenciar que él hay una gran brecha si de
comercio se habla con estos departamentos.
Como vemos los departamentos con menos diferencias respecto a
Bogotá son Antioquia, Santander y Valle del Cauca mientras que los
mas disimilares son Vaupés, Guainía y Vichada, demostrando que
estos últimos tienen serios problemas en su crecimiento económico y
desarrollo, anteriormente se han tratado variables como el comercio,
NBI e industria con el fin de mostrar lo anteriormente planteado, sin
embargo en variables como empleo, departamentos como la Guajira
tiene las tasas más bajas de paro, esto sucede ya que la población en
la Guajira es muy pequeña y por tanto el número de parados es
menor, mientras que Valle del Cauca es un departamento con una
tasa de desempleo muy alta, a pesar de ser un departamento muy
competitivo, este vive el flagelo del paro el cual es difícil de combatir
ya que los mercados cada día son más inestables, Valle del Cauca e
un buen ejemplo de lo anterior.
Los principales problemas en la medida es que la distancia euclidiana
arroja las diferencias mucho más grandes de lo necesario, lo que hace
que su análisis sea mucho más dispendiosos como se evidencia en
párrafos anteriores, sin embargo no quiere decir que estas cifras sean
erróneas, simplemente cuando los datos se llevan a medidas más
cómodas como la normalizadas su análisis es mucho más práctico.
¿Cómo nos ayuda la matriz r a los análisis?
Esta matriz de coeficiente de asociación nos permite evaluar a primera
vista la relación que tienen las variables entre si ya sea directa o
inversamente proporcional, de esta manera conocemos el grado de
explicación de unas variables sobre otras, es decir, cual es la variación
en B cuando la variable D cambia.
Normalización de las distancias euclidianas
Al normalizar las distancias, los valores se reducen siendo estos
mucho más fáciles de manejar e interpretar, sin embargo
recomendaría que los resultados se mostraran en intervalos de uno a
cero con el fin de interpretarlos en relativos para una mejor
comprensión.
4. Análisis clúster
Lo que se busca con el método clúster es agrupar los datos de
una manera homogénea para una mejor interpretación, en este
caso los conglomerados son 7 en los que se encontró que:
Número de casos en cada
conglomerado
Conglomerado
1
1
2
11
3
1
4
8
5
4
6
1
7
7
Válidos
33
Perdidos
0
En el grupo 2 se ubican 11 departamentos que son Amazonas,
Arauca, Caquetá, Córdoba, Guainía, Guaviare, Putumayo, San
Andrés, Vaupés y Vichada que son los departamentos con las
cifras más desfavorables en las variables analizadas y por esta
razón son tan similares.
Se puede observar que en el grupo 1, 3 y 6 lo componen solo un
caso: Bogotá, Antioquia y Valle del Cauca respectivamente, lo
anterior sucede porque el primero es mucho más desarrollado
que cualquier otro departamento, el segundo y tercero son
potencias nacionales y su competitividad es grande también por
esta razón se encuentra a una gran distancia de los demás pero
a la sombra del distrito capital.
Los centros de conglomerados muestran el valor al que se acercan los datos de
los diferentes casos, así pues podemos decir que es una especie de promedio en
dicha variable, por ejemplo los entes comercializadores en el conjunto 2 es en
promedio 3.475 en cada uno de los 11 departamentos que lo componen.
El dendrograma ubicado en la parte de abajo, En este queda reflejado la formación
de los conglomerados, así como las distancias entre ellos.
Podemos comprobar por ejemplo que la observación más distante del resto de
departamentos es 1,3 y 31 ya que son las últimas (mayores distancias) en
incorporarse al clúster final. Por el contrario las observaciones más cercanas entre
si son 16,17, 32, 33, 13 y 19 que forman el primer grupo (distancias más próxima a
cero) y la segunda más alta son 33 hasta la 2.
VARIANZA TOTAL EXPLICADA
En el siguiente cuadro podemos comprobar el porcentaje de varianza explicada
cada componente y cuáles son las componentes que han sido extraídas. Entre
las dos componentes extraídas se acumula el 86.503% de la variabilidad de las
variables originales.
En otras palabras, de la totalidad o 100% del fenómeno estudiado, el componente
1 explica dicho fenómeno en un 74.437% y el componente 2 lo explica en un
12.066%, entonces, si unimos ambos componentes, se obtiene que el porcentaje
que explican los dos componentes del fenómeno investigado es de 86.503%, o
que la varianza total del fenómeno es explicada en un 86.503% por los
componentes 1 y 2.
Sumas de las saturaciones al cuadrado de la
extracción
% de la
Componente
Total
varianza
% acumulado
1
7.444
74.437
74.437
2
1.207
12.066
86.503
El primer componente me arrojo un dato del 74,437 lo que me indica que es un
dato muy satisfactorio, ya que puedo decir que todas las variables anteriormente
analizadas me contribuyen para mejoramiento de los departamentos el país. Y
para esto las variables que más contribuyen son industria, comercio, servicios,
otras actividades económicas y población. En cambien el segundo componente
me representa del total de varianza acumulada el 12,066 el cual la variables que
mas me representa de forma negativa es alfabetismo con un -0, 807.
Descargar