Estratificador INEGI

Anuncio
INEGI
Estratificador INEGI
Manual de usuario
ÍNDICE
I. Introducción
II. Estratificación
III. Descripción del Estratificador INEGI
a. Selección del número de grupos
b. Selección del nivel de desagregación geográfica
c. Selección de los indicadores a usar
d. Selección del método a utilizar
IV. Resultados
a. Mapas
b. Burbujas
c. Centroides
d. Proyecciones a primeras componentes principales
e. Exportación de resultados numéricos
V. Comparación entre resultados alternativos
a. Historial
Apéndice Técnico.
Estratificador INEGI
Manual de usuario
INTRODUCCIÓN
Consciente de la creciente necesidad que tienen los tomadores de decisiones, y los usuarios en
general, de contar con información de calidad, oportuna y adecuada, así como de la evolución
experimentada por los procedimientos de estratificación y por las infraestructuras de cómputo, el
INEGI pone hoy a su disposición una nueva versión del presente servicio con la finalidad de
permitirles construir agrupaciones o estratificaciones de áreas geográficas que se adecuen a sus
necesidades, con base en información estadística que refleje semejanzas y diferencias entre dichas
áreas.
En general, es posible decir que el propósito principal de los métodos de estratificación1 es el
de formar grupos o estratos claramente diferenciados de unidades tan homogéneas al interior y tan
distintas entre grupos como sea posible, a partir de información cuantitativa que toma la forma de una
o más mediciones realizadas en todas y cada una de ellas. La asignación2 de las unidades a los
estratos se realiza con base en procedimientos numéricos que utilizan esa información. Ahora bien, el
logro del propósito planteado dependerá de diversos factores como son la misma información de la
que se parte, o los recursos computacionales al alcance, o los métodos y procedimientos disponibles,
entre otros, así como de las combinaciones entre todos ellos.
El sistema que se presenta concede al usuario, entre otras facilidades, la libertad, por un lado,
de seleccionar aquellas variables que muestran mayor afinidad con el tema de su interés y, por el
otro, de elegir uno o más procedimientos de estratificación; de este modo será posible disponer de
dos o más estratificaciones alternativas. El servicio incluye, asimismo, una serie de ayudas gráficas
que permitirán al analista realizar comparaciones y decidir cuál de todas las combinaciones de datos
y métodos satisface de la mejor manera sus objetivos. Lo anterior, por supuesto, no cancela la
posibilidad de que usuarios con mayor experiencia decidan aplicar un único método a la información
seleccionada y trabajar con el resultado de tal decisión.
1
http://en.wikipedia.org/wiki/Cluster_analysis y las referencias que ahí aparecen.
2
En este momento, para el sistema, solamente municipios o estados. Pueden ser personas, hogares, viviendas, manzanas,
localidades, municipios, entidades federativas, etc.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
3
Estratificador INEGI
Manual de usuario
ESTRATIFICACIÓN
Con fines interpretativos, el territorio de un país o de una entidad federativa, o las manzanas
dentro de una localidad, pueden ser vistos como la superposición de los territorios de varios
"archipiélagos" cada uno de los cuales está formado por unidades geográficas o administrativas
pertenecientes al mismo estrato y que, por esa razón, comparten una realidad que es diversa a la de
las unidades pertenecientes a otros "archipiélagos", sin consideración a su vecindad geográfica. En
consecuencia, cada una de esas realidades requiere, por ejemplo, de acciones diversas para dar
atención a sus carencias relativas. En efecto, una pareja de grupos puede mostrar semejanzas en
algunos indicadores y diferencias significativas en otros, en tanto que una segunda pareja puede
mostrar el comportamiento inverso. Por lo anterior, la reducción de las desigualdades en cada caso
requerirá de esfuerzos no sólo cuantitativa sino cualitativamente diferentes. En otras palabras, las
acciones requeridas son diversas no solamente a causa de la magnitud del esfuerzo correspondiente,
como puede parecer si se mira al ejercicio a través de un resumen en una sola dimensión (ej.,
“Marginación”), sino también a causa de los distintos entornos a los que habrá que dedicar esfuerzos
diferenciados, como corresponde cuando se está en presencia de un problema multidimensional.
Sin lugar a dudas, los estudios sobre el tema de la marginación elaborados en México por
CONAPO3 representan una de las aplicaciones mejor conocidas y más significativas en el país, de
los procedimientos orientados a la formación de clases, grupos, conglomerados o estratos bien
diferenciados, conformado cada uno de ellos por unidades homogéneas. El innegable impacto de los
trabajos de CONAPO en la elaboración e instrumentación de la política social mexicana en apoyo a
pobladores de unidades territoriales clasificadas en los estratos de “ALTA” y “MUY ALTA
MARGINACIÓN” difícilmente se hubiera alcanzado de no haber sido basados en un sólido acervo de
información estadística como la aportada por los censos y conteos de población de los últimos
veintitantos años y en un procedimiento que, siendo ya viable en los equipos de cómputo de aquellas
épocas, representó en su momento una importante innovación.
Por otro lado, basar en dicho resumen una estratificación, univariada a fin de cuentas, puede
“empeorar” el resultado. Todo ello, aunque el indicador sintetice la información de múltiples variables
y el procedimiento univariado de estratificación sea “óptimo”, en un sentido no siempre entendido del
todo 4 . En la medida en que se alcance “mejor” el propósito de un ejercicio multivariado de
3
http://www.conapo.gob.mx/es/CONAPO/Indices_de_Marginacion
4
El procedimiento univariado de Dalenius-Hodges (Dalenius, T. and Hodges, J. L., JR. (1959). Minimum variance stratification. J.
Amer. Statist. Assoc. 54 88-101), que es el usado por CONAPO y del cual no hay una versión multivariada, busca la estratificación que
conducirá a la estimación muestral más precisa (o de menor varianza, y este es el sentido en el que es óptima) del promedio
poblacional de la variable de estratificación. Ello cuando la selección de muestra se lleva a cabo de manera estratificada, con
afijación de la muestra proporcional al tamaño de cada estrato y con selección aleatoria simple de unidades al interior de los
estratos. Cabe preguntarse con qué frecuencia quienes diseñan la política social buscan la estimación óptima del promedio
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
4
Estratificador INEGI
Manual de usuario
estratificación, será posible acceder además a una descripción detallada de la estructura del conjunto
de datos que permita identificar las causas significativas de las desigualdades entre grupos e
instrumentar, en su caso, acciones convenientes de política social. De aquí la importancia de
disponer de procedimientos multivariados de estratificación que aprovechen toda la información
disponible, y de criterios claros y con consenso que permitan identificar cuando una estratificación es
mejor que otras, y en qué sentido.
DESCRIPCIÓN DEL ESTRATIFICADOR
Fig. 1.- Pantalla inicial del estratificador.
La pantalla inicial del Estratificador está dividida en cuatro secciones. En primer lugar se tiene al
encabezado desde el cual es posible recuperar el manual de uso del sistema así como actualizar la
versión del propio sistema cuando se introduzcan mejoras en el mismo (Última Versión), mejoras que
pueden dar lugar a comportamientos inesperados.
Otra sección, que es aquella a la que el usuario deberá acudir al iniciar su trabajo, se ubica en la
esquina inferior derecha de la pantalla y la identifica la palabra “Consulta”. Haciendo uso de sus
poblacional de la primera componente principal (o de variables altamente correlacionadas con ella) como para estar interesados en
encontrar la estratificación óptima para ese fin.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
5
Estratificador INEGI
Manual de usuario
cuatro secciones, y bajo su responsabilidad, el usuario
decidirá las condiciones bajo las cuales se generarán sus
resultados eligiendo, para los ejercicios que serán
considerados:
1.
Variables de clasificación
5
: de entre 112
indicadores, organizados en 11 temas y expresados en
términos relativos6;
2.
El número de grupos a formar;
3.
El nivel de desagregación geográfica que alcanza
hasta manzanas dentro de localidad;
4.
En su caso, las transformaciones de las variables
y el método de estratificación a usar de entre los tres que,
por ahora, se proponen.
La selección de variables se lleva a cabo seleccionando
uno a uno tantos temas como se desee de entre los 11 contemplados y, al interior de estos,
marcando las cajas correspondientes a las variables
deseadas. Para los ejemplos que se muestran enseguida
el siguiente grupo de 19 variables fue seleccionado:
1.
% Población nacida en otra entidad
2. % Población de 5 años y más residente en otra
entidad en junio de 2005
3. % Población de 3 años y más que habla alguna
lengua indígena y no habla español
4. % Población de 5 años y más que habla alguna
lengua indígena y no habla español
5.
% Población de 3 a 5 años que no asiste a la
escuela
6.
% Población de 6 a 11 años que no asiste a la
escuela
7.
% Población de 15 años y más analfabeta
8.
% Población de 15 años y más sin escolaridad
9. % Población de 15 años y más con primaria incompleta
5 Variables de Clasificación: conjunto de indicadores en que se basará un ejercicio de estratificación. Al hacer clic en el botón
“Variables” se despliega la lista de los ahora disponibles.
6 Debe ejercerse cuidado con la selección de variables y con la interpretación de sus resultados ya que en el conjunto incluido las hay
“positivas”, para las cuales “mayor es mejor”, como “% Población de 18 a 24 años que asiste a la escuela” y “negativas”, cuando
“mayor es peor”, como “% Población de 8 a 14 años que no saben leer ni escribir”.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
6
Estratificador INEGI
Manual de usuario
10. % Población desocupada
11. % Población sin derecho-habiencia a servicios de salud
12. % Pobladores en viviendas con piso diferente al de tierra
13. % Pobladores en viviendas que disponen de luz eléctrica
14. % Pobladores en viviendas que disponen de agua entubada en el ámbito de la vivienda
15. % Pobladores en viviendas que disponen de excusado o sanitario
16. % Pobladores en viviendas que disponen de computadora
17. % Pobladores en viviendas que disponen de línea telefónica fija
18. % Pobladores en viviendas que disponen de teléfono celular
19. % Pobladores en viviendas que disponen de internet
Grupos: permite seleccionar el número de grupos o estratos a formar de entre la lista de opciones
que se despliega.
Fig. 2.- Cuadro de diálogo para fijar el
número de grupos a formar.
Acto seguido es posible seleccionar el Nivel de desagregación geográfica deseado: Nacional
(todas las entidades o todos los municipios del país), Municipios en: (todos los municipios dentro de
un subconjunto de estados) o por manzanas dentro de una localidad seleccionada.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
7
Estratificador INEGI
Manual de usuario
Fig. 3.- Cuadro de diálogo para la elección del nivel de
desagregación geográfica.
Métodos de Clasificación: Finalmente, es posible decidir si se trabaja con las variables originales o
con sus versiones estandarizadas y, para cada caso, con algunas o todas sus componentes
principales. Además se elegirá el procedimiento de estratificación que se aplicará enseguida con
base en las elecciones realizadas hasta ahora. En este momento los métodos disponibles son:
Fig. 4.- Cuadro de diálogo para fijar
transformaciones y métodos a usar.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
8
Estratificador INEGI
Manual de usuario
1.
K-medias7
2.
Mulvar8
3.
Mclust9
10
, al seleccionar esta opción se iniciará el proceso de búsqueda de la “mejor”
combinación de número de grupos y de restricciones a imponer sobre las estructuras locales de
covarianzas de los datos (ver apéndice metodológico).
Fig. 5.- Gráfica del criterio Bayesiano de Información (BIC).
El sistema producirá una gráfica del criterio Bayesiano de información (BIC, por sus siglas en
inglés) que penaliza el uso de un mayor número de parámetros, y que ayudará a decidir la mejor
7
http://en.wikipedia.org/wiki/K-means_clustering
8
Producto:
http://www.inegi.org.mx/est/contenidos/espanol/sistemas/regsoc/default.asp?s=est&c=11723,
Metodología:
http://sc.inegi.org.mx/niveles/datosnbi/reg_soc_mexico.pdf
9
C. Fraley and A. E. Raftery, Model-based clustering, discriminant analysis, and density estimation, Journal of the American
Statistical Association, Vol. 97, pages 611-631 (2002).
10 C. Fraley and A. E. Raftery, MCLUST Version 3 for R: Normal Mixture Modeling and Model-based Clustering, Technical Report
No. 504, Department of Statistics, University of Washington, September 2006 (revised July 2010).
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
9
Estratificador INEGI
Manual de usuario
combinación, según el mencionado criterio, para ser
usada con el método mclust. El procedimiento compara
combinaciones y sugiere aquellas a considerar. En la
sección de “Métodos” del Estratificador es posible
seleccionar el o los modelos elegidos al hacer uso del
procedimiento “Mclust” como se muestra enseguida.
Una vez que se ha decidido cuáles variables usar,
cuántos grupos formar, qué nivel de desagregación
geográfica considerar y el método a utilizar en el primer
ejercicio, solamente resta pulsar la tecla “Realizar
estratificación”, localizada hasta abajo en la sección
Consulta. En caso de que se desee explorar
estratificaciones
alternativas
solamente
será
necesario hacer los ajustes correspondientes en cada
una de las 4 secciones comentadas.
Para
navegar
entre
todas
las
estratificaciones
alternativas realizadas en la misma sesión se incluye
la segunda sección a la derecha de la pantalla del
estratificador. Consiste de 3 pestañas:
 Variables
 Historial
 Usuario
1.1 Variables: esta pestaña refleja las condiciones
bajo las cuales se obtuvieron los resultados: las
variables usadas, identificadas por sus mnemónicos;
el número de grupos considerado; el nivel de
desagregación geográfica al que corresponde; y el
método usado, indicando el uso de versiones
estandarizadas de las variables y/o de algunas o
todas sus componentes principales.
1.2 Historial: Cuando se accede a esta pestaña se
despliegan botones que representan a cada una de
las estratificaciones realizadas a lo largo de una
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
10
Estratificador INEGI
Manual de usuario
sesión, ordenadas de izquierda a derecha y de arriba a
abajo. Al seleccionar alguna de ellas, la pestaña
“variables” mostrará los respectivos indicadores, el
número
de
grupos
y
el
método
utilizados.
Simultáneamente, la ventana de resultados mostrará la
o las gráficas correspondientes a la estratificación
seleccionada.
1.3 Usuario: Un listado con la asignación de cada
unidad geográfica a alguno de los estratos puede ser
exportado en un archivo con formato de valores
separados por comas (CSV) producido por el sistema y
que se recupera usando el vínculo situado en la esquina
inferior izquierda de la pantalla, denominado “Datos”.
Archivos con este formato pueden ser leídos por alguna
hoja de cálculo y desplegados como se muestra
enseguida.
RESULTADOS
La sección anterior indicó todo lo que es necesario a
manera de preparación para llevar a cabo un ejercicio de
estratificación. Resta ahora decidir si el resultado
obtenido es satisfactorio y puede ser usado para basar
en él diversas decisiones.
Por ello, los resultados de cada estratificación
realizada, como se indicó con anterioridad, son desplegados de manera gráfica en la sección
izquierda de la pantalla del Estratificador. Esta sección está a su vez subdividida en 3 ventanas que
pueden ser maximizadas para una mejor visualización. Las gráficas de resultados pueden ser
consultadas en alguna de ellas. Dichas ventanas, que pueden ser expandidas hasta ocupar la
totalidad de la pantalla, se denominan:
1.
Mapas
2.
Centroides/Criterios
3.
Gráfica de dispersión/Gráfica de componentes
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
11
Estratificador INEGI
Manual de usuario
Fig. 6.- Pantalla del estratificador con resultados.
En primer lugar, el sistema desplegará de manera cartográfica los resultados obtenidos
coloreando todas y cada una de las unidades geográficas, con información, en el plano que se
despliega en la esquina superior izquierda de la pantalla. Por supuesto, las unidades que se muestran
en el mismo color pertenecen al mismo estrato. La banda que se despliega en la esquina inferior
izquierda del mapa señala el color con que se identifica a cada estrato.
La figura 7 muestra el despliegue a pantalla completa del resultado de estratificar las manzanas
de la localidad Aguascalientes. Se regresa a la configuración inicial al activar el botón “Restaurar
ventanas” ubicado en la parte superior izquierda de la pantalla. Girando la rueda del ratón es posible
lograr acercamientos (“zoom in”) que muestren un mayor detalle. El botón azul con un signo “+”,
ubicado en la esquina superior derecha del mapa, permite incluir o excluir elementos del mapa tales
como los nombres de las calles o la identificación de las manzanas (Toponimia).
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
12
Estratificador INEGI
Manual de usuario
Fig. 7.- Estratificación de manzanas de la localidad Aguascalientes, datos del censo 2010.
Fig. 8.- Acercamiento a zona céntrica de la localidad de Aguascalientes con nombres de calles e
identificación de manzanas.
Las situaciones más extremas son representadas por colores oscuros, rojo y verde. En general,
las condiciones más favorables se asociarán a éste pero la presencia de indicadores con sentidos
opuestos puede dar lugar a otros resultados, lo que se desprende de la gráfica denominada
“centroides”. En ella, líneas del color que identifica a cada estrato unen los valores promedio para el
estrato de cada indicador; en general, se observará dominancia casi perfecta de uno de los estratos
sobre uno o más. Con el fin de permitir una más sencilla interpretación de esta gráfica, las líneas
quebradas correspondientes a uno o más estratos pueden ser “apagadas” con solo hacer click sobre
el círculo del color correspondiente.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
13
Estratificador INEGI
Manual de usuario
Fig. 9.- Gráfica de centroides
Además de la ordenación, o casi, de los estratos, esta gráfica permite identificar a los indicadores
más importantes en la discriminación entre grupos mediante valores promedio que exhiben
diferencias importantes; a diferencia de lo que ocurre en otros casos en los cuales las diferencias
entre grupos son imperceptibles. Los indicadores cuyos promedios muestran valores más
heterogéneos contribuyen de manera más importante en la definición de los estratos. Cuando estos
valores son casi coincidentes para todos los estratos debe tenerse que los indicadores
correspondientes no hacen una contribución significativa al mismo fin por lo que podrían ser
ignorados para ejercicios subsecuentes. Por su parte, los casos intermedios permiten identificar
aquellas dimensiones que hacen diferentes a dos o más grupos y, en consecuencia, permiten
asimismo identificar los temas y, en consecuencia, la naturaleza de los esfuerzos que deben ser
realizados para reducir la desigualdad entre ellos.
Otra gráfica útil para la visualización de resultados es la que resume la información del ejercicio
de estratificación en una proyección sobre un plano definido por 2 de los indicadores y que se
denomina “Gráfica de dispersión”. En realidad, esta gráfica incluye además información sobre una 3ª
dimensión a la que representa como el tamaño de las burbujas; de hecho, es la única gráfica en la
que se permite hacer uso de la variable “Tamaño total de la población” en esta calidad. Es posible
elegir al indicador que será representado en el eje “X”, en el “Y” y la que será usada a manera de
Tamaño en la esquina superior derecha de esta gráfica.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
14
Estratificador INEGI
Manual de usuario
Fig. 10.- Gráfica de dispersión consecuencia de la estratificación de manzanas.
En este caso también es posible “prender” o “apagar” estratos haciendo click sobre la o las barras
de color que se ubican en la parte superior de la gráfica. De este modo, por ejemplo sería posible
aislar a las 56 manzanas de la localidad de Aguascalientes ubicadas en el 5º estrato. Por supuesto,
dada la nomenclatura usada por INEGI para identificarlas, resulta difícil conocer la ubicación de las
mismas. Por esta razón se ha incorporado la facilidad de relacionar a cada una de las burbujas con
los elementos correspondientes en el mapa. Sobre el mapa de la localidad aparecerá un globo
naranja en el punto en el que se localiza la unidad de interés. Mediante acercamientos sucesivos será
posible ubicar con precisión la unidad deseada, como lo muestra la figura EE.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
15
Estratificador INEGI
Manual de usuario
Fig. 11.- Ejemplo de ubicación de unidades geográficas
Por supuesto, dependiendo del número de indicadores seleccionados, el número de gráficas que
es posible elaborar puede ser excesivamente grande. Por ello, y con el fin de mostrar una
representación “canónica”, se incluye además la gráfica de dispersión cuando en el eje horizontal se
representa a la 1ª componente principal (CP), semejante al índice de marginación de CONAPO, y en
el vertical a la 2ª. En cada caso, se señala además la proporción de la varianza generalizada que
cada CP representa.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
16
Estratificador INEGI
Manual de usuario
Fig. 12.- Proyección sobre las dos primeras componentes principales.
Cuadro 1. Resumen de las condiciones bajo las cuales se llevaron a cabo 3 estratificaciones
alternativas de manzanas para la localidad de Aguascalientes.
La gráfica de criterios solamente adquiere sentido cuando se llevan a cabo dos o más
estratificaciones. En ella, a través de 5 criterios propuestos en la literatura, se comparan los diversos
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
17
Estratificador INEGI
Manual de usuario
resultados de estratificaciones alternativas. En todos los casos, el valor menor del criterio es el más
deseable. Para ilustrar su uso se realizaron 3 estratificaciones adicionales de las manzanas de la
localidad de Aguascalientes, usando las mismas variables que en el ejemplo anterior pero usando
como insumo para el método de las k-medias a la primera, a las 3 primeras y a las 8 primeras
componentes principales, respectivamente, según se muestra en el cuadro 1.
Estrato
Estratificación
1
2
3
4
5
1
1573
2163
2084
1539
56
2
946
1270
1750
2017
1432
3
1607
2170
1513
2062
63
4
1422
932
1746
1302
2013
Cuadro 2.- Número de manzanas ubicadas en cada uno de 5 estratos a través de 4 ejercicios
alternativos de estratificación.
Estratificación 1
Estratificación 2
Estratificación 3
Estratificación 4
Mapas de las manzanas de la localidad de Aguascalientes según 4 estratificaciones.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
18
Estratificador INEGI
Manual de usuario
La comparación de los 4 mapas obtenidos bajo las anteriores circunstancias, ordenados de
izquierda a derecha y de arriba abajo, muestra coincidencias importantes (zona norponiente o el
oriente de la localidad) pero también es ilustrativo de las dificultades que representa asignar
automáticamente un orden a los estratos resultantes. Por ejemplo, cuando en la estratificación 3 se
intercambian los estratos 3 (amarillo) y 4 (rojo claro) la aparente discrepancia disminuye sin ser
eliminada por completo.
Por lo que toca a las gráficas de centroides, los resultados se presentan en la figura FF,
mostrando importantes coincidencias y discrepancias entre los 4 resultados. Por ejemplo, las
estratificaciones 1 y 3 muestran muy importantes similitudes a pesar de la diferencia en el número de
indicadores directamente involucrados (19 y 3, respectivamente; indirectamente, los 19 están
involucrados en ambos ejercicios). Por lo que toca a los otros dos ejemplos, se tiene que ocultan
algunas diferencias importantes entre manzanas, como es el caso de las variables referidas a
servicios en la vivienda con lo que queda la impresión de que las diferencias más importantes entre
las manzanas de Aguascalientes se encuentran en solamente rubros referidos al acceso a la
tecnología.
Gráficas de Centroides para las 4 estratificaciones del ejemplo
Las gráficas de dispersión tienen en general el propósito de facilitar la detección de asociaciones
funcionales entre parejas de variables; cuando la asociación es del tipo lineal se hablaría de
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
19
Estratificador INEGI
Manual de usuario
correlaciones entre variables. En el Estratificador estas gráficas resumen información sobre 4, no 2,
variables. Por un lado es posible escoger aquellas 2 variables que se asociarán a los ejes “X” y “Y”;
además se permite escoger otra variable que será representada como el área (tamaño) de la burbuja
que representa a cada unidad11; finalmente, el color de la burbuja identifica el estrato al que ha sido
asignada esa unidad. Para el ejemplo, para los ejes se usaron las variables “Porcentaje de
pobladores que residen en viviendas con agua entubada en el ámbito de la vivienda (agua_dv)”y
“Porcentaje de pobladores que disponen de luz eléctrica (p_c_elec)”. El tamaño de las burbujas se
asoció a la variable “Porcentaje de pobladores sin derechohabiencia a servicios de salud (psinder)”.
Aunque se aprecia una correlación importante entre las variables de los ejes, como era de esperarse,
es de llamar la atención que los grupos más numerosos sin derechohabiencia se encuentran en los
vértices.
Gráficas de dispersión para las 4 estratificaciones del ejemplo
Toca el turno a las gráficas de proyección sobre los ejes definidos por las dos primeras
componentes principales. Como ya se indicó a cada CP se le asocia la proporción de la “varianza
generalizada” (definida ésta como la suma de las varianzas de los 19 indicadores iniciales; es decir,
ignorando las correlaciones entre ellos) que ella explica. En el ejemplo, la 1ª CP explica 61% y la 2ª
Este es el único caso en el que se permite el uso de una variable, “Tamaño de la Población Total” (POBTOT), no expresada en
términos relativos, de modo que pueda hacer referencia al tamaño de la población en la unidad geográfica.
11
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
20
Estratificador INEGI
Manual de usuario
CP, 12%. En otras palabras, la 2ª aporta tanto como 20% en información adicional (ya que se
construyen sin correlación entre ellas) a la aportada por la 1ª.
Gráficas de proyección sobre los 2 primeros ejes principales para las 4 estratificaciones del ejemplo
La primera de este grupo de gráficas nos dice que las condiciones empeoran a medida que las
unidades se encuentran más a la derecha, y en esto coincide con todos los otros casos salvo, tal vez,
el último que dice además que abajo es peor que arriba aunque hay compensaciones (más a la
derecha pero más arriba puede ser mejor que abajo y poco a la izquierda). La segunda gráfica refleja
el hecho de que en la estratificación, ignorando información adicional, se hizo uso de un solo índice:
la 1ª CP. Como quiera que sea, salvo por la 2ª estratificación, todos los ejercicios parecen indicar que
la dirección vertical aporta pues permite distinguir entre grupos que podrían ser confundidos si se usa
sólo la 1ª CP. Las gráficas 1 y 3 son casi idénticas cuando se intercambian los colores amarillo y rojo
claro, ratificando que hay dos grupos cuyo valor para la 1ª CP es similar pero que se distinguen en
cuanto a lo mostrado por la 2ª y, probablemente, en cuanto a la solución de sus carencias como
podría ser exhibida, parcialmente pues no hay una medición de su dispersión alrededor de los
centroides, por la gráfica de centroides para la 3ª estratificación (3 CPs) en la que los estratos 1, 2 y 5
han sido apagados, en la figura 13.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
21
Estratificador INEGI
Manual de usuario
Fig. 13.- Gráficas de centroides para los estratos 3 y 4 para la 3ª estratificación.
De acuerdo con la gráfica denominada “Criterios”, mostrada enseguida, para el ejemplo, las
estratificaciones 1 (todos los indicadores elegidos y k-medias) y 3 (3 primeras CPs y k-medias)
resultaron óptimas en términos de todos menos uno de los 5 criterios estadísticos definidos en la
tabla siguiente. La 2ª estratificación (1ª CP y k-medias) es óptima en términos de uno solo de los
criterios. Finalmente, la 4ª (8 primeras CPs y k-medias) es óptima según el 5º criterio, empatando en
este sentido a la 1ª y a la 3ª. Queda a criterio del investigador la ponderación de estos resultados con
el fin de elegir la mejor alternativa. Puede basar su decisión en unos solo de ellos o asignar pesos a
algún subconjunto de su preferencia.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
22
Estratificador INEGI
Manual de usuario
Fig. 14.- Comparación de resultados de cuatro estratificaciones alternativas a través de 5 criterios.
La definición de los criterios utilizados, junto con las referencias en las que fueron propuestos, se
muestran enseguida. Para un mayor detalle favor de referirse al apéndice técnico.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
23
Estratificador INEGI
Manual de usuario
APÉNDICE TÉCNICO
El primero de los tres procedimientos es uno de los mejor conocidos y de mayor uso en la
práctica. Ello se debe a que el procedimiento puede ser expresado de una forma sencilla y clara: con
base en los valores de los p indicadores seleccionados, asigne cada unidad geográfica a aquel de los
K grupos cuyo punto central le sea más cercano. En otras palabras, a aquel grupo cuya distancia
(Euclidiana) con el punto que representa a la unidad, en un espacio de p dimensiones, sea mínima.
Por supuesto, la distancia entre un grupo y un punto puede definirse de diversas formas; las más
usuales son las identificadas como “vecino más próximo”, “vecino más distante” y “al centroide”. En
particular, k-medias hace uso del último en esa lista. Cuando la distancias se minimizan, debe tenerse
que además la suma (de cuadrados) de las distancias entre las unidades y sus centroides alcanza su
valor mínimo. Es decir, la estratificación óptima es la que minimiza ese criterio12.
Por su parte, el segundo de los mencionados métodos, el que ha sido denominado MULVAR en
el estratificador, es el usado en los ejercicios denominados "Niveles de Bienestar" que fueron
elaborados por el INEGI a partir de información recolectada por los censos de 1990 y de 2000. El
procedimiento fue propuesto en Jarque (1981) 13 como un intento por extender la estratificación
univariada óptima de Dalenius-Hodges a un contexto multivariado. La esencia del método puede
resumirse como la aplicación del procedimiento de K-medias a una versión estandarizada de los
indicadores seleccionados; la mencionada estandarización se realiza usando las desviaciones típicas
de los estimadores muestrales del promedio poblacional de cada indicador. Ha sido habitual suponer
un tamaño de muestra equivalente al 10% del tamaño de la población y así ha sido instrumentado en
el Estratificador INEGI.
12 Este procedimiento ilustra también la complejidad que enfrentan los procedimientos de estratificación multivariada. Antes de
llevar a cabo cualquier estratificación, los valores de los centroides son desconocidos; en consecuencia, no es posible calcular a priori
las distancias entre las unidades y ellos. Alternativamente, puede pensarse en proponer una asignación arbitraria de las unidades a K
grupos, para después calcular los centroides correspondientes y finalmente las distancias entre éstos y los puntos del grupo. Dos
asignaciones tales pueden ser comparadas con base en las sumas de distancias para determinar cuál es “mejor”. Procediendo de este
modo, después de hacer una enumeración completa, cabe esperar que sería sencillo identificar la óptima. Sin embargo, cuando el
número de unidades es relativamente grande, resulta materialmente imposible enumerar todas las posibles estratificaciones para
encontrar la que sería considerada óptima; por ejemplo, para el caso de los más de 2450 municipios mexicanos se tiene que el número
de todas sus estratificaciones en cinco grupos rebasa el valor 5 2450 o, lo que es casi lo mismo, a un 10 seguido de 1711 ceros. Si el
tiempo que toma la asignación de unidades a grupos, más el que toma el cálculo de centroides, más el que toma calcular las
distancias de éstos a las unidades, consumiera en total 1 segundo, todavía tomaría más de 10 1700 siglos hacer una enumeración
completa para tener la certeza de que se encontró la solución óptima. Por lo anterior se han desarrollado estrategias que permiten
encontrar soluciones aproximadas en tiempos razonables. Una de ellas, instrumentada en el Estratificador, consiste en seleccionar
aleatoriamente K unidades para que hagan las veces de centroides iniciales. Cada vez que una unidad es asignada a un grupo, el
centroide correspondiente es recalculado hasta que todas las unidades han sido asignadas. El proceso se repite usando ahora como
centroides iniciales los que resultan de la iteración anterior hasta que ninguna unidad cambia de estrato. Es claro que aún cuando se
use el mismo conjunto de indicadores y el mismo número de grupos así como el mismo procedimiento, los resultados pueden variar
dependiendo de las selecciones iniciales en cada aplicación; sin embargo, se espera que no difieran mucho.
13 C. M. Jarque, A Solution to the Problem of Optimum Stratification in Multivariate Sampling, JRSS, Series C (Applied Statistics),
Vol. 30, No. 2 (1981), pp. 163-169.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
24
Estratificador INEGI
Manual de usuario
El tercero de los procedimientos se incluye buscando corregir una limitación de los primeros dos
y que se refiere a aquellas circunstancias en que es necesario tomar en cuenta a las correlaciones
exhibidas entre indicadores para evitar que redundancias entre ellos sesguen los resultados en
alguna dirección. Esta es también la razón por la cual el Estratificador contempla el uso de
componentes principales; es decir, permite que los métodos que no aprovechan la estructura de
correlación sean aplicados a variables construidas de modo que no exhiban correlación alguna al
menos globalmente, ya que de manera local este puede no ser el caso. La atención del inconveniente
dada por MCLUST tiene un costo ya que supone que los datos fueron generados a partir de una
mezcla de distribuciones, según se ejemplifica en las siguientes dos gráficas, lo que impone una
restricción adicional ya que tal supuesto puede cumplirse cabalmente, o sólo de manera aproximada
o, de plano, no cumplirse.
Como es usual, en la medida en que los supuestos detrás de los métodos sean satisfechos por los
datos, los resultados obtenidos mejorarán.
Con fines de ejemplificación de la situación que se pretende corregir, considere un caso extremo
dado por la inclusión repetida, un número grande de veces, de la información referida a un mismo
indicador, lo que daría lugar a una correlación perfecta entre sus réplicas. Los procedimientos hasta
ahora descritos, cuyo desarrollo no contempló circunstancias como la que se describe, producirían
estratificaciones para las cuales el indicador redundante tiene mucha mayor influencia en el resultado
que las restantes, tomadas estas individual o aún colectivamente. En la práctica ocurren
circunstancias menos evidentes como cuando una variable es la suma, o casi, de otras dos o más por
lo que no aporta información adicional; es decir, es también redundante.
Para la aplicación de este método se incluye un procedimiento, que se activa al elegir MCLUST
por primera vez, momento en el que aparece la leyenda “GENERANDO GRAFICA BIC”en la esquina
inferior derecha de la pantalla, y que evalúa (ver una descripción detallada del método, más abajo)
diversas combinaciones de número de estratos a usar, entre 1 y 10, y de modelos locales para la
estructura de covarianza, dentro de cada estrato, denotados por hasta 10 combinaciones de 3
letras14. La primera posición de la combinación se refiere al tamaño de las nubes de puntos (o al
volumen de los elipsoides de concentración; E cuando son iguales o V cuando pueden variar); la
segunda a su forma (I para todas esferas, E para todas elipsoides y V para mezclas); y la tercera a la
orientación de los ejes principales (I para esferas o sin orientación definida, E para igual orientación
de todos los elipsoides y V para orientaciones diversas). De este modo, el modelo EII resulta ser el
14 Esta parte del procedimiento puede consumir varios minutos dependiendo del número de variables y de unidades consideradas.
Por ejemplo, para la ejemplificación numérica (mas de 9300 manzanas y 19 variables) fueron requeridos casi dos minutos. Un botón
animado en la esquina inferior derecha de la pantalla indicará que la elaboración de la gráfica está en proceso. El servicio puede
seguir siendo usado para realizar otras funciones mientras esto ocurre.
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
25
Estratificador INEGI
Manual de usuario
más restrictivo y el VVV, el más libre y, por ello, aquel al que se asocia una mayor cantidad de
parámetros a estimar. Esta situación se ilustra en la siguiente figura.
Fig. A1.- Ejemplos de estructuras locales de covarianzas para un caso bi-variado.
CRITERIOS
Determinante de la suma de las matrices locales
de sumas de cuadrados y de productos cruzados
(Ward)
W
Suma de cuadrados de las distancias Euclidianas
de cada punto al centroide de su grupo (SC)
 tr W    wii
Suma ponderada del logaritmo de trazas de
matrices locales de covarianzas (SLT)
  nk log tr  k 
Suma ponderada del logaritmo de determinantes
de matrices locales de covarianzas (SLD)
K
 K
  nk log   k   log   k
k 1
 k 1
Promedio ponderado de las relaciones entre
determinantes locales y globales (DEff)
K
 n  k
  k 
k 1  n  
h
i 1
K
k 1
nk



En el cálculo de estos criterios se hace uso de las siguientes definiciones:
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
26
Estratificador INEGI
Manual de usuario
Definiciones de parámetros utilizados en el cálculo de los criterios
Poblacionales
n es el tamaño de la población
h, la dimensión de cada vector
K, el número de estratos o clases
Media
Matriz de varianzas y covarianzas
x
1 n
 xi
n i 1

1 n
x i  x T x i  x 

n i 1
Para el k-ésimo estrato, donde nk es el tamaño de la población,
Media o centroide
Matriz de sumas de cuadrados y de
productos cruzados de desviaciones con
respecto al centroide del estrato
1
xk 
nk
Wk 
k 
nk
x
ik
i 1
 x
iEk

 x k  x ik  x k   wij( k )
T
ik

1
Wk
nk
Matriz local de varianzas y covarianzas
Adicionalmente
Suma de las matrices locales de sumas de
cuadrados y de productos cruzados
W  Wk  wij 
INSTITUTO NACIONAL DE ESTADÍSTICA Y GEOGRAFÍA
K
k 1
27
Descargar