UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE INGENIERÍA, CIENCIAS FÍSICAS Y MATEMÁTICA CARRERA DE INGENIERÍA MATEMÁTICA. MOVILIDAD SOCIAL EN EL ECUADOR. TRABAJO DE GRADUACIÓN PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERO MATEMÁTICO. AUTOR: Viviana Isabel Pujos Culque TUTOR: Mat. Juan Carlos Garcı́a Navas MSc. QUITO-ECUADOR 2015 Dirección de Análisis y Estadı́stica DEDICATORIA A mi padre, porque gracias a su ejemplo de vida, se lo que es ser persona y como vivir siempre persiguiendo las realidades posibles. A mi madre, que con su coraje cobijado de lágrimas un dı́a me empujó a seguir. ii AGRADECIMIENTO Gracias a esas personas que entraron en esta etapa de mi vida universitaria y que siempre me brindaron su ayuda, con este trabajo que ha implicado un gran esfuerzo quiero demostrar mi agradecimiento a todo lo que me han otorgado. Sra. Zoila Toapanta Sr. Luis Olmedo Manotoa iii AUTORIZACIÓN DE LA AUTORÍA INTELECTUAL Yo, Pujos Culque Viviana Isabel en calidad de autor del proyecto de tesis realizada sobre “MOVILIDAD SOCIAL EN EL ECUADOR”, por la presente autorizo hacer uso de todos los contenidos que me pertenecen o parte de los contenidos en esta obra, con fines estrictamente académicos o de investigación. Los derechos que como autor me corresponden, con excepción de la presente autorización seguirán vigentes a mi favor, en conformidad con lo establecido en los artı́culos 5, 6, 8, 19 y demás pertinentes de la Ley de Propiedad Intelectual y su Reglamento. Quito, Abril 2015 VIVIANA ISABEL PUJOS CULQUE C.I.1804481933 iv v vi vii viii CONTENIDO Dedicatoria ii Agradecimiento iii Autorización Intelectual iv Certificado del Tutor v Informe del Tutor vi Certificado Revisores vii Calificaciones viii Contenido ix Lista de Figuras xii Resumen xiii ix Abstract xiv Introducción 1 1. Presentación del Problema 4 1.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . 4 1.2. Formulación del problema . . . . . . . . . . . . . . . . . . . . . . 5 1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . 5 1.3.2. Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . 5 1.4. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Fundamento 8 2.1. Base Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.1. Procesos estocásticos . . . . . . . . . . . . . . . . . . . . . 8 2.1.2. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . 9 2.1.3. Sistema de ecuaciones lineales . . . . . . . . . . . . . . . 12 2.1.4. Mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . 14 2.1.5. Regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . 19 2.1.6. Regresión lineal simple . . . . . . . . . . . . . . . . . . . 20 x 2.1.7. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . 23 2.1.8. Método de Householder y mı́nimos cuadrados . . . . . . 26 2.2. Base Metodológica . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1. Registro Social . . . . . . . . . . . . . . . . . . . . . . . . 30 3. Réplica del Índice del Registro Social (Índice RSII) 3.1. Selección del instrumento . . . . . . . . . . . . . . . . . . . . . . 37 38 3.1.1. Encuesta Nacional de Empleo, Desempleo y Subempleo (ENEMDU) . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.1.2. Identificación de variables en la ENEMDU . . . . . . . . 40 3.2. Definición del modelo . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2.1. Aplicación del modelo de regresión múltiple . . . . . . . 43 4. Estimación de Índice de Movilidad Social 48 4.1. Estimación de las probabilidades de transición con datos agregados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Conclusiones y Recomendaciones 55 Bibiografı́a 57 Anexos 60 xi LISTA DE FIGURAS 2.1. Subespacio W y W ⊥ . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2. Variables del Índice RSII . . . . . . . . . . . . . . . . . . . . . . . 33 2.3. Histograma del puntaje RSII en la ESSHO-2012 [16] . . . . . . . 33 3.1. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . 44 3.2. Estadı́sticos del los residuos . . . . . . . . . . . . . . . . . . . . . 46 3.3. Distribución de los residuos . . . . . . . . . . . . . . . . . . . . . 46 xii RESUMEN “ÍNDICE DE MOVILIDAD SOCIAL EN EL ECUADOR” El presente trabajo muestra un Índice de Movilidad Social, el mismo que se estima, utilizando la teorı́a de los procesos estocásticos particularmente las Cadenas de Markov. Se presenta adicionalmente la matriz de transición entre los estados de vulnerabilidad establecidos por el Registro Social 2013 del Ecuador, con la cual se estima el Índice de Movilidad Social, este trabajo servirá para analizar el impacto de la inversión social en los últimos 5 años. DESCRIPTORES: PROCESOS ESTOCÁSTICOS / CADENAS DE MARKOV / MATRIZ DE TRANSICIÓN/ REGRESIÓN LINEAL MÚLTIPLE / MÉTODO DE HOUSEHOLDER / ÍNDICE DE MOVILIDAD SOCIAL. xiii ABSTRACT “INDEX OF SOCIAL MOBILITY IN ECUADOR” This work demostrate an Index of Social Mobility, using the stochastic processes theory especially Markov Chains. Additionally, there is the transition matrix between the vulnerability states established by the Social Registry 2013 of Ecuador, which estimated the Index of Social Mobility; this work will serve analyse the impact of social investment in the last five years . DESCRIPTORS: / TRANSITION STOCHASTIC MATRIX/ PROCESS MULTIPLE / MARKOV LINEAR REGRESSION HOUSEHOLDER’S METHOD / INDEX OF SOCIAL MOBILITY. xiv CHAINS / xv xvi INTRODUCCIÓN En la actualidad las variables aleatorias se usan como el tipo de variables mediante las que se recogen datos de una encuesta determinada en temas como: laborales, socioeconónicos, salud, entre otros, las mismas que bajo las caracterı́sticas de variables aleatorias permanecen constantes a través del tiempo o a su vez varı́an con la presencia de la variable determinı́stica tiempo t, en este último caso la variable aleatoria dependerá del fenómeno probabilista y del tiempo. Las encuestas son una herramienta necesaria para generar indicadores en torno al desarrollo sostenido de un paı́s, estos pueden ser de educación, empleo, ingresos, pobreza, socioecoómicos entre otros. Ante la necesidad de indicadores que muestren el desarrollo de un paı́s, en este caso del Ecuador, uno de los objetivos de este trabajo es determinar el ı́ndice de movilidad social; que es un indicador de transición o de paso de un estado de vulnerabilidad a otro que se calcula a través de la matriz de transición de estados de las cadenas de Markov que permite explicar la estructura y conocer el comportamiento, al menos a corto plazo, de la variable que se observa en el tiempo, en esta oportunidad la variable social “Estado de vulnerabilidad” de un individuo. En este trabajo se supone que los datos se obtienen en intervalos regulares de tiempo (horas, dı́as, años). El Registro Social 2013 es un catastro nacional que contiene datos levantados 1 por encuesta directa en la vivienda de una determinada familia y a través de la cual se asigna un Índice RS o puntaje entre 0 y 100 puntos a la familia registrada para luego asignarle a un grupo de vulnerabilidad (pobreza) determinado por lı́neas de corte fijas de extrema vulnerabilidad y vulnerabilidad, las mismas que se relacionan con las lı́neas de pobreza por consumo, en efecto se considera un sistema que puede caracterizarse por estar en cualquier estado de vulnerabilidad definido por el Registro Social Ecuatoriano 2013 previamente especificado. Suponiendo que el sistema cambia de un estado a otro a lo largo del tiempo de acuerdo a una cierta ley de movimiento, y sea Sr (t) el estado del sistema al tiempo t. Si se considera que la forma en la que el sistema evoluciona no es determinista, sino provocada por algún mecanismo azaroso, entonces puede considerarse que Sr (t) es una variable aleatoria para cada valor de t, esta colección es parte de un proceso estocástico, con el cual es posible representar la evolución aleatoria de un sistema a lo largo de tiempo. La hipótesis de esta investigación es que en el Ecuador se ha presentado movilidad social ascendente en los últimos 5 años, la cual es transmitida y replicada a través de las generaciones de las familias durante el tiempo, logrando de alguna manera que al menos exista un subconjunto de la población vulnerable que no entre a un cı́rculo vicioso o una trampa de vulnerabilidad perpetua. La matriz de transición se obtendrá con estimaciones de las probabilidades no condicionales de las cuales se puede tener estimaciones a partir de los datos agregados, la probabilidad no condicional establece la probabilidad de estar en un estado cualquiera en el momento t, sin tener en cuenta los demás tiempos. Finalmente se estimará el Índice de Movilidad Social con el modelo propuesto por de Shorrocks (1978) [8]. En el Capı́tulo 1, se hace una descripción general de la concepción de problema. 2 En el Capı́tulo 2, se detalla conceptos y propiedades básicas que se utilizará para el desarrollo del trabajo, mismos que se dan desde el fundamento matemático. En el Capı́tulo 3, se presentan detalles de la réplica del Índice de vulnerabilidad RSII del Registro Social 2013, en la encuesta ENEMDU-(INEC). En el Capı́tulo 4, se describe el modelo con el que se obtiene la matriz de probabilidad de transición y el Índice de Movilidad Social. 3 CAPÍTULO I PRESENTACIÓN DEL PROBLEMA 1.1. Planteamiento del problema En general, la movilidad social se vincula a la teorı́a de las clases sociales y consiste en los movimientos que efectúan los individuos, las familias o los grupos definidos dentro de un determinado sistema socioeconómico. La movilidad social se presenta cuando se da un movimiento significativo en la posición económica, social o polı́tica de un individuo, los estudios sobre la movilidad se basan en el hecho que los sistemas de estratificación del mundo moderno no son rı́gidos y permiten el paso de un individuo de una clase social a otra. El Índice del Registro Social 2013 del Ecuador, define tres estados de vulnerabilidad: Extrema Vulnerabilidad, Vulnerabilidad, No Vulnerabilidad, estados que se generan en función de varios indicadores sociales y económicos (detalles en el Capı́tulo 2). En el Ecuador, el paso de un individuo de un estado de vulnerabilidad a otro 4 se torna factible1 , y esto es el cambio de estado de vulnerabilidad. Al referirse que el cambio de estado es factible, medir el impacto o la intensidad con la que los cambios de estado se producen es posible a través de un ı́ndice de movilidad estimado desde la probabilidad, sabiendo que dichos cambios de estado no han sido evaluados bajo la medida de la probabilidad y más aún no se ha realizado un análisis de movilidad social explicándolo a través de procesos estocásticos. 1.2. Formulación del problema Estimar el Índice de Movilidad Social en el Ecuador 1.3. Objetivos 1.3.1. Objetivo General Explicar la movilidad social en el Ecuador a través de los procesos estocásticos. 1.3.2. Objetivos Especı́ficos • Obtener el ı́ndice de movilidad social en el Ecuador. • Estimar la matriz de transición entre los estados de vulnerabilidad por Registro Social 2013. 1 La pobreza por ingresos y por necesidades básicas insatisfechas no ha desaparecido en el Ecuador y han disminuido en 9,54 y 8,29 puntos porcentuales respectivamente entre los años 2008 y 2013. Fuente:ENEMDU-INEC. 5 • Analizar la movilidad social en el Ecuador. • Describir las notaciones matemáticas básicas, definiciones y resultados que son necesarios durante el presente trabajo. 1.4. Justificación El gobierno nacional del Ecuador en los últimos cinco años ha levantado uno de los procesos más profundos de la polı́tica de inclusión social y económica de las últimas décadas. El proceso en mención está construyendo un sistema de protección social inclusivo sustentado por la Constitución de 2008, en la que se muestra un amplio reconocimiento de los derechos de la población (protección y seguridad social). La Constitución es el principal referente para los procesos de planificación, definición de polı́ticas y un fundamento para los procesos de construcción de pactos tanto sociales como fiscales, puesto que define rutas de polı́tica pública que se están traduciendo en reformas, polı́ticas y programas sociales concretos. Muestra de ello son el Plan Nacional para el Buen Vivir (PNBV), la Estrategia Nacional de Igualdad y Erradicación de la Pobreza (ENIEP), la propuesta de reforma a la seguridad social, Estrategia Nacional el Buen Vivir Rural, Estrategia Infancia Plena. En el Ecuador a partir del año 2007 hasta el año 2013, la inversión en el sector social tiene un incremento promedio anual de $1.043,6 millones2 , mientras que entre los años 2001 y 2006 la inversión en el sector social tuvo un incremento promedio anual de $206,9 millones2 que representa una quinta 2 Fuente: Ministerio de Finanzas e-SIGEF(e-SIGEF es la herramienta informática del Sistema de Administración Financiera del Estado(Ecuador) que permite realizar la gestión presupuestaria, contable y de pagos de las entidades públicas). 6 parte del promedio del incremento anual de la inversión social a partir del 2007. Sabiendo ahora que la inversión en el sector social es creciente se debe realizar un análisis de la evolución de los indicadores sociales para medir de alguna manera si los servicios se han vuelto eficientes y la asistencia a los grupos vulnerables se ha fortalecido. Uno de los indicadores sociales es el que se presenta como Índice del Registro Social 2013, el mismo que refleja su medida en función de varios indicadores sociales (ver detalle en Capı́tulo 2). Bajo este detalle breve de la inversión social que ha realizado el gobierno ecuatoriano se hace pertinente realizar un estudio en el que se presente un Índice de movilidad social al año 2013 y la probabilidad con la cual un individuo cambia de estado de vulnerabilidad entre los definidos por el Índice del Registro Social Ecuatoriano 2013 (1.- Extrema Vulnerabilidad, 2.- Vulnerabilidad y 3.- No Vulnerabilidad), adicionalmente este trabajo constituirá un instrumento de consulta para los equipos de planificación que hacen uso de los fondos de inversión social en el estado ecuatoriano. 7 CAPÍTULO II FUNDAMENTO 2.1. Base Teórica En esta sección se describen diferentes, teoremas, proposiciones, definiciones entre otras teorı́as, que se deben conocer para la comprensión del proceso de estimación del Índice de Movilidad Social. 2.1.1. Procesos estocásticos Dado un sistema que puede tener como estado inicial cualquiera de los estados de un conjunto previamente especificado. Suponga que el sistema cambia de un estado a otro a lo largo del tiempo de acuerdo a una cierta ley de movimiento, y sea Xt el estado del sistema al tiempo t. Si se considera que la forma de evolución del sistema no es determinista, sino provocada con las mediciones en un experimento aleatorio, entonces puede considerarse que Xt es una variable aleatoria para cada valor del subı́ndice t. Esta colección de variables aleatorias es la definición de proceso estocástico, con este modelo 8 se puede representar la evolución aleatoria de un sistema a lo largo del tiempo. En general, las variables aleatorias que conforman un proceso no son independientes entre sı́, sino que están relacionadas unas con otras. La defenición de proceso estocástico toma como base un espacio de probabilidad y puede enunciarse ası́: Definición 2.1. Un proceso estocástico es una colección de variables aleatorias {Xt : t ∈ T } parametrizada por un conjunto T , llamado espacio parametral, y con valores en un conjunto S llamado espacio de estados. [1] En lo que sigue se tomará el espacio parametral el conjunto T = {0, 1, 2, ...}, y estos números se interpretan como tiempos. En este caso se dice que el proceso es a tiempo discreto, y en general este tipo de procesos consideran como espacio de estados un subconjunto de Z que se denotará por {Xn : n = 0, 1, ...}. 2.1.2. Cadenas de Markov Las cadenas de Markov fueron inventadas por el matemático ruso Andréi Andréyevich Márkov (14 de junio de 1856 - 20 de julio de 1922) alrededor de 1905. Propiedad de Markov Considere un proceso estocásticos a tiempo discreto Xn el mismo que sigue la propiedad de Markov. Para escribir esta propiedad y algunas de sus condiciones equivalentes, a la probabilidad P (Xn = xn ) se escribe como p(xn ), lo que implica que el subı́ndice indica también la variable a la que se hace referencia. 9 Definición 2.2. Una cadena de Markov es un proceso estocástico a tiempo discreto {Xn : n ∈ {0, 1, ...}}, con espacio de estados discreto, y que satisface la propiedad de Markov, esto es, para cualquier entero n ≥ 0, y para cualquier estado x0 , ..., xn+1 , se cumple [1]: p(xn+1 |x0 , ..., xn ) = p(xn+1 |xn ) (2.1) Para realizar un análisis breve de la definición (2.2) considere al tiempo n + 1 como el tiempo futuro, n como el tiempo presente y a los tiempos 0, 1, 2, 3, ..., n − 1, cada uno como tiempo pasado siendo el tiempo n − 1 el más cercano al tiempo presente y el tiempo 0 el más lejano, entonces la condición (2.1) establece que la distribución de la probabilidad del estado del proceso al tiempo n + 1 depende únicamente del estado del proceso al tiempo n, es decir, que no depende de los estados en ningún tiempo pasado. Para continuar sin pérdida de generalidad tome como espacio de estados de una cadena de Markov al conjunto discreto {0, 1, 2, ...}, o a su vez cualquier subconjunto finito en el que sus elementos consten de los primeros elementos de este conjunto. Una cadena de Markov se dice finita si su espacio de estados es un conjunto finito. Probabilidades de transición A la probabilidad P (Xn+1 = j|Xn = i) se escribe como: pij (n, n + 1) y se interpreta como la probabilidad de pasar del estado i en el tiempo n al estado j en el tiempo n + 1, a estas probabilidades se las conoce como probabilidades de transición en un paso. Cuando los números pij (n, n + 1) no dependen de n se dice que la cadena de Markov es estacionaria en el tiempo. Asumiendo tal situación y para los objetivos planteados las probabilidades de transición en 10 un paso se denota como pij . Variando los ı́ndices i y j, sobre el conjunto de estados 0, 1, 2, 3, se obtiene la siguiente matriz de probabilidades de transición en un paso: p00 p10 P = p 20 p30 p01 p02 p03 p11 p12 p13 p21 p22 p23 p31 p32 p33 (2.2) Si en la matriz anterior (2.2) se enumera las filas y columnas desde 0 hasta 3, entonces el término de la matriz cuya entrada es (i, j) con i, j ∈ {0, 1, 2, 3}, de esta matriz es la probabilidad de transición pij , es decir, la probabilidad de pasar del estado i al estado j en una unidad de tiempo. Proposición 2.1. La matriz de probabilidades de transición P = (pij ) cumple las siguientes propiedades [1]: a) pij ≥ 0 b) P j pij = 1 Demostración. La primera propiedad es evidente partiendo de la teorı́a de probabilidades y sabiendo que pij es una probabilidad para cualquier i y j. Para la segunda propiedad se tiene que para cualquier estado i y cualquier tiempo n. 11 1 = P (Xn+1 ∈ {0, 1, 2, ...}) = P (Xn+1 ∈ {0, 1, 2, ...}|Xn = i) [ = P ( Xn+1 = j|Xn = i) j = X = X P (Xn+1 = j|Xn = i) j pij j 2.1.3. Sistema de ecuaciones lineales Ecuación lineal Una ecuación lineal o también llamada ecuación de primer grado, es un planteamiento de igualdad, involucrando una o más variables a la primera potencia, es decir, que no contiene productos entre las variables, sino solo sumas y restas entre las mismas, un ejemplo didáctico es la representación de la recta; sean (m, b, x, y) ∈ K donde K es un cuerpo, entonces la ecuación y = mx + b es propiamente la ecuación de una recta. Sistema ecuaciones lineales Un sistema de ecuaciones lineales es un conjunto de ecuaciones lineales de la forma: 12 a x + . . . + a1n xn = b1 11 1 .. . am1 x1 + . . . + amn xn = bm (2.3) donde los x1 , . . . , xn , son las incógnitas que se quiere determinar y los aij y bi con i = 1, 2, 3, . . . , m y j = 1, 2, 3, . . . , n, son constantes reales conocidas. El sistema (2.3), se lo puede también representar de la siguiente manera: a11 am1 . . . a1n x b 1 1 .. .. .. . = . . . . . amn xn bm (2.4) o lo que es lo mismo A~x = ~b, (2.5) donde A es una matriz de m × n, esto es A ∈ Mm×n [R]. Con estos detalles sobre los sistemas de ecuaciones lineales, se puede considerar tres problemas: 1. Cuando m > n, es decir más ecuaciones que incógnitas. 2. Cuando m < n, es decir más incógnitas que ecuaciones. 3. Cuando m = n, es decir igual número de incógnitas y ecuaciones. Para este trabajo se analiza el caso m > n, es decir cuando hay más ecuaciones que incógnitas. Esta clase de sistemas de ecuaciones tienen, por lo general solución única o ninguna solución. Denote con Aj , la j-ésima columna de la matriz A. El siguiente conjunto se 13 llama espacio generado por las columnas de la matriz A: ( n ) X αj Aj | αj ∈ R, j = 1, 2, . . . , n (2.6) j=1 si el vector ~b es elemento del espacio generado por las columnas de A, entonces el sistema de ecuaciones lineales posee una única solución (~x)T ∈ Rn tal que (~x)T = (x1 , x2 , . . . , xn ). Si ~b ∈ / nP n o α A | α ∈ R, j = 1, 2, . . . , n , el sistema de ecuaciones no tiene j j=1 j j solución por lo tanto se considerara el problema siguiente: hallar x̂ ∈ Rn 2 2 tal que Ax̂ − ~b = mı́nn A~x − ~b ~ x∈R (2.7) x̂ se conoce como solución en mı́nimos cuadrados de (2.7). Cabe recalcar que no se pretende resolver (2.5), pues este problema bajo la hipótesis establecida (m > n) no tiene solución, en efecto, como el sistema de ecuaciones A~x = ~b no tiene solución, se define el residuo ~r(~x) como: ~r(~x) = A~x − ~b, ~x ∈ Rn entonces para estimar una posible solución al sistema de ecuaciones se utilizará mı́nimos cuadrados que consiste en determinar en vector x̂ ∈ Rn que 2 minimice ~r(~x) cuando ~x recorre todo Rn , lo que equivale a hallar x̂ ∈ Rn tal que: ~r(x̂)2 = mı́n ~r(~x)2 n ~ x∈R 2.1.4. (2.8) Mı́nimos cuadrados En la actualidad varias investigaciones cientı́ficas recaen en el hecho que para ciertas observaciones se deben determinar constantes a1 , . . . , an , pero 14 al enfrentarse a tal situación se encuentra que medir o determinar estas constantes resulta muy difı́cil y de manera general imposible, en tales casos el método siguiente es aplicado para estimar las mencionadas constantes: en lugar de tratar de observar las ai resulta más fácil tomar una muestra de una cantidad que se pueda medir “y” la cual depende de los ai y de las mediciones experimentales que se denotan x, esto se expresa ası́: y = f (x, a1 , . . . , an ), como se mencionó al inicio de esta sección el propósito es determinar todos los ai , i = 1, . . . , n, en efecto si se realizan experimentos bajo m condiciones diferentes x1 , . . . , xm , de manera que al final se obtienen m resultados diferentes: yk = f (xk , a1 , . . . , an ), k = 1, . . . , m. Estos valores ai , i = 1, . . . , n, deben satisfacer la relación precedente. Ahora bien, si m > n entonces los yk = f (xk , a1 , . . . , an ), k = 1, . . . , m, forman un sistema de ecuaciones lineales sobredeterminado (más ecuaciones que incógnitas) para los a1 , . . . , an y además usualmente no tiene solución exacta porque las cantidades observadas yk , k = 1, . . . , m, están perturbadas por errores de medición. Con estos antecedentes en lugar de hallar la solución exacta del sistema de ecuaciones el problema se traduce en hallar la mejor solución aproximada, en esta oportunidad con el método de mı́nimos cuadrados1 . Solución de sistemas de ecuaciones lineales en mı́nimos cuadrados Sean m, n ∈ Z+ , con m > n (más filas que columnas), A = (aij ) ∈ Mm×n [R] matriz no nula y de rango R(A) = n, ~(b)T = (b1 , . . . , bm ) ∈ Rm , si se considera 1 Publicado por primera vez por el francés Adrien-Marie Legendre Legendre en 1,805 15 el siguiente problema: hallar ~x ∈ Rn tal que A~x = ~b, (2.9) como se vió al inicio de esta sección (2.1.4), estos sistemas surgen en la determinación de ciertos parámetros x1 , . . . , xn los mismos, que deben calcularse a partir de información experimental y que corresponden a un modelo lineal. Si se considera A = [A1 , . . . , An ], donde Aj es la j-ésima columna de la matriz A y por otra parte sea: ( n X W = L(A1 , . . . , An ) = αj Aj | αj ∈ R, ) j = 1, 2, . . . , n , j=1 el espacio formado por todas las combinaciones lineales de A1 , . . . , An . Definición 2.3. El rango de una matriz A = (aij ) ∈ Mm×n [R] esta dado por [10]: R(A) = dim imagen(A) . Dada la matriz A = (aij ) ∈ Mm×n [R], se puede probar que el espacio generado por las columnas de A es igual a la imagen de A. Ahora bien, por lo dicho en los dos párrafos precedentes y de la definición de W se tiene que n = dim W . Entonces el sistema de ecuaciones A~x = ~b, tiene solución si y solo si ~b ∈ W , este hecho se presenta en muy pocos casos, pues prácticamente el sistema de ecuaciones planteado, no tiene solución. Se propone entonces un problema alterno denominado problema en mı́nimos cuadrados (Pa ), para lo cual se define ~r(~x) = A~x − ~b, ~r(~x) ∈ Rn que se conoce como residuo, en efecto el problema queda planteado ası́: hallar si existe x̂ ∈ Rn 2 2 tal que ~r(x̂) ≤ ~r(~x) 16 ∀~x ∈ Rn lo que es equivalente a hallar si existe x̂ ∈ Rn 2 2 tal que Ax̂ − ~b = mı́nn A~x − ~b , ~ x∈R donde · es la norma euclidiana en Rn [9]. En lo que sigue para probar la existencia de x̂ ∈ Rn , se aplica el resultado de la proyección ortogonal: Sea A = [A1 , . . . , An ], donde cada Aj se denomina la j-ésima columna de la matriz A y sea (~x)T = (x1 , . . . , xn ) ∈ Rn , entonces: A~x = n X xj Aj ∈ W. j=1 Definición 2.4. El ortogonal de W , es el conjunto que se denota como W ⊥ tal que [9]: W ⊥ = {~y ∈ Rm |h~y , A~xi = 0, ∀~x ∈ Rn } = {~y ∈ Rm |(A~x)T ~y = 0, ∀~x ∈ Rn } = {~y ∈ Rm |~xT AT ~y = 0, ∀~x ∈ Rn }. Por otra parte, ~y ∈ W ⊥ ⇔ ~y ∈ ker(AT ) = {~y ∈ Rm |AT ~y = 0}. Como Rm = W ⊕ W ⊥ , entonces para cada ~b ∈ Rm , existe un único x̂ ∈ Rn y ŷ ∈ W ⊥ tal que Ax̂ ⊥ ŷ, ~b = Ax̂ + ŷ, de donde ŷ = ~b − Ax̂, en la figura siguiente se ilustra W y W ⊥ , en los que respectivamente se visualiza Ax̂ ∈ W y ~y ∈ W ⊥ . 17 ~ b y ~ W Ax̂ Figura 2.1: Subespacio W y W ⊥ Sea ~x ∈ Rn entonces A~x ∈ W de donde: (A~x)T ŷ = 0 ⇔ (A~x)T (~b − Ax̂) = 0 ⇔ ~xT AT (~b − Ax̂) = 0 ⇔ ~xT (AT~b − AT Ax̂) = 0. de donde AT Ax̂ = AT~b, el sistema de ecuaciones precedente se lo llama sistema de ecuaciones normales, note que la matriz AT A es una matriz simétrica de donde se sigue que también es una matriz normal. De la hipótesis R(A) = n, se tiene R(AT ) = n y luego R(AT A) = n. Como la matriz AT A ∈ Mn×n [R] y R(AT A) = n, entonces AT A es invertible de donde: AT Ax̂ = AT~b ⇔ x̂ = (AT A)−1 AT~b. En la figura (2.1) se puede ver claramente que Ax̂ ∈ W , ~b ∈ Rm y ~y ∈ W ⊥ , estas 18 hipótesis se utilizan en lo siguiente: k~b − Ax̂k2 = h~b − Ax̂, ~b − Ax̂i = h~b − Ax̂, ~b − A~x − Ax̂ + A~xi = h~b − Ax̂, ~b − A~xi + h~b − Ax̂, A~x − Ax̂i = h~b − Ax̂, ~b − A~xi + h~b − Ax̂, A~xi − h~b − Ax̂, Ax̂i. como A~x, Ax̂ ∈ W y ŷ = ~b − Ax̂ ∈ W ⊥ , de las propiedades del producto escalar :0 :0 A~ Ax̂i, de donde: en R se concluye que, h~b −Ax̂, xi y h~b −Ax̂, k~b − Ax̂k2 = h~b − Ax̂, ~b − A~xi, aplicando la desigualdad de Cauchy-Schwarz se obtiene: k~b − Ax̂k2 ≤ k~b − Ax̂kk~b − A~xk ⇒ k~b − Ax̂k2 ≤ k~b − A~xkk~b − A~xk como ~x ∈ Rn cualquiera se sigue que: k~b − Ax̂k2 ≤ k~b − A~xk2 ∀~x ∈ Rn , lo que es equivalente a: k~b − Ax̂k2 = mı́nn k~b − A~xk2 . ~ x∈R El resultado que se acaba de obtener se conoce como la proyección de un vector ~b ∈ Rm con ~b ∈ / W , sobre el espacio cerrado W de Rm , por otra parte x̂ ∈ Rn , es lo que se conoce como la solución en mı́nimos cuadrados del problema (2.9) planteado al inicio de esta sección. 2.1.5. Regresión lineal En el estudio de las aplicaciones de la estadı́stica, se requiere saber al menos una estimación de la relación que existe entre dos o más variables, el análisis de 19 regresión lineal, es una técnica estadı́stica que se puede utilizar para identificar y analizar la relación entre variables, este análisis se lo puede aplicar en áreas como: investigación social, análisis de medidas económicas, hasta aspectos del comportamiento humano entre otros. Tanto en el caso de dos variables como en el de más de dos variables, el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una variable llamada dependiente y una o más variables llamadas independientes. 2.1.6. Regresión lineal simple La regresión lineal simple, es un técnica que nos permite conocer la relación existente entre dos variables aleatorias. Para continuar es necesario conocer la siguiente definición. Definición 2.5. Se llama variable aleatoria a una función X definida en un espacio muestral Ω con recorrido en un subconjunto finito o infinito de R [6]. X :Ω → R ω → X(ω) Considere un par de variables aleatorias (X, Y ), una de las cuales se denomina variable de entrada o predictora X y la otra variable respuesta Y , suponga que para un valor dado de la variable de entrada x, el valor de la variable de respuesta Y se puede expresar de la siguiente manera: y = β0 + β1 x + e, (2.10) donde β0 , β1 ∈ R son parámetros y la variable e ∈ R se denomina error aleatorio que tiene medida 0. 20 Definición 2.6. La relación entre la variable de respuesta Y y el valor de la variable aleatoria de entrada x especificada en la ecuación (2.10 ) se denomina regresión lineal simple [6]. Para estimar los coeficientes de la ecuación de regresión se emplea el método de los mı́nimos cuadrados, el mismo que busca minimizar la suma de los cuadrados de los errores, si se nota a la ecuación de predicción por: ŷ = b0 + b1 x, donde b0 , b1 son los estimadores de β0 , β1 , respectivamente y estos son tales que los cuadrados de las diferencias entre los valores observados de la variable respuesta y su estimación por la ecuación de regresión es mı́nima, o que de todas las rectas posibles, existe una y sólo una que consigue que las distancias verticales entre cada punto (observaciones) y la recta sean mı́nimas. Si se dispone de n pares de observaciones de las variables independiente y dependiente (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) y si ŷi , i = 1, 2, . . . , n, son los valores de las predicciones de cada yi , i = 1, 2, . . . , n, respectivamente ŷi = b0 + b1 xi , entonces, los residuos de la predicción se calculan ası́ ei = yi − ŷi , i = 1, 2, . . . , n. Una vez que se halla una estimación de la recta de regresión, es necesario determinar si la ecuación que se ha obtenido es un buen modelo para los datos y medir el error al que esta expuesto si se usa la ecuación, esto se logra a través de los coeficientes de correlación y determinación. 21 Coeficiente de correlación Recuerde que entre dos variables aleatorias, una medida de la relación que existe entre entre ellas es el coeficiente de correlación ρ, el mismo que mide la dependencia entre las variables aleatorias (0 si la variables son independientes entre sı́). Similarmente, para determinar si existe una relación lineal entre las variables predictora y de respuesta se utiliza el coeficiente de correlación lineal de Pearson. Definición 2.7. El coeficiente de correlación de Pearson se denota por r y se define por: SCxy r=p SCxx SCyy n P xi yi − nx̄ȳ i=1 =r n , n P P 2 2 2 2 xi − nx̄ yi − nȳ i=1 i=1 donde SCyy es la suma de los cuadrados alrededor de la media de y similarmente para x y SCxy es la suma de los productos cruzados de x y y alrededor de sus medias [15]. El coeficiente de correlación lineal de Pearson tiene las siguientes propiedades: 1. r ∈ [−1, 1] ⊂ R, siendo su signo el mismo de b1 . 2. Mientras más cercanos se encuentran los valores de r a −1 o 1 más fuerte es la relación lineal entre las variables. 3. Un valor de r cercano a 0 indica que hay poca relación lineal entre las variables. 22 A partir del coeficiente de correlación de Pearson se puede determinar el coeficiente de determinación. Coeficiente de determinación Este coeficiente determina la calidad del modelo para replicar los resultados y la proporción o medida de variación de los resultados, que puede explicarse por el modelo. Definición 2.8. Sean x, y, como antes, entonces: 2 SCxy , r = SCxx SCyy 2 o también n P (yi − ŷi )2 r2 = i=1 n P , yi2 − nȳ 2 i=1 r2 se puede interpretar como medida de linealidad de los puntos, cuando r2 se acerca a 1 los datos se ajustan a una lı́nea recta y si la relación no es lineal r2 = 0. 2.1.7. Regresión lineal múltiple El análisis de regresión lineal múltiple, permite utilizar más de una variable independiente. Por lo tanto, en el análisis de regresión múltiple la ecuación de regresión ya no define una recta en el plano R2 , sino un hiperplano en un espacio multidimensional Rm , m > 2. Definición 2.9. El modelo de regresión lineal múltiple liga a una variable dependiente Y con k variables independientes xi , i = 1, 2, . . . , k, mediante la 23 ecuación [6]: y = β0 + β1 x1 + β2 x2 + . . . + βk xk + e, (2.11) y se lo conoce como modelo de regresión lineal múltiple con k variables regresoras. A los parámetros βj , j = 1, 2, . . . , k, se denomina coeficientes de la regresión. Similar al caso de una sola variable, e tiene medida cero. El coeficiente βj , j = 1, 2, . . . , k, muestra la variación de la respuesta y, cuando varı́a xj y las demás variables permanecen constantes. Para la determinación de los parámetros se utiliza el método de los mı́nimos cuadrados. Suponga que dispone de n > k observaciones de las variables xj , j = 1, 2, . . . , k y si denota xij , j = 1, 2, . . . , k; i = 1, 2, . . . , n, al valor de la i-ésima observación de la variable xj , como se puede observar en la tabla siguiente: y x1 x2 ... xk y1 x11 x12 ... x1k y2 .. . x21 .. . x22 .. . ... .. . x2k .. . yn xn1 xn2 ... xnk Tabla 2.1: Observaciones de la variable xj si ŷ es la predicción de y, la ecuación de regresión lineal múltiple queda como: ŷ = b0 + b1 x1 + b2 x2 + . . . + bk xk . La ecuación (2.12 ) se puede escribir para cada observación ası́: ŷi = b0 + k X bj xij j=1 24 i = 1, 2, . . . , n. (2.12) Formulación matricial del modelo de regresión múltiple Si se plantea las matrices de la forma siguiente: y1 1 x11 x12 y2 1 x21 x22 Y = . , X = .. .. 1 ... . yn 1 xn1 xn2 β1 e1 β2 e2 β = . , e = . .. .. βk en . . . x1k . . . x2k .. ... . . . . xnk el modelo de regresión múltiple, se puede representar de la siguiente manera: Y = Xβ + e. Si b es el vector de los estimadores de los parámetros de la regresión lineal múltiple: b0 b1 b = . , .. bk el sistema de ecuaciones para la estimación de los parámetros es Ŷ = Xb Sea la suma de los cuadrados de los errores SCE, SCE = eT e = Y T Y − bT X T Y, 25 y la suma total de los cuadrados SCyy n 2 P yi SCyy = Y T Y − i=1 n , el coeficiente de determinación múltiple se define como: R2 = 1 − SCE , SCyy (2.13) R2 ∈ [0, 1] ⊂ R. Un valor de R2 cercano a 1, significa que el modelo de regresión es bueno y si R2 es cercano a 0, el modelo podrı́a no ajustarse a las necesidades para las cuales se construyó. 2.1.8. Método de Householder y mı́nimos cuadrados El siguiente resultado constituye la base del algoritmo de Householder para la resolución de sistemas de ecuaciones lineales y factorización de una matriz A en la forma QR, donde Q es una matriz ortogonal y R es una matriz triangular superior. Teorema 2.1. Sea ~v ∈ Rn con ~v 6= 0. Existe una matriz ortogonal H y α ∈ R tales que: H~v = α~e1 , donde, ~e1 = (1, 0, . . . , 0) es el primer vector de la base canónica de Rn [9]. Demostración. Sea ~u ∈ Rn tal que k~uk = 1, la matriz de Householder H = I − 2~u~uT , es simétrica y ortogonal. Sea ~v ∈ Rn con ~v 6= 0. Se mostrará que existe ~u ∈ Rn tal que k~uk = 1 y H~v = α~e1 . Sea α ∈ R tal que kvk = |α|, entonces: H~v = (I − 2~u~uT )~v = ~v − 2~u~uT ~v , 26 y como H~v = α~e1 , se sigue que ~v − 2~u~uT ~v = α~e1 2~u~uT ~v = ~v − α~e1 . Sea p = 2~uT ~v , entonces p~u = ~v − α~e1 , de donde k~v − α~e1 k = kp~uk = |p|k~uk = |p|, (2.14) de modo que p 6= 0, elija α tal que: v1 − α v2 ~v − α~e1 = . .. vn entonces −sign(v1 )k~v k, si v1 6= 0, α= −k~v k, si v = 0 1 Suponga en primera instancia que v1 6= 0, entonces α = −sign(v1 )k~v k, luego 2 2 2 k~v − α~e1 k = k~v + sign(v1 )k~v k~e1 k = (v1 + sign(v1 )k~v k) + n X vk2 . k=2 Si v1 > 0, sign(v1 ) = 1, y v1 + sign(v1 )k~v k = v1 + k~v k. Si v1 < 0, sign(v1 ) = −1, y v1 + sign(v1 )k~v k = v1 − k~v k = −(−v1 + k~v k) = −(|v1 | + k~v k), entonces: k~v − α~e1 k2 = (|v1 | + k~v k)2 + n X vk2 = v12 + 2|v1 |k~v k + k~v k2 + k=2 = 2|v1 |k~v k + kvk2 + n X k=2 n X k=1 27 vk2 = 2|v1 |k~v k + 2k~v k2 . vk2 . Ahora para el caso v1 = 0, α = −k~v k, entonces 2 2 2 k~v − α~e1 k = k~v + k~v k~e1 k = kvk + n X vk2 2 = kvk + k=2 n X vk2 = 2k~v k2 , k=1 de la definición, de p se tiene: ~v − α~e1 ~v − α~e1 ~v − α~e1 = = 1 p k~v − α~e1 k (2k~v k2 + 2|v1 |k~v k) 2 ~v − α~e1 ~u = √ si v1 = 0 2k~v k ~u = si v1 6= 0 La matriz H definida como H = I − 2~u~uT = I − k~v k2 1 (~v − α~e1 )(~v − α~e1 )T + |v1 |k~v k si v1 6= 0 y H=I− 1 (~v − α~e1 )(~v − α~e1 )T k~v k2 si v1 = 0. Finalmente si: k~v k2 + |v1 |k~v k, si v1 6= 0 r= 2k~v k2 , si v = 0 1 w ~ = ~v − α~e1 entonces 1 H=I− w ~w ~T. r Método de Householder El método de Householder puede aplicarse para resolver problemas de aproximación con mı́nimos cuadrados. Sea A ∈ Mm×n [R] con m ≤ n y 28 ~b ∈ Rm . Considere el sistema de ecuaciones A~x = ~b y el problema en mı́nimos cuadrados: hallar si existe x̂ ∈ Rn 2 2 tal que Ax̂ − ~b = mı́nn A~x − ~b . ~ x∈R En esta sección se aplica el método de ortogonalización de Householder para resolver el sistema de ecuaciones A~x = ~b. Sean A(0) = A y ~b(0) = ~b, utilizando el método de Householder se construyen matrices ortogonales Qi ∈ Mm×m [R], matrices A(i) tales que A(i) = Qi A(i−1) y ~b(i) = Qi~b(i−1) , i = 1, . . . , n. R Sean Q = Qn−1 Qn−2 . . . Q1 entonces QA = , donde el 0 de la matriz 0 r11 . . . r1n .. . . anterior es tal que, 0 ∈ Mm×m [R] y R = . . . 0 rnn Si ~h = ~b(n) ~h1 = Q~b y ~h = con ~h1 ∈ Rn y ~h2 ∈ Rm−n . ~h2 Como la matriz Q es ortogonal, se tiene kQ~uk = k~uk ∀~u ∈ Rm luego: kA~x − ~bk = kQ A~x − ~b k = kQA~x − Q~bk = kA(n−1)~x − ~hk y como ~h1 ~h1 R R~ x − , A(n−1)~x − ~h = ~x − = ~ ~ 0 h2 −h2 en consecuencia 1 ~ R~x − h1 (n−1) ~ = kR~x − ~h1 k2 + k~h2 k2 2 , kA ~x − hk = −~h2 29 de la igualdad precedente se sigue que kA(n−1)~x − ~hk tendrá norma mı́nima si se elige ~x como la solución del sistema de ecuaciones lineales R~x = ~h1 , de donde se tiene, ~x = R−1~h1 . Note que la matriz R tiene inversa sı́ y sólo si las columnas de la matriz A son linealmente independientes (l.i.), esto es R(A) = n. Teorema 2.2. Sea A ∈ Mm×n [R] tal que, R(A) = n con m ≤ n, entonces A puede factorarse de la forma A = QR̃, donde Q ∈ Mm×m [R] es una matriz ortogonal R y R̃ = con R ∈ Mn×n [R] una matriz triangular superior invertible [9]. 0 Demostración. Basta aplicar el método de Householder. 2.2. Base Metodológica Es esta sección se presenta la metodologı́a construida para el Índice de Bienestar la misma que utiliza teorı́a estadı́stica tanto en la construcción como la prueba su validez. 2.2.1. Registro Social Mediante Decreto Ejecutivo N◦ 1877 del 4 de agosto de 2009,“el presidente de la República delega al Ministerio Coordinador de Desarrollo Social (MCDS), para que mediante acuerdo establezca un registro social en el que conste la información social, económica y demográfica individualizada a nivel de familias” [19]. El Ministerio Coordinador de Desarrollo Social en efecto en el acuerdo menciona: “Las familias que consten en la base de datos del Registro Social serán clasificadas según su nivel de bienestar mediante el uso del 30 Índice de Bienestar, que es elaborado mediante la técnica de estadı́stica de componentes principales no lineales que combina un conjunto de variables tales como las caracterı́sticas de la vivienda, acceso a servicios, disponibilidad de bienes, composición familiar, niveles de educación, entre otras” [18]. El Registro Social bajo los lineamientos mencionados en el Decreto Ejecutivo N◦ 1874 y en el Acuerdo Ministerial N◦ 0016 del MCDS, se ha levantado dos veces: la primera en año 2008 y la segunda en en año 2013, basada en la periodicidad de 5 años establecida2 . Índice de Bienestar En función del levantamiento de datos del año 2013 que lo realizó el MCDS a nivel nacional, se establece la metodologı́a de cálculo del ı́ndice de bienestar según el Registro Social que se denomina Índice RSII, se construye como un proxy de consumo per cápita, es decir, es una medida que se puede presentar como un indicador de consumo monetario de una persona, para tener claridad sobre la variable proxy se cita unos ejemplos: “El Producto Interno Bruto per cápita se usa con frecuencia como un proxy de medida del nivel de vida o de la calidad de vida”, o también “si se quiere utilizar una variable que mida el nivel cultural de un paı́s (variable cualitativa) se puede utilizar como variable proxy el número de bibliotecas existentes en un paı́s”, que si bien no recoge el concepto exacto que se quiere medir, si se aproxima al mismo. El Índice RSII utiliza información de la encuesta de la Situación Socioeconómica de los Hogares (ESSHO-2012-MCDS), la cual se hizo efectiva con una muestra de 3076 hogares, cuya representatividad es nacional, urbana y rural; esta encuesta se realizó en diciembre del año 2012. Adicionalmente 2 Articulo 2 Acuerdo Ministerial N◦ 0016 del MCDS [18]. 31 se incluyen variables del censo nacional de población y vivienda, levantado por el Instituto Nacional de Estadı́stica y Censos (INEC)(CPV-2010), el mismo que permite incorporar la medida de necesidades básicas insatisfechas por área geográfica, en base a los criterios homologados para el cálculo de este indicador los mismos que los regula el Instituto Nacional de Estadı́stica y Censos(INEC). Con la información que se deriva de la ESSHO-2012 y utilizando la prueba de correlación de Pearson entre las variables, se establece el conjunto de variables que se utiliza para el cálculo del Índice RSII, luego mediante un análisis de componentes principales no lineales se realiza el cálculo de los pesos de las categorı́as de cada variable. Finalmente se establecen los puntos o lı́neas de corte de vulnerabilidad por consumo, en base la lı́nea de pobreza fijada por el INEC en el 2006 en función de la Encuesta de Condiciones de Vida (ECV-2006) y deflactada al año 2012. Como resultado quedaron para el cálculo del Índice RSII 34 variables las cuales cumplen la condición de estar presentes como tales en el Registro Social 2008, con el fin de que los Índices 2008 y 2013 sean comparables [16]. La figura(2.2) muestra el aporte máximo al valor calculado del Índice RSII; se realiza una agrupación de las 34 variables por temáticas relacionadas con el Sector Social, entre las más importantes las mencionadas en el Acuerdo Ministerial N◦ 0016 [18]: Una vez que se ha estimado el peso de cada una de las variables y categorı́as de la misma se calcula el puntaje para cada familia (núcleo familiar). El Índice queda definido de la siguiente manera [16]: Iv = 34 X pi . (2.15) i=1 Donde cada pi , i = 1, . . . , 34 es el valor numérico asignado a la categorı́a de 32 Aporte de variables agrupadas 5,14% 5,14% Disponibilidad de bienes Acceso a servicios 31,29% 17,81% Educación Vivienda Composicion familiar 18,40% 22,22% Ubicación geográfica Figura 2.2: Variables del Índice RSII cada variable según el registro, además pi ∈ [0; 4, 93389536913389] ⊂ R y el resultado Iv ∈ [0; 100] ⊂ R. Estadı́sticos descriptivos del Índice RSII El Índice del Registro Social II sigue una distribución normal: Figura 2.3: Histograma del puntaje RSII en la ESSHO-2012 [16] 33 la figura (2.3) se obtiene con una frecuencia de puntajes de las personas registradas en la ESSHO-2012 el mismo, que tiene como variable independiente el Índice RSII de cada persona, los estadı́sticos descriptivos del Índice RSII son los siguientes: Media Desviación Mı́nimo Máximo Asimetrı́a Kurtosis 90,8347 0,1886 2,4336 Estándar 44,1384 15,8672 6,4527 Tabla 2.2: Estadı́sticos Índice RSII [16] note que el valor de la Kurtosis es 2, 4336 y el valor esperado cuando la distribución es normal es de 3, además hay que indicar que el valor esperado de la asimetrı́a es 0 cuando la distribución normal es perfectamente simétrica. Los valores obtenidos de la media y desviación estándar se utilizan y se explican en la fijación de las lı́neas de corte para Extrema Vulnerabilidad y Vulnerabilidad. Recuerde que lo que se busca es generar un indicador de Vulnerabilidad por consumo, por lo que se realiza un comparativo de los sujetos de estudio divididos por deciles del Índice RSII y por deciles de consumo per cápita de donde se obtiene (2.3). En la tabla (2.3) se puede concluir que; del total de familias que se encuentran en el decil 1 el cual representa los más vulnerables por Índice RSII el 70 % se encuentran en los deciles 1 y 2 de consumo lo cuales representan a las familias más pobres por consumo per cápita, similarmente del total de familias que se encuentran en el decil 10 por Índice RSII el 83 % aproximadamente también se encuentran en los deciles 9 y 10 por consumo, note que el decil 10 por Índice RSII abarca a las familias no vulnerables y los deciles 9 y 10 por consumo 34 deciles de consumo per cápita deciles por Indice RSII D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D1 45,2 % 25,2 % 10,7 % 6,8 % 7,4 % 2,9 % 0,4 % 1,1 % 0,3 % 0,0 % D2 22,8 % 19,4 % 19,2 % 13,7 % 9,2 % 4,3 % 4,0 % 3,8 % 3,1 % 0,6 % D3 12,5 % 16,1 % 16,6 % 20,5 % 12,6 % 9,2 % 7,5 % 3,2 % 1,5 % 0,3 % D4 10,3 % 16,3 % 16,1 % 15,2 % 13,6 % 9,9 % 8,1 % 6,6 % 2,8 % 1,2 % D5 7,4 % 10,6 % 13,8 % 12,6 % 13,8 % 14,8 % 9,7 % 8,6 % 6,5 % 2,3 % D6 2,4 % 7,5 % 11,5 % 14,9 % 14,5 % 14,5 % 13,1 % 11,2 % 6,7 % 3,4 % D7 0,4 % 4,1 % 9,7 % 9,6 % 11,8 % 18,5 % 15,9 % 15,8 % 9,0 % 5,2 % D8 0,3 % 1,0 % 3,4 % 5,6 % 12,9 % 12,2 % 20,4 % 18,7 % 17,6 % 7,9 % D9 0,0 % 0,7 % 1,3 % 2,3 % 3,7 % 10,6 % 15,5 % 19,6 % 27,4 % 18,8 % D10 0,0 % 0,0 % 0,0 % 0,0 % 1,0 % 1,9 % 3,9 % 10,0 % 23,1 % 60,1 % Tabla 2.3: deciles por Índice RSII vs. deciles de consumo per cápita [16] abarcan a las familias no pobres por consumo. Para poder traer las lı́neas de pobreza establecidas en la ESSHO-2012 a unidades del Índice RSII se lo hace con un modelo de regresión lineal el cual tiene como variable dependiente el Índice RSII y como variable independiente el logaritmo natural del consumo per cápita, a partir de la ecuación generada se construyen los puntos de corte para definir las condiciones de bienestar de las familias. La ecuación es la siguiente [16]: I˜v = −45, 375 + 18, 472ln(consumo per cápita) (2.16) La correlación entre el Índice RSII y el consumo per cápita es 0, 63, el modelo de regresión lineal muestra un R2 = 0, 5551 con un 95 % de significancia, de esto se puede indicar que 0, 5551 es la proporción de la variabilidad de Iv es explicada por el modelo. Finalmente con el modelo (2.16) se fijan los puntos de corte para las lı́neas 35 de extrema vulnerabilidad y vulnerabilidad del Registro Social, utilizando las lı́neas de extrema pobreza y pobreza por consumo fijadas en la ESSHO-2012. En la siguiente tabla se presentan los puntos de corte según el Índice RSII: Punto crı́tico Valor medio del Valor consumo per cápita Índice RSII Lı́nea de Vulnerabilidad 76,2424 34,67905 Lı́nea de Extrema Vulnerabilidad 42,9797 24,08766 Tabla 2.4: Estadı́sticos Índice RSII [16] De lo anterior se establece tres estados de vulnerabilidad por Índice RSII, 1. Extrema Vulnerabilidad, núcleos familiares para los cuales Iv ∈ [0; 24, 08766] ⊂ R. 2. Vulnerabilidad, núcleos familiares para los cuales Iv ∈]24, 08766; 34, 67905] ⊂ R. 3. No Vulnerabilidad, núcleos familiares para los cuales Iv ∈]34, 67905; 100] ⊂ R. 36 del CAPÍTULO III RÉPLICA DEL ÍNDICE DEL REGISTRO SOCIAL (ÍNDICE RSII) Con el firme propósito de obtener una secuencia (de al menos 5 años consecutivos) de la probabilidad de encontrarse en cualquiera de los tres estados de vulnerabilidad definidos por el Registro Social según Índice RSII, y sabiendo que la actualización del Registro Social (MCDS) se realiza cada 5 años, se hace pertinente buscar un medio factible mediante el que se pueda efectivizar nuestro propósito. El Instituto Nacional de Estadı́stica y Censos (INEC) cuenta con una serie de datos anuales, de al menos 5 años seguidos a partir del año 2009, los cuales son levantados a través de la Encuesta Nacional de Empleo, Desempleo y Subempleo (ENEMDU) y se verifica que para nuestro propósito de réplica del Índice RSII cuenta con al menos el 85 % (29) de las variables que se usan para el cálculo. 37 3.1. Selección del instrumento El Índice del Registro Social 2013 como se menciona en la sección (2.2.1) del capı́tulo 2, utiliza para su cálculo 34 variables, con este insumo de las variables se busca un instrumento que presente las mencionadas variables y su periodicidad de levantamiento para la actualización de los datos sea al menos anual. 3.1.1. Encuesta Nacional de Empleo, Desempleo y Subempleo (ENEMDU) Antecedentes A partir de año 1985 el Instituto Nacional de Empleo (INEM), cuyo objetivo fue organizar y administrar un sistema permanente de información sobre el comportamiento de la fuerza de trabajo. Para cumplir con sus objetivos, el INEM estuvo a cargo de implementar el levantamiento de la Encuesta Permanente de Empleo y Desempleo en el área urbana del Ecuador. En 1993 se implementa la Encuesta Nacional de Empleo, Desempleo y Subempleo (ENEMDU), la cual desde ese entonces pasó a ser desarrollada por el Instituto Nacional de Estadı́stica y Censos (INEC) considerando la misma metodologı́a, periodicidad y representatividad que la antigua Encuesta Nacional Urbana sobre Empleo implementada por el INEM. El INEC, viene presentando trimestralmente (desde septiembre del 2003) datos de las variables más importantes del ámbito socioeconómico, en este caso las variables corresponden a información sobre Empleo, Desempleo y Subempleo, 38 además de aspectos demográficos como los ingresos de los hogares y caracterı́sticas de la vivienda. Marco conceptual La Encuesta Nacional de Empleo, Desempleo y Subempleo es una encuesta por muestreo a hogares integrado por personas de 5 años y más ejecutada por el Departamento de Estadı́stica de Hogares de la Dirección de Producción de Estadı́stica Sociodemográfica del INEC. La ENEMDU consta de información en las 23 provincias del Ecuador, de acuerdo a las siguientes regiones: Costa, Sierra y Amazonı́a; cada provincia con su división cantonal que la conforman las parroquias urbanas y rurales. Esta investigación se realiza con una muestra que representa a todos los hogares particulares dentro del territorio ecuatoriano. El objetivo principal es modelar el perfil social, demográfico y económico de la población total, en edad de trabajar, ocupada, desocupada, inactiva y del subempleo en el área urbana y rural del paı́s, a través de variables de carácter general como: sexo, edad, parentesco, nivel de instrucción, asistencia escolar, afiliación al seguro social, entre otros. También posibilita confeccionar secuencias anuales homogéneas de resultados. Adicionalmente, al ser las definiciones y criterios utilizados coherentes con los establecidos por los organismos internacionales que se ocupan de temas laborales, facilita la comparación con datos de otros paı́ses, y contribuye de manera permanente a la formación de una base de datos que facilite los estudios y seguimiento, para más información ver: [24]. 39 3.1.2. Identificación de variables en la ENEMDU Tomando los diccionarios de variables de las bases de datos disponibles en el Portal web del INEC, de tal manera que se toma como base de la réplica los datos anuales de la ENEMDU-2013 que es la base más actual con la que se cuenta al plantear este estudio, se verifica que de un total de 34 variables que participan en el modelo del Índice RSII, 29 se encuentran en la ENEMDU-2013. Se realiza este proceso de verificación en los datos de la ENEMDU de 5 años consecutivos ordenados de forma descendente y efectivamente se encuentran las 29 variables encontradas en el año base. De esta manera se plantea realizar la réplica del Índice RSII en las ENEMDU anuales a partir del año 2009 hasta el año 2013. En la tabla se muestra la cantidad de variables encontradas en las ENEMDU y agrupadas en 6 tipos, como en la figura (2.2) del capı́tulo 2: Tipo de variable N ◦ de variables en el N ◦ de variables Índice RSII encontradas en la ENEMDU Disponibilidad de bienes 9 8 Acceso a servicios 8 5 Educación 6 5 Vivienda 7 7 Composición familiar 2 2 Ubicación geográfica 2 2 Total 34 29 Tabla 3.1: Número de variables por tipo 40 los datos presentados en la tabla (3.1), muestran el número total de variables encontradas en los datos de la ENEMDU desde el año 2009 hasta el año 2013, las variables que no se encuentran son 5 y las cuales pertenecen al grupo de variables disponibilidad de bienes, acceso a servicios y educación, el aporte máximo al Índice RSII calculado para una determinada familia podrı́a ser de 16, 1 puntos y el aporte mı́nimo podrı́a ser 0 puntos. 3.2. Definición del modelo Para continuar se dá una definición matemática del Índice RSII, en efecto, sean V1 , V2 , . . . , V34 , las variables mediante las cuales se calcula el Índice RSII, note que cada Vk , k = 1, 2, . . . , 34, es una variable aleatoria, pues cada pregunta de una encuesta cualquiera es un experimento del cual no se sabe con certeza cual será su respuesta, aunque se sabe las posibles respuestas (en el caso de los planteamientos de preguntas de la ESSHO y del Registro Social), entonces se definen las variables de la siguiente manera: Vk :Ωk → R ωk → Vk (ωk ) = vk donde Ωk , k = 1, 2, . . . , 34, son espacios muestrales. Luego sean la funciones Pk , k = 1, 2, . . . , 34, que las llamaremos funciones ponderadoras tal que: Pk : R → R Vk (ωk ) → Pk (Vk (ωk )) = pk , la función anterior se puede interpretar como una función mediante la cual, una vez que se ha obtenido la respuesta a una pregunta cualquiera de la 41 encuesta (y se ha categorizado de ser necesario) se le asigna un valor numérico previamente estimado, datos que los llamamos anteriormente ponderadores o peso de la respuesta. Con las dos funciones Vk , Pk definidas previamente se puede ahora definir el Índice RSII Iv ası́: Iv : R34 → R (P1 (V1 (ω1 )), . . . , (P34 (V34 (ω34 ))) = m34 → Iv (m34 ) donde: Iv (m34 ) = 34 X (3.1) pk . k=1 Finalmente Iv :Ω1 × Ω1 × . . . × Ω34 → R (ω1 , ω2 , . . . , ω34 ) → Iv (ω1 , ω2 , . . . , ω34 ) El proceso precedente nos ha permitido presentar al Índice RSII como una función definida matemáticamente, note además que esta función Iv es una variable aleatoria. La siguiente ecuación es una descomposición del Índice RSII Iv , Iv (m34 ) = 29 X k=1 p̂k + 5 X p̃j . (3.2) j=1 Donde p̂k , k = 1, 2, . . . , 29, se refieren a las variables Vk que son parte del Índice RSII y se encuentran como tales en las ENEMDU en análisis y los p̃j , j = 1, 2, . . . , 5, se refieren a las variables Vj que son parte del Índice RSII y no se encuentran como tales en ninguna de las ENEMDU utilizadas. Usando la teorı́a de la regresión lineal múltiple buscaremos I˜v a partir de las Vk , k = 1, 2, . . . , 29, es decir se busca una aproximación del Índice RSII con 29 variables en lugar de las 34 que propiamente se usan para el cálculo: 42 3.2.1. Aplicación del modelo de regresión múltiple El modelo de regresión que liga nuestra variable que la llamaremos dependiente Iv con 29 variables independientes se expresa ası́: Iv (m34 ) = β0 + β1 p̂1 + β2 p̂2 + . . . + β29 p̂29 + e. (3.3) Estimación de los parámetros En la sección (2.2.1) se mencionó que sobre una muestra de 3,076 hogares representativos a nivel nacional se construyó el Índice RSII además cabe mencionar que la expansión representa 30 810,550 hogares del territorio nacional. Sobre estas mismas observaciones o registros de la población en las que además de las variables del Índice RSII se encuentra calculado el valor del Índice alcanzado con las valoraciones de las 34 variables completas, se realiza el análisis para hallar el modelo que se aproxime al Iv únicamente con 29 variables, en efecto utilizamos la herramienta STATA 12 para buscar el modelo por regresión lineal múltiple, utilizando el comando reg con la variable dependiente “puntaje trad” y las 29 variables que hallaremos posteriormente en las ENEMDU y a través de la cuales se réplica el Índice RSII para los años 2009-2013: I˜v (m34 ) = b0 + b1 p̂1 + b2 p̂2 + . . . + b29 p̂29 , (3.4) donde I˜v es la predicción del Índice Iv y bk , k = 0, 1, . . . , 29 son los estimadores de βk , k = 0, 1, . . . , 29, respectivamente. La figura siguiente muestra los resultados que se obtuvo directamente de STATA: 43 Linear regression puntaje_trad V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29 _cons Number of obs = 3076 F( 29, 3046) = 6021.09 Prob > F = 0.0000 R-squared = 0.9838 Root MSE = 2.0367 Coef. Std. Err. t 1,304996 1,299357 1,081948 1,032786 0,939935 1,004641 1,038640 1,183836 1,093077 0,913590 1,223936 0,876375 1,324340 0,964765 1,313719 1,213165 1,103733 1,184971 1,135000 1,285151 1,228420 1,050953 0,854241 1,024585 1,170650 1,237582 1,136523 1,093989 1,144354 -0,138207 0,060105 0,040001 0,056080 0,044244 0,052332 0,052010 0,048682 0,052375 0,041016 0,071791 0,047861 0,058203 0,049436 0,060176 0,045816 0,042109 0,051203 0,039957 0,050777 0,049922 0,059046 0,065464 0,087433 0,037567 0,047663 0,040522 0,043479 0,041151 0,053927 0,174918 21,71 32,48 19,29 23,34 17,96 19,32 21,34 22,60 26,65 12,73 25,57 15,06 26,79 16,03 28,67 28,81 21,56 29,66 22,35 25,74 20,80 16,05 9,77 27,27 24,56 30,54 26,14 26,58 21,22 -0,79 P>t [95% Conf. Interval] 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,43 1,187145 1,220925 0,971990 0,946034 0,837325 0,902663 0,943188 1,081142 1,012656 0,772827 1,130094 0,762253 1,227410 0,846776 1,223885 1,130601 1,003338 1,106625 1,035441 1,187267 1,112646 0,922595 0,682808 0,950925 1,077196 1,158129 1,051272 1,013302 1,038618 -0,481177 1,422847 1,377788 1,191906 1,119538 1,042545 1,106619 1,134092 1,286530 1,173499 1,054353 1,317779 0,990496 1,421271 1,082754 1,403553 1,295730 1,204128 1,263317 1,234560 1,383034 1,344195 1,179311 1,025673 1,098244 1,264105 1,317035 1,221774 1,174676 1,250090 0,204762 Figura 3.1: Estimación de los parámetros Validez de modelo Se obtuvo una ecuación lineal para Iv , entre los datos de la tabla precedente se encuentran los estimadores de los parámetros, y algunos estadı́sticos que se utilizan para determinar la validez del modelo por regresión lineal múltiple. Se inicia por verificar la validez de cada coeficiente o parámetro estimado, para lo cual se debe analizar la información que STATA presenta. Las hipótesis para probar la significancia de cualquier coeficiente bk del modelo obtenido 44 por regresión lineal, son las siguientes: H0 :bk = 0, H1 :bk 6= 0, lo que hay que mostrar es si las estimaciones del modelo son significativas, de tal forma que cada variable p̂k , k = 1, 2, . . . , 29, es relevante para explicar la variable de respuesta Iv , en efecto se debe contrastar si R2 y cada uno de los bk , k = 1, 2, . . . , 29, de la recta de regresión son significativamente distintos de cero, de esto se obtiene que existe una relación R2 y una dependencia con cada bk , k = 1, 2, . . . , 29, significativa entre las variables, para detalles de este tipo de análisis ver [15]. STATA, presenta datos para realizar la prueba t-student y aceptar o rechazar la hipótesis nula. En la tabla (3.1 ) se puede ver que la probabilidad que t se encuentre en el intervalo de confianza es relativamente 0 pues STATA para la prueba t-student con 95 % de confianza a las probabilidades menores que 0, 05 les pone cero, con lo que la hipótesis nula H0 se rechaza es decir bk = 0, k = 1, 2, . . . , 29, no es probable. Para verificar la validez del modelo en general se utiliza el coeficiente de determinación R2 , el valor obtenido es 0, 9838 y lo interpretamos ası́: el 98, 38 % de la variabilidad de Iv se explica por el modelo obtenido. Con lo antes expuesto el modelo de regresión lineal múltiple obtenido es válido, lo que resta es realizar un análisis del error del modelo y verificar que las hipótesis planteadas sobre este se cumplen, los términos de error e, son asumidos como variables independientes idénticamente distribuidas normal, con media 0. Veamos si el modelo refleja estas propiedades asumidas. Creamos una variable RES, la misma que presenta la diferencia entre el Iv y 45 dat Tuesday February 10 21:04:01 2015 1.024585 1.17065 1.237582 1.136523 1.093989 1.144354 -.1382072 rec_analfa_v1_13 rec_seguro_v1_13 rec_p_tvdvd_13 rec_celular_or_13 rec_tenen_viv_13 rec_desa_infan_13 _cons Page 2 .037567 .0476628 .0405219 .043479 .0411512 .0539267 .1749181 27.27 24.56 30.54 26.14 26.58 21.22 -0.79 0.000 0.000 0.000 0.000 0.000 0.000 0.430 .9509254 1.077196 1.158129 1.051272 1.013302 1.038618 -.4811766 1.098244 1.264105 1.317035 1.221774 1.174676 1.25009 .2047622 el I˜v , y luego calculamos su media y los indicadores para verificar si sigue una distribución 6normal. . end of do-file 7 . predict RES, resid 8 . sktest RES Skewness/Kurtosis tests for Normality Variable Obs Pr(Skewness) Pr(Kurtosis) 0.0000 0.0000 3.1e+03 RES adj chi2(2) joint Prob>chi2 . 0.0000 9 . mean RES Mean estimation Number of obs Mean RES -.0008069 Std. Err. .0362239 = 3076 [95% Conf. Interval] -.0718325 .0702186 10 . Figura 3.2: Estadı́sticos del los residuos Figura 3.3: Distribución de los residuos La media de la variable denominada error es cero y su distribución es normal, con lo que se verifica que esta variable cumple lo planteado como hipótesis. Con lo explicado en esta sección se ha verificado que el modelo es válido bajo los conceptos estadı́sticos utilizados, por lo que se puede utilizar para realizar la réplica del Índice RSII en las ENEMDU, utilizando únicamente 29 variables de las 34 utilizadas para calcular el Índice RSII real. Tomando el modelo (3.4) y con los coeficientes presentados en la tabla (3.1) se realiza la réplica del Índice RSII siguiendo el procedimiento establecido en la sección (3.2) para cada año desde el 2009 hasta el 2013. 46 Los resultados se presentan en la siguiente tabla: ENEMDU-ANUAL Estado de vulnerabilidad 2009( %) 2010( %) 2011( %) 2012( %) 2013( %) Extrema Vulnerabilidad 14,94 16,46 13,55 11,74 12,13 Vulnerabilidad 20,21 18,18 16,13 15,77 17,19 No Vulnerabilidad 64,85 65,36 70,32 72,49 70,68 Tabla 3.2: Réplica del Índice RSII En la tabla 3.2 se puede ver que la probabilidad de encontrarse en el estado de extrema vulnerabilidad ha disminuido entre los años 2009 y 2013. 47 CAPÍTULO IV ESTIMACIÓN DE ÍNDICE DE MOVILIDAD SOCIAL En este capı́tulo se desarrolla la metodologı́a para estimar la matriz de probabilidades de transición, la misma que muestra que tan factible es para un individuo pasar de un estado de Vulnerabilidad a otro. El Registro Social 2013 del Ecuador, plantea una sociedad con tres estados de vulnerabilidad (proxy de consumo) disjuntos, (S1 , S2 , S3 ), para hallar la matriz de transición, se usan las cadenas de Markov. Tome un individuo cualquiera del Ecuador, el mismo que en un tiempo dado t se encuentra en uno de los estados Sr , r = 1, 2, 3; el objetivo es estimar la probabilidad con la que este individuo pasa al estado Sj , j = 1, 2, 3; h periodos después, estas probabilidades de transición son también un ı́ndice de movilidad social. 48 4.1. Estimación de las probabilidades de transición con datos agregados Para la estimación del ı́ndice de movilidad a lo largo del tiempo t = 0, 1, 2, 3, 4; ponga nr (t) al número de individuos en el estado r, N (t) el tamaño de la muestra y pr (t) la probabilidad de encontrarse en el estado r, al tiempo t. Se utilizará el estimador de las probabilidades no condicionadas suponiendo que las muestras anuales de las ENEMDU utilizadas son independientes, de 3 P nr (t) y el estimador de las probabilidades [7]: lo anterior se tiene: N (t) = r=1 p̂r (t) = nr (t) N (t) (4.1) = yr (t), luego, de la teorı́a de probabilidades y de las propiedades derivadas de un proceso de Markov se tiene lo siguiente, sea {Xt }, t ∈ {0, 1, 2, 3, 4}, una cadena de Markov, P (Xt = sj ) = pj (t) = 3 X r=1 3 X P (Xt−1 = sr )P (Xt = sj /Xt−1 = sr ) pr (t − 1)prj (4.2) r=1 donde pj (t) y pr (t − 1), son probabilidades no condicionadas y de las que se puede obtener estimaciones a partir de datos agregados utilizando (4.1), de donde se tiene una estimación de (4.2), ası́: p̂j (t) = ⇒yj (t) = 3 X r=1 3 X p̂r (t − 1)prj + uj (t) yr (t − 1)prj + uj (t), r=1 49 j = 1, 2, 3, t = 1, 2, 3, 4 (4.3) la ecuación (4.3 ) es un modelo de regresión lineal múltiple, en el que yj (t) y yr (t − 1) son conocidos para t = 1, 2, 3, 4 y r, j = 1, 2, 3 y las prj , r, j = 1, 2, 3, son los parámetros a estimar. De la tabla (3.2) se tiene yj (t) para t = 0, 1, . . . , 4 y j = 1, 2, 3, en lo que sigue se muestra como queda el sistema de ecuaciones lineales para j = 1 fijo. t=1⇒ y1 (1) = y1 (0)p11 + y2 (0)p21 + y3 (0)p31 + u1 (1), t=2⇒ y1 (2) = y1 (1)p11 + y2 (1)p21 + y3 (1)p31 + u1 (2), t=3⇒ y1 (3) = y1 (2)p11 + y2 (2)p21 + y3 (2)p31 + u1 (3), t=4⇒ y1 (4) = y1 (3)p11 + y2 (3)p21 + y3 (3)p31 + u1 (4), entonces, 0, 1646 = 0, 1494p11 + 0, 2021p21 + 0, 6485p31 + u1 (1) 0, 1355 = 0, 1646p11 + 0, 1818p21 + 0, 6536p31 + u1 (2) 0, 1174 = 0, 1355p11 + 0, 1613p21 + 0, 7032p31 + u1 (3) 0, 1213 = 0, 1174p11 + 0, 1577p21 + 0, 7249p31 + u1 (4) Note que yj (t) y yj (z), son independientes para t 6= z, pues se a supuesto que las muestras son independientes en el tiempo t y z. A continuación se muestra el sistema de ecuaciones anterior en forma matricial: Y1 = A1 P1 + U1 : 0, 1646 0, 1494 0, 1355 0, 1646 = 0, 1174 0, 1355 0, 1213 0, 1174 0, 2021 0, 1818 0, 1613 0, 1577 0, 6485 u1 (1) p11 u1 (2) 0, 6536 p21 + 0, 7032 u1 (3) p31 0, 7249 u1 (4) (4.4) Similarmente se obtiene Y2 = A2 P2 + U2 y Y3 = A3 P3 + U3 , de manera general el problema se plantea de manera compacta como: Yj = Aj Pj , j = 1, 2, 3. 50 (4.5) De las propiedades de la matriz de transición (ver proposición 2.1), se tiene 3 P prj = 1, de donde, por ejemplo pr3 se obtiene de la siguiente manera: j=1 pr3 = 1 − 2 X prj , (4.6) j=1 en nuestro caso basta estimar 2 parámetros (en otros casos estimar número de estados menos 1 parámetros) y el tercero se estima utilizando la ecuación (4.6). Dado el modelo (4.5), se puede utilizar el método de Householder expuesto en el capı́tulo 2 sección (2.1.8), para hallar los estimadores de las probabilidades de transición y para hallar el resultado buscado utilizar programación no lineal por medio de la cual se busca Pj tal que kYj − Aj Pj k se minimice bajo las restricciones que los elementos del Pj estén entre 0 y 1. Dada la matriz Aj ∈ M4×3 que tiene rango R(Aj ) = 3 y se verifica mediante el comando rank en MATLAB, por teorema (2.2); Aj puede factorarse de la R forma A = QR̃, donde Q ∈ M4×4 [R] es una matriz ortogonal y R̃ = con 0 R ∈ M3×3 [R] una matriz triangular superior invertible. Se utiliza “MATLAB” para la implementación del algoritmo ya desarrollado para el método de Householder el mismo que lleva inmerso la programación no lineal. Se calculan P2 y P3 y en función de estos resultados se obtiene P1 : MATLAB, genera: 0, 0913 0, 4991 P2 = 0, 4039 y P3 = 0, 3934 0, 1227 0, 8168 51 Luego: 0, 4097 P1 = 0, 2031 0, 0603 Finalmente la matriz de transición es: 0, 4097 0, 0913 0, 4991 P = 0, 2031 0, 4039 0, 3934 0, 0603 0, 1227 0, 8168 (4.7) La matriz de transición precedente es una matriz para un perı́odo de 5 años, que equivale a un perı́odo en el que se actualiza el Registro Social ecuatoriano para verificar los posibles cambios en las condiciones de vida de las familias, la matriz de transición es un resultado muy importante en este trabajo y para el objetivo planteado que es el Índice de movilidad social. Cabe mencionar que los cambios de estado entre los Sr , depende mucho de las acciones que tome el estado sobre el sector Social, pues el acceso a la educación, servicios dignos, salud, vivienda-urbanización es lo que hace que las condiciones de una familia cambie y más si se mide a una determinada familia con el Índice RSII, por lo tanto, las probabilidades de cambio de estado depende mucho de las condiciones de vida actuales de una determinada familia. Sin embargo, lo que se quiere mostrar es el Índice de movilidad social del Ecuador para lo cual se utiliza el Índice de movilidad que propone Shorrocks(1978) [8]: P [n − j λj ] , M [P ] = (n − 1) 52 (4.8) donde: 0 ≤ M [P ] ≤ 1; n es el número de estados λ son los valores propios de la matriz de transición El ı́ndice de movilidad social es cero cuando la población no ha cambiado de estado es decir pjj = 1, j = 1, 2, 3, en cambio M [P ] = 1 muestra movilidad perfecta, note que este resultado muestra que existe una probabilidad alta de moverse a cualquier estado independiente del estado original. La traza de la matriz de transición mide el grado de correlación entre los estados, cuando el ı́ndice de movilidad tiende a cero hay mayor inmovilidad, lo que muestra que mientras pasa el tiempo aún si la composición familiar ha cambiado el estado de vulnerabilidad es heredado. De la matriz (4.7) se puede destacar que más de la mitad de la población que el año 2009 se encontraban en el estado de extrema vulnerabilidad en el año 2014 han cambiado su estado de vulnerabilidad y más aún se estima que el 49 % incluso han dejado de ser vulnerables, este es un reflejo de las acciones tomadas sobre la población que se encuentra en extrema vulnerabilidad, y sabiendo que la distribución de la población por Índice RSII en los años 2009 al 2013 sigue una distribución normal se puede mostrar que para un individuo que se encontraba en extrema vulnerabilidad en el 2009 es factible encontrarse en el estado de no vulnerabilidad en el año 2013. Note además que el Índice RSII divide a la población en tres estados de vulnerabilidad pero la distancia entre el punto de corte para la población que se encuentra en extrema vulnerabilidad y la población en vulnerabilidad es de 10, 6 puntos, para una mejor comprensión ver la figura (2.2). 53 Se presenta entonces el resultado de este estudio: M [P ] = [3 − (0, 4097 + 0, 4039 + 0, 8168) ] (2 − 1) ⇒M [P ] = 0,69, (4.9) es decir se verifica la existencia de movilidad social ascendente, sustentada además en la matriz de transición (4.7) en la cual se puede notar que es más probable para los individuos pasar a un mejor estado de condiciones de vida que pasar a uno de extrema vulnerabilidad o vulnerabilidad. En el anexo (4.1) puede ver entre los mapas de extrema vulnerabilidad como la incidencia de la misma disminuye, entre los años 2008 y 2013. Por otra parte en el mismo anexo puede ver como la incidencia de la población en No Vulnerabilidad aumenta. 54 CONCLUSIONES Y RECOMENDACIONES Conclusiones De la matriz (4.7) se puede destacar que más de la mitad de la población que el año 2009 se encontraban en el estado de extrema vulnerabilidad en el año 2014 han cambiado su estado de vulnerabilidad y más aún se estima que el 49 % incluso han dejado de ser vulnerables, este es un reflejo de las acciones tomadas sobre la población que se encuentra en extrema vulnerabilidad. El ı́ndice de Movilidad Social es M [P ] = 0,69 lo que muestra la existencia de movilidad social ascendente, sustentada además en la matriz de transición (4.7), en la cual se puede notar que es más probable para los individuos pasar a un mejor estado de condiciones de vida que pasar a uno de extrema vulnerabilidad o vulnerabilidad. Se genera una medida de impacto de la inversión social en el Ecuador y una matriz de transición que también es una medida de movilidad social y es útil para focalizar a la población que puede ser beneficiaria de los programas sociales. 55 Recomendaciones Para los años posteriores la presente publicación se puede aplicar la misma metodologı́a, considerando las lı́neas de pobreza deflactadas al año en consideración. El ı́ndice calculado, es estacionario da una medida de movilidad social entre los años 2009 y 2013, si se quiere evaluar la movilidad social en otro periodo se debe recalcular. Tome en cuenta que para generar ı́ndices comparables se deben calcular bajo la misma metodologı́a. Se puede mejorar el Índice, si se obtienen datos de la ENEMDU de paneles completos de población de una secuencia de años, pues cabe indicar que la ENEMDU actualmente se trabaja sobre paneles de población pero no se utiliza el panel completo periodo tras periodo y la población en dos periodos diferentes puede coincidir aproximadamente en la mitad. 56 BIBLIOGRAFÍA [1] R INC ÓN , L., (2007), Introducción a los procesos Estocásticos, México México, Departamento de Matemáticas - Facultad de Ciencias UNAM, pp. 5-84. [2] R INC ÓN , L., (2007), Curso intermedio de Probabilidad, México - México, Departamento de Matemáticas - Facultad de Ciencias UNAM, pp. 1-80. [3] R INC ÓN , L., (2007), Curso Elemental de Probabilidad y Estadı́stica, México México, Departamento de Matemáticas - Facultad de Ciencias UNAM. [4] Z ITKOVI Ć , G., (2010), Introduction to Stochastic Processes, Austin - Estados Unidos, Departament of Mathmatics The Univetsity of Texas at Austin, pp. 4-33. [5] Z AMORA -G ARC ÍA , T., (2010), Métodos de Regresión no Paramétrica en Muestreo en Poblaciones Finitas, Granada - España, Departamento de estadı́stica e investigación operativa, pp. 8-18. [6] G ALINDO - DE LA T ORRE , E., (2006), Estadı́stica Métodos y Aplicaciones, Quito - Ecuador, Prociencia Editores, pp. 81-100, 304-344. [7] B ALTAZAR , E.,A STUDILLO , S. Y M ALAVER C., (2003), Economı́a y Desarrollo, Bogotá - Colombia, Universidad Autónoma de los Andes, Vol. 2, pp. 119-156. 57 [8] S HORROCKS , A., (Sep., 1978), The Measurement of Mobility, New York Estados Unidos, Econométrica, Vol. 46, No. 5. Vol. 2, pp. 1013-1024. [9] B ENALC ÁZAR , H., (1994), Modelización y Simulación Numérica, Quito Ecuador. [10] G ROSSMAN , S., (1996), Álgebra lineal, Naucalpan de Juárez - Mexico, Vol. 5, pp. 1-457. [11] C ARRANZA , C. y C ISNEROS , V., (2014), Hacia un sistema de protección más inclusivo en el ecuador, Santiago de Chile - Chile, Polı́ticas Sociales Publicación de las Naciones Unidas, N 205, ISSN 1564 - 4162, pp. 17 - 37. [12] B ARTLE , G., (1995), The Elements of Integration and Lebesgue Measure, New York - Estados Unidos, Eastern Michigan University and University of Illinois, Wiley Classic Library, Jhon Wiley & Sons, INC., pp. 6-13 y 19-23. [13] L IMA , E., (1997), Análisis Real, Chile, Intituto de Matemática y Ciencias Afines, Colección de libros UNI, Vol 1., pp. 1-22 y 83-95. [14] DE LA H ORRA , J., Modelo de Regresión Simple, México - México, Departamento de Matemática de la UNAM, Colección de libros UNAM, pp. 5-12. [15] VARGAS , A., (1995), Estadı́stica Descriptiva e Inferencial, Castilla - La Mancha - España, Universidad de Castilla La Mancha, Vol. 2., pp. 183-198, 451-472. [16] U NIDAD DE A N ÁLISIS E I NFORMACI ÓN , (2014), Metodologı́a del Índice del Registro Social II, Quito-Ecuador, Ministerio Coordinador de Desarrollo Social, pp. 3-32. 58 [17] D ECRETO E JECUTIVO, (Ago. 2009), Decreto N ◦ 1877, Quito-Ecuador, Estado Ecuatoriano. [18] A CUERDO M INISTERIAL, (Ago. 2009), Acuerdo N ◦ 0016, Quito-Ecuador, Ministerio Coordinador de Desarrollo Social. [19] M INISTERIO C OORDINADOR DE D ESARROLLO S OCIAL, (2009), Decreto N ◦ 1877, Quito-Ecuador, Estado Ecuatoriano. [20] S ISTEMA I NTEGRADO -C ONSULTAS DE I NDICADORES S OCIALES T EM ÁTICAS -I NVERSI ÓN DEL E CUADOR S OCIAL -S ECTOR S OCIAL, Disponible en: http://www.siise.gob.ec/siiseweb/siiseweb. html?sistema=1# [21] STATA - T TESTS , Disponible en: http://www.stata.com/ manuals13/rttest.pdf [22] STATA - TEST , Disponible en: http://www.stata.com/manuals13/ rtest.pdf [23] STATA - L INEAR REGRESSION , Disponible en: http://www.stata. com/manuals13/rregress.pdf [24] A RCHIVO N ACIONAL Disponible en: DE D ATOS Y M ETADATOS E STAD ÍSTICOS , http://anda.inec.gob.ec/anda/index.php/ catalog/269/sampling 59 ANEXOS 60 Anexo 1 Lı́neas de pobreza y extrema pobreza de consumo La lı́nea de pobreza es el valor monetario de una canasta básica de bienes y servicios para una persona para un perı́odo determinado (una quincena-MCDS). Aquellos hogares cuyo consumo por persona es inferior a esta lı́nea son considerados “pobre”. La lı́nea de extrema pobreza o indigencia es el valor monetario de una canasta básica de bienes alimenticios, que refleja el costo necesario para satisfacer los requerimientos nutricionales mı́nimos. La norma frecuentemente utilizada es de 2.141 kilo calorı́as/persona/dı́a. Aquellos hogares cuyo consumo no alcanza a cubrir ni siquiera los requerimientos nutricionales mı́nimos son considerados “indigentes”. Fundamento El método indirecto de medición de la pobreza (Desigualdad y pobreza) considera el nivel o magnitud de la capacidad adquisitiva (o de consumo) de una persona o de un hogar. Se trata de un método indirecto ya que el ingreso o el consumo permiten el acceso a las necesidades de vida pero en sı́ mismo no mide el nivel y calidad de vida alcanzados. El lı́mite de la pobreza extrema o la llamada “lı́nea de la indigencia”, constituye el consumo necesario para cubrir el costo de una canasta alimenticia que satisfaga los requerimientos nutricionales mı́nimos de una persona. Es decir, se considera que están en una situación de pobreza extrema o indigencia las personas cuyo consumo no les permite alcanzar esta canasta o que no pueden ni siquiera satisfacer sus necesidades alimenticias mı́nimas. Siguiendo la misma lógica, se determina un lı́mite de la pobreza o satisfacción de las necesidades básicas más allá de 61 los alimentos. A este lı́mite se lo denomina “lı́nea de la pobreza” y para determinarlo se multiplica el valor de la canasta alimenticia básica por el inverso de la participación del consumo de alimentos en el consumo total o el ´´coeficiente de Enge”. La lı́nea de pobreza, vale repetir, equivale al costo de los bienes y servicios necesarios para satisfacer las necesidades básicas, incluyendo alimentación, vestido, vivienda, educación y servicios básicos. En suma, según el método indirecto, una persona o un hogar es indigente, cuando su consumo está por debajo de la lı́nea de indigencia, es decir cuando no puede ni siquiera satisfacer sus necesidades alimenticias; en tanto que es pobre, cuando su consumo está por debajo de la lı́nea de pobreza, es decir cuando no puede satisfacer sus necesidades básicas (alimentación, educación, vivienda, vestido y servicios básicos). Fuente:MCDS, INEC 62 Anexo 2 REPLICA DEL ÍNDICE RSII-MCDS 2014 EN LAS ENEMDU-INEC 2009-2013 Vulnerabilidad según RS 2014 Freq. Percent Cum. 2013 Extremadamente Vulnerable Vulnerable No vulnerable 1,925,074 2,728,071 11219610.7 12.13 17.19 70.68 12.13 29.32 100.00 Total 15,872,755 100.00 0 .005 .01 Density .015 .02 .025 AÑO 0 40 puntaje_RS2014 60 80 Freq. Percent Cum. Extremadamente Vulnerable Vulnerable No vulnerable 1,723,267 2,315,485 10643804.2 11.74 15.77 72.49 11.74 27.51 100.00 Total 14682556.5 100.00 .005 .01 Density .015 .02 .025 Vulnerabilidad según RS 2014 0 2012 20 0 20 40 puntaje_RS2014 60 63 80 Freq. Percent Cum. Extremadamente Vulnerable Vulnerable No vulnerable 1,961,393.8 2,335,326 10181409.4 13.55 16.13 70.32 13.55 29.68 100.00 Total 14478129.3 100.00 0 .005 .01 Density .015 .02 .025 2011 Vulnerabilidad según RS 2014 0 20 40 puntaje_RS2014 60 80 2010 Freq. Percent Cum. Extremadamente Vulnerable Vulnerable No vulnerable 2,350,150 2,596,562 9,332,740 16.46 18.18 65.36 16.46 34.64 100.00 Total 14279452.3 100.00 0 .005 .01 Density .015 .02 .025 Vulnerabilidad según RS 2014 0 20 40 puntaje_RS2014 60 64 80 2009 Freq. Percent Cum. Extremadamente Vulnerable Vulnerable No vulnerable 2,102,030 2,845,047 9,126,248 14.94 20.22 64.85 14.94 35.15 100.00 Total 14073325.5 100.00 0 .005 .01 Density .015 .02 .025 Vulnerabilidad según RS 2014 0 20 40 60 puntaje_RS2014 Fuente: ENEMDU-INEC 2009-2013 RS-MCDS-2014 Elaborado por : La autora 65 80 100 Anexo 3 Resultados de transición entre los estados de vulnerabilidad Elaborados realizando cruce de datos por cédula de identidad entre las bases del Registro Social 2008 y 2014. Estados de Vulnerabilidad 2014 1,00 Extremadame nte vulnerable 2,00 Vulnerable 3,00 No Vulnerable % del N de fila % del N de fila % del N de fila Estados de 1,00 Vulnerabilidad Extremadame 2008 nte vulnerable 2,00 Vulnerable 3,00 No Vulnerable 44,6% 39,2% 16,2% 10,3% 41,5% 48,3% 2,1% 12,3% 85,6% Distribución de los núcleos familiares resgistrados en el Registro Social 2008 y encontrados en el Registro Social 2024 SEGÚN INDICE RSI(2008) 66 Distribución de los núcleos familiares resgistrados en el Registro Social 2008 y encontrados en el Registro Social 2024 SEGÚN INDICE RSII(2014) Fuente:RS 2008 y 2014 MCDS Elaborado por: La autora 67 Anexo 4 Anexo 5 68 69 Anexo 6 70 71 Memorando Nro. MCDS-SGI-2015-0158-M Quito, D.M., 06 de mayo de 2015 PARA: Srta. Viviana Pujos Asistente de Logística Para Operativos de Campo ASUNTO: Autorización De mi consideración: En referencia al Memorando MCDS-MCDS-2014-0524, en el que se autoriza a usted Srta. Viviana Isabel Pujos Culque CI.180448193-3 actual funcionaria del Ministerio Coordinador de Desarrollo Social, en el cual se menciona: "De acuerdo a su solicitud, en la que requiere acceso a la metodología del índice del Registro Social, es importante señalar que esta información ha sido considerada por ésta Cartera de Estado como confidencial, y se continuará clasificándola con este tratamiento en virtud de la sensibilidad de informar sobre los parámetros que califican la vulnerabilidad en el índice" y por otra parte indica que los resultados de la tesis de Pre-grado deben ser revisados previa su publicación "se sujeta a que los resultados sean validados primero al interno del Ministerio Coordinador de Desarrollo Social- MCDS". Debo indicar que los resultados presentados han sido validados y el trabajo escrito realizado para la publicación cumple con los lineamientos establecidos por el Ministerio Coordinador de Desarrollo Social. Por otra parte en virtud de la autorización recibida desde la máxima autoridad de esta cartera de estado, autorizo a usted Srta. Viviana Isabel Pujos Culque, autora intelectual del estudio para su tesis de pregrado "Índice de Movilidad Social en el Ecuador derivado del Índice Registro Social II", proseguir con los trámites para la defensa oral de su trabajo escrito y la publicación de los resultados según los lineamientos establecidos por la Universidad Central del Ecuador. Es importante mencionar que una vez concluya sus trámites para la defensa de su tesis, el Ministerio Coordinador de Desarrollo Social, utilizará esta información como aporte a las ivnestigaciones que realiza sobre esta temática. Con sentimientos de distinguida consideración. Atentamente, 1/2 * Documento generado por Quipux 72 Memorando Nro. MCDS-SGI-2015-0158-M Quito, D.M., 06 de mayo de 2015 Documento firmado electrónicamente Ing. Katy Lema DIRECTORA DE ANÁLISIS Y ESTADÍSTICAS 2/2 * Documento generado por Quipux 73