Diseño muestral Impuestos IRPF (Categoría II) e IASS. Tabla de Contenidos INTRODUCCIÓN 3 1. DISEÑO MUESTRAL IRPF (CATEGORÍA II) – OPCIÓN PERSONAL 4 1.1 Marco muestral 4 1.2 Diseño 4 1.3 Ponderadores calibrados 5 2. DISEÑO MUESTRAL IRPF (CATEGORÍA II) – OPCIÓN NÚCLEO FAMILIAR 7 2.1 Marco Muestral 7 2.2 Diseño 7 2.3 Ponderadores calibrados 8 3. DISEÑO MUESTRAL IASS 8 3.1 Marco Muestral 8 3.2 Diseño 8 3.3 Ponderadores calibrados 9 ANEXO 1. CONCEPTOS BÁSICOS Y CALIBRACIÓN. 10 ANEXO 2 NOTA PARA LOS USUARIOS 16 ANEXO 3 DICCIONARIO DE VARIABLES 17 BIBLIOGRAFÍA 20 2 Introducción1 El Instituto Nacional de Estadística (INE) y la Dirección General de Impositiva (DGI) seleccionaron muestras aleatorias representativas de las Bases de Datos de la DGI de los Impuestos IRPF (Categoría II) e IASS. Las muestras correspondientes son de uso público de acuerdo a las normas que regulan el secreto estadístico y el tributario. El objetivo es entregar un insumo imprescindible (que actualmente no se encontraba disponible) para los investigadores y diseñadores de políticas para evaluación del impacto económico y social del sistema tributario, al tiempo que serán de utilidad para la evaluación y diseño de políticas públicas en otras áreas. A su vez, dichas muestras pueden utilizarse como insumo para usuarios de otras muestras, por ejemplo, la Encuesta Continua de Hogares (ECH), que deseen ayudar a sus estimaciones con información auxiliar extraída de las muestras de IRPF e IASS. Se le brinda a los usuarios bases de datos con un tamaño lo suficientemente grande, para que los mismos puedan realizar sus propias estimaciones con buenos niveles de precisión (dependiendo de la apertura) y a su vez, preservar el secreto tributario y poder trabajar con una base de datos reducida que pueda ser utilizada sin la necesidad de un software específico, bastando únicamente con una planilla electrónica. En el siguiente documento se detallan los diseños muestrales utilizados para la selección de las muestras de IRPF e IASS y la metodología empleada para el cálculo de los ponderadores finales. En el caso del IRPF – Categoría II, la muestra contiene dos secciones (con archivos separados), correspondientes a las distintas opciones de tributación del impuesto: opción personal, opción núcleo familiar. Finalmente, se hace una breve reseña técnica de los diseños muestrales y los estimadores utilizados y el modo correcto de tratar las muestras en los software de uso extendido utilizados por los investigadores de nuestro país. 1 El siguiente documento fue elaborado por Juan Pablo Ferreira, Instituto Nacional de Estadística 3 1. Diseño muestral IRPF (Categoría II) – Opción Personal 1.1 Marco muestral El marco muestral corresponde a la base de IRPF Categoría II – Opción Personal. El tamaño del mismo es de 1.210.506 personas, que según las bases de datos de la DGI perciben rentas comprendidas en este impuesto. La información contenida en el marco muestral corresponde a datos demográficos de la persona (sexo, edad), fuente de empleo, total de ingresos percibidos, total de deducciones, monto devengado del impuesto, e información sobre la actividad económica principal declarada por el empleador en donde la persona desempeña sus tareas (hasta seis clases de actividad). En base a dicho marco muestral se seleccionó una muestra probabilística. 1.2 Diseño La muestra se seleccionó al azar mediante un muestreo estratificado. Los estratos del diseño muestral reconocen tres dimensiones: - Tramo etáreo del individuo (menor de 25 años, entre 25 y 34 años, entre 35 y 44 años, entre 45 y 54 años, 55 años o más). - Sexo del individuo. - La fuente de renta del individuo. Teniendo en cuenta la interacción de las tres variables definidas anteriormente, el número total de estratos asciende a cuarenta. El objetivo de dicha estratificación es tener un tamaño de muestra controlado para las posibles aperturas a llevar a cabo por los usuarios y la construcción de los mismos no sigue ningún criterio de optimización para minimizar la variación de los estimadores. En cada uno de los estratos del diseño definidos se seleccionó una muestra bajo un muestreo aleatorio simple sin reposición. El tamaño de muestra en cada uno de los estratos es determinado de manera independiente para obtener un error relativo menor al 4% y con un nivel de confianza del 95 % para estimar el total de ingresos percibidos por los individuos en el estrato nh 1.96 2 N h2 S h2 2 1.96 2 N h S h2 1 , donde N h es el tamaño del estrato, S h2 es la varianza poblacional de la variable auxiliar total de ingreso percibido por el individuo en el estrato h , 1.96 es el valor de la distribución normal estándar que acumula el 0.975 de probabilidad y es la precisión fijada. Bajo los requerimientos anteriores el tamaño de muestra es de 61.811 casos (una tasa de muestreo del 5% aproximadamente). 4 En los cuadros 1 y 2 se muestra la distribución de las personas entre hombres y mujeres, en tramos de edad y en función de las fuentes de rentas. Las mismas se desglosan de la siguiente manera: Única renta dependiente: perciben rentas por trabajo en relación de dependencia de un solo empleador. Independiente: percibe una o varias rentas por trabajo fuera de la relación de dependencia. Multirenta dependiente: perciben rentas por trabajo en relación de dependencia de varios empleadores. Independiente-Dependiente: perciben rentas por trabajo en relación de dependencia y fuera de la misma. Cuadro 1: Tamaño de muestra para los hombres por fuentes de rentas según tramos de edad. Fuentes de Rentas Tramos de Edad Total Total Menor de 25 25 – 34 35 – 44 45 - 54 55 o + 35.079 3.638 6.174 8.605 7.603 9.059 Única renta dependiente Independiente 12.881 1.949 2.220 2.639 2.522 3.551 Multirenta dependiente Independiente 13.275 1.218 2.206 3.770 3.035 3.046 3.173 178 698 773 753 771 5.750 293 1.050 1.423 1.293 1.691 /Dependiente Fuente: Dirección General de Impositiva Cuadro 2: Tamaño de muestra para las mujeres por fuentes de rentas según tramos de edad. Fuentes de Rentas Tramos de Edad Total Total Menor de 25 25 – 34 35 – 44 45 - 54 55 o + 26.732 3.382 5.355 6.244 5.775 5.976 Única renta dependiente Independiente 10.764 1.691 2.135 2.371 2.207 2.360 5.216 275 1.050 1.236 1.298 1.357 Multirenta dependiente Independiente 7.955 1.216 1.514 1.933 1.646 1.646 2.797 200 656 704 624 613 /Dependiente Fuente: Dirección General de Impositiva 1.3 Ponderadores calibrados Dada la posibilidad de conocer los valores que toman todas las variables de interés para todos los individuos de la población, se utilizaron ponderadores calibrados2, los cuales permiten obtener estimadores de mayor precisión. 2 Ver Anexo 1 5 Los ponderadores calibrados se obtienen de modificar los ponderadores provenientes del diseño muestral, en base a la información auxiliar disponible. Dichos ponderadores estiman sin error los totales de las variables auxiliares utilizadas para su cálculo, es decir, las estimaciones coinciden con los totales poblaciones de las variables utilizadas para su cálculo. En este caso, las variables auxiliares coinciden con las variables de interés. Las variables auxiliares utilizadas para el cálculo de los ponderadores calibrados son: - Total de ingresos percibidos en el año. - Total de deducciones. - Total del impuesto devengado. A su vez, se definieron cuatro subpoblaciones (mutuamente excluyentes) para los totales de las variables anteriores, denominados grupos de calibración3, los cuales se encuentran definidos por el tipo de fuentes de rentas de los individuos: - única renta independiente - multirenta dependiente - independiente - independiente/dependiente El sistema de ponderadores calibrados obtenidos estima sin error4 el total de ingresos, deducciones e IRPF según las fuentes de rentas. A modo de ejemplo, en el siguiente gráfico se presenta la modificación de los ponderadores provenientes del diseño muestral (ponderadores originales) y los calibrados. Grafico1: Ponderadores calibrados respecto a los ponderadores originales 3 Estevao, V.; Särndal C. (2004) “Borrowing Strength Is Not the Best Technique Within a Wide Class of Design – Consistent Domain Estimators”. Journal of Official Statistics, Vol 20, No 4. 4 Es decir las estimaciones coinciden con la base de IRPF (Categoría II) – Opción Personal. 6 Los sorteos de las muestras y el cálculo de los ponderadores calibrados de las mismas se llevan a cabo en el software libre R5 utilizando los paquetes Sampling6 y Survey7 respectivamente. 2. Diseño muestral IRPF (Categoría II) – Opción Núcleo Familiar 2.1 Marco Muestral El marco muestral corresponde a la base de IRPF – Categoría II Opción Núcleo Familiar correspondiente al año 2009. El tamaño del mismo es de 8.758 núcleos familiares declarados ante la DGI. La información contenida en el marco corresponde a datos demográficos de los integrantes del núcleo (sexo y edad), total de ingresos percibidos y total de deducciones por integrante, y monto devengado del impuesto. 2.2 Diseño El diseño es aleatorio estratificado con asignación proporcional. Los estratos del diseño son conformados en base a las edades de los integrantes que componen el núcleo familiar. Entonces, los estratos reconocen dos dimensiones: - La edad del retenido. - La edad del cónyuge. En base a lo anterior se construyeron nueve estratos, los cuales se conforman al utilizar tres tramos etáreos, menor de 35 años, entre 35 y 49 años y más de 50 años. Al igual que en los diseños anteriores, dicha estratificación no sigue ningún criterio de optimización. En cada uno de los estratos del diseño se seleccionó una muestra independiente bajo un muestreo aleatorio simple. El tamaño de muestra total es de 3.016 núcleos familiares. Cuadro 3: Tamaño de muestra por tramo de edad del cónyuge, según tramo de edad del retenido Tramo de edad retenido Menor de 35 años 35 - 49 años 50 o más años Tramo de edad cónyuge Menor de 35 años 35 - 49 años 378 54 733 596 553 129 50 o más años 17 85 471 Fuente: Dirección General de Impositiva 5 R Development Core Team (2009). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org. 6 Yves Tillé and Alina Matei (2009). sampling: Survey Sampling. R Packaged version 2.2. 7 T. Lumley (2009) "survey: analysis of complex survey samples". R package version 3.16. 7 2.3 Ponderadores calibrados Al igual que para la muestra de de IRPF (Categoría II) – Opción Personal se utilizaron ponderadores calibrados, las variables auxiliares utilizadas son: - Total de ingresos percibidos por el retenido y el cónyuge. - Total de deducciones del retenido y el cónyuge. - Total del impuesto devengado del núcleo familiar. - Tamaño de los estratos del diseño muestral. Para este caso, no se utilizaron grupos de calibración debido a que el tamaño de muestra es pequeño respecto a la muestra de IRPF (categoría II) –opción personal, debido a que los ponderadores calibrados se alejaban considerablemente de los ponderadores provenientes del diseño muestral. Los ponderadores calibrados estiman sin error el total de ingresos y total de deducciones para los retenidos y los cónyuges, total de IRPF y la estructura de edades de los núcleos familiares respetando los tramos etáreos del cuadro 3. 3. Diseño muestral IASS 3.1 Marco Muestral El marco muestral corresponde a la base de datos de IASS del 2009. El tamaño del mismo es de 642.492 personas, que según las bases de datos de la DGI perciben rentas comprendidas en este impuesto. Las variables auxiliares contenidas en el marco corresponde a datos demográficos del informante (sexo y edad), el tipo de caja al que aporta, total de ingresos percibidos en el año y monto devengado del impuesto. 3.2 Diseño Al igual que en las muestras anteriores, el diseño muestral implementado es aleatorio y estratificado. Los estratos del diseño reconocen tres dimensiones: - El sexo del individuo. - Tipo de Caja a la cual aporta el individuo: BPS, “demás cajas” (comprende a Caja Militar, Caja Policial, Caja Bancaria, Caja de Profesionales) y “varias cajas” (si el individuo aporta a más de una caja). 8 - Si el individuo es o no perceptor de pensión por fallecimiento de los padres (hasta los 21 años). Teniendo en cuenta la interacción de las tres variables anteriormente descritas, se conformaron doce estratos. En cada uno de los mismos se selecciona de forma independiente una muestra aleatoria simple sin reposición. El tamaño de muestra total se definió teniendo como punto de partida la tasa de muestreo fijada para la muestra de IRPF - Categoría II Opción Personal, bajo los requisitos anteriormente descritos. El tamaño de muestra por estrato se asignó de manera proporcional, dado que estos estratos no presentan estructuras muy diferenciadas en las variables de interés, ajustando posteriormente en aquellos estratos en donde el tamaño de muestra no era lo suficientemente grande (utilizando la asignación proporcional). El tamaño de muestra es de 45.098 casos. Cuadro 4: Tamaño de muestra por sexo y pensión según tipo de caja. Tipo de Caja Total Hombres Mujeres Pensión por fallecimiento Pensión por fallecimiento SI NO SI NO Total BPS Demás Cajas 45.098 38.926 3.592 901 741 40 16.888 13.699 2.440 702 542 40 26.607 23.944 1.072 Varias Cajas 2.580 120 749 120 1.591 Fuente: Dirección General de Impositiva 3.3 Ponderadores calibrados Las variables auxiliares utilizadas para la calibración son: - Total de ingresos percibidos en el año. - Total del impuesto devengado. - Si el monto devengado del impuesto de IASS es mayor que cero. A su vez, dichas variables auxiliares se definieron para tres subpoblaciones (grupos de calibración) definidas por el tipo de caja. Entonces, el sistema de ponderadores obtenido estima sin error el total de ingresos, monto devengado del impuesto y el número de contribuyentes según el tipo de caja (BPS, Demás Cajas y Varias Cajas). 9 Anexo 1. Conceptos básicos y calibración. En este anexo se presentan conceptos básicos de estimación en poblaciones finitas, el tipo de muestreo implementado en este documento. Luego se describe brevemente el método de estimación calibrada en general. Sea U 1,..., k ,..., N la población objeto de estudio, la cual tiene N elementos. De la población U se toma una muestra probabilística s , de tamaño ns , según un diseño cualquiera p(.) . El individuo k es incluido en la muestra con una probabilidad k Pk s 0 (diseño aleatorio). El inverso de la probabilidad de inclusión ak 1 / k es el ponderador muestral o ponderador del diseño del individuo k . Los individuos k y l son incluidos en la muestra con probabilidad kl Pk y l 0 (diseño medible) y sea akl 1 / kl . La variable de interés se denota como y , y yk el valor que toma en el individuo k . En muestreo de poblaciones finitas, el objetivo es estimar el total de la variable de interés t yk , o su media poblacional yU yk / N . kU kU Bajo un diseño aleatorio, el estimador Horvitz-Thompson ( tˆHT ) es insesgado para estimar t yk y viene dado por kU tˆHT ak yk . (1) V (tˆHT ) ak al / akl 1 y k yl . (2) ks Su varianza viene dada como k U lU Un estimador insesgado de la misma es Vˆ (tˆHT ) ak al akl yk yl . (3) k s ls Bajo un diseño simple de tamaño n de una población de N individuos, el ponderador muestral es ak N / n y akl N ( N 1) / n(n 1) . El estimador Horvitz-Thompson es tˆHT ak yk Ny s , (4) ks donde y s n 1 y k es la media muestral de la variable y . ks La varianza definida en (2) y el estimador de la misma en (3) toman la forma V (tˆHT ) N 2 (1 f ) S y2U n 1 , (5) 10 Vˆ (tˆHT ) N 2 (1 f )S y2S n 1 , donde f n/ N es la tasa de muestreo, (6) S y2U ( N 1) 1 ( yk yU ) 2 y kU S y2S (n 1) 1 ( yk y s ) 2 son la varianza poblacional y muestral respectivamente de la ks variable y . La eficiencia del estimador Horvitz-Thompson recae en la elección de las probabilidades de inclusión que dan lugar a los ponderadores ak y los cuales deben contemplar en lo posible los valores que toman los individuos en las variables de interés. Dentro de está línea, los diseños estratificados permite probabilidades de inclusión diferentes (entre otras propiedades). La población U , se particiona en U1 ,...,U h ,...,U H , subpoblaciones llamadas estratos, donde N h es el tamaño del estrato h y t h y k es el total de la variable y en el estrato kU h H H h . Entonces, se tiene que N N h y t t h . h 1 h 1 Dentro de cada estrato U h se selecciona una muestra aleatoria de forma independiente sh , de tamaño nsh , bajo un diseño ph (.) . Entonces, el estimador Horvitz-Thompson para el total de la variable y , es la suma de los estimadores poblacionales por estrato H H tˆHT tˆHTh ak yk . h 1 (7) h 1 k S h La varianza del estimador viene dada por H H V tˆHT V (tˆHTh ) ak al / akl 1 yk yl . h 1 (8) h 1 kU h lU h De la misma forma, un estimador insesgado de la varianza es H H Vˆ tˆHT Vˆ (tˆHTh ) ak al akl yk yl . h 1 (9) h 1 ksh l s h El muestreo estratificado simple, consiste en seleccionar una muestra para cada estrato de tamaño nh bajo un diseño simple, luego el estimador Horvitz-Thompson viene dado como H H h 1 h 1 tˆHT tˆHTh N h yS h , (10) donde y Sh nh1 yk es la media muestral en el estrato h . ks h 11 La varianza del estimador de la ecuación (8) toma la forma H H h 1 h 1 V tˆHT V (tˆHTh ) N h2 (1 f h )S y2Uh nh1 , (11) donde S y2Uh ( N h 1) 1 ( yk yUh ) 2 es la varianza poblacional del estrato h y f h N h / nh k U h es la tasa de muestreo en el estrato h . Finalmente, el estimador de la varianza de la ecuación (9) es H H h 1 h 1 Vˆ tˆHT Vˆ (tˆHTh ) N h2 (1 f h )S y2Sh nh1 , (12) donde S y2Sh (nh 1) 1 ( y k y Sh ) 2 es la varianza muestral en el estrato h . k sh Calibración Los estimadores calibrados tienen un rol preponderante en la estimación basada en el diseño. Los mismos bajo ciertas condiciones, permiten obtener estimadores de mayor precisión. El requisito fundamental es disponer de información auxiliar potente, es decir que, se encuentre correlacionada con las variables de interés, en donde los totales de las mismas son conocidos a nivel de la población. El objetivo es encontrar un nuevo sistema de ponderadores (ponderadores calibrados) que sea congruente con la información auxiliar, dicho sistema de ponderadores estima sin error los totales de las variables auxiliares utilizadas para su construcción. Lo anterior es una propiedad deseable, debido a que brinda coherencia a las estimaciones. Para estimar el total de la variable de interés y , t yk se cuenta con t x el vector de kU totales poblacionales de las variables auxiliares. El estimador calibrado viene dado como tˆcal wk yk , (13) k s donde wk es el ponderador calibrado del individuo k perteneciente a la muestra s y depende de la información auxiliar utilizada y cumplen con w x k k s k xk t x , (14) kU llamada ecuación de calibración, donde x es el vector de información auxiliar de dimensión J y x k el valor que toma x para el individuo k. Existen dos enfoques comúnmente utilizados para construir el nuevo sistema de ponderadores que cumplan con la ecuación (14): i) El de la minimización de la distancia8 y 8 Deville, J.C. y Särndal, C.E. (1992). Calibration Estimators in Survey Sampling. Journal of the American Statical Association 87, 376-382. 12 (ii) el enfoque funcional9 (método optado en este trabajo). En ambos casos la expresión final del estimador es la misma aunque con distintos sistemas de ponderadores y por ende con distintas propiedades. Bajo el enfoque funcional, los ponderadores calibrados son definidos como wk ak (1 λ ' z k ) , (15) donde ak N h / nh es el ponderador del diseño para el individuo k perteneciente al estrato h (bajo el diseño implementado en esté trabajo), z k es un vector instrumental (vector de instrumentos) con valores definidos para todos los individuos de la muestra y tiene la misma dimensión que el vector de información auxiliar x k y el vector λ es determinado utilizando las ecuaciones de calibración w x k k s k xk t x . kU El estimador calibrado queda definido como tˆcal wk y k ak (1 ' z k ) yk , ks k s donde 1 ' λ ' t x ˆt xHT a k z k x' k , ks y ' ' H H H tˆ xHT ak x1k ,..., ak x jk ,..., ak x Jk N h x1h ,..., N h x jh ,..., N h x Jh , ks ks h1 h 1 ks h1 es el estimador Horvitz – Thompson bajo un muestreo estratificado simple para t x x k , donde x jh es la media muestral en el estrato h para la j-ésima variable auxiliar. kU El estimador calibrado puede escribirse como el estimador Horvitz – Thompson más un término de ajuste ˆ tˆ cal tˆHT t x ˆt xHT R , donde 1 ˆ a z x ' a z y . R k k k k k k ks ks El estimador calibrado es aproximadamente insesgado, dado que el primer término corresponde al estimador Horvitz – Thompson el cual es insesgado para t y el segundo término (no lineal) es aproximadamente insesgado de cero. 9 Estevao.M. y Särndal. C (2000). A functional form approach to calibration. Journal of Oficial Statistics 16, 379-399. 13 Dada la no linealidad del estimador calibrado, la aproximación de la varianza del mismo bajo los diseños muestrales implementados en este trabajo viene dada por H AV tˆ N 1 f S 2 h cal h 2 Eh nh1 , (16) h 1 1 donde S E2h N h 1 E k EU h 2 es la varianza poblacional en el estrato h de los kU h 1 residuos poblacionales E k y k x'k R , donde R z k xk z k yk y EU h N h1 Ek k U h kU kU es la media poblacional de los residuos en el estrato h . Un estimador de la varianza del estimador calibrado viene dado por H Vˆ (tˆcal ) N h2 1 f h S e2h nh1 , (17) h 1 1 donde S e2h nh 1 e k eS h 2 es la varianza muestral en el estrato h de los residuos k sh muestrales ek y k x'k Rˆ , eSh nh1 ek es la media muestral de los residuos en el estrato k S h h. La eficiencia de los estimadores calibrados para la estimación en subconjuntos población (dominios) depende del nivel de desagregación de la información auxiliar utilizada en la ecuación de calibración, lo que permite un abanico amplio de formas de calibrar. Los ponderadores calibrados estiman sin error los totales de las variables auxiliares de los denominados grupos de calibración (subconjuntos de la población que pueden coincidir o no con el dominio de interés). Dado que un único sistema de ponderadores es utilizado para brindar estimaciones de todas las variables de interés así como para todos los subconjuntos que el investigador desee estudiar, la información auxiliar contenida en la ecuación de calibración debe estar desagregada lo mayor posible, siempre y cuando esto no signifique modificar demasiado los ponderadores originales. Entonces, la población U , es particionada en I grupos de calibración, denotados como U Ci , (i 1,..., I ) , en donde el dominio de interés, puede: (i) coincidir con un grupo de calibración, (ii) estar incluido en un único grupo de calibración o (iii) intersectar varios de ellos. Se define Ci la variable indicadora de pertenencia a la i -ésimo grupo de calibración y Cik 1 si el individuo k pertenece a U Ci y 0 en otro caso. Teniendo en cuenta lo definido anteriormente, el vector de información auxiliar utilizado para la calibración tiene dimensión I J y viene dado como x 0 k C1k x k ,..., Ci k x k ,...., CI k x k 14 y el vector de totales poblacionales es t0x x k ,...., x k ,...., x k . kU kU Ci kU C I C1 Para el cálculo de los ponderadores calibrados en esté trabajo el vector de instrumentos z k se definió igual que el vector de información auxiliar x 0 k , lo cual coincide con el estimador de regresión asumiendo homoscedasticidad. Entonces, el ponderador calibrado para el individuo k es wk ak 1 t 0 x tˆ 0 xHT a x ks k 1 x 0 k 0k x 0 k . La varianza aproximada del estimador así como un estimador de la varianza se obtiene de reemplazar el vector de información auxiliar x k y el vector de instrumentos z k por el vector x 0 k en las ecuaciones (16) y (17) respectivamente. 15 Anexo 2 Nota para los usuarios Los errores muestrales ocurren debido a que las inferencias acerca de la población son basadas en información obtenida de una muestra de la misma. El diseño muestral, la variabilidad de los datos y el tamaño de muestra efectivo determinan el error muestral. Adicionalmente, diferentes métodos de estimaciones conllevan a diferentes errores muestrales dado el diseño muestral implementado. El estimador de la varianza de la ecuación (17) requiere para su cálculo conocer los residuos muestrales ek y k x'k Rˆ , así como las tasas de muestreo en los estratos. Aquellos que estén interesados en anexar a sus estimaciones una medida de precisión no podrán utilizar el estimador de la varianza anterior. Una expresión aproximada para la varianza del estimador del total t yk puede kU calcularse como H 2 1 Vˆ tˆcal nh nh 1 y k wk n h tˆh , h 1 donde tˆh w y k k (18) ks h . ksh 1 La razón entre dos variables y , z , se define como R z k y k y el estimador kU kU 1 calibrado de la misma es Rˆ cal wk z k wk y k . ks ks Una aproximación de la varianza del estimador se calcula como Vˆ Rˆ cal wk zk ks 2 H n n h h 1 h 1 1 r w n k k h tˆrh , (19) k sh donde rk yk Rˆ cal z k y tˆrh wk rk . k sh Finalmente, para la estimación del total de la variable y para un subconjunto de la población, se obtiene de reemplazar la variable y , por y d , la cual vale y k si el individuo k pertenece al subconjunto de interés y 0 en otro caso. Software como el R (Survey <svydesign> ), el SPSS (modulo de muestras complejas) o el Stata <svyset>, utilizan la ecuación (17) para calcular varianzas, indicando un diseño estratificado con reposición (ver diccionario de variables) con ponderadores wk (ver diccionario de variable). 16 Anexo 3 Diccionario de variables Descripción de las variables Identificador Estrato del diseño muestral Ponderador Muestra IRPF Categoría II - Personas Físicas Categorías Nombre de la variable Código Descripción Id st Ponderador Fuentes de rentas Fuentes Total de ingresos percibidos por el trabajador en el año Total de deducciones del trabajador en el año Ingresos Impuesto sobre la Renta de las Personas Físicas IRPF Cantidad de empleos en relación de dependencia Actividad económica principal de la empresa Actividad económica principal de la empresa Actividad económica principal de la empresa Actividad económica principal de la empresa Actividad económica principal de la empresa Actividad económica principal de la empresa Edad Sexo deduc nempleo 1 2 3 4 $ $ $ N° giro1 N° giro2 N° giro3 N° giro4 N° giro5 N° giro6 edad sexo Única renta dependiente Multirenta dependiente Independiente Independiente/Dependiente N° Años 1 2 www.dgi.gub.uy Información de uso frecuente - De interés para el Contribuyente www.dgi.gub.uy Información de uso frecuente - De interés para el Contribuyente www.dgi.gub.uy Información de uso frecuente - De interés para el Contribuyente www.dgi.gub.uy Información de uso frecuente - De interés para el Contribuyente www.dgi.gub.uy Información de uso frecuente - De interés para el Contribuyente www.dgi.gub.uy Información de uso frecuente - De interés para el Contribuyente Hombre Mujer 17 Descripción de las variables Identificador del retenido Identificador del conyuge Estrato del diseño muestral Ponderador Total de ingresos percibidos en el año por el retenido Total de ingresos percibidos en el año por el cónyuge Total de deducciones del retenido en el año Muestra IRPF Categoría II - Núcleo Familiar Categorías Nombre de la variable Código Descripción Id_r Id_c st ponderador ingresos_r $ ingresos_c $ deduc_r $ Total de deducciones del cónyuge en el año deduc_r $ Impuesto sobre la Renta de las Personas Físicas IRPF_nf $ sexo_r 1 2 Años 1 2 Años Sexo del retenido Edad del retenido Sexo del cónyuge Edad del cónyuge edad_r sexo_c edad_c Hombre Mujer Hombre Mujer 18 Descripción de las variables Muestra IASS Nombre de la variable Identificador id Estrato del diseño muestral Ponderador st Tipo de caja Total de Ingresos percibidos en el año Categorías Código ponderador caja ingresos BPS DEMAS CAJAS VARIAS CAJAS $ Impuesto de Asistencia a la Seguridad Social (IASS) iass $ Edad edad Años 1 2 Sexo Descripción sexo Hombre Mujer 19 Bibliografía Deville, J.C. y Särndal, C.E. (1992). Calibration Estimators in Survey Sampling. Journal of the American Statical Association 87, 376-382. Estevao, Victor M.; Särndal C.E (2004) “Borrowing Strength Is Not the Best Technique Within a Wide Class of Design – Consistent Domain Estimators”. Journal of Official Statistics, Vol 20, No 4. Estevao.M. y Särndal. C (2000). A functional form approach to calibration. Journal of Oficial Statistics 16, 379-399. Fuller, Wayne A. (2009). Sampling Statistics. John Wiley & Sons. Lumley, T. (2004) Analysis of complex survey samples. Journal of Statistical Software 9(1): 1- 19. Lumley, T. (2009) "Survey: analysis of complex survey samples". R packaged version 3.11-2. Särndal, C.E.; Swensson, B.; Wretman, J. (1992). Model Assisted Survey Sampling. New York: Springer-Verlag. 20 21