Diseño muestral Impuestos IRPF (Categoría II) e IASS.

Anuncio
Diseño muestral
Impuestos IRPF (Categoría II) e IASS.
Tabla de Contenidos
INTRODUCCIÓN
3
1. DISEÑO MUESTRAL IRPF (CATEGORÍA II) – OPCIÓN PERSONAL
4
1.1 Marco muestral
4
1.2 Diseño
4
1.3 Ponderadores calibrados
5
2. DISEÑO MUESTRAL IRPF (CATEGORÍA II) – OPCIÓN NÚCLEO FAMILIAR
7
2.1 Marco Muestral
7
2.2 Diseño
7
2.3 Ponderadores calibrados
8
3. DISEÑO MUESTRAL IASS
8
3.1 Marco Muestral
8
3.2 Diseño
8
3.3 Ponderadores calibrados
9
ANEXO 1. CONCEPTOS BÁSICOS Y CALIBRACIÓN.
10
ANEXO 2 NOTA PARA LOS USUARIOS
16
ANEXO 3 DICCIONARIO DE VARIABLES
17
BIBLIOGRAFÍA
20
2
Introducción1
El Instituto Nacional de Estadística (INE) y la Dirección General de Impositiva (DGI)
seleccionaron muestras aleatorias representativas de las Bases de Datos de la DGI de los
Impuestos IRPF (Categoría II) e IASS. Las muestras correspondientes son de uso público
de acuerdo a las normas que regulan el secreto estadístico y el tributario.
El objetivo es entregar un insumo imprescindible (que actualmente no se encontraba
disponible) para los investigadores y diseñadores de políticas para evaluación del impacto
económico y social del sistema tributario, al tiempo que serán de utilidad para la
evaluación y diseño de políticas públicas en otras áreas. A su vez, dichas muestras
pueden utilizarse como insumo para usuarios de otras muestras, por ejemplo, la Encuesta
Continua de Hogares (ECH), que deseen ayudar a sus estimaciones con información
auxiliar extraída de las muestras de IRPF e IASS.
Se le brinda a los usuarios bases de datos con un tamaño lo suficientemente grande, para
que los mismos puedan realizar sus propias estimaciones con buenos niveles de precisión
(dependiendo de la apertura) y a su vez, preservar el secreto tributario y poder trabajar
con una base de datos reducida que pueda ser utilizada sin la necesidad de un software
específico, bastando únicamente con una planilla electrónica.
En el siguiente documento se detallan los diseños muestrales utilizados para la selección
de las muestras de IRPF e IASS y la metodología empleada para el cálculo de los
ponderadores finales.
En el caso del IRPF – Categoría II, la muestra contiene dos secciones (con archivos
separados), correspondientes a las distintas opciones de tributación del impuesto: opción
personal, opción núcleo familiar.
Finalmente, se hace una breve reseña técnica de los diseños muestrales y los
estimadores utilizados y el modo correcto de tratar las muestras en los software de uso
extendido utilizados por los investigadores de nuestro país.
1
El siguiente documento fue elaborado por Juan Pablo Ferreira, Instituto Nacional de Estadística
3
1. Diseño muestral IRPF (Categoría II) – Opción Personal
1.1 Marco muestral
El marco muestral corresponde a la base de IRPF Categoría II – Opción Personal. El
tamaño del mismo es de 1.210.506 personas, que según las bases de datos de la DGI
perciben rentas comprendidas en este impuesto. La información contenida en el marco
muestral corresponde a datos demográficos de la persona (sexo, edad), fuente de
empleo, total de ingresos percibidos, total de deducciones, monto devengado del
impuesto, e información sobre la actividad económica principal declarada por el
empleador en donde la persona desempeña sus tareas (hasta seis clases de actividad).
En base a dicho marco muestral se seleccionó una muestra probabilística.
1.2 Diseño
La muestra se seleccionó al azar mediante un muestreo estratificado. Los estratos del
diseño muestral reconocen tres dimensiones:
-
Tramo etáreo del individuo (menor de 25 años, entre 25 y 34 años, entre 35 y 44
años, entre 45 y 54 años, 55 años o más).
-
Sexo del individuo.
-
La fuente de renta del individuo.
Teniendo en cuenta la interacción de las tres variables definidas anteriormente, el número
total de estratos asciende a cuarenta. El objetivo de dicha estratificación es tener un
tamaño de muestra controlado para las posibles aperturas a llevar a cabo por los usuarios
y la construcción de los mismos no sigue ningún criterio de optimización para minimizar la
variación de los estimadores.
En cada uno de los estratos del diseño definidos se seleccionó una muestra bajo un
muestreo aleatorio simple sin reposición.
El tamaño de muestra en cada uno de los estratos es determinado de manera
independiente para obtener un error relativo menor al 4% y con un nivel de confianza del
95 % para estimar el total de ingresos percibidos por los individuos en el estrato


nh  1.96 2 N h2 S h2  2  1.96 2 N h S h2

1
,
donde N h es el tamaño del estrato, S h2 es la varianza poblacional de la variable auxiliar
total de ingreso percibido por el individuo en el estrato h , 1.96 es el valor de la
distribución normal estándar que acumula el 0.975 de probabilidad y  es la precisión
fijada.
Bajo los requerimientos anteriores el tamaño de muestra es de 61.811 casos (una tasa de
muestreo del 5% aproximadamente).
4
En los cuadros 1 y 2 se muestra la distribución de las personas entre hombres y mujeres,
en tramos de edad y en función de las fuentes de rentas. Las mismas se desglosan de la
siguiente manera:

Única renta dependiente: perciben rentas por trabajo en relación de dependencia
de un solo empleador.

Independiente: percibe una o varias rentas por trabajo fuera de la relación de
dependencia.

Multirenta dependiente: perciben rentas por trabajo en relación de dependencia
de varios empleadores.

Independiente-Dependiente: perciben rentas por trabajo en relación de
dependencia y fuera de la misma.
Cuadro 1: Tamaño de muestra para los hombres por fuentes de rentas según
tramos de edad.
Fuentes de Rentas
Tramos de
Edad
Total
Total
Menor de 25
25 – 34
35 – 44
45 - 54
55 o +
35.079
3.638
6.174
8.605
7.603
9.059
Única renta
dependiente Independiente
12.881
1.949
2.220
2.639
2.522
3.551
Multirenta
dependiente
Independiente
13.275
1.218
2.206
3.770
3.035
3.046
3.173
178
698
773
753
771
5.750
293
1.050
1.423
1.293
1.691
/Dependiente
Fuente: Dirección General de Impositiva
Cuadro 2: Tamaño de muestra para las mujeres por fuentes de rentas según
tramos de edad.
Fuentes de Rentas
Tramos de
Edad
Total
Total
Menor de 25
25 – 34
35 – 44
45 - 54
55 o +
26.732
3.382
5.355
6.244
5.775
5.976
Única renta
dependiente Independiente
10.764
1.691
2.135
2.371
2.207
2.360
5.216
275
1.050
1.236
1.298
1.357
Multirenta
dependiente
Independiente
7.955
1.216
1.514
1.933
1.646
1.646
2.797
200
656
704
624
613
/Dependiente
Fuente: Dirección General de Impositiva
1.3 Ponderadores calibrados
Dada la posibilidad de conocer los valores que toman todas las variables de interés para
todos los individuos de la población, se utilizaron ponderadores calibrados2, los cuales
permiten obtener estimadores de mayor precisión.
2
Ver Anexo 1
5
Los ponderadores calibrados se obtienen de modificar los ponderadores provenientes del
diseño muestral, en base a la información auxiliar disponible. Dichos ponderadores
estiman sin error los totales de las variables auxiliares utilizadas para su cálculo, es decir,
las estimaciones coinciden con los totales poblaciones de las variables utilizadas para su
cálculo. En este caso, las variables auxiliares coinciden con las variables de interés.
Las variables auxiliares utilizadas para el cálculo de los ponderadores calibrados son:
-
Total de ingresos percibidos en el año.
-
Total de deducciones.
-
Total del impuesto devengado.
A su vez, se definieron cuatro subpoblaciones (mutuamente excluyentes) para los totales
de las variables anteriores, denominados grupos de calibración3, los cuales se encuentran
definidos por el tipo de fuentes de rentas de los individuos:
- única renta independiente
- multirenta dependiente
- independiente
- independiente/dependiente
El sistema de ponderadores calibrados obtenidos estima sin error4 el total de ingresos,
deducciones e IRPF según las fuentes de rentas.
A modo de ejemplo, en el siguiente gráfico se presenta la modificación de los
ponderadores provenientes del diseño muestral (ponderadores originales) y los
calibrados.
Grafico1: Ponderadores calibrados respecto a los ponderadores originales
3
Estevao, V.; Särndal C. (2004) “Borrowing Strength Is Not the Best Technique Within a Wide Class of
Design – Consistent Domain Estimators”. Journal of Official Statistics, Vol 20, No 4.
4
Es decir las estimaciones coinciden con la base de IRPF (Categoría II) – Opción Personal.
6
Los sorteos de las muestras y el cálculo de los ponderadores calibrados de las mismas se
llevan a cabo en el software libre R5 utilizando los paquetes Sampling6 y Survey7
respectivamente.
2. Diseño muestral IRPF (Categoría II) – Opción Núcleo Familiar
2.1 Marco Muestral
El marco muestral corresponde a la base de IRPF – Categoría II Opción Núcleo Familiar
correspondiente al año 2009. El tamaño del mismo es de 8.758 núcleos familiares
declarados ante la DGI. La información contenida en el marco corresponde a datos
demográficos de los integrantes del núcleo (sexo y edad), total de ingresos percibidos y
total de deducciones por integrante, y monto devengado del impuesto.
2.2 Diseño
El diseño es aleatorio estratificado con asignación proporcional. Los estratos del diseño
son conformados en base a las edades de los integrantes que componen el núcleo
familiar. Entonces, los estratos reconocen dos dimensiones:
-
La edad del retenido.
-
La edad del cónyuge.
En base a lo anterior se construyeron nueve estratos, los cuales se conforman al utilizar
tres tramos etáreos, menor de 35 años, entre 35 y 49 años y más de 50 años. Al igual que
en los diseños anteriores, dicha estratificación no sigue ningún criterio de optimización.
En cada uno de los estratos del diseño se seleccionó una muestra independiente bajo un
muestreo aleatorio simple. El tamaño de muestra total es de 3.016 núcleos familiares.
Cuadro 3: Tamaño de muestra por tramo de edad del cónyuge, según
tramo de edad del retenido
Tramo de edad
retenido
Menor de 35 años
35 - 49 años
50 o más años
Tramo de edad cónyuge
Menor de 35 años 35 - 49 años
378
54
733
596
553
129
50 o más años
17
85
471
Fuente: Dirección General de Impositiva
5
R Development Core Team (2009). R: A language and environment for statistical computing. R Foundation
for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
6
Yves Tillé and Alina Matei (2009). sampling: Survey Sampling. R Packaged version 2.2.
7
T. Lumley (2009) "survey: analysis of complex survey samples". R package version 3.16.
7
2.3 Ponderadores calibrados
Al igual que para la muestra de de IRPF (Categoría II) – Opción Personal se utilizaron
ponderadores calibrados, las variables auxiliares utilizadas son:
-
Total de ingresos percibidos por el retenido y el cónyuge.
-
Total de deducciones del retenido y el cónyuge.
-
Total del impuesto devengado del núcleo familiar.
-
Tamaño de los estratos del diseño muestral.
Para este caso, no se utilizaron grupos de calibración debido a que el tamaño de muestra
es pequeño respecto a la muestra de IRPF (categoría II) –opción personal, debido a que
los ponderadores calibrados se alejaban considerablemente de los ponderadores
provenientes del diseño muestral.
Los ponderadores calibrados estiman sin error el total de ingresos y total de deducciones
para los retenidos y los cónyuges, total de IRPF y la estructura de edades de los núcleos
familiares respetando los tramos etáreos del cuadro 3.
3. Diseño muestral IASS
3.1 Marco Muestral
El marco muestral corresponde a la base de datos de IASS del 2009. El tamaño del
mismo es de 642.492 personas, que según las bases de datos de la DGI perciben rentas
comprendidas en este impuesto. Las variables auxiliares contenidas en el marco
corresponde a datos demográficos del informante (sexo y edad), el tipo de caja al que
aporta, total de ingresos percibidos en el año y monto devengado del impuesto.
3.2 Diseño
Al igual que en las muestras anteriores, el diseño muestral implementado es aleatorio y
estratificado. Los estratos del diseño reconocen tres dimensiones:
-
El sexo del individuo.
-
Tipo de Caja a la cual aporta el individuo: BPS, “demás cajas” (comprende a Caja
Militar, Caja Policial, Caja Bancaria, Caja de Profesionales) y “varias cajas” (si el
individuo aporta a más de una caja).
8
-
Si el individuo es o no perceptor de pensión por fallecimiento de los padres (hasta
los 21 años).
Teniendo en cuenta la interacción de las tres variables anteriormente descritas, se
conformaron doce estratos. En cada uno de los mismos se selecciona de forma
independiente una muestra aleatoria simple sin reposición.
El tamaño de muestra total se definió teniendo como punto de partida la tasa de muestreo
fijada para la muestra de IRPF - Categoría II Opción Personal, bajo los requisitos
anteriormente descritos. El tamaño de muestra por estrato se asignó de manera
proporcional, dado que estos estratos no presentan estructuras muy diferenciadas en las
variables de interés, ajustando posteriormente en aquellos estratos en donde el tamaño
de muestra no era lo suficientemente grande (utilizando la asignación proporcional). El
tamaño de muestra es de 45.098 casos.
Cuadro 4: Tamaño de muestra por sexo y pensión según tipo de caja.
Tipo de Caja
Total
Hombres
Mujeres
Pensión por fallecimiento
Pensión por fallecimiento
SI
NO
SI
NO
Total
BPS
Demás Cajas
45.098
38.926
3.592
901
741
40
16.888
13.699
2.440
702
542
40
26.607
23.944
1.072
Varias Cajas
2.580
120
749
120
1.591
Fuente: Dirección General de Impositiva
3.3 Ponderadores calibrados
Las variables auxiliares utilizadas para la calibración son:
-
Total de ingresos percibidos en el año.
-
Total del impuesto devengado.
-
Si el monto devengado del impuesto de IASS es mayor que cero.
A su vez, dichas variables auxiliares se definieron para tres subpoblaciones (grupos de
calibración) definidas por el tipo de caja.
Entonces, el sistema de ponderadores obtenido estima sin error el total de ingresos,
monto devengado del impuesto y el número de contribuyentes según el tipo de caja (BPS,
Demás Cajas y Varias Cajas).
9
Anexo 1. Conceptos básicos y calibración.
En este anexo se presentan conceptos básicos de estimación en poblaciones finitas, el
tipo de muestreo implementado en este documento. Luego se describe brevemente el
método de estimación calibrada en general.
Sea U  1,..., k ,..., N  la población objeto de estudio, la cual tiene N elementos. De la
población U se toma una muestra probabilística s , de tamaño ns , según un diseño
cualquiera p(.) . El individuo k es incluido en la muestra con una probabilidad
 k  Pk  s  0 (diseño aleatorio). El inverso de la probabilidad de inclusión ak  1 /  k es
el ponderador muestral o ponderador del diseño del individuo k . Los individuos k y l son
incluidos en la muestra con probabilidad  kl  Pk y l  0 (diseño medible) y sea
akl  1 /  kl . La variable de interés se denota como y , y yk el valor que toma en el
individuo k .
En muestreo de poblaciones finitas, el objetivo es estimar el total de la variable de interés
t   yk , o su media poblacional yU   yk / N .
kU
kU
Bajo un diseño aleatorio, el estimador Horvitz-Thompson ( tˆHT ) es insesgado para estimar
t   yk y viene dado por
kU
tˆHT   ak yk .
(1)
V (tˆHT )   ak al / akl  1 y k yl .
(2)
ks
Su varianza viene dada como
k U lU
Un estimador insesgado de la misma es
Vˆ (tˆHT )   ak al  akl  yk yl .
(3)
k s ls
Bajo un diseño simple de tamaño n de una población de N individuos, el ponderador
muestral es ak  N / n y akl  N ( N  1) / n(n  1) . El estimador Horvitz-Thompson es
tˆHT   ak yk  Ny s ,
(4)
ks
donde y s  n 1  y k es la media muestral de la variable y .
ks
La varianza definida en (2) y el estimador de la misma en (3) toman la forma
V (tˆHT )  N 2 (1  f ) S y2U n 1 ,
(5)
10
Vˆ (tˆHT )  N 2 (1  f )S y2S n 1 ,
donde
f  n/ N
es
la
tasa
de
muestreo,
(6)
S y2U  ( N  1) 1  ( yk  yU ) 2
y
kU
S y2S  (n  1) 1  ( yk  y s ) 2 son la varianza poblacional y muestral respectivamente de la
ks
variable y .
La eficiencia del estimador Horvitz-Thompson recae en la elección de las probabilidades
de inclusión que dan lugar a los ponderadores ak y los cuales deben contemplar en lo
posible los valores que toman los individuos en las variables de interés. Dentro de está
línea, los diseños estratificados permite probabilidades de inclusión diferentes (entre otras
propiedades).
La población U , se particiona en U1 ,...,U h ,...,U H , subpoblaciones llamadas estratos,
donde N h es el tamaño del estrato h y t h 
y
k
es el total de la variable y en el estrato
kU h
H
H
h . Entonces, se tiene que N   N h y t   t h .
h 1
h 1
Dentro de cada estrato U h se selecciona una muestra aleatoria de forma independiente
sh , de tamaño nsh , bajo un diseño ph (.) . Entonces, el estimador Horvitz-Thompson para
el total de la variable y , es la suma de los estimadores poblacionales por estrato
H
H
tˆHT   tˆHTh    ak yk .
h 1
(7)
h 1 k S h
La varianza del estimador viene dada por
H
H
V tˆHT    V (tˆHTh )     ak al / akl  1 yk yl .
h 1
(8)
h 1 kU h lU h
De la misma forma, un estimador insesgado de la varianza es
H
H
Vˆ tˆHT    Vˆ (tˆHTh )    ak al  akl  yk yl .
h 1
(9)
h 1 ksh l s h
El muestreo estratificado simple, consiste en seleccionar una muestra para cada estrato
de tamaño nh bajo un diseño simple, luego el estimador Horvitz-Thompson viene dado
como
H
H
h 1
h 1
tˆHT   tˆHTh   N h yS h ,
(10)
donde y Sh  nh1  yk es la media muestral en el estrato h .
ks h
11
La varianza del estimador de la ecuación (8) toma la forma
H
H
h 1
h 1
V tˆHT   V (tˆHTh )   N h2 (1  f h )S y2Uh nh1 ,
(11)
donde S y2Uh  ( N h  1) 1  ( yk  yUh ) 2 es la varianza poblacional del estrato h y f h  N h / nh
k U h
es la tasa de muestreo en el estrato h .
Finalmente, el estimador de la varianza de la ecuación (9) es
H
H
h 1
h 1
Vˆ tˆHT   Vˆ (tˆHTh )   N h2 (1  f h )S y2Sh nh1 ,
(12)
donde S y2Sh  (nh  1) 1  ( y k  y Sh ) 2 es la varianza muestral en el estrato h .
k sh
Calibración
Los estimadores calibrados tienen un rol preponderante en la estimación basada en el
diseño. Los mismos bajo ciertas condiciones, permiten obtener estimadores de mayor
precisión. El requisito fundamental es disponer de información auxiliar potente, es decir
que, se encuentre correlacionada con las variables de interés, en donde los totales de las
mismas son conocidos a nivel de la población.
El objetivo es encontrar un nuevo sistema de ponderadores (ponderadores calibrados)
que sea congruente con la información auxiliar, dicho sistema de ponderadores estima sin
error los totales de las variables auxiliares utilizadas para su construcción. Lo anterior es
una propiedad deseable, debido a que brinda coherencia a las estimaciones.
Para estimar el total de la variable de interés y , t   yk se cuenta con t x el vector de
kU
totales poblacionales de las variables auxiliares. El estimador calibrado viene dado como
tˆcal   wk yk ,
(13)
k s
donde wk es el ponderador calibrado del individuo k perteneciente a la muestra s y
depende de la información auxiliar utilizada y cumplen con
w x
k
k s
k
  xk  t x ,
(14)
kU
llamada ecuación de calibración, donde x es el vector de información auxiliar de
dimensión J y x k el valor que toma x para el individuo k.
Existen dos enfoques comúnmente utilizados para construir el nuevo sistema de
ponderadores que cumplan con la ecuación (14): i) El de la minimización de la distancia8 y
8
Deville, J.C. y Särndal, C.E. (1992). Calibration Estimators in Survey Sampling. Journal of the American Statical
Association 87, 376-382.
12
(ii) el enfoque funcional9 (método optado en este trabajo). En ambos casos la expresión
final del estimador es la misma aunque con distintos sistemas de ponderadores y por
ende con distintas propiedades.
Bajo el enfoque funcional, los ponderadores calibrados son definidos como
wk  ak (1  λ ' z k ) ,
(15)
donde ak  N h / nh es el ponderador del diseño para el individuo k perteneciente al estrato
h (bajo el diseño implementado en esté trabajo), z k es un vector instrumental (vector de
instrumentos) con valores definidos para todos los individuos de la muestra y tiene la
misma dimensión que el vector de información auxiliar x k y el vector λ es determinado
utilizando las ecuaciones de calibración
w x
k
k s
k
  xk  t x .
kU
El estimador calibrado queda definido como
tˆcal   wk y k   ak (1   ' z k ) yk ,
ks
k s
donde
1
'

λ '  t x  ˆt xHT   a k z k x' k  ,
 ks



y
'
'
H
H

 H

tˆ xHT    ak x1k ,...,  ak x jk ,...,  ak x Jk     N h x1h ,...,  N h x jh ,...,  N h x Jh  ,
ks
ks
h1
h 1
 ks
  h1

es el estimador Horvitz – Thompson bajo un muestreo estratificado simple para
t x   x k , donde x jh es la media muestral en el estrato h para la j-ésima variable auxiliar.
kU
El estimador calibrado puede escribirse como el estimador Horvitz – Thompson más un
término de ajuste
ˆ
tˆ cal  tˆHT  t x  ˆt xHT R
,


donde
1
ˆ   a z x '   a z y  .
R
 k k k  
k k k
ks
 ks

El estimador calibrado es aproximadamente insesgado, dado que el primer término
corresponde al estimador Horvitz – Thompson el cual es insesgado para t y el segundo
término (no lineal) es aproximadamente insesgado de cero.
9
Estevao.M. y Särndal. C (2000). A functional form approach to calibration. Journal of Oficial Statistics 16, 379-399.
13
Dada la no linealidad del estimador calibrado, la aproximación de la varianza del mismo
bajo los diseños muestrales implementados en este trabajo viene dada por
H
AV tˆ    N 1  f S
2
h
cal
h
2
Eh
nh1 ,
(16)
h 1
1
donde S E2h   N h  1
 E
k
 EU h

2
es la varianza poblacional en el estrato h de los
kU h
1

 

residuos poblacionales E k  y k  x'k R , donde R    z k xk    z k yk  y EU h  N h1  Ek
k U h
 kU
  kU

es la media poblacional de los residuos en el estrato h .
Un estimador de la varianza del estimador calibrado viene dado por
H
Vˆ (tˆcal )   N h2 1  f h S e2h nh1 ,
(17)
h 1
1
donde S e2h  nh  1
 e
k
 eS h

2
es la varianza muestral en el estrato h de los residuos
k sh
muestrales ek  y k  x'k Rˆ , eSh  nh1  ek es la media muestral de los residuos en el estrato
k S h
h.
La eficiencia de los estimadores calibrados para la estimación en subconjuntos población
(dominios) depende del nivel de desagregación de la información auxiliar utilizada en la
ecuación de calibración, lo que permite un abanico amplio de formas de calibrar. Los
ponderadores calibrados estiman sin error los totales de las variables auxiliares de los
denominados grupos de calibración (subconjuntos de la población que pueden coincidir o
no con el dominio de interés). Dado que un único sistema de ponderadores es utilizado
para brindar estimaciones de todas las variables de interés así como para todos los
subconjuntos que el investigador desee estudiar, la información auxiliar contenida en la
ecuación de calibración debe estar desagregada lo mayor posible, siempre y cuando esto
no signifique modificar demasiado los ponderadores originales.
Entonces, la población U , es particionada en I grupos de calibración, denotados como
U Ci , (i  1,..., I ) , en donde el dominio de interés, puede: (i) coincidir con un grupo de
calibración, (ii) estar incluido en un único grupo de calibración o (iii) intersectar varios de
ellos.
Se define  Ci la variable indicadora de pertenencia a la i -ésimo grupo de calibración y
 Cik  1 si el individuo k pertenece a U Ci y 0 en otro caso.
Teniendo en cuenta lo definido anteriormente, el vector de información auxiliar utilizado
para la calibración tiene dimensión I  J y viene dado como

x 0 k   C1k x k ,...,  Ci k x k ,....,  CI k x k

14
y el vector de totales poblacionales es
t0x



   x k ,....,  x k ,....,  x k  .
 kU

kU Ci
kU C I
 C1

Para el cálculo de los ponderadores calibrados en esté trabajo el vector de instrumentos
z k se definió igual que el vector de información auxiliar x 0 k , lo cual coincide con el
estimador de regresión asumiendo homoscedasticidad.
Entonces, el ponderador calibrado para el individuo k es

wk  ak 1  t 0 x  tˆ 0 xHT


   a x
 ks
k
1



x
0 k 0k  x 0 k  .


La varianza aproximada del estimador así como un estimador de la varianza se obtiene de
reemplazar el vector de información auxiliar x k y el vector de instrumentos z k por el
vector x 0 k en las ecuaciones (16) y (17) respectivamente.
15
Anexo 2 Nota para los usuarios
Los errores muestrales ocurren debido a que las inferencias acerca de la población son
basadas en información obtenida de una muestra de la misma. El diseño muestral, la
variabilidad de los datos y el tamaño de muestra efectivo determinan el error muestral.
Adicionalmente, diferentes métodos de estimaciones conllevan a diferentes errores
muestrales dado el diseño muestral implementado.
El estimador de la varianza de la ecuación (17) requiere para su cálculo conocer los
residuos muestrales ek  y k  x'k Rˆ , así como las tasas de muestreo en los estratos.
Aquellos que estén interesados en anexar a sus estimaciones una medida de precisión no
podrán utilizar el estimador de la varianza anterior.
Una expresión aproximada para la varianza del estimador del total t   yk puede
kU
calcularse como
H
2
1
Vˆ tˆcal    nh nh  1   y k wk n h  tˆh  ,
h 1
donde tˆh 
w y
k
k
(18)
ks h
.
ksh
1

 

La razón entre dos variables y , z , se define como R    z k    y k  y el estimador
 kU   kU 
1
calibrado de la misma es Rˆ cal

 

   wk z k    wk y k  .
 ks
  ks

Una aproximación de la varianza del estimador se calcula como


Vˆ Rˆ cal    wk zk 
 ks

 
2
H
 n n
h
h 1
h
1
 1
 r w n
k
k
h
 tˆrh  ,
(19)
k sh
donde rk  yk  Rˆ cal z k y tˆrh   wk rk .
k sh
Finalmente, para la estimación del total de la variable y para un subconjunto de la
población, se obtiene de reemplazar la variable y , por y d , la cual vale y k si el individuo
k pertenece al subconjunto de interés y 0 en otro caso.
Software como el R (Survey <svydesign> ), el SPSS (modulo de muestras complejas) o el
Stata <svyset>, utilizan la ecuación (17) para calcular varianzas, indicando un diseño
estratificado con reposición (ver diccionario de variables) con ponderadores wk (ver
diccionario de variable).
16
Anexo 3 Diccionario de variables
Descripción de las
variables
Identificador
Estrato del diseño muestral
Ponderador
Muestra IRPF Categoría II - Personas Físicas
Categorías
Nombre de la variable
Código
Descripción
Id
st
Ponderador
Fuentes de rentas
Fuentes
Total de ingresos percibidos
por el trabajador en el año
Total de deducciones del
trabajador en el año
Ingresos
Impuesto sobre la Renta de
las Personas Físicas
IRPF
Cantidad de empleos en
relación de dependencia
Actividad económica
principal de la empresa
Actividad económica
principal de la empresa
Actividad económica
principal de la empresa
Actividad económica
principal de la empresa
Actividad económica
principal de la empresa
Actividad económica
principal de la empresa
Edad
Sexo
deduc
nempleo
1
2
3
4
$
$
$
N°
giro1
N°
giro2
N°
giro3
N°
giro4
N°
giro5
N°
giro6
edad
sexo
Única renta dependiente
Multirenta dependiente
Independiente
Independiente/Dependiente
N°
Años
1
2
www.dgi.gub.uy Información de uso
frecuente - De interés para
el Contribuyente
www.dgi.gub.uy Información de uso
frecuente - De interés para
el Contribuyente
www.dgi.gub.uy Información de uso
frecuente - De interés para
el Contribuyente
www.dgi.gub.uy Información de uso
frecuente - De interés para
el Contribuyente
www.dgi.gub.uy Información de uso
frecuente - De interés para
el Contribuyente
www.dgi.gub.uy Información de uso
frecuente - De interés para
el Contribuyente
Hombre
Mujer
17
Descripción de las
variables
Identificador del retenido
Identificador del conyuge
Estrato del diseño
muestral
Ponderador
Total de ingresos
percibidos en el año por
el retenido
Total de ingresos
percibidos en el año por
el cónyuge
Total de deducciones del
retenido en el año
Muestra IRPF Categoría II - Núcleo Familiar
Categorías
Nombre de la variable
Código
Descripción
Id_r
Id_c
st
ponderador
ingresos_r
$
ingresos_c
$
deduc_r
$
Total de deducciones del
cónyuge en el año
deduc_r
$
Impuesto sobre la Renta
de las Personas Físicas
IRPF_nf
$
sexo_r
1
2
Años
1
2
Años
Sexo del retenido
Edad del retenido
Sexo del cónyuge
Edad del cónyuge
edad_r
sexo_c
edad_c
Hombre
Mujer
Hombre
Mujer
18
Descripción de las
variables
Muestra IASS
Nombre de la variable
Identificador
id
Estrato del diseño
muestral
Ponderador
st
Tipo de caja
Total de Ingresos
percibidos en el año
Categorías
Código
ponderador
caja
ingresos
BPS
DEMAS CAJAS
VARIAS CAJAS
$
Impuesto de Asistencia
a la Seguridad Social
(IASS)
iass
$
Edad
edad
Años
1
2
Sexo
Descripción
sexo
Hombre
Mujer
19
Bibliografía
Deville, J.C. y Särndal, C.E. (1992). Calibration Estimators in Survey Sampling. Journal of
the American Statical Association 87, 376-382.
Estevao, Victor M.; Särndal C.E (2004) “Borrowing Strength Is Not the Best Technique
Within a Wide Class of Design – Consistent Domain Estimators”. Journal of Official
Statistics, Vol 20, No 4.
Estevao.M. y Särndal. C (2000). A functional form approach to calibration. Journal of
Oficial Statistics 16, 379-399.
Fuller, Wayne A. (2009). Sampling Statistics. John Wiley & Sons.
Lumley, T. (2004) Analysis of complex survey samples. Journal of Statistical Software
9(1): 1- 19.
Lumley, T. (2009) "Survey: analysis of complex survey samples". R packaged version
3.11-2.
Särndal, C.E.; Swensson, B.; Wretman, J. (1992). Model Assisted Survey Sampling. New
York: Springer-Verlag.
20
21
Descargar