Máster Oficial en Estadística Aplicada
Departamento de Estadística e Investigación Operativa
Trabajo Fin de Máster
Título: Indicadores del sesgo de no respuesta para el
estimador de calibración
Tutores: Antonio Arcos Cebrián y María del Mar Rueda García
Alumna: Raquel Berrios Quirós
Granada, Junio de 2010
-4-
TRABAJO DE FIN DE MASTER
Indicadores del sesgo de no respuesta para el estimador
de calibración
Directores del trabajo
Fdo: Antonio Arcos Cebrián
Fdo: María del Mar Rueda García
Alumna:
Fdo: Raquel Berrios Quirós
Granada, Junio de 2010
-5-
-6-
AGRADECIMIENTOS
Quiero expresar mi reconocimiento a las personas, cuyo aliento y apoyo tan valioso me ha
sido para realizar este trabajo.
Destacando muy especialmente a mi director, D. Antonio Arcos Cebrián , por tanta
dedicación como han puesto en este trabajo y por lo mucho que me han ayudado sobre todo
corrigiéndome.
Por otro lado y no por ello menos importante, quiero agradecer enormemente a todas las
personas que han estado a mi lado durante este tiempo y que saben que me estoy refiriendo
a ellos sin necesidad de leer escritos sus nombres. Para todos vosotros, un fuerte abrazo.
-7-
-8-
Resumen
con el cual vamos a intentar comprender la
En este trabajo vamos a estudiar el indicador Q
funciones de las variables auxiliares a través de las cuales se medirán una forma de reducir
el sesgo de no respuesta.
En primer lugar hemos comenzado con una pequeña introducción sobre el muestreo y sus
errores con el fin de dar un enfoque global sobre el muestreo.
A continuación hemos visto que no todas las unidades responden a la encuesta por lo que
aparece la no respuesta la cual constituye a una fuente potencial del sesgo. A través de este
vamos a intentar mejorar las tasas de respuesta y ajustar la falta de respuesta.
Después vamos a ver la estimación por calibración con la cual vamos a poder encontrar
algunas respuestas como a la ausencia de respuesta, deficiencias en el marco muestral y
errores de medición. A través de la calibración lo que vamos hacer es incorporar la
información auxiliar. Con la calibración vamos a intentar reducir la varianza y el sesgo que
nos aparece debido a la falta de respuesta.
La calibración es una técnica que esta dominando en las agencias de estadística.
Por otro lado veremos la reponderación por no respuesta con calibración en la cual
intentaremos como en los otros apartados reducir los errores que se dan por la falta de
respuesta, esto a través de un criterio en el cual seleccionamos las variables auxiliares que
realmente nos pueden ayudar a reducir el sesgo en la estimación por calibración.
Continuaremos con el titulo del proyecto, el indicador Q , podemos decir que es
herramienta útil en el diagnóstico de sesgo de no respuesta. Veremos como calcular Q̂ para
el cual intentaremos tomar el vector auxiliar más importante. Con Q̂ intentaremos buscar
el mejor vector auxiliar de todos los que hay en la encuesta.
Ya para finalizar podremos ver algún ejemplo.
-9-
- 10 -
CAPÍTULO I: INTRODUCCIÓN
13
1. Los errores en las encuestas
13
2. Estimación con respuesta completa
20
CAPÍTULO II: EL AJUSTE DE NO RESPUESTA
27
1. No respuesta
27
2. Un ejemplo del impacto de la no respuesta
30
3. Un ejemplo del uso de la información auxiliar
32
CAPÍTULO III: ESTIMACIÓN POR CALIBRACIÓN Y SU USO PARA TRATAR LA
NO RESPUESTA
37
1. Errores causados por el muestreo y la no respuesta
37
2. Reponderación para tratar la no respuesta
39
3. Calibración y no respuesta
Estimación puntual por calibración con no respuesta
Estimación por calibración sin el total poblacional conocido
Estimación por calibración en dominios
Estimación de la varianza
41
44
45
46
46
4. Software
48
5. Ejemplos de estimadores de calibración para no respuesta
50
CAPÍTULO IV: UN INDICADOR DEL SESGO DE NO RESPUESTA
55
1. Introducción
55
2. Información auxiliar para el estimador de calibración
56
3. Expresiones del sesgo
59
4. Influencia de la respuesta y aproximación del sesgo cero
61
5. Estimación del indicador en una muestra
65
6. Herramienta de diagnóstico para evaluar el potencial de reducción del sesgo de un vector auxiliar 66
7. Un ejemplo de aplicación
67
BIBLIOGRAFÍA
69
- 11 -
- 12 -
Capítulo I: Introducción
1. Los errores en las encuestas
Las encuestas por muestreo juegan un papel muy importante en la mayoría de las
investigaciones y estudios desarrollados por las empresas, instituciones, oficinas de
estadística y organismos nacionales. Así, por ejemplo, los principales indicadores
demográficos, económicos o sociales de un país están basados en datos muestrales
obtenidos a partir de diseños muestrales complejos.
Mientras que con un censo se puede describir perfectamente la característica a estudio,
con un muestreo se extrapolan las conclusiones obtenidas en la muestra a la población.
Esta extrapolación siempre supone un riesgo, y va acompañada de un error.
El procedimiento básico para la estimación en la población a partir de los datos
obtenidos de una muestra consiste en sumar valores ponderados de la variable para los
elementos que se hallan en la muestra. Este estimador se llama de Horvitz- Thompson
(HT). Otros estimadores más avanzados son los razón, diferencia, de regresión
generalizada (GREG), etc.
Ahora bien todas estas estimaciones de los parámetros de interés en la población van
acompañados de una series de errores sistemáticos y aleatorios.
Los errores sistemáticos o sesgos podemos decir que son el resultado erróneo de una
muestra, debido a un mal diseño de la muestra. Esto lo podemos evitar aplicando las
técnicas de muestreo y los procedimientos de estimación adecuados al problema
concreto que estamos tratando.
Los errores los podemos clasificar de la siguiente manera:
a)
b)
c)
d)
e)
f)
error de muestreo
error de no respuesta
error de cobertura
error de medida
error de codificación
error de trabajo de campo
Error de muestreo
Cuando los estadísticos hablan de un error de muestreo significa el error causado por el
hecho de que los valores de una variable del estudio sólo se registran para una muestra
de elementos, que no es para todos los elementos de la población.
Si se observa toda la población el error de muestreo será cero. Esta situación es
excepcional (podría haber otros errores, por ejemplo, el error de medición y el error de
- 13 -
no respuesta, pero el error de muestreo será igual a cero.). Este tipo de error puede
controlarse normalmente con una muestra suficientemente grande.
Normalmente los estimadores que se usan son insesgados y los errores de muestreo se
cuantifican a partir de la varianza bajo el diseño del estimador. La varianza de un
estimador es la media de los cuadrados de las desviaciones de el estimador con su valor
central (su media). Este promedio es con respecto a todas las muestras posibles que se
pueden extraer mediante el diseño de la muestra dada. Como cada una de estas muestras
tiene una probabilidad conocida, determinada por el diseño de la muestra, podemos
derivar la varianza. Es importante señalar que varianza se mide como media sobre todas
las muestras posibles. Sin embargo, en la práctica nunca podemos sacar todas las
muestras posibles, sacamos una única muestra. Es, por lo tanto, una cantidad
desconocida que se desearía cuantificar, mediante la realización de un cálculo basado en
los datos de que disponemos. Esto es lo que hace la estimación de varianza.
La varianza estimada se utiliza en el cálculo de intervalos de confianza. El
procedimiento usual para la obtención de un intervalo de confianza al
(aproximadamente) 95% consiste en calcular los puntos extremos del intervalo como:
estimación puntual más o menos 1.96 veces la desviación estándar estimada, que es la
raíz cuadrada de la varianza estimada del estimador.
El resto de errores se conocen como errores ajenos al muestreo y se dan tanto en censos
como en muestras. Son más difíciles de controlar. Suelen clasificarse como a
continuación se detalla.
Error de no respuesta
Este error se produce cuando no se consigue obtener los datos de todas las personas
seleccionadas en la muestra, y la tasa de respuesta será baja. Los encuestados no suelen
responder a variables básicas como edad, sexo y la religión. La no respuesta la
encontramos en personas mayores, viudas o viudos, personas que residen en zonas
metropolitanas, personas sin estudios.
Cuando las variables de estudio no son recogidas por una encuesta o cualquier medio,
cada ítem del cuestionario representa una variable de interés, y el conjunto de datos
observados para cada variable puede estar afectado por la no-respuesta, esto se da de
dos maneras:
- Unidad de no respuesta: que es cuando se pierde la información para todas las
variables del cuestionario
- Ítem de no-respuesta: que es cuando se pierde al menos una, pero no todas, las
variables del cuestionario.
En la actualidad las agencias de Estadística de todo el mundo invierten recursos en
mejorar la recopilación de los datos para así poder tener menos falta de respuesta.
Normalmente en una encuesta podemos encontrarnos más de un 20% de no respuesta,
lo más preocupante es que esto va en aumento y ocurre en muchos países no sólo en el
- 14 -
nuestro. Se encuentra una falta de respuesta grande en las encuestas de negocios, en la
de transporte internacional de mercancías por carretera y en la que miden el volumen de
negocios en el comercio nacional y las actividades de servicio, en las encuestas sobre
las personas, en la de expectativas del consumidor y en la que se realiza para conocer la
transición de la escuela secundaria a la educación superior.
Lo más importante no es el error de no respuesta sino sus efectos puesto que se produce
un sesgo en la estimación y un incremento de la varianza de la estimación por la
reducción del tamaño de la muestra.
Lo vamos a ver de forma más clara con el siguiente ejemplo: Supongamos una
población de tamaño N que dividimos en dos estratos N1 que son los que contestan y N2
que son los que no contestan el cuestionario. La media poblacional la vamos a denotar
como Y , por lo tanto tenemos:
Y = w1Y1 + w2 Y2
de donde wi es el peso del estrato i, y se define como wi =
Ni
.
N
Y1 es la media para la población que si contestan.
Y2 es la media para la población que no contestan.
Utilizando las unidades del estrato que contesta y teniendo en cuenta que y1 es un
estimador insesgado de Y1 , tenemos que el sesgo es:
B = E ( y1 ) − Y = Y1 − ( w1Y1 + w2 Y2 ) = Y1 − w1Y1 − w2 Y2 = Y1 (1 − w1 ) − w2 Y2
(teniendo en cuenta que w1 + w2 = 1 ) y por lo tanto B = w2 (Y1 − Y2 ) lo que nos dice que
el sesgo es proporcional al peso del estrato que no contesta, dicho de otra forma que al
aumentar el número de los que no responden en la población total N, aumenta el sesgo.
El aumento de la varianza por los que no responden se puede solucionar aumentando el
tamaño de la muestra a través de sustituciones aleatorias. Esto hace que se incremente el
coste.
En las encuestas realizadas por el INE como la Encuesta Continua de Presupuestos
Familiares o la Encuesta Nacional de Salud también hay, claro está, falta de respuesta.
Explicamos a continuación como es tratada.
Encuesta Continua de Presupuestos Familiares Base 1997
Esta encuesta es una de las más tradicionales en el ámbito de la estadística oficial. El
objetivo de este tipo de encuestas es conocer los gastos de consumo de los hogares
españoles, es decir, conocer gastos, ingresos y ahorro de las familias. La recogida de
datos se hace de forma mixta con entrevistas y trabajos de campo.
- 15 -
La Encuesta Continua de Presupuestos Familiares es una encuesta dirigida a los hogares
cuyo objetivo es proporcionar cada trimestre información acerca de características
sociales y económicas de la población española, a nivel nacional y de Comunidad
Autónoma.
La encuesta se realiza cada trimestre. Dada la complejidad de la misma y con objeto de
evitar el cansancio de las familias, así como dar probabilidad de selección a otras
nuevas, se introduce el esquema de turnos de rotación para facilitar la renovación
parcial de la muestra.
Los cuestionarios PF-PF2 se cumplimentan en los hogares en grado de colaboración
fuerte (G) por los miembros del hogar de 14 y más años, el servicio doméstico residente
y los menores a partir de 7 años que voluntariamente quieran cumplimentarlo. Recogen
los gastos de la forma antes nombrada.
Dado que existe no respuesta en el sentido de que hay hogares en los que no se
cumplimentan los cuestionarios PF-PF2 teóricos, es necesario introducir un ajuste para
calcular el gasto del hogar. El tratamiento para cuestionarios faltantes de miembros del
hogar de 14 y más años, es el siguiente:
Se imputa un cuestionario por cada uno de los PF-PF2 faltantes del hogar, con los
gastos medios de estos cuestionarios recogidos en los hogares pertenecientes a las
secciones seleccionadas del subestrato.
Para ello se utiliza el siguiente procedimiento. Sean:
y hij( G)k = Gastos recogidos en los PF-PF2 del hogar j, de la sección i, estrato h, en
el bien k.
Fhij( G) = Número de cuestionarios PF-PF2 efectivamente recogidos en el hogar j.
Fhijt ( G) = Número de cuestionarios PF-PF2 teóricos que deberían haberse recogido
en el hogar j.
Para el bien k se calcula el gasto medio del subestrato s:
∑ ∑
y
( s)
hk
=
i∈s
∑∑
i∈s
y h i j ( G )k
j∈i
Fh i j( G)k
j∈ i
El gasto corregido del hogar en el bien k recogido en los PF-PF2 es:
yhi′ j ( G ) k = yh i j (G) k + yh(s)k ( Fhit j ( G ) − Fhi j ( G ) )
Si la característica X que se desea estimar es el gasto del hogar en el bien k, el
valor xhi j( G) que aparece en la expresión del estimador Xɵ A se obtiene de la forma
xhi j( G)k = x hi′ j( G)k + y hi′ j ( G)k
- 16 -
siendo:
xhi′ j( G)k = gasto del hogar en el bien k recogido en los cuestionarios PF-PF1 o PFPF3.
Luego se trata la no respuesta con un procedimiento de imputación.
Encuesta Nacional de Salud
Otro ejemplo sería en la encuesta también realizada por el INE de Encuesta Nacional de
Salud en la cual se investiga sobre la salud de los ciudadanos y su asistencia, con el fin
de mejorarla.
A través de esta encuesta se estudia los principales problemas de salud de los
ciudadanos, conocer si utilizan la salud pública, conocer sus hábitos de vida, tiempo de
espera en su consulta médica, funcionamiento del servicio de urgencia, hábitos de
vida…
En esta encuesta el cuestionario estará formado por dos grupos el primero cuestionario
del hogar y el segundo cuestionario de adultos.
En esta encuesta como en todas se da la no respuesta debido a que adultos o menores no
cumple el cuestionario por lo tanto se corrige determinando ciertos factores de elevación
a través de dos formas, una para adulto, que sería:
F
(4 A )
jk
= F
(3 A )
jk
=
∑
F I m( 3 A )
∑
F I m( 3 A )
Im ∈ C IA T G
Im ∈ C IA E G
donde k es el adulto del hogar j que cumplimenta un cuestionario de adulto, CIATG es
un conjunto de Cuestionarios Individuales teóricos, CIAEG es el conjunto de
Cuestionarios Individuales Efectivos del mismo grupo G y donde el subíndice lm
representa el adulto m del hogar l, y otra para menores, que es:
F
(4M )
jk
= F
(3 M )
jk
=
∑
F I m( 3 M
)
∑
F I m( 3 M
)
Im ∈ C IM TG
Im ∈ C IM E G
donde k es el menor del hogar j que cumplimenta un cuestionario individual de menor,
CIMTG es un conjunto de Cuestionarios Individuales de menores teóricos, y CIMEG es
el conjunto de Cuestionarios Individuales de menores efectivos del mismo grupo G y
donde el subíndice lm representa el menor m del hogar l.
Los grupos G que se han considerado tanto en el caso de adultos como en el de menores
han sido Comunidad Autónoma y los grupos por sexo y edades quinquenales hasta 65
años y más. Es por tanto un procedimiento de reponderación.
Ambos procedimientos, reponderación e imputación, son los habituales para tratar la no
respuesta.
- 17 -
Error de cobertura
Esta situación se da cuando algunos miembros de la muestra son excluidos del marco
muestral (este se forma antes de aplicar el cuestionario) que se utiliza para su estudio. O
cuando la población objeto se refiere a los elementos de la encuesta que pretenden
abarcar en el momento en que el cuestionario se está cumplimentando.
La diferencia entre estos dos puntos debe ser lo más corta posible de lo contrario
aumenta el riesgo de incremento del error de cobertura.
Los errores de cobertura son de tres tipos:
1) cobertura: esta formado por elementos que se encuentra en la población objetivo pero
no en la población marco. Una parte importante de cobertura esta formada por los
elementos nuevos de la población objetivo, también conocidos como nacimientos, que
no están en el marco.
2) sobrecobertura: esta formado por elementos que se encuentra en la población marco,
pero no en la población objetivo. Los elementos que han dejado de existir son fuentes
significativas de sobrecobertura, estos elementos también son conocidos como muertes.
Los elementos en cobertura tienen probabilidad cero de ser seleccionados en cualquier
muestra de la población marco. La sobrecobertura puede ser evitada si se identifica los
elementos de la muestra a la cual pertenece. Por lo general es imposible clasificar todos
los elementos de la muestra a la población objetivo o a la población marco.
3) listados dobles: se refieren al tipo de errores cuando un elemento demográfico es
catalogado más de una vez en el marco.
Como consecuencia de la imperfección del marco muestral poblacional conlleva a un
incremento del error de cobertura, expresado en un incremento del sesgo de la
estimación (m − µ ) en la pérdida de la efectividad en la delimitación del problema para
la estratificación o post-estratificación.
En la siguiente figura podemos ver más claramente de dónde provienen algunos de estos
errores ajenos al muestreo.
- 18 -
En esta figura podemos ver la población objeto como el conjunto de elementos que la
encuesta pretende abarcar con su cuestionario. Sin embargo la población marco es la
que realmente se toma. De ahí ya podemos ver cual es la muestra y tras realizarle la
encuesta conoceremos el conjunto de respuesta y el conjunto de no respuesta.
El punto de referencia para la población objetivo se elabora anteriormente incluso con
12 meses de antelación, llegados a este punto esto se conoce como el tiempo de
referencia para la población marco. La diferencia de tiempo entre los dos puntos tiene
que ser lo más breve posible ya que puede aumentar el error de cobertura a causa del
tiempo. Los errores de cobertura se dividen en tres: falta de cobertura, exceso de
cobertura y duplicar listas. Los elementos que encontramos en la población objeto pero
no en la población marco forma una falsa cobertura. Podemos definir a estos elementos
como elementos nuevos los cuales no han llegado todavía a la población marco. Por
otro lado los elementos que están en la población marco y no en la población objeto lo
que hacen es crear una fuerte fuente de exceso de cobertura. Estos elementos son
conocidos como muertes ya que desaparecen. El exceso de cobertura se puede evitar si
es posible identificar los elementos de la muestra a la que pertenece el exceso de
cobertura. Realmente el problema nos viene cuando los elementos no responden y por
lo tanto podemos obtener estimaciones sesgadas.
Error de medida
Este tipo de error se refiere a las inexactitudes que aparecen debido a la mala
formulación de las preguntas. Para cuantificar el error de medición, es necesario realizar
diferentes mediciones en varios objetos.
Error de trabajo de campo
Estos se producen desde el principio hasta el final de la encuesta causados por un mal
registro, una pregunta inadecuada. Aquí influye mucho el comportamiento del
entrevistador y el encuestador.
- 19 -
2. Estimación con respuesta completa
Antes de abordar la no respuesta, veamos qué estimadores se utilizan cuando la
respuesta es completa.
Partimos de una población finita U = (1 ,..., k ,..., N), de la cual obtenemos una muestra
probabilística s ⊆ U con un diseño de muestreo p (⋅) . Por lo tanto p(s) es la probabilidad
de que la muestra s haya sido seleccionada.
El objetivo es estimar el total
tY = ∑k∈U yk
donde yk es el valor de la variable de estudio, y, para el k-ésimo elemento.
Cuando el diseño muestral se ha fijado, con probabilidades de inclusión π k y pesos del
diseño d k = 1 / π k , fijos y conocidos, y sin usar información auxiliar, se dispone de un
estimador insesgado (siempre que π k > 0, ∀k ∈ U ) para Y = tY , el estimador de HorvitzThompson que está dado por
⌢
YHT = ∑k∈s dk yk
Los estimadores de regresión generalizada utilizan la información auxiliar en la fase de
estimación, lo que los hace más eficientes que el estimador de Horvitz-Thompson.
Sea x el vector auxiliar y x k su valor para el elemento k , x k = ( x1k ,… , x jk ,… , xJk ) ' con
J componentes, donde x jk es el valor para el k elemento de la j-ésima variable auxiliar.
∑
Se supone que el total de la población
U
x k es conocido.
Un estimador que utiliza esta información es del estimador de regresión generalizada
que está definido como:
YˆGREG = YˆHT +
=
donde B
(∑
U
′
xk − ∑ s dk xk B
)
( ∑ d c x x′ ) ( ∑ d c x y ) es el vector de coeficientes de regresión de y
−1
s
k k
k
k
s
k k
k
k
sobre x usando los datos ( x k , yk ) para los elementos k ∈ s , siendo d k = 1 / π k y el
factor ck es especificado por el estadístico.
En el estimador GREG, el sesgo, aunque no es exactamente cero, tiende a cero con el
tamaño de la muestra, y en las muestras con tamaño normales es tan pequeño que se
′
puede despreciar. En YˆGREG el factor ∑U x k − ∑ s d k x k B
puede verse como un ajuste
(
)
- 20 -
de regresión aplicado al estimador YˆHT y su efecto es una reducción importante de la
varianza de YˆHT , sobre todo cuando existe una relación fuerte entre y y x .
La presentación habitual del estimador YˆGREG es como una suma lineal ponderada de los
valores observados yk . Así
YˆGREG = ∑ s d k g k yk
donde el peso total de la unidad yk es el producto de dos pesos, el peso del diseño
d k = 1 / π k y el peso, g k , que depende tanto del elemento k como de la totalidad de la
muestra s de la cual k es un miembro. Este peso está dado por:
g k = 1 + ck
(∑
U
xk − ∑ s dk xk
)′ ( ∑ d c x x′ )
s
k k
k
k
−1
xk
El valor de g k está cerca de la unidad para la mayoría de los k elementos de s, y con un
mayor tamaño de la muestra s, mayor es la tendencia de g k a estar cerca de la unidad.
Es raro encontrar elementos con un peso g k sea más de 4 o inferior a 0, aunque pueden
darse pesos negativos (hay diferentes procedimiento para solventar esta cuestión)
Este estimador es en realidad un conjunto de estimadores proporcionados por los
vectores auxiliares. Si de las variables auxiliares conocemos el total de la población,
podemos incluir todas las variables y así será más eficaz para reducir la varianza.
Podemos esperar hasta después del muestreo y haber obtenido los datos para ver qué
estimador GREG podemos utilizar, porque lo podemos hacer cuando ya se ha
completado la encuesta.
Un objetivo importante en una encuesta es su varianza (sobre la repetición de muestras).
La varianza siempre será desconocida porque es función de la población completa.
Primero calcularemos la varianza V (ɵt ) y a continuación la transformaremos en una
varianza estimada, la notaremos como V ( ɵt ), y podremos ver la precisión de ɵt y
calcular un intervalo de confianza a partir de una muestra.
La varianza del estimador de regresión generalizada es
dd
V (Y GREG ) = ∑∑U ( k l − 1) Ek El
d kl
donde Ek = yk − x k ' B son los residuos de la regresión en toda la población y
B=
(∑
c x x′
U k k k
) (∑
−1
U
ck x k yk
)
- 21 -
Además, para el cálculo de la varianza también se necesitan las probabilidades de
inclusión de segundo orden, π kl que representan la probabilidad conocida de que ambas
unidades k y l estén incluidas en la muestra, es decir, π kl = ∑ s ⊃k ,l p ( s ) . Los pesos
asociados son d kl = 1 / π kl que son conocidos para todas las unidades de la población.
Esta fórmula exige que todas las probabilidades de inclusión de primer y segundo orden
sean estrictamente positivas.
Para la estimación de la varianza del estimador GREG se usa
Vˆ (Y GREG ) = ∑∑ s ( d k d l − d kl ) gk ek gl el
ˆ
donde ek = yk − x′k B
Por tanto, el estimador YˆGREG es una buena elección para la estimación del total Y ya que
es insesgado, tiene una varianza pequeña cuando x k explica bien la variable de estudio
yk y tiene la propiedad de reproducir los totales de las variables auxiliares, es decir,
ˆ
X
GREG = ∑ s d k g k x k = ∑U x k = X , y este total es conocido. Estas propiedades son el
punto de partida para los estimadores de calibración.
Vamos a ver algunos ejemplos de estimadores GREG:
Una clasificación
Para una población supongamos que tenemos un número de hombres y mujeres N1 y N2
ambos conocidos. También tenemos un vector xk y éste con dos posibles valores
xk = (1, 0)′ para todos los hombres y xk = (0,1)′ para todas las mujeres. El total de la
población es xk es ( N1 , N 2 )′ conocido. La derivación de los g-pesos nos muestra
N1
gk =
cuando k es masculino y s1 parte masculina de la muestra s. De la misma
d
∑ S1 k
forma obtenemos g k =
N2
∑ S 2 dk
para k cuando es femenino y s2 parte femenina de la
muestra s. Los pesos d k g k satisfacen la propiedad de calibración.
El estimador GREG para este simple caso de información auxiliar es
Y GREG = N1 ɶy S 1 + N 2 ɶy S 2 con ɶy sj = ∑ Sj d k yk / ∑ Sj d k para j=1, 2. Este estimador es el
estimador post- estratificado.
Una clasificación doble
Supongamos una lista de población de individuos distribuidos de acuerdo con el sexo
en tres regiones diferentes, de la siguiente manera:
- 22 -
Sexo
Masculino 1
Femenino 2
Total
1
N11
N21
N.1
Región
2
N12
N22
N.2
Total
3
N13
N23
N.3
N1.
N2.
N..
Aquí la información auxiliar más detallada consiste en celdas formadas por N11 a N23. El
vector xk expresa la información de estas seis componentes donde uno vale “1” y el
resto cero. Sin embargo, hay ocasiones en que la información cruzada de las variables es
un inconveniente como por ejemplo: a) cuando las variables provienen de diferentes
registros o b) cuando el recuento de celdas es pequeño. En el primer caso el recuento de
celdas puede ser costoso. En el segundo el recuento de celdas pequeñas puede hacer el
estimador inestable.
Tenemos como alternativa utilizar la información que sólo se define por los contadores
marginales. Aquí el vector auxiliar sería de cinco dimensiones y es tal que las dos
primeras posiciones indican sexo y la tercera región. El vector auxiliar para cada
individuo de la población en la celda (1,2) se ha formado por xk = (1, 0, 0,1, 0)′ . La suma
en la población de todos estos vectores xk es ( N1. , N 2. , N.1 , N.2 , N.3 , )′ que es conocida.
Estimación en dominios
Asumimos que para una población queremos estimaciones por separado para hombres y
mujeres, por lo tanto hay dos dominios en la población. Tomamos como diseño muestra
SRS, y conocemos el número de hombres y mujeres. Vamos a utilizar el GREG como
y para k ∈ U d
estimador para el dominio Yd = ∑U ydk , d = 1, 2 donde ydk = k
.Tenemos
0 para k ∉ U d
dos formulaciones para el vector auxiliar:
i) el estimador GREG basado en la más simple posible especificación, xk = ck = 1 ,
para todos los elementos.
ii) el estimador xk = (1, 0)′ para todos los hombres y xk = (0,1)′ para todas las
mujeres y ck = 1 para todo k.
La varianza del estimador Y dGREG = ∑ s d k gk ydk es
1− n / N 1
V (Y dGREG ) = N 2
Edk2
∑
U
n
N −1
donde la única diferencia entre los dos alternativas está en los residuos Edk .
En la alternativa i) los residuos son:
- 23 -
yk − Yd / N para k ∈ U d
Edk
para k ∈ U − U d
−Yd / N
En la variante ii) los residuos son:
yk − Yd / N d para k ∈ U d
Edk
para k ∈ U − U d
0
Se demuestra que
∑
U
Edk2 es considerablemente mayor en i) que para ii), es decir, en la
estimación en el dominio es muy favorable si el vector auxiliar coincide con el
indicador del dominio. La reducción de la varianza será significativa en comparación
con i).
Vamos a ver lo que se puede lograr si existe una variable auxiliar cuantitativa.
Una clasificación combinada con una variable cuantitativa
Supongamos que tenemos como marco específico el sexo y la región, como en el
anterior ejemplo, y el valor xk de la variable auxiliar cuantitativa, tal como ingresos.
Vamos a construir algunos vectores auxiliares que estén de acuerdo con la información
auxiliar. Las celdas de la población la denotaremos como U11 ,..., U 23 y las regiones
como U .1 ,U .2 y U.3
Caso
∑
Vector auxiliar xk
Total auxiliar en la población
xk
∑
ii
(1, xk )′
( N , ∑U xk )′
iii
(0, xk , 0, 0, 0, 0)′
(∑U 11 xk ,...,∑ U 23 xk )′
iv
(0,1,
0,0
xk , 0,0, 0,0)′
0,0,
0,
( N11 ,..., N 23 , ∑ U 11 xk ,...,∑U 23 xk )′
i
contadores
v
(1,0,0,
xk ,0)′
sexo
U
U
xk
xk
variable x
( N1. , N 2. , ∑ U 1 xk , ∑ U 2 xk , ∑ U 3 xk )′
region
Aquí surgen algunos estimadores muy conocidos. Vamos a considerar dos de ellos con
SRS en el diseño de la muestra. Cuando xk = xk y ck = 1 / xk , se obtiene de esta fórmula
el estimador de razón:
- 24 -
y
Y GREG = ∑U xk s
xs
de donde y s =
1
∑ yk
n S
xs =
1
∑ xk
n S
Cuando xk = (1, xk )′ y ck = 1 para todo k, se obtiene el estimador de regresión:
{
}
= Covxys
B
S xs2
con Covxys =
Y GREG = N y s + ( X − x s ) B
donde
y S xs2 =
X = ∑ U xk / N ,
1
∑ ( xk − x s )( yk − y s )
n −1 S
y
1
∑ ( xk − x s )2
n −1 S
Aquí hacemos hincapié en una determinada cantidad de información auxiliar que puede
dar lugar a varias formulaciones de diferentes vectores auxiliares.
- 25 -
- 26 -
Capítulo II: El ajuste de no respuesta
1. No respuesta
No todas las unidades responden la encuesta y se genera así la no respuesta, la cual
constituye a una fuente potencial del sesgo.
El estudio clásico de la falta de respuesta en el muestreo intenta mejorar las tasas de
respuesta y hacer ajustes para tratar la falta de respuesta. El error por la no respuesta
surge cuando algunos de los posibles encuestados, que están incluidos en la muestra, no
responden, a todos o algunos de estos datos. Este es uno de los problemas más
significativos.
Hay dos tipos de no respuesta:
1) Ítem de no – respuesta: ocurre cuando una unidad encuestada tiene
inexactitudes o se niega a proporcionar algunos ítems (preguntas)
específicos de información.
2) La unidad de no - respuesta completa: esta se refiere a la pérdida de
cualquier dato en la encuestas de la unidad muestral, este tipo es
conocida como no entrevistado.
Los resultados dan sesgo de no - respuesta cuando las unidades de no - respuesta
difieren en importancia con respecto a aquellos que responden a la encuesta o a los
ítems particulares.
Las tasas más altas de respuesta implican menores tasas de sesgo por falta de respuesta,
aunque la tasa de respuesta puede no ser un indicador adecuado del sesgo por la falta de
respuesta. La tasa de respuesta por ella misma no indica si los encuestados son
representativos de la muestra original. Al aumentar la tasa de respuesta puede que el
sesgo no se reduzca por la falta de respuesta, si los encuestados no son diferentes de los
que aun no han respondido. Una tasa baja de respuesta incrementa la probabilidad de
sesgo por falta de respuesta.
Las tasas bajas de respuesta son negativas, por ejemplo, cuando el encuestador va por
las casas y se encuentra que no hay nadie. La probabilidad es menor por ejemplo en
casas que hay niños pequeños que en viviendas donde viven gente soltera, divorciada o
también puede encontrar más respuestas si se va en fin de semana que entre semana, en
encuestas telefónicas cuando el entrevistador se niega hacerla o tras hacer dos o tres
preguntas se niega a seguir, en centros comerciales y donde más bajas se dan son en
encuestas por correo que el encuestado abre el sobre y descubre lo que es.
- 27 -
De alguna que otra forma se intenta motivar a los encuestados para que participen en la
encuesta con estrategias como ponerse en la puerta de su casa, o dándole algún tipo de
incentivo ya sea económico, el cual se da antes de realizar la encuesta (este da gran
resultado), o algún tipo de premio tras realizar la encuesta.
También un cuestionario bien diseñado y breve puede disminuir la tasa de no respuesta.
Otro factor importante sería el seguimiento del encuestado que por ejemplo tras haber
transcurrido unos días y no haber obtenido respuesta volver a ponerse en contacto con el
encuestado para obtener su respuesta.
Entre las estrategias para ajustar el error de la falta de respuesta se incluyen el
submuestreo de los no encuestados, reemplazo, sustitución, estimación subjetiva,
análisis de la tendencia, ponderación simple e imputación. Los describimos brevemente:
a) Submuestreo de los no encuestados: Consiste en que el investigador contacta
una submuestra de los no encuestados, mediante entrevistas telefónicas,
personales…. Esto suele originar una alta tasa de respuesta dentro de la
submuestra. Estos valores aquí obtenidos son presentados a los no encuestados,
y los resultados de la encuesta se ajustan para considerar la falta de respuesta.
b) Reemplazo: Consiste en que los no encuestados en la encuesta actual son
sustituidos por no encuestados de una encuesta anterior y similar. Se le intenta
hacer la encuesta a los no encuestados de la encuesta anterior y algunas veces se
le ofrece un incentivo apropiado. Las dos encuestas deben de utilizar tipos
similares del encuestador y el intervalo entre ellas debe ser corto.
c) Sustitución: En este caso el investigador lo que hace es reemplazar a los no
encuestados por otros elementos del marco de muestreo que se espera que
respondan. El marco de la muestra es dividido en subgrupos, los cuales son
internamente homogéneos en características del encuestado y heterogéneos en
términos de tasas de respuesta. Estos subgrupos se utilizan para identificar a los
sustitutos similares a los no encuestados en particular, pero diferentes a los
encuestados que ya están en la muestra.
d) Estimaciones subjetivas: Este caso se da cuando ya no se puede incrementar la
tasa de respuesta mediante los métodos anteriormente mencionados, y pueden
ser posible llegar a unas estimaciones subjetivas de la naturaleza y efecto de
sesgo por falta de respuesta. Lo que se hace es evaluar los efectos de
probabilidad de la falta de respuesta con base en la experiencia y la información
disponible.
e) Análisis de la tendencia: Es un intento de discernir una tendencia entre
encuestados rápidos y tardíos. Lo que se intenta es estimar a los no encuestados
para que vean donde se encuentra en relación con las características de interés.
- 28 -
f) Ponderación: Se intenta considerar la falta de respuesta al asignar pesos
diferenciales a los datos dependiendo de las tasas de respuesta.
g) Imputación: Asigna las características de interés a los no encuestados, con base
en la similitud de las variables disponibles, tanto para los encuestados como para
los no encuestados.
El ajuste de no respuesta es un término general para las diversas técnicas realizadas por
los estadísticos para hacer frente a la falta de respuesta una vez que se ha producido, es
decir, después de aceptar el hecho de que algunos datos deseados se han perdido.
Los principales métodos para el ajuste de no respuesta son reponderación e imputación.
Reponderación implica alterar los pesos de los encuestados, en comparación con el peso
que se habría utilizado en el caso de la respuesta del 100%. Reponderación implicará un
aumento de los pesos para todos, o casi todos, los elementos que responden.
La reponderación se trata desde un enfoque general, la calibración, que tiene la
propiedad de incorporar los métodos "estándar" de la literatura.
La imputación supone la sustitución de los valores perdidos por otros valores. El
estadístico puede optar por utilizar la imputación de falta de respuesta para ítems o para
unidades. En algunos países la imputación es rechazada por motivos legales.
La clave del éxito del ajuste de no respuesta se encuentra en el uso de una "fuerte"
información auxiliar. Con su uso se reducen tanto el sesgo de no respuesta como la
varianza.
Las variables registro juegan un papel importante en muchas agencias de estadística. Se
utilizan en la creación de un diseño de muestreo apropiado y / o en el cálculo de las
estimaciones muestrales. En ambos usos, las variables de registro se pueden llamar
variables auxiliares, ya que ayudan y mejoran los procedimientos. Muy a menudo, el
término "variable auxiliar" se refiere a una variable que se utiliza en la fase de
estimación para crear mejores alternativas a la de los estimadores simples.
Variables registro se utilizan con frecuencia para construir la estratificación. Este tipo
de diseños tienen por objetivo lograr una precisión específica para los cálculos
realizados para toda la población y / o de especial importancia en dominios
(subpoblaciones). Esto es importante para que se designe a cada dominio importante
como un estrato separado. En otras encuestas, en particular en las encuestas de
empresas, una variable registro puede ser utilizada como la variable "tamaño" necesario
para la construcción de un diseño probabilístico proporcional al tamaño (un diseño pps
o πps).
El requisito mínimo para calificar como auxiliar a una variable es que los valores de la
variable estén disponibles para cada elemento incluido en la muestra (es decir, tanto
para los que responden como para los que no responden). En muchas encuestas, los
valores tales variables se pueden encontrar en registros disponibles, y suelen ser
- 29 -
conocidos no sólo para la muestra de elementos, sino también, más ampliamente, para
todos los elementos en la población.
El uso de la información auxiliar es una de las herramientas usada para el ajuste de la no
respuesta y su objetivo es reducir el sesgo y la varianza causada por los datos faltantes.
Un vector auxiliar se compone de una o más variables auxiliares. Hay dos pasos
importantes en el proceso de formación del vector auxiliar, que serán, en última
instancia, utilizados en la estimación. Estos son: (i) Hacer un inventario del potencial
de las variables auxiliares; (ii) Seleccionar y preparar las condiciones más adecuadas de
estas variables para la entrada en el vector auxiliar.
Las variables auxiliares consideradas potencialmente útiles para la estimación pueden
provenir de varios registros que permite la posibilidad de vincular los elementos. Así,
se puede tener una lista bastante larga de posibles variables auxiliares. El siguiente paso
importante es el procedimiento por el cual llegamos a la forma final del vector de
variables auxiliares que se utilizarán en la estimación. Este proceso requiere
considerable reflexión y estudio. Las decisiones que se tomen incluyen la selección de
las variables del conjunto más grande disponible, el establecimiento de adecuados
límites de los grupos para la conversión de una variable cuantitativa en una variable
categórica, y fijar reglas de colapsar grupos muy pequeños en grupos más grandes.
El estimador a utilizar en el estudio requerirá un total conocido en la población de cada
variable en el vector auxiliar. Usamos el término "información auxiliar", en referencia
tanto al vector auxiliar en sí mismo, y a los totales conocidos de las variables en el
vector. La imputación por lo general se ha llevado a cabo con información auxiliar
limitada a los elementos de la muestra. Esto es así ya que cuando las variables registro
se utilizan en la construcción del diseño de la muestra, sus valores deben ser conocidos
para cada elemento de la población, por eso se suelen tomar como variables auxiliares
sexo o edad, como cuando los estratos se construyen para un diseño estratificado. Sin
embargo, cuando las variables auxiliares se utilizan en la etapa de estimación, tal
información tan detallada puede no ser necesaria. Puede ser suficiente conocer el total
en la población para cada variable auxiliar, mientras que el conocimiento de la variable
a nivel unidad puede ser limitada a los elementos incluidos en la muestra solamente.
2. Un ejemplo del impacto de la no respuesta
Veamos un ejemplo del error de muestreo y el sesgo de no repuesta. Para ello
construimos una población artificial de tamaño N = 34.478 compuesta por 17.062
hombres y 17.416 mujeres. El valor de la variable en estudio, yk , representa la renta per
cápita. El valor promedio fue 196.592 en hombres y 135.689 en mujeres. Supongamos
que queremos estimar el total con una muestrea aleatoria simple de tamaño 400 y con
un mecanismo de respuesta en el que los hombres responden con probabilidad 0.5 y las
mujeres con probabilidad 0.9. El subconjunto de respuesta tiene un tamaño en torno a
281 y tiende a sobre-representar a las mujeres.
- 30 -
Se extrajeron 100 muestras aleatorias simples y para cada una de ellas se seleccionó un
subconjunto de respuesta con el mecanismo anterior. Para cada una de ellas se calculó el
1
estimador de expansión simple, YˆEXP = N ∑ r yk , donde m es el tamaño del conjunto
m
de respuesta.
La siguiente figura muestra los resultados obtenidos:
Como se observa, el estimador de expansión simple, YˆEXP , trata este subconjunto de
respuesta como si fuera una muestra aleatoria simple de la población, lo cual no es
adecuado. La mayoría de las 100 estimaciones están por debajo del objetivo. El sesgo
es claramente negativo.
Supongamos ahora que el número total de hombres y mujeres en la población es
conocido y que usamos esta información auxiliar proporcionada por la variable sexo
P
1
mediante un estimador post-estratificado, YˆPST = ∑ N p yrp , donde yrp =
∑ yk , m p
m p rp
p =1
el número de respondientes en cada grupo p, con P = 2 estratos, hombres y mujeres. Las
100 estimaciones dan como resultado el que muestra la siguiente figura:
La incorporación de la información auxiliar da estimaciones centradas en el valor
objetivo. Aquí podemos ver cómo mediante la información auxiliar se ha podido reducir
el sesgo de no respuesta, y con esta reducción también se reduce el error del estimador.
- 31 -
Como veremos más adelante, para reducir el sesgo de no respuesta y la varianza del
estimador de calibración, habrá que seleccionar un vector auxiliar que satisfaga algunos
de los siguientes principios:
1) el vector auxiliar debería explicar la variación de las probabilidades de respuesta: de
ser así el sesgo de no respuesta se reduciría en las estimaciones de todas las variables
que se estudien.
2) el vector auxiliar debería explicar la variación de las variables de estudio principales:
siendo así el sesgo de no respuesta reduciría sólo en las estimaciones para las variables
de estudio principales.
3) el vector auxiliar debería identificar los dominios más importantes: en cuyo caso el
efecto es principalmente realizar una reducción del sesgo para las estimaciones del
dominio.
Si se cumple el principio primero el sesgo de la no respuesta se reduce en la estimación
para todas las variables de estudio. Si sólo se satisface el principio segundo el sesgo de
no respuesta se reduce en la estimación para las variables principales de estudio. Si se
da el tercer principio se produce una reducción de la varianza para la estimación del
dominio.
Todos estos métodos giran alrededor de la información auxiliar, y se diferencia en sus
exigencias por la información auxiliar.
3. Un ejemplo del uso de la información auxiliar
Ejemplo.- Encuesta sobre vida y salud en Suecia
Como ejemplo del uso de la información auxiliar, y de los requerimientos que
impondrá, como veremos más adelante la estimación por calibración, veamos esta
encuesta en la que se tiene una población formada por personas de 18 a 79 años de
cierta región de Suecia. En esta encuesta se quiere estudiar las diferentes condiciones de
vida y salud. En esta encuesta la población marco se ha estratificado por municipios. La
muestra total fue asignada a los estratos de modo que cumpla unos requisitos
específicos de precisión para cada municipio. La tasa de no respuesta fue de 34,4%, es
una tasa alta, esto puede causar un importante sesgo de no respuesta. Por suerte la
información auxiliar es bastante abundante como vamos a ver a continuación.
Se van a utilizar seis variables auxiliares todas ellas categóricas como sexo (hombre o
mujer), grupo de edad (este esta formado por 4 clases), país de nacimiento (del país o
extranjero), el grupo de ingresos (3 clases), estado civil (casados, otros) y nivel de
educación (formado por 3 grupos).
A través de dos análisis diferentes se quiere ver cual de las seis variables es mejor para:
a) explicar la variación de las probabilidades de respuesta
b) explicar la variación de las variables de estudio
- 32 -
Un análisis de las tasas de respuesta da los siguientes resultados:
Sexo
Tasa de respuesta %
Masculino Femenino
60,10
71,2
Grupo de edad
Tasa de respuesta %
18-34
54,9
País de nacimiento
Tasa de respuesta %
Nacional Extranjero
66,7
50,8
Clases de ingresos
Tasa de respuesta %
0-149
60,8
Estado civil
Tasa de respuesta %
Casado Otros
72,7
58,7
Nivel educativo
Tasa de respuesta %
Nivel 1
63,7
35-49
61,0
50-64
72,5
150-299
70,0
Nivel 2
65,4
65-79
78,2
30070,2
Nivel 3
75,6
La tasa de respuesta difiere considerablemente en las diferentes categorías de una
variable. Por lo tanto las seis variables auxiliares serán importantes para explicar la
variación de las probabilidades de respuesta. Las tasas de respuesta son muy similares
en los dos grupos de ingreso últimos y en los dos primeros de los grupos educativos, por
lo que podrían ser colapsados. Pero si mantenemos todos los grupos podríamos cumplir
con el segundo principio.
Un segundo análisis es sobre la variación de las variables de estudio. Las variables que
se señalaron como más relevantes en este estudio fueron: a) salud (buena, mala), b)
temor a ataques al caminar al aire libre durante la noche (si, no), c) problemas en la
vivienda (si, no), d) economía personal (buena, mala). Las estimaciones en este ejemplo
se han obtenido de a través del método “ajuste por no respuesta dentro de cada estrato”,
y se reflejan a continuación como estimación de la proporción (%) de individuos con la
propiedad (a)-(d) por sexo, grupo de edad, país de nacimiento, ingresos, estado civil y
nivel educativo:
Proporción (%) por sexo
Propiedad
Masculino
(A)
7,5
(B)
7,8
(C)
2,6
(D)
19,6
Femenino
8,9
21,1
2,4
19.8
Proporción (%) por grupo de edad
Propiedad
18-34
35-49
50-64
- 33 -
65-79
(A)
(B)
(C)
(D)
4,3
11,8
5,9
31,0
6,6
11,4
2,8
26,6
10,6
14,3
1,0
12,5
10,9
23,4
0,8
9,6
Proporción (%) por país de nacimiento
Propiedad
Nacional
Extranjero
(A)
8,0
11,7
(B)
14,7
18,3
(C)
2,4
4,2
(D)
19,2
28,5
Proporción (%) por grupos de ingresos
Propiedad
0-149
35-49
(A)
10,0
7,2
(B)
18,6
12,6
(C)
3,8
1,5
(D)
25,3
16,5
Proporción (%) por estado civil
Propiedad
Casados
(A)
8,2
(B)
13,8
(C)
1,1
(D)
14,1
3004,0
8,1
1,0
6,0
Otros
8,2
16,3
4,3
26,5
Proporción (%) por nivel educativo
Propiedad
Nivel 1
Nivel 2
(A)
10,5
7,3
(B)
19,1
12,6
(C)
1,7
3,2
(D)
17,5
21,6
Nivel 3
4,6
12,9
1,8
16,8
De entre todas las variables parece que son menos fuertes, a la hora de explicar la
variación de las variables de estudio, las que se refiere al sexo y al estado civil, al menos
para algunas de las cuatro variables en estudio.
Para conseguir que los municipios clasificados por sexo, por grupo de edad cumplan el
tercer principio, estas tres variables deben estar en el vector auxiliar, municipios * sexo
* grupo edad, (de dimensión Mx2x4, donde M es el número de municipios). Además,
para incluir el país de nacimiento y el nivel educativo, sin tener celdillas con pocos
elementos, se añaden como país de nacimiento + nivel de educación, quedando
municipios * sexo* edad + país de nacimientos + nivel de educación, y por lo tanto la
dimensión del vector auxiliar sería (Mx2x4)+2+3.
- 34 -
Toda la anterior es la información auxiliar. Los pesos que reponderan el estimador de
expansión simple con la técnica de la calibración, se obtiene del vector auxiliar y tienen
las siguientes propiedades:
a) el recuento de la población es conocido en las celdas determinadas por municipio
por sexo y grupo de edad
b) el recuento marginal conocido en la población del país de nacimiento
c) el recuento marginal conocido en la población del nivel de estudios
Podemos ver que todos los métodos de estimación giran alrededor de los diferentes usos
de la información auxiliar.
En el capítulo siguiente introduciremos la estimación por calibración y la reponderación
por calibración para ajuste de no respuesta y en el siguiente daremos un criterio para
seleccionar vectores auxiliares que permitan reducir es sesgo de no respuesta.
- 35 -
- 36 -
Capítulo III: Estimación por calibración y su uso para
tratar la no respuesta
La diferencia de este apartado con el anterior es que ahora no poseemos la respuesta
completa.
Anteriormente hemos estudiado cuando la respuesta es completa lo cual implica r = s,
la falta de respuesta nos lleva a que r es un subconjunto propio de s. El conjunto con
falta de respuesta lo llamaremos o = s-r. Supondremos además que no hay
imperfecciones en el marco.
Actualmente se utiliza una metodología de estimación en los centros estadísticos donde
se distingue dos caminos para hacer frente a la falta de respuesta los cuales son la
ponderación y la imputación. Se utiliza la reponderación con la ayuda de la información
auxiliar y se aplica a los valores de y para los elementos que responden k ∈ r .
Con la reponderación, los nuevos pesos wk de un estimador Yˆw = ∑ r wk yk de un
parámetro Y = ∑U yk serán, para la mayoría de los elementos, mayores que los pesos
que se dan con la respuesta completa. Con este proceso se quiere compensar los
elementos que se han perdido por la falta de respuesta.
A continuación vamos a ver técnicas para reducir los errores que son causados por la
falta de respuesta. La principal fuente para la reducción de los errores es un uso eficaz
de la información auxiliar. Como hemos dicho anteriormente a través de dos vías la
reponderación e imputación. Aquí sólo abordamos la primera.
1. Errores causados por el muestreo y la no respuesta
Denotamos por Y la expresión adoptada YˆNR en el caso de respuesta completa cuando r
= s. El error total de Yˆ se puede descomponer en una suma de dos errores:
NR
YˆNR − Y = (Y − Y ) + (YˆNR − Y )
- 37 -
El término Y − Y , es el error de muestreo (error causado por la selección de una muestra
única, en lugar de toda la población) y el término Y NR − Y es el error de no respuesta.
Pensamos primero el valor esperado, media, del estimador YˆNR . Esta se encarga de
medir la tendencia central del estimador YˆNR . La media (sobre todas las posibles
muestras) del error de muestreo es cero o casi cero, ya que el estimador con respuesta
completa es insesgado o casi-insesgado. La media (sobre todas las posibles muestras s y
sobre todos los posibles subconjuntos de respuesta r) del error de no respuesta es
probable que sea diferente de cero. Con esto queremos decir que la falta de respuesta
introduce el sesgo en la estimación.
A la hora de analizar la precisión del estimador YˆNR necesitamos analizar su error
cuadrático medio, MSE (Yˆ ) , que es el promedio del error total al cuadrado, (Y NR − Y ) 2 ,
NR
sobre todas las muestras s y todos los conjuntos de respuesta r.
Las nociones de valor esperado, insesgadez y MSE son el promedio dos veces del
proceso: sobre todos los conjuntos posibles de respuestas r, realizado por el mecanismo
de respuestas conocido como q(r|s), para una muestra fija s, y sobre todas las muestras
posibles, elaboradas por el diseño conocido de muestreo p(s). Denotamos los operadores
de las esperanzas con respecto a estas dos distribuciones Eq y Ep. Y para los operadores
con respecto a ambas distribuciones conjuntas con el subíndice pq.
Expresamos el sesgo de no respuesta de la siguiente forma
B pq (YˆNR ) = E p ( Bc )
donde
Bc = Eq (YˆNR s ) − Yˆ
es el sesgo condicionado de no respuesta, dada la muestra realizada s.
En la práctica es casi imposible saber si la condición de insesgadez,
B pq (YˆNR ) = E p ( Bc ) = 0 se cumple ya que la respuesta q(r|s) es desconocida. La mayoría
de las veces el sesgo de no respuesta viene de los estudios de simulación en las
diferentes poblaciones y mecanismos de respuesta que estos utilizan.
Si suponemos que el sesgo condicionado Bc es cero o insignificante para cualquier
muestra s, entonces la varianza es la siguiente
V pq (YˆNR ) = VSAM + VNR
donde
VSAM = V p (Y ) y VNR = E pVq (YˆNR s )
- 38 -
La componente VSAM es llamada varianza de muestreo. Esta es la varianza de todas las
muestras posibles que se pueden extraer con el diseño de muestreo dado sin que esta
dependa de la falta de respuesta o del mecanismo de respuesta. La componente VNR se
llama falta de respuesta. Esta es la media sobre todas las muestras s, y además sobre
todos los conjuntos de respuesta r.
Para evaluar el error de YˆNR , necesitamos una estimación de la varianza total la cual
hemos visto anteriormente con la suma de dos términos V pq (YˆNR ) = VSAM + VNR
Los estadísticos suelen tener una vaga idea de cantidad de variación total que es
explicada por la variación en la falta de respuesta con la componente VNR , esta medición
se da al conocer el tamaño relativo de estas dos componentes ( VSAM y VNR ). Si VNR se
calcula en una encuesta que se repite con cierta regularidad y se obtiene que representa
una proporción importante de la varianza total, es una señal importante para prestar más
atención a recursos de la encuesta para conseguir reducir la falta de respuesta en las
próximas encuestas.
Para la estimación de VNR se usa la reponderación, mediante el estimador de calibración
Yˆ . Para la componente de varianza de muestreo V , se puede usar para la
w
SAM
modificación apropiada de su fórmula destinada a la respuesta del 100% teniendo en
cuenta el estimador GREG:
Vˆ (YˆGREG ) = ∑∑ r (d k d l − d kl ) g k ek gl el
ˆ y
donde g k = 1 + ck ( ∑U x k − ∑ r d k x k ) '( ∑ s d k ck x k x′k ) −1x k , ek = yk − x′k B
Bˆ = ( ∑ s d k ck x k x′k ) −1 ( ∑ s d k ck x k yk ) .
El sesgo de no respuesta no puede ser estimado, pero si se pueden hacer algunos
análisis. La parte final de este trabajo se dedica a exponer un criterio para la selección
de las variables auxiliares que más ayuden a reducir este sesgo en la estimación por
calibración.
2. Reponderación para tratar la no respuesta
Lo habitual en el tratamiento de la no respuesta es suponer dos partes que no se
superponen, un estrato de respuesta y falta de respuesta en otro estrato. Cada elemento
en la primera se supone que responde con certeza si es seleccionado en la muestra, y
cada elemento en el estrato último tiene probabilidad cero de responder. Una desventaja
sobre este modelo es que es poco realista y simple, con estratos de tamaño que pueden
no ser conocidos. Algunas veces se estima el total para el estrato de respuesta, y a
continuación se agrega un término para compensar la falta de respuesta del estrato.
- 39 -
En 1980 apareció una aproximación más satisfactoria con muestreo en dos fases para la
reponderación por no respuesta. Este hace referencia a una selección previa de donde
obtenemos una muestra deseada s, seleccionada de la población U, con un conjunto de
respondientes r, subconjunto de s. Este diseño es mas realista, ya que permite que k
elementos tengan su propia probabilidad de respuesta θ k donde 0 ≤ θ k ≤ 1 para todo k.
La probabilidad de respuesta θ k suele ser desconocida y esto requiere que θ k sea
sustituida por estimaciones, construidas con la información auxiliar.
En la fórmula tradicional del muestreo en dos fases, una primera muestra se selecciona
de U, (aunque la variable o variables en estudio no sean observadas) y acto seguido se
realiza una submuestra desde la primera muestra, y se observan los elementos de la
submuestra (observación que ya incluye la variable en estudio). Las probabilidades de la
primera y segunda fase son conocidas con el diseño muestral.
Si se supone que la distribución de la respuesta q(r|s) es conocida, las probabilidades de
respuesta de primer y segundo orden son conocidas:
Pr (k ∈ r | s ) = θ k y Pr (k & l ∈ r | s ) = θ kl
Sea el vector auxiliar x k que se utiliza el estimador. En estas condiciones, el estimador
en dos fases del total de la población Y = ∑U yk (Särndal, Swensson y Wretman,
1992), viene dado por:
YˆS S W =
∑
r
d k g k θ y k /θ k
donde d k = 1/π k y g kθ = 1 + ck ( ∑U x k − ∑ r d k x k /θ k ) '( ∑ r d k ck x k x′k /θ k ) −1x k
La formulación de este estimador para una muestra con falta de respuesta, requiere
sustituir θ k , que es desconocido, por un estimador θk . Este cambio requiere:
a) La formulación de un modelo realista para un mecanismo de respuesta con
las probabilidades de respuesta θ k como parámetros desconocidos.
b) La estimación de estas probabilidades de respuesta, usando cualquier
variable auxiliar oportuna y con el hecho de que algunos elementos de la
muestra que se observó si respondieron, mientras que otros no lo hicieron.
Un modelo de uso frecuente es suponer que en la población hay grupos que no se
superponen, con la propiedad de que todos los elementos dentro de un mismo grupo
responder con la misma probabilidad y de forma independiente. Estos grupos se
conocen como grupos homogéneos de respuesta (RHGs). Por ejemplo, grupos de edad y
sexo. La información auxiliar requerida es sólo que cada elemento muestral se puede
clasificar por grupos, responda o no. El estimador puntual cuando es desconocido θ k se
sustituye por θ que es derivado del modelo RHG. Se da un estimador de la varianza,
k
formada por la suma de dos componentes, una que mide la variación de muestreo y la
- 40 -
otra la varianza de la falta de respuesta. El estimador puntual es insesgado si se asume el
modelo RHG sea una representación verdadera del modelo de respuesta. En la práctica
es prácticamente imposible crear un verdadero patrón de respuesta.
El camino con el muestreo en dos fases para la reponderación tiene, por tanto, las
siguientes características:
a) La modelización del mecanismo de respuesta constituye un paso distinto
b) Si hay un conjunto de variables auxiliares disponibles, se constituye un
subconjunto de estas variables y se utilizan en la estimación del mecanismo de
respuesta, y otro subconjunto (que puede tener elementos comunes con el anterior) se
usa en la formulación del vector auxiliar x k , para el estimador de Y, en el que θ k es
sustituido por θˆ .
k
En la sección siguiente veremos cómo se repondera usando la calibración.
3. Calibración y no respuesta
Introducimos aquí la estimación por calibración. Además, veremos cómo se adapta
cuando ciertos totales poblaciones no son conocidos, cuando se estima un dominio y
cómo se estima su varianza. Todo ello con falta de respuesta. También resumimos el
software que en la actualidad hay disponible para ello. Detallamos además algunos
casos particulares bien conocidos en los que se convierte el estimador de calibración.
Introducción a la calibración
La calibración es la principal herramienta para la nueva ponderación por no respuesta.
Esta necesita la formulación de los vectores auxiliares, a través de un conjunto más
amplio de las variables auxiliares disponibles. El conjunto de pesos calibrados se
obtiene a través de la información auxiliar.
El estimador de calibración de Y, se denota por Yˆw , y el estimador de su varianza por
V (Yˆw ) . El subíndice w fue elegido por el término de “ponderación”. La calibración
proporciona un tratamiento unificado de la utilización de información auxiliar en las
encuestas con la falta de respuesta. Cuando encontramos una buena información
auxiliar, el objetivo es reducir tanto el error de muestreo como el error de no respuesta.
La calibración sólo dispone de un proceso, en que la calibración se produce. No se dará
la modelización por separado de la falta de respuesta. Por esto el enfoque de calibración
es más adecuado para un tratamiento práctico de no respuesta que el del muestreo en
dos fases.
Los estadísticos han intentado utilizar la información auxiliar para mejorar las
estimaciones de la encuestas. Un estimador de calibración va a poder incorporar la
información auxiliar bajo cualquier diseño de muestral. Según Deville & Särndal, los
- 41 -
estimadores de calibración son una familia o clase de estimadores que tienen una forma
muy atractiva y que se caracterizan por usar pesos calibrados, los cuales son cercanos a
los pesos originales o inversos de la probabilidad de inclusión del elemento
seleccionado en la muestra y además estos estimadores de calibración respetan un
conjunto de restricciones, las ecuaciones de calibración.
Supongamos, como para el estimador de regresión, que asociado al k-ésimo individuo
de la muestra hay un vector de valores auxiliares dado por xk = ( x1k,…,x2k,…,xpk). En
una muestra se conoce tanto xk como yk. Además, conocemos el total de la población del
vector de la información auxiliar:
t X = ∑k∈U xk
Partiendo del estimador de Horvitz-Thompson para el total de una característica de
⌢
interés, y, YHT = ∑k∈s dk yk , los estimadores de calibración introducen la información
auxiliar junto con el diseño muestral p (⋅) . Se construyen unos nuevos pesos wk de forma
que sean lo más cercanos posibles a dk= 1 / π k y que cumplan con la ecuación de
calibración:
t X = ∑ k ∈s w k x k
Los pesos wk deben tener, por tanto, las siguientes propiedades:
1. Consistencia: un sistema de pesos satisfactorio, el cual reproduce el total de la
población conocido para cada variable auxiliar.
2. Cercanía a los pesos básicos del diseño: el peso del diseño dk= 1 / π k tiene la
propiedad de producir estimaciones insesgadas respecto al diseño de muestreo
utilizado. Cualquier desviación de estos pesos tiene que ser pequeña para salvar
esta propiedad, al menos aproximadamente o asintóticamente.
3. Control sobre los totales de las variables auxiliares: cuantas más variables sean
utilizadas en el proceso de calibración mejor será la estimación. Se demuestra
que la varianza de un estimador de calibración decrece mientras más variables
auxiliares sean tenidas en cuenta en la calibración.
Podemos decir que el ítem más importante en la calibración es la existencia de la
información auxiliar, sin información auxiliar no hay nada que se pueda calibrar.
Las características de una estimación por calibración, son entonces:
1º Suponemos que tenemos un vector de información auxiliar xk = ( x1k,…,
x2k,…,xpk), de p variables auxiliares, conocidas para los individuos seleccionados en la
muestra.
- 42 -
2º Además, por registros administrativos u otras fuentes de confianza, se tiene el
conocimiento del total del vector de información auxiliar, t X = ∑ k ∈U x k
3º El propósito del estudio es estimar el total de las características de interés
usando la información dada por xk , k ∈ s .
4º Se requiere que las estimaciones cumplan con
t X = ∑ k∈S wk x k
ecuación que es conocida como de calibración.
5º La idea es buscar pesos wk tan cercanos como se pueda al inverso de la
probabilidad de inclusión del k-ésimo elemento, dk= 1 / π k .
Este método tiene sus antecedentes en el trabajo Deming & Stephan (1940).
Según Särndal existen diferentes puntos de vista para justificar el uso práctico de los
estimadores de calibración que son los siguientes:
1) Como método de ponderación lineal: La calibración es nueva en el muestreo,
pero no es nueva para producir ponderaciones, por ejemplo en el muestreo por
cuotas es una forma de muestreo no probabilístico que usa estimaciones
calibradas con los totales demográficos de una población en estudio. La
ponderación de los valores observados de las características de interés fue un
tópico muy importante antes que el término de calibración comenzara a
popularizase. Algunos autores encuentra la ponderación al reconocer que un
estimador de regresión lineal podría ser escrito como una suma ponderada de los
valores de la característica de interés.
2) Como una forma sistemática para utilizar la información auxiliar: la calibración
provee de una forma sistemática para incluir la información auxiliar. La
información auxiliar fue usada para mejorar la precisión de los estimadores
mucho antes de que existiera el término calibración. La calibración lo que hace
es incorporar la información auxiliar.
3) Como un enfoque para conseguir consistencia: Las ecuaciones de calibración se
caracterizan por el vector de ponderaciones, así que cuando lo aplicamos a las
variables auxiliares el resultado será consistente a todas las variables. Cuando la
motivación primaria para la calibración no es la concordancia con los totales de
la información auxiliar sino el reducir la varianza y el sesgo debido a la ausencia
de respuesta, entonces el vector de ponderaciones se dice balanceado.
4) Como excusa de transparencia y conveniencia: La calibración ha ido ganando
importancia ya que las estimaciones resultantes son fáciles de interpretar y de
motivar ya que esta relacionadas con los pesos inducidos por el diseño de
muestreo. El usuario que entiende la ponderación muestral aprecia el método de
calibración puesto que cambia ligeramente los pesos originales pero respetando
la información auxiliar y el sesgo es despreciable. Otro beneficio es que la
calibración propone un único vector de ponderaciones aplicables a todas las
- 43 -
variables del estudio. Esto hace que se utilice sobre todo en encuestas muy
extensas.
5) Como una nueva dirección de pensamiento: El estadístico puede encontrar aquí
algunos tratamientos para la ausencia de respuesta, deficiencias en el marco
muestral y errores de medición. Son usados en la práctica en algunos procesos
como la imputación y la reponderación por no respuesta, aunque estos métodos
no están enmarcados dentro de una teoría exhaustiva de inferencia en
poblaciones finitas.
El estimador de calibración para el total poblacional de y, t y = ∑ k∈U yk
es
ɵt y ,cal = w y con w pesos que minimizan la distancia Φs con la restricción
∑ k k
k
k∈s
∑ w x′ = t′ .
k∈s
k
k
x
Cuando construimos un estimador de calibración podemos usar dos componentes una es
la distancia de Φs y la otra el conjunto de restricciones ∑ wk x′k = t′x . La distancia de Jik∈s
cuadrado es la más usada en la práctica: Φs=
∑ k∈s (wk − d k )2 / (d k qk ) donde qk no esta
correlacionada con d k .
La minimización conduce a que los pesos de calibración queden definidos como:
wk = d k + d k ( t x − ɵt xπ )′( ∑ qk d k x k x k ′ ) −1 qk x k
k∈s
donde definimos ɵt xπ = ∑ k∈s d k x k como el estimador de Horvitz-Thompson para el total
de vectores de la información auxiliar. Por lo tanto el estimador de calibración para el
total de la población quedaría de la siguiente forma:
ɵt y ,cal = w y = ɵt yπ ( t − ɵt xπ )′B
∑ k k
x
k∈s
siendo ɵt yΠ = ∑ k∈s d k yk el estimador de Horvitz- Thompson para la variable de interés
=(
yB
∑ k∈s qk d k x k x k ′ )−1 ∑ k∈s qk d k x k yk la matriz de coeficientes de regresión.
Estimación puntual por calibración con no respuesta
Antes de detallar la estimación puntual bajo el enfoque de la calibración, supongamos
que el estimador GREG con un vector especifico x k , tiene una respuesta completa de
forma que r = s. Se requiere conocer el total en la población del vector x k ,
estimador es una buena opción ya que:
a) es insesgado,
- 44 -
∑
U
x k . El
b) la varianza es pequeña cuando x k es un vector que explica bien la variable yk ,
c) y es consistente con la ecuación de calibración:
∑
s
d k g k x k = ∑U x k
Como hay falta de respuesta, los valores yk están disponibles sólo para los k elementos
del conjunto r, subconjunto de la muestra s. Por lo tanto sea cual sea la teoría de
estimación siempre aparecerá cierto sesgo.
Las propiedades del estimador elegido serán:
i) pequeño sesgo de no respuesta (es la más importante) ,
ii) pequeña varianza total, y
iii) que coincida con el estimador GREG cuando r = s
La varianza total es la suma de la varianza muestral y la varianza de no respuesta.
El estimador de calibración se define como:
Yˆw = ∑ r wk yk
donde wk = d k vk con vk = 1 + ck (∑ U x k − ∑ r d k x k )′(∑ r d k ck x k x′k ) −1 x k para k ∈ r (es una
suma ponderada de los valores yk observados).
En el criterio para obtener los pesos wk = d k vk , lo primordial es minimizar la función
que mida la distancia de la ponderación “vieja” d k y de la “nueva” wk , sujeta a la
ecuación calibración
∑
r
d k vk x k = ∑U x k
El grado con el que Yˆw cumple con las propiedades deseadas i) y ii) depende de la
calidad del vector auxiliar x k . Algunos vectores x k consiguen mejores resultados que
otros. La propiedad iii) del estimador se cumple cuando r = s, vk se reduce g k , para
obtener una respuesta completa, e Yˆ es idéntico al estimador GREG.
w
Estimación por calibración sin el total poblacional conocido
También es posible definir un estimador de calibración en una encuesta en que el vector
auxiliar x k se conoce hasta un nivel muestral s, es decir, cuando ∑ U x k es
desconocido. Sabemos lo suficiente como para formar el estimador HT del total, en base
al muestreo, ∑ s d k xk . La calibración produce los pesos d k vsk con el siguiente
estimador de calibración:
- 45 -
Yˆws = ∑ r d k vsk yk
con vsk = 1 + ck (∑ s d k x k − ∑ r d k x k )′(∑ r d k ck x k x′k )−1 x k .
La calibración es muy flexible. Las técnicas de ponderación de no respuesta son casos
especiales de los descritos anteriormente. Cuando la calibración se aplica a las
encuestas, no necesitamos obtener fórmulas para aplicaciones específicas, una vez que
el vector x k y el factor ck se han especificado.
Estimación por calibración en dominios
En las encuestas no sólo necesitamos la estimación del total de la población, sino
también en otros ámbitos o dominios de la población. Cuando en la encuesta hay falta
de respuesta, la nueva ponderación la realizamos mediante la calibración y la estimación
del total del dominio Yd .
Si la información auxiliar esta formada por vectores con
∑
U
x k conocido, sus pesos
estarán dados por un conjunto de pesos calibrados descritos anteriormente. Estos han
sido utilizados para producir el estimador del total de Y en la población. Sin embargo,
para el total del dominio Yd, mantenemos los mismos pesos y cambiamos solamente la
variable de estudio y por yd. El estimador de calibración resultante para el total del
dominio sería:
YˆdW =
con w k = d k v k y v
k
∑
r
wk y dk
descritos anteriormente.
En algunas aplicaciones los dominios de interés U1 ,...U d ,...U D forman una partición de
U, como cuando los dominios son las regiones que componen un país D. Los
estimadores de los D dominios Y ,..., Yˆ ,..., Yˆ , tiene la propiedad atrayente que su
1w
dw
Dw
suma da la estimación de calibración para el conjunto de la población, esta propiedad
viene de:
D
D
D
d =1
d =1
d =1
∑ YˆdW =∑∑ r wk ydk = ∑ r wk ∑ ydk = ∑ r wk yk = Yˆw
Y combinando la estimación en dominios y el tener sólo información a nivel muestral
conduce, de forma similar al estimador Ydws = ∑ r d k vsk ydk
Estimación de la varianza
Para estudiar la precisión y construir intervalos de confianza, tenemos que estimar la
varianza de los estimadores de calibración. Para el enfoque de dos fases hay que
suponer que las probabilidades de respuesta de primer y segundo orden, θ k y θ kl , son
- 46 -
conocidas. En el enfoque de calibración, las probabilidades de inclusión no son
necesarias, pero sin embargo, algunos indicadores aproximados de las probabilidades de
inclusión si son necesarias para la varianza estimada. La expresión se obtiene de la más
general del estimador de regresión en muestreo en dos fases, y suponiendo que se
responde de forma independiente, θ kl = θ kθl . De esta manera se llega al siguiente
estimador de la varianza:
V (Y W ) = V SAM + V N R
donde
V NR = ∑ r d 2 k vsk (vsk − 1)e 2 k
con
vsk = 1 + ck (∑ s d k x k − ∑ r d k x k )′(∑ r d k ck x k x′k )−1 x k ,
e k = y k − x ′k Bˆ ν , Bˆ ν = (∑ r d k vsk ck x k x′k )−1 ∑ r d k vsk ck x k yk
y
V SAM = ∑∑ r (d k d l − d kl )( g k vsk ek )( g l vsl el ) − ∑ r d k (d k − 1)vsk (vsk − 1)( g k ek ) 2
El estimador de la varianza tiene dos componentes, uno estima la varianza de muestreo
V SAM , y otro estima la varianza de no respuesta V NR . Se utiliza para calcular los
intervalos de confianza, donde se supone implícitamente que el sesgo de no respuesta,
Bc, es muy pequeño. Si el sesgo es considerable, el nivel de confianza del intervalo
Y puede estar más bien lejano al nivel deseado 1 - α. El nivel de confianza correcto es
w
cuando el sesgo sea cercano a cero.
En el caso de conocer el total auxiliar sólo a nivel muestral, se tiene:
V ( Y W s ) = V S A M + V N R
donde
V NR =
∑
r
d 2 k v sk ( v sk − 1) e 2 k
V SAM = ∑∑ r (d k d l − d kl )(vsk yk )(vsl yl ) − ∑ r d k (d k − 1)vsk (vsk − 1) yk 2
Y en el caso de la estimación en dominios con el estimador Y dW viene dada
sustituyendo yk por ydk y por lo tanto reemplazamos ek por edk = y dk − x ′k Bˆ dν donde
Bˆ dν = (∑ r d k vsk ck x k x′k ) −1 ∑ r d k vsk ck x k ydk
- 47 -
4. Software
Existe diverso software para el cálculo del estimador puntual y del estimador de la
varianza. Si la información auxiliar consiste en ∑ U x k , el total conocido, el estimador
puntual será Yw , y el total del dominio es Y dW , ambos implementados para los diseños
de muestreo usuales. La estimaciones de la varianza se calculan según la formula de
V (Yˆw ) este paso necesita de vsk y g k .
Se pueden construir estimadores puntuales y estimadores de la varianza para parámetros
más complejos, considerando el parámetro ψ = f (Y1 ,..., Y q ,..., YQ ) donde f específica
cierta función de Q totales en la población: Y1 ,..., Yq ,..., YQ . Algún software como
CLAN97 permite estimar tales funciones de totales, en concreto con funciones
racionales que son aquellas que se limitan al uso de las cuatro reglas básicas
algebraicas, suma, resta, multiplicación y división. Para cualquier función racional los
totales se pueden estimar puntualmente ψ = (Yˆ ,..., Yˆ ,..., Yˆ ) donde Yˆ ,..., Yˆ ,..., Yˆ son
1
q
Q
1
q
Q
estimaciones respectivas de calibración y también permiten estimar la varianza
correspondiente. Es un software desarrollado como una macro de SAS por Statistics
Sweden (www.scb.se). Considera dos modelos diferentes de respuesta: (i) las respuestas
independientes, con probabilidades de respuesta iguales dentro de los estratos, y (ii)
grupos de homogeneidad de respuesta en cada estrato (con la opción de dividirlos en
dos o más grupos).
El desarrollo de software se ha producido ligado a las necesidades de las agencias de
estadística. A continuación resumimos las agencias y el software que actualmente
desarrollan:
CALMAR; Institut National de la Statistique et des Études Économiques (INSEE)
Fue desarrollado como una macro de SAS por INSEE para producir pesos calibrados
de las diferentes funciones distancias descritas por Deville y Särndal (1992). Es
usado en la mayor parte de las encuestas sobre los modos de vida y presupuestos
familiares del Institute Nacional de la Statistique et des Études Économiques
(INSEE) de Francia (www.insee.fr); en la Encuesta de Población Activa del Statistics
South Africa (www.statssa.gov.za), en los estudios del Censo Federal de Población
(RFP) y la Encuesta sobre la Renta y el Consumo (ERC) realizadas por el Statistique
Suisse (www.bfs.admin.ch).
Actualmente se encuentra disponible la segunda edición CALMAR2, creada por
Sautory y Le Guennec (2004), y es actualmente utilizado por numerosas oficinas de
estadística públicas y centros privados de todo el mundo.
G-CALIB-S; Statistics Belgium
- 48 -
Software desarrollado por Vanderhoeft et al. en el Statistics Belgium
(www.statbel.fgov.be), al igual que el g-DESIGN, como un módulo del paquete
SPSS usando la sintaxis disponible en dicho programa.
BASCULA; Statistics Netherlands
Software desarrollado en delphi por Statistics Netherlands (www.cbs.nl), es uno de
los paquetes más utilizados para satisfacer la creciente necesidad de recopilar
información estadística para el cálculo de pesos para todas las unidades muestrales
con información auxiliar. BASCULA, una vez recopilada la información auxiliar en
un modelo de ponderación, utiliza métodos basados en el estimador de regresión y
puede utilizar los pesos calculados para estimar la población total o los promedios,
así como las diferencias, sobre la base de técnicas de linealización de Taylor y/o
replicación de muestras, abarcando así los parámetros de población más comunes
para las estadísticas oficiales.
GES; Statistics Canada
Software desarrollado por Statistics Canada (www.statcan.gc.ca) con enfoque en la
estimación por calibración mediante regresión generalizada (GREG).
GREGWT; Australian Bureau of Statistics
Software desarrollado como una macro en SAS por Australian Bureau of Statistics
ABS (www.abs.gov.au) para realizar regresión generalizada y ponderación de los
resultados de la muestra de encuestas.
Package Survey; University of Washington
Software desarrollado como un paquete del entorno R por Thomas Lumley,
Universidad de Washington, para los análisis de muestras de encuestas complejas.
Entre otras virtudes se caracteriza porque nos permite hacer estudios descriptivos,
modelos lineales generalizados y estimaciones por máxima verosimilitud. Analiza
estudios muestrales estratificados, por conglomerados, polietápicos y estudios con
probabilidades desiguales. Además estima varianzas de estimadores por los métodos
de linealización o por las técnicas de replicación (BRR, Jackknife). Este paquete trata
la calibración utilizando los métodos post-estratificación, raking y la calibración
lineal (o estimación GREG) que tratan sobre las formas de utilización de la
información auxiliar disponible sobre el conjunto de la población e implican la
adaptación de todos los pesos de muestreo a fin de que los totales de las variables
auxiliares se reproduzcan exactamente.
Package Sampling; EUREDIT
Software desarrollado como un paquete del entorno R por Matei, A. y Tillé para
seleccionar y calibrar muestras. Este paquete permite extraer muestras para estudios
complejos (muestreo con probabilidades desiguales, muestreo estratificado, muestreo
por conglomerados, muestreo en dos fases), y calcular los totales con calibración y
- 49 -
con técnicas de regresión. El paquete se puede descargar desde la página web oficial
de R-project (http://cran.rproject.org/src/contrib/PACKAGES.html).
5. Ejemplos de estimadores de calibración para no respuesta
En la realización de encuestas siempre se puede, para cada vector x k especificado, calcular
un estimador de calibración. Sólo hay un enfoque general, aunque muchos
especialistas están acostumbrados a fórmulas específicas que corresponden a métodos
particulares.
Desde el enfoque general el estimador de calibración es
YˆW = ∑ r wr y k
donde wk = d kν k con
ν k = 1 + ck ( ∑U x k − ∑ r d k x k ) '( ∑ r d k ck x k x′k ) −1 x k para k ∈ r
Vemos algunos ejemplos de estimadores de calibración que se corresponden con
métodos tradicionalmente usados. Comenzamos con formas simples para el vector
x k para ir gradualmente complicando la información auxiliar. Para simplificar,
suponemos muestreo aleatorio simple SRS, de forma que d k = N / n para todo k,
donde n es el tamaño de muestra.
El vector auxiliar más simple
El vector auxiliar más simple es x k = 1 para todo k, que no diferencia los elementos.
Especificando ck = 1 para todo k, se obtienen los pesos ν k = n / m para todo k, y el
estimador de calibración resulta
⌢
N
YˆW = ∑ k∈s y k =YEXP
n
que se conoce como estimador de expansión simple. Es de uso frecuente cuando no hay
información auxiliar disponible y cuando la no respuesta se considera que ocurre de
forma aleatoria. Además, se calcula en una encuesta como un estimador para comparar
el resto de estimadores alternativos.
Una clasificación
La población U está dividida en grupos incompatibles y exhaustivos U p , p = 1,… , P ,
basados en un criterio, por ejemplo, edad por sexo. El vector auxiliar para el
elemento k es el identificador del grupo x k = (γ 1k ,… , γ pk ,… , γ Pk ) ' donde, para
p = 1,… , P , γ pk = 1 si k ∈ U p
∑
U
y es cero en otro caso. Se tiene entonces
x k = ( N 1 ,… , N p ,… , N P ) ' donde N p es el tamaño de U p . Así, se requiere que
- 50 -
los totales, el número de elementos que contiene cada grupo, sean conocidos. Tomando
para todo k, c k = 1, se obtienen los pesos ν k = N p n / Nm p para k ∈ rp y el estimador de
calibración resulta
P
⌢
YˆW = ∑ N p y rp = YPST
p =1
1
∑ yk y m p el número de respondientes en el grupo p. Este
m p rp
estimador se conoce como estimador post-estratificado.
siendo y rp =
Una única variable cuantitativa
Sea xk una variable cuantitativa disponible, por ejemplo, el número de empleados de
una empresa k en un muestreo de empresas, k = 1,..., N. El total poblacional,
∑
u
xk , se
asume conocido. Si es ésta sólo la información auxiliar disponible, x k= x k . Tomando
ck = xk−1 , el estimador de calibración obtenido es
⌢
y
YˆW = ( ∑ U xk ) r = YRA
xr
donde yr =
⌢
1
1
y
.
Este
es
el
estimador
de
razón,
.
y
x
=
x
Y
∑
∑
k
r
k
RA
m r
m r
Con la misma información auxiliar se puede formar el vector x k = (1, xk ) ' . Es posible
puesto que la información requerida, junto con que sea conocido ∑ xk , es que sea
u
conocido el tamaño de la población N = ∑U 1 , que lo es. Cuando ck = 1 para todo k,
el estimador de calibración resulta
⌢
⌢
YˆW = N { y s + ( X − x ) B} = YREG
donde
1
ˆ ∑ y x − 1 ∑ y ∑ x / ∑ x 2 − 1 (∑ x )2
x y B=
∑
U k
r k
r k k m r k r k r k m
N
⌢
La notación YREG se usa para indicar la forma de un estimador de regresión.
X =
Una clasificación combinada con una variable cuantitativa
En este caso, la información se refiere a una variable auxiliar categórica con P
modalidades y a una variable cuantitativa, x, que puede ser un indicador del tamaño de
un elemento. Suponemos que se pueden clasificar todos los elementos incluidos en la
muestra en el grupo apropiado, que sabemos su valor xk , y que para cada p = 1,..., P ,
- 51 -
conocemos el tamaño, Np , y el total,
∑
U
xk . Hay más de una forma de usar esta
información auxiliar. Una opción es definir el vector auxiliar como
x k = (γ 1k xk ,… , γ pk xk ,… , γ Pk xk ) '
El total poblacional de x k es entonces el vector cuyos elementos son los P totales
conocidos
∑
Up
xk . Aunque esta formulación no incluye el conocimiento de los tamaños
de los grupos, N p , resulta un estimador conocido, ya que tomando ck = xk−1 , el
estimador de calibración que resulta es
P
yr
YˆW = ∑ ( ∑U xk ) p = YˆSEPRA
p
xrp
p =1
1
1
y y xrp =
∑
∑ xk . Es por tanto el estimador de razón separado,
rp k
mp
m p rp
la suma de estimadores de razón, uno por cada grupo.
con y rp =
Otra alternativa que hace uso de la información auxiliar completa, es decir, que también
usa que son conocidos los tamaños de los grupos, N p , es usar el vector auxiliar
x k = (γ 1k ,… , γ pk ,… , γ Pk , γ 1k xk ,… , γ pk xk ,… , γ Pk xk ) '
Con ck = 1 para todo k, el estimador de calibración resulta
{
P
) }
(
YˆW = ∑ N p yrp + X p − xrp Bˆ p = YˆSEPREG
p =1
donde X p =
cov xyrp =
1
Np
∑
Up
xk y Bˆ p =
1
1
∑ rp yk xk −
m p − 1
mp
cov xyrp
S xr2 p
∑
rp
con
1
1
2
2
yk ∑ r xk y S xr2 p =
x
−
(
x
)
∑
∑
k
k
rp
p
m p − 1 rp
mp
que es el estimador de regresión separado.
Una clasificación doble
En la práctica es común tener información sobre dos o más variables auxiliares
categóricas. Presentamos el caso de dos variables categóricas. El razonamiento se puede
extender a una clasificación múltiple.
Supongamos que hay P categorías del primer factor, por ejemplo, una clasificación
geográfica, y las H categorías de la segunda, por ejemplo, una clasificación
socioeconómica. Podemos pensar en la U población dividida en P × H subconjuntos o
celda, U ph , p = 1,… , P; h = 1,… H . Dependiendo de la información disponible sobre las
celdas, es posible formular el vector x k de varias formas.
- 52 -
Consideremos el vector auxiliar
x k = (γ 1k ,… , γ pk ,… , γ Pk , δ 1k ,… , δ hk ,… , δ Hk ) '
donde, para h=1,..., H, δ pk = 1 si k ∈ U h y es cero en otro caso. Esta formulación
requiere el conocimiento de los P+H totales marginales
P
H
p =1
h =1
N p• = ∑ N ph y N • h = ∑ N ph
Con esta formulación, podemos tratar tres de las situaciones que ocurren más
habitualmente
(i) Los P × H contadores de celdas N ph , p = 1,… , P; h = 1,… H son conocidos, pero se
considera que los P + H totales marginales contienen casi al misma información
N p• , p = 1,… , P , N • h , h = 1,… H
(ii) Los P × H contadores de celdas N ph , p = 1,… , P; h = 1,… H son conocidos, pero
algunos de ellos son muy pequeños o cero, una situación frecuente que plantean en la
práctica. Aunque el recurso de colapsar las celdas es de uso común, para este problema,
podría causar una pérdida no despreciable de información auxiliar. Se prefiere entonces
utilizar simplemente los totales marginales.
(iii) Los P + H totales marginales son conocidos, pero los P × H contadores de celdas
N ph , p = 1,… , P; h = 1,… H , no. Un ejemplo de esto que sucede en la práctica es cuando
N p• y N • h se toman de dos registros diferentes. En esta situación, el vector x k del
estimador de calibración YˆW no tiene una forma simple. Computacionalmente, sin
embargo, es fácil de obtener. Una discusión general de la calibración en clasificaciones
cruzadas en el caso de respuesta completa se encuentra en Deville, Särndal y Sautory
(1993).
- 53 -
- 54 -
Capítulo IV: Un indicador del sesgo de no respuesta
Falta de respuesta se produce en prácticamente todas las encuestas. Hace algunas
décadas, las tasas de no respuesta eran bajas y no eran motivo de gran preocupación.
Sin embargo, la falta de respuesta en las encuesta va en aumento en las encuestas de
muchos países.
Como es bien sabido, la alta falta de respuesta tiene un impacto negativo en la calidad
de las estadísticas elaboradas en una encuesta, a menos que se tengan procedimientos
de ajuste de gran alcance y puedan llevarse a cabo. En este sentido, algunas agencias de
Estadística se encuentran en una posición relativamente favorable, porque los registros
administrativos que muchas tienen disponibles constituyen una rica fuente de
información auxiliar.
Las agencias de Estadística han dedicado considerables recursos al estudio de la falta de
respuesta y sus consecuencias. Durante mucho tiempo, las tasas de no respuesta han
sido cuidadosamente supervisados en la mayoría de las encuestas de las agencias.
Varios proyectos de las últimas décadas se han centrado en cuestiones relacionadas con
la falta de respuesta en encuestas.
Esta sección del trabajo se basa en el artículo de Carl-Erik Särndal y Lundstrom Sixten,
“Evaluación de vectores de información auxiliar para el control de la falta de respuesta
en el Estimador de Calibración”, y aporta una mayor comprensión de los efectos que
pueda ejercer la no respuesta. El indicador examinado en este trabajo es una
herramienta útil en el diagnóstico de sesgo de no respuesta.
1. Introducción
Tras realizar una encuesta nos encontramos siempre con falta de respuesta, lo que
vamos a ver son los estimadores de calibración en encuestas con falta de respuesta. Los
pesos calibrados lo calcularemos a partir de la información auxiliar formada por un
vector. Un vector auxiliar ideal sería aquel que eliminara el sesgo, pero este no existe, ni
con el mejor de los vectores auxiliares. Siempre aparecerá algún sesgo en el estimador
de calibración. Por otro lado si las estimaciones las vamos a producir para toda una
encuesta, debemos conformarnos con un vector auxiliar y utilizarlo para calcular los
pesos de calibrados y estimadores muestrales.
En una encuesta típica de individuos y hogares tenemos un gran número de posibles
variables auxiliares que contienen variables categóricas como el sexo, grupo de edad,
clases de ingresos, el país de origen, región de residencia, tamaño de la familia, nivel de
estudios, grupo profesional, etc.
Estos vectores creados los tenemos que evaluar por su capacidad para reducir el sesgo.
- 55 -
Aquí vamos a analizar las propiedades de un indicador y vamos a mostrar su uso como
una herramienta para construir el vector auxiliar a través de la selección de variables por
pasos hacia delante o hacia atrás, seleccionando las variables paso por paso. El
indicador se calcula sobre los valores del vector auxiliar para las unidades de la muestra,
los que responden y los que no responden. Una ventaja es su independencia de las
variables de estudio, de las cuales hay muchas en una gran encuesta. El indicador
tiende, conforme aumenta el tamaño de la muestra, a su análogo de la población, que se
demuestra que esta relacionado con el sesgo a través de una relación aproximadamente
lineal. Cuanto mayor sea el valor del indicador, es más probable que el sesgo se
reduzca para muchas variables en estudio.
Las características anheladas de un vector auxiliar son:
1) que explique el modelo de respuesta,
2) que explique muy bien las variables de estudio en la encuesta, y
3) que informe de los principales dominios del interés de la encuesta.
Särndal y Lundstrom se refieren al punto 1) y 3) como "principios para un vector
auxiliar". Aquí nos vamos a centrar más en la explicación del modelo de respuesta.
A continuación vamos a estudiar un indicador del sesgo, lo denotaremos como Q̂ , que
será la varianza de la influencia (la inversa de la probabilidad de respuesta) de las
unidades que responden. Esta puede servir como indicador de sesgo, ya que la
variabilidad en la influencia esperada refleja bien las características únicas de los que
responden.
El calculo de Q̂ necesita de los valores de un vector auxiliar para las unidades
muestreadas, tanto de los que responde como de los que no. El vector auxiliar se hace
muy importante. El valor de Q̂ va en aumento con el número de variables en el vector.
Mas adelante analizaremos los usos de Q̂ como herramienta de diagnóstico para la
búsqueda del "mejor vector auxiliar", entre los que son posibles en la encuesta.
Terminaremos con un ejemplo de su aplicación para seleccionar las variables auxiliares
en un amplio estudio de la agencia de Estadística de Suecia, en la sección siguiente.
2. Información auxiliar para el estimador de calibración
El ajuste con reponderación para tratar el sesgo de no respuesta, con el uso de la
información auxiliar ha sido estudiado por muchos autores y desde diversos ángulos,
por ejemplo, Bethlehem (1988), Bethlehem y Schouten (2004), Deville (2002), Folsom
y Singh (2000) , Fuller, Loughin y Baker (1994), Harms (2003), Lundstrom (1997),
Rizzo, Kalton y Brick (1996), Thomsen et al (2006). Algunos de estos autores se
centran en el enfoque de calibración para la estimación, en particular Deville (2002),
Harms (2003) y Lundstrom (1997), y también lo hace este trabajo, donde las premisas
básicas se pueden ver en el libro de Särndal y Lundstrom (2005).
- 56 -
Partimos de una población finita U = {1, 2,..., N } de la que extraemos una muestra s de
U . Tomamos r como el subconjunto de los que responden de s. Tenemos U ⊇ s ⊇ r y
probabilidad de inclusión extraemos la muestra probabilística s según el diseño muestral
que da para la unidad k, π k > 0 . Los pesos conocidos de la unidad k son d k = 1 / π k > 0 .
El subconjunto de respuesta r resulta cuando la muestra s se expone a una distribución de
la respuesta desconocido q (r| s ), de forma que la unidad k tiene una probabilidad de
respuesta desconocida θ k , que se asume positiva. Detrás del fracaso para registrar, yk ,
valor de la variable de estudio en la unidad k, puede estar una negación, no estar en casa
u otros tipos de no respuesta. Notar que yk puede ser al mismo tiempo continua o
categórica (como ejemplo, “ yk = 1 si k tiene un atributo de interés, como
desempleado” e yk = 0 en otro caso.). Puede haber todavía otras causas para no obtener
el valor deseado y. Aunque se llama “probabilidad de respuesta”, θ k puede ser visto de
manera más general como la probabilidad de que el valor se registre para la unidad
k ∈ s . Se perdió, por cualquier razón con probabilidad 1 − θ k . Entonces los datos
incluyen el valor yk para k ∈ r y el resultado de la respuesta: Rk =1 para k ∈ r , Rk =0
para k ∈ s − r . Para cada muestra s, se asume E q ( Rk s ) =θ k , donde q refiere la fase de
respuesta.
En muchas encuestas encontramos información de dos tipos puesto que corresponden a
dos tipos de vectores auxiliares x ∗k y x 0k . El vector x ∗k lo que hace es llevar la
información auxiliar a nivel de la población, su valor se conoce para cada k ∈ U , por lo
tanto es también conocida para cada k ∈ s y para cada k ∈ r .
Por lo tanto, el total de la población lo obtendremos sumando los valores de x ∗k ,
denotado
∑
∗
U
x k . Cuando esta suma de valores la incluimos en la población es de forma
demográfica como grupos de edad, sexo.
Sin embargo el vector x 0k lo que contiene es la información auxiliar a nivel de la
muestra, su valor se observa para cada k ∈ s y por lo tanto para cada k ∈ r . Un ejemplo
de este caso sería en el caso de negación a ser encuestado, información obtenida al
respecto por el entrevistador.
La diferencia entre x 0k y x ∗k es que
∑
∗
U
x k es conocida, mientras que
desconocida. Sin embargo, su estimación
es computable
∑
∑
0
U
x k es
0
Us
d k x k y sirve como
información auxiliar importante para el cálculo del peso calibrado.
En un muestreo con ambos tipos de información, el vector auxiliar y la información con
la que se calibra son:
- 57 -
∑ U x∗k
x∗k
xk = 0 ; X =
∑ d k x 0k
xk
Us
El objetivo de la estimación es el total Y = ∑U yk . Särndal y Lundstrom (2005)
examinan el estimador de calibración de Y sobre la base de la información X anterior.
Viene dada por el estimador YW = ∑ r wk yk con pesos wk = d kν k , donde d k = 1 / π k es
′
el peso del diseño y donde el factor ν k = 1 + X − ∑ r d k x k
(
) ( ∑ x x′ )
r
k
−1
k
x k tiene dos
objetivos: reducir el sesgo de no respuesta y reducir la varianza de Y w .
Sin embargo si la encuesta sólo tiene un tipo de información y es del primer tipo será
x k = x ∗k y
∑
∗
x = X . En otro caso si sólo hay un tipo, de información y es del
U k
segundo tipo sería x k = x 0k y ∑US d k x k = X .
0
Se consideran vectores x k con la siguiente propiedad: Existe un vector µ constante tal
que µ′x k = 1 para todo k ∈ U .
Constante significa que µ no debe depender de k, ni en s ni en r. La condición no es una
restricción importante en x k . La mayoría de los vectores de interés en la práctica están
incluidos. Algunos ejemplos son los siguientes:
(1) x k = (1, xk ) , donde xk es el valor de unidad k de una variable auxiliar continua x;
(2) el vector de clasificación utilizado para codificar J grupos de población mutuamente
excluyentes
y
exhaustivos,
x = γ = γ ,..., γ ,..., γ ′ ,
tal
que,
para
k
k
(
1k
jk
Jk
)
j = 1, 2,..., J , γ jk = 1 si pertenece al grupo j la unidad k, y γ jk = 0 si no;
(3) la combinación de (1) y (2), x k = ( γ′k , xk , γ′k )′ ;
(4) el vector x k que codifica dos clasificaciones cruzadas, y siendo la dimensión de x k
J 1 + J 2 − 1 , donde J 1 y J 2 son el número de las categorías respectivas, y el menos uno
es para evitar una matriz singular en el cálculo de los pesos;
(5) la extensión de (4) a más de dos clasificaciones.
El estimador de calibración es
YˆW = ∑ r wk yk = ∑ r d kν k yk con d k = 1 / π k con ν k = X′
( ∑ x x′ )
r
k
k
−1
xk
A pesar de la mejor de calibración, un sesgo residual permanece siempre en Y. Este
sesgo debe estar en el centro de nuestra atención, porque el componente de sesgo al
- 58 -
cuadrado a menudo domina el error cuadrático medio. A diferencia de la varianza, el
sesgo no se aproxima a cero cada vez que se tenga mayor tamaño de la muestra.
3. Expresiones del sesgo
El sesgo de YˆW se deriva del diseño muestral p ( s ) con probabilidades conocidas π k y
con distribución de respuesta q(r|s), con desconocidas probabilidades de respuesta θ k .
El sesgo de YˆW , B(YˆW ) = E p Eq (YˆW | s ) − Y es intratable puesto que YˆW es no lineal. Nos
centramos en la aproximación obtenida por Taylor, la cual denotaremos AB(Yˆ ) . La
W
aproximación del sesgo, AB(YˆW ) , aunque es desconocida porque es función de valores
en toda la población, es la base para el diseño de métodos para reducir el sesgo.
Särndal y Lundström obtienen la siguiente expresión para el sesgo aproximado:
AB (YˆW ) = ( ∑U x k )′( BU ;θ − BU )
donde BU ;θ = ( ∑U θ k x k x′k ) −1 ∑U θ k x k yk ; BU = ( ∑U x k x′k ) −1 ∑U x k yk
Bajo condiciones de suavidad (1 / N )( B(Y W ) − AB(Y W ) ) es de orden n −1/ 2 donde n es el
tamaño de la muestra. La diferencia entre BU ;θ y BU resalta la falta de respuesta. La
diferencia más o menos pronunciada entre los dos causa un sesgo más o menos
pronunciado en YˆW .
Tener AB(Y W ) = 0 no es factible. Se podría producir si todos θ k fueran iguales, lo cual
es poco probable. No importa lo buena que sea la información auxiliar, puesto que sigue
apareciendo sesgo, por lo tanto lo que hay que intentar es reducir éste.
Una aclaración sobre la notación BU ;θ y BU están formados por uno o dos índices donde
el primer índice nos indica el conjunto de unidades donde se define la cantidad y el
segundo índice muestra la ponderación.
Al estudiar el sesgo aproximado no tenemos que especificar qué variables xk son x 0k y
cuales x ∗k . La variable auxiliar xk es igualmente de eficaz para reducir el sesgo
aproximado cuando se inscribe en x 0k (aporta información a la muestra solamente) o
cuando se clasifica en x ∗k (lleva la información de la población). A la hora de computar
los pesos, sin embargo, si difiere en el total de
∑U x ∗k
∑U x k = x0
∑U k
Alternativamente, el sesgo aproximado se escribe
- 59 -
AB(Y W ) = ∑U θ k M k ek
ek = yk − x′k BU
donde
son
los
residuos
de
mínimos
cuadrados
y
M k = ( ∑U x k )′ ( ∑U θ k x k x′k ) −1 x k
Tenemos que
∑
U
ek = 0 es una consecuencia de µ′x k = 1 para todo k ∈ U .
Alternativamente, el sesgo aproximado también se escribe
AB (YˆW ) = ∑U (θ k M k − 1) yk
La cantidad M k es muy importante para el diagnóstico del sesgo. Podemos ver
M k como una variable derivada que depende los valores de x k sobre el vector auxiliar y
de la probabilidad de respuesta θ k .
Vamos a comparar las alternativas de vectores x k en los que respeta a su capacidad para
controlar es sesgo. Como referencia utilizamos x k = 1 para k ∈ U lo que nos da
YˆW = N y r = N ∑ r yk / nr donde nr es el tamaño del conjunto r de respuesta.
Entonces tenemos M k = N / ∑U θ k = 1/ θU para todo k y reducimos la expresión a
AB ( N y r ) = N ( yU ;θ − yU ) donde yU ;θ = ∑U θ k yk / ∑ U θ k y yU = ∑ U yk / N .
Cuando la media ponderada y la media no ponderada difieren considerablemente
YˆW = N y r tiene una aproximación del sesgo grande.
Vamos a utilizar dos medidas de sesgos relativos. Estas a su vez dependen de tres
factores:
i)
los valores x k del vector auxiliar utilizados para el calculo de YˆW
ii)
las probabilidades de respuesta θ k
iii)
los valores de yk de las variables en estudio
y son razones sobre el objetivo de la estimación, Y = N yU .
La primera medida será el sesgo relativo:
AB (Y W ) ∑U (θ k M k −1) yk
RB (Y W ) =
=
N yU
N yU
y la segunda que mida, dado un vector especificado x k , cómo controla el sesgo
comparado con el primero:
- 60 -
P=
AB(Y W )
=
AB( N yUr )
∑
U
(θ k M k −1) yk
N ( yU ;θ − yU )
Cuando tengamos distintos candidatos para el vector x k , será más efectivo el que dé
menores valores de ambos RB(Yˆ ) y P.
W
4. Influencia de la respuesta y aproximación del sesgo cero
Se da AB(YˆW ) = 0 cuando los residuos de ek = yk − x′k BU son cero para todo k ∈ U , es
decir si x k explica yk sin error para cada unidad de la población. En las encuestas hay,
sin embargo, múltiples variables de interés y. Para conseguir un sesgo cero en todas,
tendrán que ser cero cada uno de los residuos ek , para todas las unidades y para todas
las variables y, que esto ocurra es algo poco probable. Sin embargo, si nos centramos la
distribución de la respuesta, se dan condiciones en las que la aproximación del sesgo es
cero para todas las variables y.
1
Vamos a definir la influencia de la respuesta de la unidad k como φk = , donde
θk
suponemos 0 < θ k ≤ 1 para todos los k. Así, cada unidad viene acompañada de una
influencia, que será alta cuando tenga una probabilidad baja θ k de respuesta, al igual
que tiene un peso de diseño d k = 1/ π k que es alto cuando tenga una baja probabilidad
π k de inclusión en la muestra. Antes de tomar todos los datos de φk e yk son
desconocidas, pero φk con k ∈ U siguen siendo desconocidas una vez observada la
muestra.
Un vector auxiliar ideal es el que explica perfectamente la influencia de φk . De forma
mas concreta un vector ideal x k es el que cumple esta condición: Existe un vector
1
constante λ , de tal forma que: φk =
= λ ′x k para todo k ∈ U . Pues en este caso,
θk
AB(YˆW ) = 0 . No podremos encontrar el vector ideal x k , pero si existiera y lo
pudiéramos utilizar, eliminaría la aproximación del sesgo.
En primer lugar vamos a tomar un vector auxiliar fijo x k . Como φk =
1
θk
son
desconocidas y no observables, incluso para las unidades de la muestra, podemos, con
los datos auxiliares x k para k ∈ s predecir las influencias, las cuales utilizaremos
después para obtener el indicador del sesgo.
Minimizando la suma de las diferencias al cuadrado, φk − λ′x k , con mínimos cuadrados
ponderados, es decir, minimizando WSS = ∑U θ k (φk − λ ′x k ) 2 , se obtiene:
- 61 -
φˆUk = ( ∑U x k )′( ∑U θ k x k x k ′ ) −1 x k = M k
La cantidad M k ya las hemos visto anteriormente. Estas están relacionadas con la
aproximación del sesgo.
Dado un vector auxiliar fijo x k , M U = ∑U M k / N verifica
1
φ U ≥ M U ≥ M U ;θ =
donde φU = ∑U φk / N , M U ;θ
MU ,
1
θU
θU
= ∑U θ k M k / ∑U θ k y θU = ∑U θ k / N . La cota inferior de
, se alcanza cuando x k = 1 para todo k. La superior, φU , cuando x k es el vector
ideal que elimina completamente la aproximación del sesgo.
La varianza ponderada de las predicciones φˆUk = M k para k ∈ U , es
Q=
1
∑
U
θk
∑U θk ( M k − M U ;θ )2 =
∑ M
∑θ
U
U
k
k
−
N2
( ∑U θ k )
2
=
1
θU
( MU −
1
θU
)
La cantidad Q es importante como indicador del sesgo. Destacamos las propiedades de
Q que son:
a) para cualquier vector dado x k , Q ≥ 0 ,
b) el valor mínimo Q=0, se produce con el vector primario x k = 1 para todo
k ∈U ,
c) el limite superior de Q se denota como Qsup , lo alcanza un vector x k , que
cumpla la condición de ajuste perfecto
Qsup
∑
=
∑
φk
N2
1
1
−
=
(φU − )
θ ∑U θ k θU
θU
U k
U
d) la inclusión en el vector x k de otras variables, aumenta el valor de Q .
Otra cantidad útil es el coeficiente de variación M k para k ∈ U que se puede escribir
como H = θU Q = M UθU − 1 , y cuyo límite superior de H es H sup = φ U θ U − 1 .
El coeficiente de correlación ponderado entre M k y φk es
- 62 -
rM φ =
∑
θ k ( M k − M U ;θ )(φk − φU ;θ )
M U − 1/ θU
=
2 1/ 2
2 1/ 2
( ∑U θ k ( M k − M U ;θ ) ) ( ∑U θ k (φk − φU ;θ ) )
φU − 1/ θU
U
y el coeficiente de no-determinación 1 − rM2 φ cumple 0 ≤ 1 − rM2 φ ≤ 1 , y tiene varias
expresiones:
1 − rM2 φ =
φU − M U
Q
H2
= 1−
= 1− 2
Qsup
H sup
φU − 1/ θU
La relación entre el sesgo aproximado y el indicador Q la da el siguiente resultado:
Dado un vector auxiliar x k para el vector de calibración YˆW ,
AB (Y W ) = N ( yU ;θ − yU )(1 − rM2 φ ) + R
donde R = ∑ U θ k M k Ek con Ek = yk − yU − (φk − φU )
yU − yU ;θ
φU − 1/ θU
En cualquier encuesta comparamos los vectores x k para saber si se puede o no reducir
el sesgo. Tomamos el vector primero donde x =1 para todo k, con el que Yˆ = N y y
k
W
r
AB ( N yr ) = N ( yU ;θ − yU ) . Para otro vector más eficaz x k se usa el término principal
AB(Y W ) el cual es igual a la proporción 1 − rM2 φ del valor N ( yU ;θ − yU ) para el primer
vector, para cual rM2 φ = 0 .
Cuando el vector auxiliar x k mejora y se aproxima a la forma ideal, M U va aumentado
hacia el limite superior φ , la fracción 1 − r 2 tiende a cero, y AB(Y W ) se aproxima a
U
MØ
cero. De esta manera podemos reducir el sesgo.
El segundo término R = ∑ U θ k M k Ek no es cero, pero puede tomar el valor cero si se
verifican una serie de condiciones. Sea un vector auxiliar x k fijo, el término restante
sería R = ∑ U θ k M k Ek y éste vale cero en los siguientes casos:
i) x k es el vector primario en x k =1 para todo k
ii) x k cumple con la condición de ajuste perfecto
iv) para algún vector constante µ , Ek = µ′(x k − xU ) para k ∈ U
iv) para algunas constantes co y c1 , yk = co + c1φk para k ∈ U
La condición iii) nos dice que x k explica perfectamente la variación de yk después de
la dependencia de φk . La condición iv) nos dice que la variación de yk es explicada por
la influencia φk .
- 63 -
Así, si el término R en AB (Y W ) = N ( yU ;θ − yU )(1 − rM2 φ ) + R es muy pequeño en
comparación
P=
AB(YˆW )
=
AB( N yr )
∑
U
(θ k M k −1) yk
N ( yU ;θ − yU )
≈ 1 − rM2 φ
AB (YˆW )
mide al vector x k por su capacidad para controlar el sesgo
AB ( N yr )
en comparación con el vector primario. Este cociente depende de tres factores los cuales
son:
El cociente P =
i)
los valores del vector x k
ii)
la probabilidad de respuesta θ k
iii)
los valores de la variables yk
Pero si se utiliza la aproximación anterior, P ≈ 1 − rM2 φ , 1 − rM2 φ dependen de los dos
primeros factores, pero es independiente de la variable y. Así que 1 − rM2 φ representa la
parte del cociente P que es independiente de la variable de estudio.
Cuando se disponen de varias variables en una encuesta, miramos qué vector controla
mejor el sesgo de todas las variables en estudio. Si R tiene un valor pequeño, la
aproximación P ≈ 1 − rM2 φ sugiere buscar un vector x k con un gran valor de Q o H . Si
nos centramos en Q , la aproximación del sesgo ha de ser aproximadamente una
función lineal en Q , AB (Y W ) ≈ Co − C1Q donde Co = N ( yU ;θ − yU ) y C1 = Co / Qsup no
dependen de x k .
Cuando el vector x k es sustituido por otro mejor aumenta el valor de Q , y el valor
absoluto de AB(Y W ) se reduce de manera lineal. Lo ideal sería un vector x k que dé un
valor de Q próximo al limite superior de Q , puesto que AB(Y W ) será cercano a cero
sup
para todas las variables y.
En la fórmula de Q =
1
∑
θ
U k
∑
U
θ k ( M k − M θ ) se define Q como la varianza de las
U;
influencias predichas φˆUk = M k , luego cuanto mayor sea su varianza mayor será la
probabilidad de que el sesgo sea pequeño.
Ni la varianza Q ni el coeficiente de variación H son computables, ya que estos
dependen de total de la población con sus probabilidades de respuesta desconocida.
Veamos en la siguiente sección cómo estimarlos en una muestra concreta.
- 64 -
5. Estimación del indicador en una muestra
La predicción basada en la muestra de φk es φˆsk = mk . Tenemos
que implica que
porque
∑
s
∑
r
∑
r
d k mk =∑ s d k , lo
d k mk es una estimación no sesgada del tamaño de la población N,
d k cumple una propiedad. La cantidad mk esta relacionada los pesos de los
factores vk en el estimador de calibración Y W = ∑ r d k vk yk . Tenemos mk = vk cuando
la información auxiliar es exclusivamente a nivel de muestra, de manera que x k = x 0k .
De lo contrario mk y vk se diferencian en una pequeña cantidad. Con argumentos
similares a nivel muestra, se llega a
(∑ s d k )
W
Qˆ =
d
(
m
−
m
)
=
−
= mr ;d ( ms:d − mr ;d )
∑
k
k
r
;
d
∑r dk r
∑ r d k ( ∑ r d k )2
2
1
2
donde
∑ d m = ∑ d ,m = ∑ d m
∑d ∑d
∑d
W = ∑ d m = ∑ d m = ( ∑ d x )′( ∑ d x x ′ ) ( ∑ d x
mr ;d =
k
r
k
s
k
k
s
k
s ;d
r
r
k
k
2
k
r
k
k
k
s
k
−1
s
s
k
k
r
k
k
k
k
s
k
)
También se puede razonar a partir de las estimaciones muestrales desde el diseño de los
elementos que componen Q
Q=
1
∑
U
θk
∑U θk ( M k − M U ;θ )2 =
∑ M
∑θ
U
U
k
k
−
N2
( ∑U θ k ) 2
como:
Vamos a exponer algunas propiedades de Q
≥0
1) para cualquier vector x k , Q
= 0 para el vector primario x = 1 para todo k
2) Q
k
3) Q = 0 cuando r = s , cuando la respuesta es completa
= 0 si x = x
4) Q
s ;d
r ;d
no tiene un limite superior especificado.
5) a diferencia de Q , Q
converge en probabilidad a Q
6) Para un determinado x , Q
k
a Q puede ser lenta y la variabilidad de muestra a muestra de Q
La convergencia de Q
puede ser considerable, a no ser que r y s sean las dos grandes (mil unidades, como
ocurre en la mayoría de las encuestas que realizan las agencias de estadística)
- 65 -
6. Herramienta de diagnóstico para evaluar el potencial de reducción
del sesgo de un vector auxiliar
Cuando encontramos en una encuesta una no respuesta importante, la responsabilidad
recaerá en poder ajustar las estimaciones. Es necesaria una rica fuente de datos
auxiliares, como ocurre en la mayoría de los países desarrollados. Vamos a comparar
los vectores en los que respecta a su capacidad para reducir el sesgo del estimador de
calibración YˆW = ∑ r wk yk
Aquí nos hacemos un serie de preguntas a las que intentaremos darle una respuesta.
¿Cómo se comparan los vectores con otros candidatos a vectores x k para evaluar la
capacidad de reducir el sesgo de Yˆ ? (ambos tipos de información de x∗ como x 0
W
k
puede estar presente en x k ). La aproximación P ≈ 1 − r
2
Mφ
k
sugiere un aumento de
Q = Q (x k ) que va acompañada de una disminución lineal de la aproximación del sesgo.
Como Q (x k ) depende de toda la población, deberá ser sustituido en la práctica por
=Q
(x ) .
Q
k
(x ) nos guíe correctamente al vector x ?
¿Qué garantías tenemos de que Q
k
k
Supongamos que podemos comparar dos vectores x1k y x 2 k de forma que x 2 k es x1k
con un vector adicional x + k : x 2 k = ( x1′ k , x′+ k )′ , por lo tanto Q ( x 2 k ) ≥ Q (x1k ) . A la hora de
sumar otras variables aumenta el valor de Q . Lo mismo ocurre para Qˆ ( x ) ≥ Qˆ (x )
2k
1k
en cualquier muestra s y cualquier respuesta r, aunque no se garantiza que el sesgo sea
se utilizará
menor para x que para x . Si Q nos dice x es preferible a x , en Q
2k
1k
2k
1k
este indicador para cualquier realización (s,r).
Esta situación cambia cuando los vectores que comparamos x 2 k y x1k , no están
relacionados, es decir, cuando x 2 k no se obtiene por las variables auxiliares de x1k ,
(x ) ≥ Q
( x ) pueden mantener esta situación en una realización de (s,r),
entonces Q
2k
1k
pero no necesariamente en todas.
(x ) nos da una herramienta para ir paso a paso a seleccionar una variable x de un
Q
k
grupo J el cual es un potencial interesante de variables auxiliares, categóricas o
(x ) para cada variable individual x, y nos
continuas. En primer lugar calculamos Q
k
(x ) . En segundo lugar calculamos Q
(x )
quedamos con la que da el mayor valor de Q
k
k
para cada uno de los vectores J-1 formados con la variable del paso uno y cada una de
las J-1 restantes, de los cuales se selecciona la que produce mayor aumento de
(x ) .Y así sucesivamente.
Q
k
(x ) va suprimiendo variables.
Otra alternativa es utilizar el paso hacia atrás, donde Q
k
No se pueden mantener todas las variables de ese vector por:
- 66 -
i) algunas de las variables x contribuyen poco al objetivo de reducir el sesgo,
ii) una inspección puede revelar algunos pesos grandes o pequeñas en exceso.
(x ) para un vector completo y a
Por lo tanto en primer lugar calculamos Q
k
continuación los Q (x ) para cada J-1 diferentes vectores con la variable x eliminada.
k
7. Un ejemplo de aplicación
A continuación exponemos un ejemplo de aplicación desarrollado en la Agencia de
Estadística de Suecia.
En el año 2006, el Consejo Nacional Sueco realizó un estudio para la prevención del
delito, el cual fue llevado a cabo por el Instituto Nacional de Victimas del Crimen. Para
este estudio se tomó una muestra de 10.000 personas que fueron tomadas a partir de un
registro de la población total sueca (RTP). El objetivo de la encuesta era medir como
iban evolucionando los tipos de delitos, sobre todo los delitos contra las personas,
conocer el nivel de inseguridad y ver como éstos variaban en la sociedad Sueca.
Este estudio lo llevaron acabo a través de un muestreo estratificado aleatorio simple,
con una muestra s de 10.000 personas que se tomaron de RTP. Los estratos los tomaron
con clasificación cruzada de la zona de residencia y por grupos de edad. Las regiones
fueron las 21 de Suecia del área administrativa que se conoce como “LAN”. Los grupos
de edad fueron clasificados en tres: 16-29, 30-74 y de 75-79.
Este diseño cumple con un objetivo de obtener resultados más precisos en cada uno de
los 21 LAN, y en cada grupo de edad. La proporción de la muestra en los estratos será
más o menos proporcional al tamaño de la población en el estrato, con las menos
posibles modificaciones para así poder conseguir el objetivo de obtener una suficiente
precisión para los dominios de interés en LAN y en los grupos de edad. La tasa de
respuesta conseguida fue del 77,8%. La falta de respuesta es pronunciada en los
distintos dominios de interés.
El número de posibles variables auxiliares se formó de RTP y por un subconjunto de
una base de datos de una Estadística de Suecia, conocidas como LISA. Las variables
auxiliares utilizadas son categóricas. Las variables que se obtuvieron de LISA fueron
transcritas sólo a la base de datos de la muestra, por lo que son del tipo de x 0k , las cuales
ya hemos visto anteriormente.
Utilizaremos Q̂ para poder seleccionar las variables por grupos.
En cada paso el vector auxiliar x k se amplia agregando una variable categórica, que lo
que hace es que produzca un mayor incremento en Q . Esta nueva variable se suma al
resto de variables formando ya el vector. En la tabla que tenemos después podemos ver
qué variable xk entra en la primera selección en diez pasos hacia delante. El país de
nacimiento entró en el primer paso, es una variable dicotómica la cual nos indica si ha
- 67 -
nacido en Escandinavia o no. En tercer y cuarto lugar entrarían las variables de ajuste
grupo de edad y sexo.
En la tabla podemos ver el número de grupos de cada variable categórica y los valores
. Como podemos observar los valores de Q no aumentan tanto
sucesivos 1000 × Q
después de algunos pasos.
En este caso las estimaciones fueron producidas para el estudio de totales o
proporciones de muchas variables categóricas. Aquí el total de la población objetivo Y
es un recuento de la población, el número de personas con una propiedad específica
como sería en este caso la inseguridad o el miedo a ser víctima de la delincuencia en
algún momento. Por lo tanto tenemos Y = ∑U yk donde yk = 1 si la persona k tiene esta
propiedad o yk = 0 en caso contrario. El sesgo producido en las estimaciones sigue
siendo desconocido. Si seleccionamos un conjunto de variables del estudio podemos
calcular el número estimado en cada paso, es decir, Y W = ∑ r wk yk con peso wk basado
en x k vectores de las variables seleccionadas incluidas en el paso. La estimación en el
paso cero se calcula sin ningún tipo de
vector x k dentro del estrato
H
Y = ∑ N h y rh donde y rh es la respuesta media del estrato h.
h =1
Algunos estimaciones de los recuentos cambiaban en dos o más puntos, en los pasos del
0 al 6. Para esta encuesta esto es un gran cambio, puesto que la falta de respuesta es un
fuerte impacto. Nosotros no podemos decir que la estimación del paso 6 es mas exacta
(menos sesgo) que la del paso 0. Una característica principal es que el mayor cambio en
la estimación se produce al pasar del paso 0 al paso 1, que el cambio fue también
notable en los pasos 2, 3, y 4 y después del cambio es muy poco acentuado. Este patrón
coincide con el que desarrolla las etapas del valor Q . Además, en las variables que no
se ven afectada tanto por la falta de respuesta los cambios fueron pequeños.
Tabla: Selección paso a paso hacia delante de variables en el vector auxiliar en una
encuesta del Instituto Nacional de Víctimas del Crimen en Suecia.
Pasos
1
2
3
4
5
6
7
8
9
10
Variable de entrada auxiliar
País de nacimiento
Los ingresos del grupo
Grupo de edad
Género
Estado civil
Región
Grupo familiar de tamaño
Días desempleados
Centro urbano habitante
Ocupación
Número de grupos
2
3
6
2
2
21
5
6
2
10
- 68 -
Valor de 1000 × Q
20,0
27,6
31,3
35,1
38,6
40,7
41,4
41,9
42,3
42,7
Bibliografía
Andersson, C. and Nordberg, L. (1998). CLAN97 a SAS-program for
computation of point- and standard error estimates in sample surveys. Statistics
Sweden.
Bankier, M.D., Rathwell, S. and Majkowski, M. (1992). Two step generalized
least squares estimation in the 1991 Canadian Census. Proceedings of the
Section on Survey Research Methods, American Statistical Association,, 764-769.
Bethlehem, J.G. and Kersten, H.M.P. (1985). On the treatment
nonresponse in sample surveys. Journal of Official Statistics 1, 287-300.
of
Bethlehem, J.G. (1988). Reduction of nonresponse bias through regression estimation.
Journal of Official Statistics 4, 251-260.
Bethlehem, J.G. and Schouten, B. (2004). Nonresponse adjustment in household
surveys. Discussion paper 04007. Voorburg: Statistics Netherlands.
Deville, J.C. and Särndal, C.E. (1992). Calibration estimators in survey sampling.
Journal of the American Statistical Association 87, 376-382.
Deville, J.C., Särndal, C.E. and Sautory, O. (1993). Generalized raking procedures
in survey sampling. Journal of the American Statistical Association 88, 10131020.
Deville, J.C. (2002). La correction de la non-réponse par calage généralisé. Actes
des Journeés de Méthodologie, I.N.S.E.E., Paris.
Ekholm, A. and Laaksonen, S. (1991). Weighting via response modeling in the
Finnish Household Budget Survey. Journal of Official Statistics 3, 325337.
Estevao, V.M., Hidiroglou, M.A. and Särndal, C.E. (1995). Methodological principles
for a generalized estimation system at Statistics Canada. Journal of Official Statistics,
11, 181-204.
Folsom, R.E. and Singh, A.C. (2000). The generalized exponential model for sampling
weight calibration for extreme values, nonresponse and poststratification. American
Statistical Association, Proceedings Survey Research Methods Section, 598-603.
Fuller, W.A. (2002). Regression estimation for survey samples. Survey
Methodology, 28, 5-23.
Fuller, W.A., Loughin, M.M. and Baker, H.D. (1994). Regression weighting in the
presence of nonresponse with application to the 1987-1988 nationwide Food
Consumption Survey. Survey Methodology 20, 75-85.
- 69 -
Gabler, S. and Häder, S. (1999). Representive Weights and Imputation for the 1997
German ISSP: An Application of the Conditional Minimax Principle. Paper
presented at the International Conference on Survey Nonresponse in Portland,
Oregon, U.S.A.
Groves, R.M. and Couper, M.P. (1993). Unit nonresponse in demographic surveys.
Proceedings of the Bureau of the Census Annual Research Conference, 593619.
Gutiérrez Rojas, H. A. (2009) Comunicaciones en Estadística. Bogotá
Harms, T. (2003). Calibration estimators for prediction of dynamics in panels. Using
longitudinal patterns to improve calibration estimates about developments
in panels. Chintex working paper no. 14, Federal Statistical Office, Germany.
Holt, D. and Elliot, D. (1991). Methods of weighting for unit non-response. The
Statistician 40, 333-342.
Hörngren, J. (1992). The use of registers as auxiliary information in the Swedish
Labour Force Survey. Statistics Sweden, R&D Report no. 1992:13.
INE (1997) Encuesta Continua de Presupuestos Familiares. INE 5 28-30
INE (2003) Encuesta Nacional de Salud. INE 6 1-9
Jagers, P. (1986). Post-stratification against bias in sampling. International Statistical
Review 54, 159-167.
Kalton, G. and Kasprzyk, D. (1986). The treatment of missing data. Survey
Methodology 12, 1-16.
Kalton, G. and Maligalig, D.S. (1991). A comparison of weighting adjustment
for nonresponse. Proceedings of the Bureau of the Census Annual Research
Conference, 409-428.
Kersten, H.M.P. and Bethlehem, J.G. (1984). Exploring and reducing the
noresponse bias by asking the basic question. Statistical Journal of the United
Nations, ECE 2, 369-380.
Kish, L. and Anderson, D.W. (1978). Multivariate and
stratification. Journal of the American Statistical Association 73, 24-34.
multipurpose
Kish, L. (1979). Samples and censuses. International Statistical Review 47, 99-110.
Lindström, H. (1983). Nonresponse errors in sample surveys. Urval 16, Statistics
Sweden.
- 70 -
Little, R.J.A. (1986). Survey nonresponse adjustments for estimates of means.
International Statistical Review 54, 139-157.
Lundström, S. and Särndal, C.E. (1999). Calibration as a standard method for
treatment of nonresponse. Journal of Official Statistics 15, 305-327.
Nascimento Silva, P.L.D. and Skinner, C.J. (1997). Variable selection for regression
estimation in finite populations. Survey Methodology 23, 23-32.
Oh, H.L. and Scheuren, F.J. (1983). Weighting adjustment for unit
nonresponse. In: W.G. Madow, I. Olkin and D.B. Rubin (eds.), Incomplete Data in
Sample Surveys, Vol. 2. New York: Academic Press, 143-184.
Ospina Botero D. (2001) Introducción al muestreo. Colombia. Bogotá
Rizzo, L., Kalton, G., and Brick, J.M. (1996). A comparison of some weighting
adjustment methods for panel nonresponse. Survey Methodology Journal, 22,
43-53.
Särndal, C.E. and Lundström, S. (2005). Estimation in Surveys with
Nonresponse. New York: Wiley.
Särndal, C.E. and Swensson, B. (1987). A general view of estimation for two
phases of selection with applications to two-phase sampling and nonresponse.
International Statistical Review 55, 279-294.
Särndal, C.E., Swensson, B. and Wretman, J.H. (1992). Model Asssisted
Survey Sampling. New York: Springer-Verlag.
- 71 -
0
Puede agregar este documento a su colección de estudio (s)
Iniciar sesión Disponible sólo para usuarios autorizadosPuede agregar este documento a su lista guardada
Iniciar sesión Disponible sólo para usuarios autorizados(Para quejas, use otra forma )