Un indicador del sesgo de no respuesta

Máster Oficial en Estadística Aplicada Departamento de Estadística e Investigación Operativa Trabajo Fin de Máster Título: Indicadores del sesgo de no respuesta para el estimador de calibración Tutores: Antonio Arcos Cebrián y María del Mar Rueda García Alumna: Raquel Berrios Quirós Granada, Junio de 2010 -4- TRABAJO DE FIN DE MASTER Indicadores del sesgo de no respuesta para el estimador de calibración Directores del trabajo Fdo: Antonio Arcos Cebrián Fdo: María del Mar Rueda García Alumna: Fdo: Raquel Berrios Quirós Granada, Junio de 2010 -5- -6- AGRADECIMIENTOS Quiero expresar mi reconocimiento a las personas, cuyo aliento y apoyo tan valioso me ha sido para realizar este trabajo. Destacando muy especialmente a mi director, D. Antonio Arcos Cebrián , por tanta dedicación como han puesto en este trabajo y por lo mucho que me han ayudado sobre todo corrigiéndome. Por otro lado y no por ello menos importante, quiero agradecer enormemente a todas las personas que han estado a mi lado durante este tiempo y que saben que me estoy refiriendo a ellos sin necesidad de leer escritos sus nombres. Para todos vosotros, un fuerte abrazo. -7- -8- Resumen con el cual vamos a intentar comprender la En este trabajo vamos a estudiar el indicador Q funciones de las variables auxiliares a través de las cuales se medirán una forma de reducir el sesgo de no respuesta. En primer lugar hemos comenzado con una pequeña introducción sobre el muestreo y sus errores con el fin de dar un enfoque global sobre el muestreo. A continuación hemos visto que no todas las unidades responden a la encuesta por lo que aparece la no respuesta la cual constituye a una fuente potencial del sesgo. A través de este vamos a intentar mejorar las tasas de respuesta y ajustar la falta de respuesta. Después vamos a ver la estimación por calibración con la cual vamos a poder encontrar algunas respuestas como a la ausencia de respuesta, deficiencias en el marco muestral y errores de medición. A través de la calibración lo que vamos hacer es incorporar la información auxiliar. Con la calibración vamos a intentar reducir la varianza y el sesgo que nos aparece debido a la falta de respuesta. La calibración es una técnica que esta dominando en las agencias de estadística. Por otro lado veremos la reponderación por no respuesta con calibración en la cual intentaremos como en los otros apartados reducir los errores que se dan por la falta de respuesta, esto a través de un criterio en el cual seleccionamos las variables auxiliares que realmente nos pueden ayudar a reducir el sesgo en la estimación por calibración. Continuaremos con el titulo del proyecto, el indicador Q , podemos decir que es herramienta útil en el diagnóstico de sesgo de no respuesta. Veremos como calcular Q̂ para el cual intentaremos tomar el vector auxiliar más importante. Con Q̂ intentaremos buscar el mejor vector auxiliar de todos los que hay en la encuesta. Ya para finalizar podremos ver algún ejemplo. -9- - 10 - CAPÍTULO I: INTRODUCCIÓN 13 1. Los errores en las encuestas 13 2. Estimación con respuesta completa 20 CAPÍTULO II: EL AJUSTE DE NO RESPUESTA 27 1. No respuesta 27 2. Un ejemplo del impacto de la no respuesta 30 3. Un ejemplo del uso de la información auxiliar 32 CAPÍTULO III: ESTIMACIÓN POR CALIBRACIÓN Y SU USO PARA TRATAR LA NO RESPUESTA 37 1. Errores causados por el muestreo y la no respuesta 37 2. Reponderación para tratar la no respuesta 39 3. Calibración y no respuesta Estimación puntual por calibración con no respuesta Estimación por calibración sin el total poblacional conocido Estimación por calibración en dominios Estimación de la varianza 41 44 45 46 46 4. Software 48 5. Ejemplos de estimadores de calibración para no respuesta 50 CAPÍTULO IV: UN INDICADOR DEL SESGO DE NO RESPUESTA 55 1. Introducción 55 2. Información auxiliar para el estimador de calibración 56 3. Expresiones del sesgo 59 4. Influencia de la respuesta y aproximación del sesgo cero 61 5. Estimación del indicador en una muestra 65 6. Herramienta de diagnóstico para evaluar el potencial de reducción del sesgo de un vector auxiliar 66 7. Un ejemplo de aplicación 67 BIBLIOGRAFÍA 69 - 11 - - 12 - Capítulo I: Introducción 1. Los errores en las encuestas Las encuestas por muestreo juegan un papel muy importante en la mayoría de las investigaciones y estudios desarrollados por las empresas, instituciones, oficinas de estadística y organismos nacionales. Así, por ejemplo, los principales indicadores demográficos, económicos o sociales de un país están basados en datos muestrales obtenidos a partir de diseños muestrales complejos. Mientras que con un censo se puede describir perfectamente la característica a estudio, con un muestreo se extrapolan las conclusiones obtenidas en la muestra a la población. Esta extrapolación siempre supone un riesgo, y va acompañada de un error. El procedimiento básico para la estimación en la población a partir de los datos obtenidos de una muestra consiste en sumar valores ponderados de la variable para los elementos que se hallan en la muestra. Este estimador se llama de Horvitz- Thompson (HT). Otros estimadores más avanzados son los razón, diferencia, de regresión generalizada (GREG), etc. Ahora bien todas estas estimaciones de los parámetros de interés en la población van acompañados de una series de errores sistemáticos y aleatorios. Los errores sistemáticos o sesgos podemos decir que son el resultado erróneo de una muestra, debido a un mal diseño de la muestra. Esto lo podemos evitar aplicando las técnicas de muestreo y los procedimientos de estimación adecuados al problema concreto que estamos tratando. Los errores los podemos clasificar de la siguiente manera: a) b) c) d) e) f) error de muestreo error de no respuesta error de cobertura error de medida error de codificación error de trabajo de campo Error de muestreo Cuando los estadísticos hablan de un error de muestreo significa el error causado por el hecho de que los valores de una variable del estudio sólo se registran para una muestra de elementos, que no es para todos los elementos de la población. Si se observa toda la población el error de muestreo será cero. Esta situación es excepcional (podría haber otros errores, por ejemplo, el error de medición y el error de - 13 - no respuesta, pero el error de muestreo será igual a cero.). Este tipo de error puede controlarse normalmente con una muestra suficientemente grande. Normalmente los estimadores que se usan son insesgados y los errores de muestreo se cuantifican a partir de la varianza bajo el diseño del estimador. La varianza de un estimador es la media de los cuadrados de las desviaciones de el estimador con su valor central (su media). Este promedio es con respecto a todas las muestras posibles que se pueden extraer mediante el diseño de la muestra dada. Como cada una de estas muestras tiene una probabilidad conocida, determinada por el diseño de la muestra, podemos derivar la varianza. Es importante señalar que varianza se mide como media sobre todas las muestras posibles. Sin embargo, en la práctica nunca podemos sacar todas las muestras posibles, sacamos una única muestra. Es, por lo tanto, una cantidad desconocida que se desearía cuantificar, mediante la realización de un cálculo basado en los datos de que disponemos. Esto es lo que hace la estimación de varianza. La varianza estimada se utiliza en el cálculo de intervalos de confianza. El procedimiento usual para la obtención de un intervalo de confianza al (aproximadamente) 95% consiste en calcular los puntos extremos del intervalo como: estimación puntual más o menos 1.96 veces la desviación estándar estimada, que es la raíz cuadrada de la varianza estimada del estimador. El resto de errores se conocen como errores ajenos al muestreo y se dan tanto en censos como en muestras. Son más difíciles de controlar. Suelen clasificarse como a continuación se detalla. Error de no respuesta Este error se produce cuando no se consigue obtener los datos de todas las personas seleccionadas en la muestra, y la tasa de respuesta será baja. Los encuestados no suelen responder a variables básicas como edad, sexo y la religión. La no respuesta la encontramos en personas mayores, viudas o viudos, personas que residen en zonas metropolitanas, personas sin estudios. Cuando las variables de estudio no son recogidas por una encuesta o cualquier medio, cada ítem del cuestionario representa una variable de interés, y el conjunto de datos observados para cada variable puede estar afectado por la no-respuesta, esto se da de dos maneras: - Unidad de no respuesta: que es cuando se pierde la información para todas las variables del cuestionario - Ítem de no-respuesta: que es cuando se pierde al menos una, pero no todas, las variables del cuestionario. En la actualidad las agencias de Estadística de todo el mundo invierten recursos en mejorar la recopilación de los datos para así poder tener menos falta de respuesta. Normalmente en una encuesta podemos encontrarnos más de un 20% de no respuesta, lo más preocupante es que esto va en aumento y ocurre en muchos países no sólo en el - 14 - nuestro. Se encuentra una falta de respuesta grande en las encuestas de negocios, en la de transporte internacional de mercancías por carretera y en la que miden el volumen de negocios en el comercio nacional y las actividades de servicio, en las encuestas sobre las personas, en la de expectativas del consumidor y en la que se realiza para conocer la transición de la escuela secundaria a la educación superior. Lo más importante no es el error de no respuesta sino sus efectos puesto que se produce un sesgo en la estimación y un incremento de la varianza de la estimación por la reducción del tamaño de la muestra. Lo vamos a ver de forma más clara con el siguiente ejemplo: Supongamos una población de tamaño N que dividimos en dos estratos N1 que son los que contestan y N2 que son los que no contestan el cuestionario. La media poblacional la vamos a denotar como Y , por lo tanto tenemos: Y = w1Y1 + w2 Y2 de donde wi es el peso del estrato i, y se define como wi = Ni . N Y1 es la media para la población que si contestan. Y2 es la media para la población que no contestan. Utilizando las unidades del estrato que contesta y teniendo en cuenta que y1 es un estimador insesgado de Y1 , tenemos que el sesgo es: B = E ( y1 ) − Y = Y1 − ( w1Y1 + w2 Y2 ) = Y1 − w1Y1 − w2 Y2 = Y1 (1 − w1 ) − w2 Y2 (teniendo en cuenta que w1 + w2 = 1 ) y por lo tanto B = w2 (Y1 − Y2 ) lo que nos dice que el sesgo es proporcional al peso del estrato que no contesta, dicho de otra forma que al aumentar el número de los que no responden en la población total N, aumenta el sesgo. El aumento de la varianza por los que no responden se puede solucionar aumentando el tamaño de la muestra a través de sustituciones aleatorias. Esto hace que se incremente el coste. En las encuestas realizadas por el INE como la Encuesta Continua de Presupuestos Familiares o la Encuesta Nacional de Salud también hay, claro está, falta de respuesta. Explicamos a continuación como es tratada. Encuesta Continua de Presupuestos Familiares Base 1997 Esta encuesta es una de las más tradicionales en el ámbito de la estadística oficial. El objetivo de este tipo de encuestas es conocer los gastos de consumo de los hogares españoles, es decir, conocer gastos, ingresos y ahorro de las familias. La recogida de datos se hace de forma mixta con entrevistas y trabajos de campo. - 15 - La Encuesta Continua de Presupuestos Familiares es una encuesta dirigida a los hogares cuyo objetivo es proporcionar cada trimestre información acerca de características sociales y económicas de la población española, a nivel nacional y de Comunidad Autónoma. La encuesta se realiza cada trimestre. Dada la complejidad de la misma y con objeto de evitar el cansancio de las familias, así como dar probabilidad de selección a otras nuevas, se introduce el esquema de turnos de rotación para facilitar la renovación parcial de la muestra. Los cuestionarios PF-PF2 se cumplimentan en los hogares en grado de colaboración fuerte (G) por los miembros del hogar de 14 y más años, el servicio doméstico residente y los menores a partir de 7 años que voluntariamente quieran cumplimentarlo. Recogen los gastos de la forma antes nombrada. Dado que existe no respuesta en el sentido de que hay hogares en los que no se cumplimentan los cuestionarios PF-PF2 teóricos, es necesario introducir un ajuste para calcular el gasto del hogar. El tratamiento para cuestionarios faltantes de miembros del hogar de 14 y más años, es el siguiente: Se imputa un cuestionario por cada uno de los PF-PF2 faltantes del hogar, con los gastos medios de estos cuestionarios recogidos en los hogares pertenecientes a las secciones seleccionadas del subestrato. Para ello se utiliza el siguiente procedimiento. Sean: y hij( G)k = Gastos recogidos en los PF-PF2 del hogar j, de la sección i, estrato h, en el bien k. Fhij( G) = Número de cuestionarios PF-PF2 efectivamente recogidos en el hogar j. Fhijt ( G) = Número de cuestionarios PF-PF2 teóricos que deberían haberse recogido en el hogar j. Para el bien k se calcula el gasto medio del subestrato s: ∑ ∑ y ( s) hk = i∈s ∑∑ i∈s y h i j ( G )k j∈i Fh i j( G)k j∈ i El gasto corregido del hogar en el bien k recogido en los PF-PF2 es: yhi′ j ( G ) k = yh i j (G) k + yh(s)k ( Fhit j ( G ) − Fhi j ( G ) ) Si la característica X que se desea estimar es el gasto del hogar en el bien k, el valor xhi j( G) que aparece en la expresión del estimador Xɵ A se obtiene de la forma xhi j( G)k = x hi′ j( G)k + y hi′ j ( G)k - 16 - siendo: xhi′ j( G)k = gasto del hogar en el bien k recogido en los cuestionarios PF-PF1 o PFPF3. Luego se trata la no respuesta con un procedimiento de imputación. Encuesta Nacional de Salud Otro ejemplo sería en la encuesta también realizada por el INE de Encuesta Nacional de Salud en la cual se investiga sobre la salud de los ciudadanos y su asistencia, con el fin de mejorarla. A través de esta encuesta se estudia los principales problemas de salud de los ciudadanos, conocer si utilizan la salud pública, conocer sus hábitos de vida, tiempo de espera en su consulta médica, funcionamiento del servicio de urgencia, hábitos de vida… En esta encuesta el cuestionario estará formado por dos grupos el primero cuestionario del hogar y el segundo cuestionario de adultos. En esta encuesta como en todas se da la no respuesta debido a que adultos o menores no cumple el cuestionario por lo tanto se corrige determinando ciertos factores de elevación a través de dos formas, una para adulto, que sería: F (4 A ) jk = F (3 A ) jk = ∑ F I m( 3 A ) ∑ F I m( 3 A ) Im ∈ C IA T G Im ∈ C IA E G donde k es el adulto del hogar j que cumplimenta un cuestionario de adulto, CIATG es un conjunto de Cuestionarios Individuales teóricos, CIAEG es el conjunto de Cuestionarios Individuales Efectivos del mismo grupo G y donde el subíndice lm representa el adulto m del hogar l, y otra para menores, que es: F (4M ) jk = F (3 M ) jk = ∑ F I m( 3 M ) ∑ F I m( 3 M ) Im ∈ C IM TG Im ∈ C IM E G donde k es el menor del hogar j que cumplimenta un cuestionario individual de menor, CIMTG es un conjunto de Cuestionarios Individuales de menores teóricos, y CIMEG es el conjunto de Cuestionarios Individuales de menores efectivos del mismo grupo G y donde el subíndice lm representa el menor m del hogar l. Los grupos G que se han considerado tanto en el caso de adultos como en el de menores han sido Comunidad Autónoma y los grupos por sexo y edades quinquenales hasta 65 años y más. Es por tanto un procedimiento de reponderación. Ambos procedimientos, reponderación e imputación, son los habituales para tratar la no respuesta. - 17 - Error de cobertura Esta situación se da cuando algunos miembros de la muestra son excluidos del marco muestral (este se forma antes de aplicar el cuestionario) que se utiliza para su estudio. O cuando la población objeto se refiere a los elementos de la encuesta que pretenden abarcar en el momento en que el cuestionario se está cumplimentando. La diferencia entre estos dos puntos debe ser lo más corta posible de lo contrario aumenta el riesgo de incremento del error de cobertura. Los errores de cobertura son de tres tipos: 1) cobertura: esta formado por elementos que se encuentra en la población objetivo pero no en la población marco. Una parte importante de cobertura esta formada por los elementos nuevos de la población objetivo, también conocidos como nacimientos, que no están en el marco. 2) sobrecobertura: esta formado por elementos que se encuentra en la población marco, pero no en la población objetivo. Los elementos que han dejado de existir son fuentes significativas de sobrecobertura, estos elementos también son conocidos como muertes. Los elementos en cobertura tienen probabilidad cero de ser seleccionados en cualquier muestra de la población marco. La sobrecobertura puede ser evitada si se identifica los elementos de la muestra a la cual pertenece. Por lo general es imposible clasificar todos los elementos de la muestra a la población objetivo o a la población marco. 3) listados dobles: se refieren al tipo de errores cuando un elemento demográfico es catalogado más de una vez en el marco. Como consecuencia de la imperfección del marco muestral poblacional conlleva a un incremento del error de cobertura, expresado en un incremento del sesgo de la estimación (m − µ ) en la pérdida de la efectividad en la delimitación del problema para la estratificación o post-estratificación. En la siguiente figura podemos ver más claramente de dónde provienen algunos de estos errores ajenos al muestreo. - 18 - En esta figura podemos ver la población objeto como el conjunto de elementos que la encuesta pretende abarcar con su cuestionario. Sin embargo la población marco es la que realmente se toma. De ahí ya podemos ver cual es la muestra y tras realizarle la encuesta conoceremos el conjunto de respuesta y el conjunto de no respuesta. El punto de referencia para la población objetivo se elabora anteriormente incluso con 12 meses de antelación, llegados a este punto esto se conoce como el tiempo de referencia para la población marco. La diferencia de tiempo entre los dos puntos tiene que ser lo más breve posible ya que puede aumentar el error de cobertura a causa del tiempo. Los errores de cobertura se dividen en tres: falta de cobertura, exceso de cobertura y duplicar listas. Los elementos que encontramos en la población objeto pero no en la población marco forma una falsa cobertura. Podemos definir a estos elementos como elementos nuevos los cuales no han llegado todavía a la población marco. Por otro lado los elementos que están en la población marco y no en la población objeto lo que hacen es crear una fuerte fuente de exceso de cobertura. Estos elementos son conocidos como muertes ya que desaparecen. El exceso de cobertura se puede evitar si es posible identificar los elementos de la muestra a la que pertenece el exceso de cobertura. Realmente el problema nos viene cuando los elementos no responden y por lo tanto podemos obtener estimaciones sesgadas. Error de medida Este tipo de error se refiere a las inexactitudes que aparecen debido a la mala formulación de las preguntas. Para cuantificar el error de medición, es necesario realizar diferentes mediciones en varios objetos. Error de trabajo de campo Estos se producen desde el principio hasta el final de la encuesta causados por un mal registro, una pregunta inadecuada. Aquí influye mucho el comportamiento del entrevistador y el encuestador. - 19 - 2. Estimación con respuesta completa Antes de abordar la no respuesta, veamos qué estimadores se utilizan cuando la respuesta es completa. Partimos de una población finita U = (1 ,..., k ,..., N), de la cual obtenemos una muestra probabilística s ⊆ U con un diseño de muestreo p (⋅) . Por lo tanto p(s) es la probabilidad de que la muestra s haya sido seleccionada. El objetivo es estimar el total tY = ∑k∈U yk donde yk es el valor de la variable de estudio, y, para el k-ésimo elemento. Cuando el diseño muestral se ha fijado, con probabilidades de inclusión π k y pesos del diseño d k = 1 / π k , fijos y conocidos, y sin usar información auxiliar, se dispone de un estimador insesgado (siempre que π k > 0, ∀k ∈ U ) para Y = tY , el estimador de HorvitzThompson que está dado por ⌢ YHT = ∑k∈s dk yk Los estimadores de regresión generalizada utilizan la información auxiliar en la fase de estimación, lo que los hace más eficientes que el estimador de Horvitz-Thompson. Sea x el vector auxiliar y x k su valor para el elemento k , x k = ( x1k ,… , x jk ,… , xJk ) ' con J componentes, donde x jk es el valor para el k elemento de la j-ésima variable auxiliar. ∑ Se supone que el total de la población U x k es conocido. Un estimador que utiliza esta información es del estimador de regresión generalizada que está definido como: YˆGREG = YˆHT + = donde B (∑ U ′ xk − ∑ s dk xk B ) ( ∑ d c x x′ ) ( ∑ d c x y ) es el vector de coeficientes de regresión de y −1 s k k k k s k k k k sobre x usando los datos ( x k , yk ) para los elementos k ∈ s , siendo d k = 1 / π k y el factor ck es especificado por el estadístico. En el estimador GREG, el sesgo, aunque no es exactamente cero, tiende a cero con el tamaño de la muestra, y en las muestras con tamaño normales es tan pequeño que se ′ puede despreciar. En YˆGREG el factor ∑U x k − ∑ s d k x k B puede verse como un ajuste ( ) - 20 - de regresión aplicado al estimador YˆHT y su efecto es una reducción importante de la varianza de YˆHT , sobre todo cuando existe una relación fuerte entre y y x . La presentación habitual del estimador YˆGREG es como una suma lineal ponderada de los valores observados yk . Así YˆGREG = ∑ s d k g k yk donde el peso total de la unidad yk es el producto de dos pesos, el peso del diseño d k = 1 / π k y el peso, g k , que depende tanto del elemento k como de la totalidad de la muestra s de la cual k es un miembro. Este peso está dado por: g k = 1 + ck (∑ U xk − ∑ s dk xk )′ ( ∑ d c x x′ ) s k k k k −1 xk El valor de g k está cerca de la unidad para la mayoría de los k elementos de s, y con un mayor tamaño de la muestra s, mayor es la tendencia de g k a estar cerca de la unidad. Es raro encontrar elementos con un peso g k sea más de 4 o inferior a 0, aunque pueden darse pesos negativos (hay diferentes procedimiento para solventar esta cuestión) Este estimador es en realidad un conjunto de estimadores proporcionados por los vectores auxiliares. Si de las variables auxiliares conocemos el total de la población, podemos incluir todas las variables y así será más eficaz para reducir la varianza. Podemos esperar hasta después del muestreo y haber obtenido los datos para ver qué estimador GREG podemos utilizar, porque lo podemos hacer cuando ya se ha completado la encuesta. Un objetivo importante en una encuesta es su varianza (sobre la repetición de muestras). La varianza siempre será desconocida porque es función de la población completa. Primero calcularemos la varianza V (ɵt ) y a continuación la transformaremos en una varianza estimada, la notaremos como V ( ɵt ), y podremos ver la precisión de ɵt y calcular un intervalo de confianza a partir de una muestra. La varianza del estimador de regresión generalizada es dd V (Y GREG ) = ∑∑U ( k l − 1) Ek El d kl donde Ek = yk − x k ' B son los residuos de la regresión en toda la población y B= (∑ c x x′ U k k k ) (∑ −1 U ck x k yk ) - 21 - Además, para el cálculo de la varianza también se necesitan las probabilidades de inclusión de segundo orden, π kl que representan la probabilidad conocida de que ambas unidades k y l estén incluidas en la muestra, es decir, π kl = ∑ s ⊃k ,l p ( s ) . Los pesos asociados son d kl = 1 / π kl que son conocidos para todas las unidades de la población. Esta fórmula exige que todas las probabilidades de inclusión de primer y segundo orden sean estrictamente positivas. Para la estimación de la varianza del estimador GREG se usa Vˆ (Y GREG ) = ∑∑ s ( d k d l − d kl ) gk ek gl el ˆ donde ek = yk − x′k B Por tanto, el estimador YˆGREG es una buena elección para la estimación del total Y ya que es insesgado, tiene una varianza pequeña cuando x k explica bien la variable de estudio yk y tiene la propiedad de reproducir los totales de las variables auxiliares, es decir, ˆ X GREG = ∑ s d k g k x k = ∑U x k = X , y este total es conocido. Estas propiedades son el punto de partida para los estimadores de calibración. Vamos a ver algunos ejemplos de estimadores GREG: Una clasificación Para una población supongamos que tenemos un número de hombres y mujeres N1 y N2 ambos conocidos. También tenemos un vector xk y éste con dos posibles valores xk = (1, 0)′ para todos los hombres y xk = (0,1)′ para todas las mujeres. El total de la población es xk es ( N1 , N 2 )′ conocido. La derivación de los g-pesos nos muestra N1 gk = cuando k es masculino y s1 parte masculina de la muestra s. De la misma d ∑ S1 k forma obtenemos g k = N2 ∑ S 2 dk para k cuando es femenino y s2 parte femenina de la muestra s. Los pesos d k g k satisfacen la propiedad de calibración. El estimador GREG para este simple caso de información auxiliar es Y GREG = N1 ɶy S 1 + N 2 ɶy S 2 con ɶy sj = ∑ Sj d k yk / ∑ Sj d k para j=1, 2. Este estimador es el estimador post- estratificado. Una clasificación doble Supongamos una lista de población de individuos distribuidos de acuerdo con el sexo en tres regiones diferentes, de la siguiente manera: - 22 - Sexo Masculino 1 Femenino 2 Total 1 N11 N21 N.1 Región 2 N12 N22 N.2 Total 3 N13 N23 N.3 N1. N2. N.. Aquí la información auxiliar más detallada consiste en celdas formadas por N11 a N23. El vector xk expresa la información de estas seis componentes donde uno vale “1” y el resto cero. Sin embargo, hay ocasiones en que la información cruzada de las variables es un inconveniente como por ejemplo: a) cuando las variables provienen de diferentes registros o b) cuando el recuento de celdas es pequeño. En el primer caso el recuento de celdas puede ser costoso. En el segundo el recuento de celdas pequeñas puede hacer el estimador inestable. Tenemos como alternativa utilizar la información que sólo se define por los contadores marginales. Aquí el vector auxiliar sería de cinco dimensiones y es tal que las dos primeras posiciones indican sexo y la tercera región. El vector auxiliar para cada individuo de la población en la celda (1,2) se ha formado por xk = (1, 0, 0,1, 0)′ . La suma en la población de todos estos vectores xk es ( N1. , N 2. , N.1 , N.2 , N.3 , )′ que es conocida. Estimación en dominios Asumimos que para una población queremos estimaciones por separado para hombres y mujeres, por lo tanto hay dos dominios en la población. Tomamos como diseño muestra SRS, y conocemos el número de hombres y mujeres. Vamos a utilizar el GREG como  y para k ∈ U d estimador para el dominio Yd = ∑U ydk , d = 1, 2 donde ydk =  k .Tenemos  0 para k ∉ U d dos formulaciones para el vector auxiliar: i) el estimador GREG basado en la más simple posible especificación, xk = ck = 1 , para todos los elementos. ii) el estimador xk = (1, 0)′ para todos los hombres y xk = (0,1)′ para todas las mujeres y ck = 1 para todo k. La varianza del estimador Y dGREG = ∑ s d k gk ydk es 1− n / N 1 V (Y dGREG ) = N 2 Edk2 ∑ U n N −1 donde la única diferencia entre los dos alternativas está en los residuos Edk . En la alternativa i) los residuos son: - 23 -  yk − Yd / N para k ∈ U d Edk  para k ∈ U − U d  −Yd / N En la variante ii) los residuos son:  yk − Yd / N d para k ∈ U d Edk  para k ∈ U − U d 0 Se demuestra que ∑ U Edk2 es considerablemente mayor en i) que para ii), es decir, en la estimación en el dominio es muy favorable si el vector auxiliar coincide con el indicador del dominio. La reducción de la varianza será significativa en comparación con i). Vamos a ver lo que se puede lograr si existe una variable auxiliar cuantitativa. Una clasificación combinada con una variable cuantitativa Supongamos que tenemos como marco específico el sexo y la región, como en el anterior ejemplo, y el valor xk de la variable auxiliar cuantitativa, tal como ingresos. Vamos a construir algunos vectores auxiliares que estén de acuerdo con la información auxiliar. Las celdas de la población la denotaremos como U11 ,..., U 23 y las regiones como U .1 ,U .2 y U.3 Caso ∑ Vector auxiliar xk Total auxiliar en la población xk ∑ ii (1, xk )′ ( N , ∑U xk )′ iii (0, xk , 0, 0, 0, 0)′ (∑U 11 xk ,...,∑ U 23 xk )′ iv (0,1, 0,0 xk , 0,0, 0,0)′ 0,0, 0, ( N11 ,..., N 23 , ∑ U 11 xk ,...,∑U 23 xk )′ i contadores v (1,0,0, xk ,0)′ sexo U U xk xk variable x ( N1. , N 2. , ∑ U 1 xk , ∑ U 2 xk , ∑ U 3 xk )′ region Aquí surgen algunos estimadores muy conocidos. Vamos a considerar dos de ellos con SRS en el diseño de la muestra. Cuando xk = xk y ck = 1 / xk , se obtiene de esta fórmula el estimador de razón: - 24 - y Y GREG = ∑U xk s xs de donde y s = 1 ∑ yk n S xs = 1 ∑ xk n S Cuando xk = (1, xk )′ y ck = 1 para todo k, se obtiene el estimador de regresión: { } = Covxys B S xs2 con Covxys = Y GREG = N y s + ( X − x s ) B donde y S xs2 = X = ∑ U xk / N , 1 ∑ ( xk − x s )( yk − y s ) n −1 S y 1 ∑ ( xk − x s )2 n −1 S Aquí hacemos hincapié en una determinada cantidad de información auxiliar que puede dar lugar a varias formulaciones de diferentes vectores auxiliares. - 25 - - 26 - Capítulo II: El ajuste de no respuesta 1. No respuesta No todas las unidades responden la encuesta y se genera así la no respuesta, la cual constituye a una fuente potencial del sesgo. El estudio clásico de la falta de respuesta en el muestreo intenta mejorar las tasas de respuesta y hacer ajustes para tratar la falta de respuesta. El error por la no respuesta surge cuando algunos de los posibles encuestados, que están incluidos en la muestra, no responden, a todos o algunos de estos datos. Este es uno de los problemas más significativos. Hay dos tipos de no respuesta: 1) Ítem de no – respuesta: ocurre cuando una unidad encuestada tiene inexactitudes o se niega a proporcionar algunos ítems (preguntas) específicos de información. 2) La unidad de no - respuesta completa: esta se refiere a la pérdida de cualquier dato en la encuestas de la unidad muestral, este tipo es conocida como no entrevistado. Los resultados dan sesgo de no - respuesta cuando las unidades de no - respuesta difieren en importancia con respecto a aquellos que responden a la encuesta o a los ítems particulares. Las tasas más altas de respuesta implican menores tasas de sesgo por falta de respuesta, aunque la tasa de respuesta puede no ser un indicador adecuado del sesgo por la falta de respuesta. La tasa de respuesta por ella misma no indica si los encuestados son representativos de la muestra original. Al aumentar la tasa de respuesta puede que el sesgo no se reduzca por la falta de respuesta, si los encuestados no son diferentes de los que aun no han respondido. Una tasa baja de respuesta incrementa la probabilidad de sesgo por falta de respuesta. Las tasas bajas de respuesta son negativas, por ejemplo, cuando el encuestador va por las casas y se encuentra que no hay nadie. La probabilidad es menor por ejemplo en casas que hay niños pequeños que en viviendas donde viven gente soltera, divorciada o también puede encontrar más respuestas si se va en fin de semana que entre semana, en encuestas telefónicas cuando el entrevistador se niega hacerla o tras hacer dos o tres preguntas se niega a seguir, en centros comerciales y donde más bajas se dan son en encuestas por correo que el encuestado abre el sobre y descubre lo que es. - 27 - De alguna que otra forma se intenta motivar a los encuestados para que participen en la encuesta con estrategias como ponerse en la puerta de su casa, o dándole algún tipo de incentivo ya sea económico, el cual se da antes de realizar la encuesta (este da gran resultado), o algún tipo de premio tras realizar la encuesta. También un cuestionario bien diseñado y breve puede disminuir la tasa de no respuesta. Otro factor importante sería el seguimiento del encuestado que por ejemplo tras haber transcurrido unos días y no haber obtenido respuesta volver a ponerse en contacto con el encuestado para obtener su respuesta. Entre las estrategias para ajustar el error de la falta de respuesta se incluyen el submuestreo de los no encuestados, reemplazo, sustitución, estimación subjetiva, análisis de la tendencia, ponderación simple e imputación. Los describimos brevemente: a) Submuestreo de los no encuestados: Consiste en que el investigador contacta una submuestra de los no encuestados, mediante entrevistas telefónicas, personales…. Esto suele originar una alta tasa de respuesta dentro de la submuestra. Estos valores aquí obtenidos son presentados a los no encuestados, y los resultados de la encuesta se ajustan para considerar la falta de respuesta. b) Reemplazo: Consiste en que los no encuestados en la encuesta actual son sustituidos por no encuestados de una encuesta anterior y similar. Se le intenta hacer la encuesta a los no encuestados de la encuesta anterior y algunas veces se le ofrece un incentivo apropiado. Las dos encuestas deben de utilizar tipos similares del encuestador y el intervalo entre ellas debe ser corto. c) Sustitución: En este caso el investigador lo que hace es reemplazar a los no encuestados por otros elementos del marco de muestreo que se espera que respondan. El marco de la muestra es dividido en subgrupos, los cuales son internamente homogéneos en características del encuestado y heterogéneos en términos de tasas de respuesta. Estos subgrupos se utilizan para identificar a los sustitutos similares a los no encuestados en particular, pero diferentes a los encuestados que ya están en la muestra. d) Estimaciones subjetivas: Este caso se da cuando ya no se puede incrementar la tasa de respuesta mediante los métodos anteriormente mencionados, y pueden ser posible llegar a unas estimaciones subjetivas de la naturaleza y efecto de sesgo por falta de respuesta. Lo que se hace es evaluar los efectos de probabilidad de la falta de respuesta con base en la experiencia y la información disponible. e) Análisis de la tendencia: Es un intento de discernir una tendencia entre encuestados rápidos y tardíos. Lo que se intenta es estimar a los no encuestados para que vean donde se encuentra en relación con las características de interés. - 28 - f) Ponderación: Se intenta considerar la falta de respuesta al asignar pesos diferenciales a los datos dependiendo de las tasas de respuesta. g) Imputación: Asigna las características de interés a los no encuestados, con base en la similitud de las variables disponibles, tanto para los encuestados como para los no encuestados. El ajuste de no respuesta es un término general para las diversas técnicas realizadas por los estadísticos para hacer frente a la falta de respuesta una vez que se ha producido, es decir, después de aceptar el hecho de que algunos datos deseados se han perdido. Los principales métodos para el ajuste de no respuesta son reponderación e imputación. Reponderación implica alterar los pesos de los encuestados, en comparación con el peso que se habría utilizado en el caso de la respuesta del 100%. Reponderación implicará un aumento de los pesos para todos, o casi todos, los elementos que responden. La reponderación se trata desde un enfoque general, la calibración, que tiene la propiedad de incorporar los métodos "estándar" de la literatura. La imputación supone la sustitución de los valores perdidos por otros valores. El estadístico puede optar por utilizar la imputación de falta de respuesta para ítems o para unidades. En algunos países la imputación es rechazada por motivos legales. La clave del éxito del ajuste de no respuesta se encuentra en el uso de una "fuerte" información auxiliar. Con su uso se reducen tanto el sesgo de no respuesta como la varianza. Las variables registro juegan un papel importante en muchas agencias de estadística. Se utilizan en la creación de un diseño de muestreo apropiado y / o en el cálculo de las estimaciones muestrales. En ambos usos, las variables de registro se pueden llamar variables auxiliares, ya que ayudan y mejoran los procedimientos. Muy a menudo, el término "variable auxiliar" se refiere a una variable que se utiliza en la fase de estimación para crear mejores alternativas a la de los estimadores simples. Variables registro se utilizan con frecuencia para construir la estratificación. Este tipo de diseños tienen por objetivo lograr una precisión específica para los cálculos realizados para toda la población y / o de especial importancia en dominios (subpoblaciones). Esto es importante para que se designe a cada dominio importante como un estrato separado. En otras encuestas, en particular en las encuestas de empresas, una variable registro puede ser utilizada como la variable "tamaño" necesario para la construcción de un diseño probabilístico proporcional al tamaño (un diseño pps o πps). El requisito mínimo para calificar como auxiliar a una variable es que los valores de la variable estén disponibles para cada elemento incluido en la muestra (es decir, tanto para los que responden como para los que no responden). En muchas encuestas, los valores tales variables se pueden encontrar en registros disponibles, y suelen ser - 29 - conocidos no sólo para la muestra de elementos, sino también, más ampliamente, para todos los elementos en la población. El uso de la información auxiliar es una de las herramientas usada para el ajuste de la no respuesta y su objetivo es reducir el sesgo y la varianza causada por los datos faltantes. Un vector auxiliar se compone de una o más variables auxiliares. Hay dos pasos importantes en el proceso de formación del vector auxiliar, que serán, en última instancia, utilizados en la estimación. Estos son: (i) Hacer un inventario del potencial de las variables auxiliares; (ii) Seleccionar y preparar las condiciones más adecuadas de estas variables para la entrada en el vector auxiliar. Las variables auxiliares consideradas potencialmente útiles para la estimación pueden provenir de varios registros que permite la posibilidad de vincular los elementos. Así, se puede tener una lista bastante larga de posibles variables auxiliares. El siguiente paso importante es el procedimiento por el cual llegamos a la forma final del vector de variables auxiliares que se utilizarán en la estimación. Este proceso requiere considerable reflexión y estudio. Las decisiones que se tomen incluyen la selección de las variables del conjunto más grande disponible, el establecimiento de adecuados límites de los grupos para la conversión de una variable cuantitativa en una variable categórica, y fijar reglas de colapsar grupos muy pequeños en grupos más grandes. El estimador a utilizar en el estudio requerirá un total conocido en la población de cada variable en el vector auxiliar. Usamos el término "información auxiliar", en referencia tanto al vector auxiliar en sí mismo, y a los totales conocidos de las variables en el vector. La imputación por lo general se ha llevado a cabo con información auxiliar limitada a los elementos de la muestra. Esto es así ya que cuando las variables registro se utilizan en la construcción del diseño de la muestra, sus valores deben ser conocidos para cada elemento de la población, por eso se suelen tomar como variables auxiliares sexo o edad, como cuando los estratos se construyen para un diseño estratificado. Sin embargo, cuando las variables auxiliares se utilizan en la etapa de estimación, tal información tan detallada puede no ser necesaria. Puede ser suficiente conocer el total en la población para cada variable auxiliar, mientras que el conocimiento de la variable a nivel unidad puede ser limitada a los elementos incluidos en la muestra solamente. 2. Un ejemplo del impacto de la no respuesta Veamos un ejemplo del error de muestreo y el sesgo de no repuesta. Para ello construimos una población artificial de tamaño N = 34.478 compuesta por 17.062 hombres y 17.416 mujeres. El valor de la variable en estudio, yk , representa la renta per cápita. El valor promedio fue 196.592 en hombres y 135.689 en mujeres. Supongamos que queremos estimar el total con una muestrea aleatoria simple de tamaño 400 y con un mecanismo de respuesta en el que los hombres responden con probabilidad 0.5 y las mujeres con probabilidad 0.9. El subconjunto de respuesta tiene un tamaño en torno a 281 y tiende a sobre-representar a las mujeres. - 30 - Se extrajeron 100 muestras aleatorias simples y para cada una de ellas se seleccionó un subconjunto de respuesta con el mecanismo anterior. Para cada una de ellas se calculó el 1 estimador de expansión simple, YÊXP = N ∑ r yk , donde m es el tamaño del conjunto m de respuesta. La siguiente figura muestra los resultados obtenidos: Como se observa, el estimador de expansión simple, YÊXP , trata este subconjunto de respuesta como si fuera una muestra aleatoria simple de la población, lo cual no es adecuado. La mayoría de las 100 estimaciones están por debajo del objetivo. El sesgo es claramente negativo. Supongamos ahora que el número total de hombres y mujeres en la población es conocido y que usamos esta información auxiliar proporcionada por la variable sexo P 1 mediante un estimador post-estratificado, YˆPST = ∑ N p yrp , donde yrp = ∑ yk , m p m p rp p =1 el número de respondientes en cada grupo p, con P = 2 estratos, hombres y mujeres. Las 100 estimaciones dan como resultado el que muestra la siguiente figura: La incorporación de la información auxiliar da estimaciones centradas en el valor objetivo. Aquí podemos ver cómo mediante la información auxiliar se ha podido reducir el sesgo de no respuesta, y con esta reducción también se reduce el error del estimador. - 31 - Como veremos más adelante, para reducir el sesgo de no respuesta y la varianza del estimador de calibración, habrá que seleccionar un vector auxiliar que satisfaga algunos de los siguientes principios: 1) el vector auxiliar debería explicar la variación de las probabilidades de respuesta: de ser así el sesgo de no respuesta se reduciría en las estimaciones de todas las variables que se estudien. 2) el vector auxiliar debería explicar la variación de las variables de estudio principales: siendo así el sesgo de no respuesta reduciría sólo en las estimaciones para las variables de estudio principales. 3) el vector auxiliar debería identificar los dominios más importantes: en cuyo caso el efecto es principalmente realizar una reducción del sesgo para las estimaciones del dominio. Si se cumple el principio primero el sesgo de la no respuesta se reduce en la estimación para todas las variables de estudio. Si sólo se satisface el principio segundo el sesgo de no respuesta se reduce en la estimación para las variables principales de estudio. Si se da el tercer principio se produce una reducción de la varianza para la estimación del dominio. Todos estos métodos giran alrededor de la información auxiliar, y se diferencia en sus exigencias por la información auxiliar. 3. Un ejemplo del uso de la información auxiliar Ejemplo.- Encuesta sobre vida y salud en Suecia Como ejemplo del uso de la información auxiliar, y de los requerimientos que impondrá, como veremos más adelante la estimación por calibración, veamos esta encuesta en la que se tiene una población formada por personas de 18 a 79 años de cierta región de Suecia. En esta encuesta se quiere estudiar las diferentes condiciones de vida y salud. En esta encuesta la población marco se ha estratificado por municipios. La muestra total fue asignada a los estratos de modo que cumpla unos requisitos específicos de precisión para cada municipio. La tasa de no respuesta fue de 34,4%, es una tasa alta, esto puede causar un importante sesgo de no respuesta. Por suerte la información auxiliar es bastante abundante como vamos a ver a continuación. Se van a utilizar seis variables auxiliares todas ellas categóricas como sexo (hombre o mujer), grupo de edad (este esta formado por 4 clases), país de nacimiento (del país o extranjero), el grupo de ingresos (3 clases), estado civil (casados, otros) y nivel de educación (formado por 3 grupos). A través de dos análisis diferentes se quiere ver cual de las seis variables es mejor para: a) explicar la variación de las probabilidades de respuesta b) explicar la variación de las variables de estudio - 32 - Un análisis de las tasas de respuesta da los siguientes resultados: Sexo Tasa de respuesta % Masculino Femenino 60,10 71,2 Grupo de edad Tasa de respuesta % 18-34 54,9 País de nacimiento Tasa de respuesta % Nacional Extranjero 66,7 50,8 Clases de ingresos Tasa de respuesta % 0-149 60,8 Estado civil Tasa de respuesta % Casado Otros 72,7 58,7 Nivel educativo Tasa de respuesta % Nivel 1 63,7 35-49 61,0 50-64 72,5 150-299 70,0 Nivel 2 65,4 65-79 78,2 30070,2 Nivel 3 75,6 La tasa de respuesta difiere considerablemente en las diferentes categorías de una variable. Por lo tanto las seis variables auxiliares serán importantes para explicar la variación de las probabilidades de respuesta. Las tasas de respuesta son muy similares en los dos grupos de ingreso últimos y en los dos primeros de los grupos educativos, por lo que podrían ser colapsados. Pero si mantenemos todos los grupos podríamos cumplir con el segundo principio. Un segundo análisis es sobre la variación de las variables de estudio. Las variables que se señalaron como más relevantes en este estudio fueron: a) salud (buena, mala), b) temor a ataques al caminar al aire libre durante la noche (si, no), c) problemas en la vivienda (si, no), d) economía personal (buena, mala). Las estimaciones en este ejemplo se han obtenido de a través del método “ajuste por no respuesta dentro de cada estrato”, y se reflejan a continuación como estimación de la proporción (%) de individuos con la propiedad (a)-(d) por sexo, grupo de edad, país de nacimiento, ingresos, estado civil y nivel educativo: Proporción (%) por sexo Propiedad Masculino (A) 7,5 (B) 7,8 (C) 2,6 (D) 19,6 Femenino 8,9 21,1 2,4 19.8 Proporción (%) por grupo de edad Propiedad 18-34 35-49 50-64 - 33 - 65-79 (A) (B) (C) (D) 4,3 11,8 5,9 31,0 6,6 11,4 2,8 26,6 10,6 14,3 1,0 12,5 10,9 23,4 0,8 9,6 Proporción (%) por país de nacimiento Propiedad Nacional Extranjero (A) 8,0 11,7 (B) 14,7 18,3 (C) 2,4 4,2 (D) 19,2 28,5 Proporción (%) por grupos de ingresos Propiedad 0-149 35-49 (A) 10,0 7,2 (B) 18,6 12,6 (C) 3,8 1,5 (D) 25,3 16,5 Proporción (%) por estado civil Propiedad Casados (A) 8,2 (B) 13,8 (C) 1,1 (D) 14,1 3004,0 8,1 1,0 6,0 Otros 8,2 16,3 4,3 26,5 Proporción (%) por nivel educativo Propiedad Nivel 1 Nivel 2 (A) 10,5 7,3 (B) 19,1 12,6 (C) 1,7 3,2 (D) 17,5 21,6 Nivel 3 4,6 12,9 1,8 16,8 De entre todas las variables parece que son menos fuertes, a la hora de explicar la variación de las variables de estudio, las que se refiere al sexo y al estado civil, al menos para algunas de las cuatro variables en estudio. Para conseguir que los municipios clasificados por sexo, por grupo de edad cumplan el tercer principio, estas tres variables deben estar en el vector auxiliar, municipios * sexo * grupo edad, (de dimensión Mx2x4, donde M es el número de municipios). Además, para incluir el país de nacimiento y el nivel educativo, sin tener celdillas con pocos elementos, se añaden como país de nacimiento + nivel de educación, quedando municipios * sexo* edad + país de nacimientos + nivel de educación, y por lo tanto la dimensión del vector auxiliar sería (Mx2x4)+2+3. - 34 - Toda la anterior es la información auxiliar. Los pesos que reponderan el estimador de expansión simple con la técnica de la calibración, se obtiene del vector auxiliar y tienen las siguientes propiedades: a) el recuento de la población es conocido en las celdas determinadas por municipio por sexo y grupo de edad b) el recuento marginal conocido en la población del país de nacimiento c) el recuento marginal conocido en la población del nivel de estudios Podemos ver que todos los métodos de estimación giran alrededor de los diferentes usos de la información auxiliar. En el capítulo siguiente introduciremos la estimación por calibración y la reponderación por calibración para ajuste de no respuesta y en el siguiente daremos un criterio para seleccionar vectores auxiliares que permitan reducir es sesgo de no respuesta. - 35 - - 36 - Capítulo III: Estimación por calibración y su uso para tratar la no respuesta La diferencia de este apartado con el anterior es que ahora no poseemos la respuesta completa. Anteriormente hemos estudiado cuando la respuesta es completa lo cual implica r = s, la falta de respuesta nos lleva a que r es un subconjunto propio de s. El conjunto con falta de respuesta lo llamaremos o = s-r. Supondremos además que no hay imperfecciones en el marco. Actualmente se utiliza una metodología de estimación en los centros estadísticos donde se distingue dos caminos para hacer frente a la falta de respuesta los cuales son la ponderación y la imputación. Se utiliza la reponderación con la ayuda de la información auxiliar y se aplica a los valores de y para los elementos que responden k ∈ r . Con la reponderación, los nuevos pesos wk de un estimador Yˆw = ∑ r wk yk de un parámetro Y = ∑U yk serán, para la mayoría de los elementos, mayores que los pesos que se dan con la respuesta completa. Con este proceso se quiere compensar los elementos que se han perdido por la falta de respuesta. A continuación vamos a ver técnicas para reducir los errores que son causados por la falta de respuesta. La principal fuente para la reducción de los errores es un uso eficaz de la información auxiliar. Como hemos dicho anteriormente a través de dos vías la reponderación e imputación. Aquí sólo abordamos la primera. 1. Errores causados por el muestreo y la no respuesta Denotamos por Y la expresión adoptada YˆNR en el caso de respuesta completa cuando r = s. El error total de Yˆ se puede descomponer en una suma de dos errores: NR YˆNR − Y = (Y − Y ) + (YˆNR − Y ) - 37 - El término Y − Y , es el error de muestreo (error causado por la selección de una muestra única, en lugar de toda la población) y el término Y NR − Y es el error de no respuesta. Pensamos primero el valor esperado, media, del estimador YˆNR . Esta se encarga de medir la tendencia central del estimador YˆNR . La media (sobre todas las posibles muestras) del error de muestreo es cero o casi cero, ya que el estimador con respuesta completa es insesgado o casi-insesgado. La media (sobre todas las posibles muestras s y sobre todos los posibles subconjuntos de respuesta r) del error de no respuesta es probable que sea diferente de cero. Con esto queremos decir que la falta de respuesta introduce el sesgo en la estimación. A la hora de analizar la precisión del estimador YˆNR necesitamos analizar su error cuadrático medio, MSE (Yˆ ) , que es el promedio del error total al cuadrado, (Y NR − Y ) 2 , NR sobre todas las muestras s y todos los conjuntos de respuesta r. Las nociones de valor esperado, insesgadez y MSE son el promedio dos veces del proceso: sobre todos los conjuntos posibles de respuestas r, realizado por el mecanismo de respuestas conocido como q(r|s), para una muestra fija s, y sobre todas las muestras posibles, elaboradas por el diseño conocido de muestreo p(s). Denotamos los operadores de las esperanzas con respecto a estas dos distribuciones Eq y Ep. Y para los operadores con respecto a ambas distribuciones conjuntas con el subíndice pq. Expresamos el sesgo de no respuesta de la siguiente forma B pq (YˆNR ) = E p ( Bc ) donde Bc = Eq (YˆNR s ) − Yˆ es el sesgo condicionado de no respuesta, dada la muestra realizada s. En la práctica es casi imposible saber si la condición de insesgadez, B pq (YˆNR ) = E p ( Bc ) = 0 se cumple ya que la respuesta q(r|s) es desconocida. La mayoría de las veces el sesgo de no respuesta viene de los estudios de simulación en las diferentes poblaciones y mecanismos de respuesta que estos utilizan. Si suponemos que el sesgo condicionado Bc es cero o insignificante para cualquier muestra s, entonces la varianza es la siguiente V pq (YˆNR ) = VSAM + VNR donde VSAM = V p (Y ) y VNR = E pVq (YˆNR s ) - 38 - La componente VSAM es llamada varianza de muestreo. Esta es la varianza de todas las muestras posibles que se pueden extraer con el diseño de muestreo dado sin que esta dependa de la falta de respuesta o del mecanismo de respuesta. La componente VNR se llama falta de respuesta. Esta es la media sobre todas las muestras s, y además sobre todos los conjuntos de respuesta r. Para evaluar el error de YˆNR , necesitamos una estimación de la varianza total la cual hemos visto anteriormente con la suma de dos términos V pq (YˆNR ) = VSAM + VNR Los estadísticos suelen tener una vaga idea de cantidad de variación total que es explicada por la variación en la falta de respuesta con la componente VNR , esta medición se da al conocer el tamaño relativo de estas dos componentes ( VSAM y VNR ). Si VNR se calcula en una encuesta que se repite con cierta regularidad y se obtiene que representa una proporción importante de la varianza total, es una señal importante para prestar más atención a recursos de la encuesta para conseguir reducir la falta de respuesta en las próximas encuestas. Para la estimación de VNR se usa la reponderación, mediante el estimador de calibración Yˆ . Para la componente de varianza de muestreo V , se puede usar para la w SAM modificación apropiada de su fórmula destinada a la respuesta del 100% teniendo en cuenta el estimador GREG: Vˆ (YˆGREG ) = ∑∑ r (d k d l − d kl ) g k ek gl el ˆ y donde g k = 1 + ck ( ∑U x k − ∑ r d k x k ) '( ∑ s d k ck x k x′k ) −1x k , ek = yk − x′k B Bˆ = ( ∑ s d k ck x k x′k ) −1 ( ∑ s d k ck x k yk ) . El sesgo de no respuesta no puede ser estimado, pero si se pueden hacer algunos análisis. La parte final de este trabajo se dedica a exponer un criterio para la selección de las variables auxiliares que más ayuden a reducir este sesgo en la estimación por calibración. 2. Reponderación para tratar la no respuesta Lo habitual en el tratamiento de la no respuesta es suponer dos partes que no se superponen, un estrato de respuesta y falta de respuesta en otro estrato. Cada elemento en la primera se supone que responde con certeza si es seleccionado en la muestra, y cada elemento en el estrato último tiene probabilidad cero de responder. Una desventaja sobre este modelo es que es poco realista y simple, con estratos de tamaño que pueden no ser conocidos. Algunas veces se estima el total para el estrato de respuesta, y a continuación se agrega un término para compensar la falta de respuesta del estrato. - 39 - En 1980 apareció una aproximación más satisfactoria con muestreo en dos fases para la reponderación por no respuesta. Este hace referencia a una selección previa de donde obtenemos una muestra deseada s, seleccionada de la población U, con un conjunto de respondientes r, subconjunto de s. Este diseño es mas realista, ya que permite que k elementos tengan su propia probabilidad de respuesta θ k donde 0 ≤ θ k ≤ 1 para todo k. La probabilidad de respuesta θ k suele ser desconocida y esto requiere que θ k sea sustituida por estimaciones, construidas con la información auxiliar. En la fórmula tradicional del muestreo en dos fases, una primera muestra se selecciona de U, (aunque la variable o variables en estudio no sean observadas) y acto seguido se realiza una submuestra desde la primera muestra, y se observan los elementos de la submuestra (observación que ya incluye la variable en estudio). Las probabilidades de la primera y segunda fase son conocidas con el diseño muestral. Si se supone que la distribución de la respuesta q(r|s) es conocida, las probabilidades de respuesta de primer y segundo orden son conocidas: Pr (k ∈ r | s ) = θ k y Pr (k & l ∈ r | s ) = θ kl Sea el vector auxiliar x k que se utiliza el estimador. En estas condiciones, el estimador en dos fases del total de la población Y = ∑U yk (Särndal, Swensson y Wretman, 1992), viene dado por: YˆS S W = ∑ r d k g k θ y k /θ k donde d k = 1/π k y g kθ = 1 + ck ( ∑U x k − ∑ r d k x k /θ k ) '( ∑ r d k ck x k x′k /θ k ) −1x k La formulación de este estimador para una muestra con falta de respuesta, requiere sustituir θ k , que es desconocido, por un estimador θk . Este cambio requiere: a) La formulación de un modelo realista para un mecanismo de respuesta con las probabilidades de respuesta θ k como parámetros desconocidos. b) La estimación de estas probabilidades de respuesta, usando cualquier variable auxiliar oportuna y con el hecho de que algunos elementos de la muestra que se observó si respondieron, mientras que otros no lo hicieron. Un modelo de uso frecuente es suponer que en la población hay grupos que no se superponen, con la propiedad de que todos los elementos dentro de un mismo grupo responder con la misma probabilidad y de forma independiente. Estos grupos se conocen como grupos homogéneos de respuesta (RHGs). Por ejemplo, grupos de edad y sexo. La información auxiliar requerida es sólo que cada elemento muestral se puede clasificar por grupos, responda o no. El estimador puntual cuando es desconocido θ k se sustituye por θ que es derivado del modelo RHG. Se da un estimador de la varianza, k formada por la suma de dos componentes, una que mide la variación de muestreo y la - 40 - otra la varianza de la falta de respuesta. El estimador puntual es insesgado si se asume el modelo RHG sea una representación verdadera del modelo de respuesta. En la práctica es prácticamente imposible crear un verdadero patrón de respuesta. El camino con el muestreo en dos fases para la reponderación tiene, por tanto, las siguientes características: a) La modelización del mecanismo de respuesta constituye un paso distinto b) Si hay un conjunto de variables auxiliares disponibles, se constituye un subconjunto de estas variables y se utilizan en la estimación del mecanismo de respuesta, y otro subconjunto (que puede tener elementos comunes con el anterior) se usa en la formulación del vector auxiliar x k , para el estimador de Y, en el que θ k es sustituido por θˆ . k En la sección siguiente veremos cómo se repondera usando la calibración. 3. Calibración y no respuesta Introducimos aquí la estimación por calibración. Además, veremos cómo se adapta cuando ciertos totales poblaciones no son conocidos, cuando se estima un dominio y cómo se estima su varianza. Todo ello con falta de respuesta. También resumimos el software que en la actualidad hay disponible para ello. Detallamos además algunos casos particulares bien conocidos en los que se convierte el estimador de calibración. Introducción a la calibración La calibración es la principal herramienta para la nueva ponderación por no respuesta. Esta necesita la formulación de los vectores auxiliares, a través de un conjunto más amplio de las variables auxiliares disponibles. El conjunto de pesos calibrados se obtiene a través de la información auxiliar. El estimador de calibración de Y, se denota por Yˆw , y el estimador de su varianza por V (Yˆw ) . El subíndice w fue elegido por el término de “ponderación”. La calibración proporciona un tratamiento unificado de la utilización de información auxiliar en las encuestas con la falta de respuesta. Cuando encontramos una buena información auxiliar, el objetivo es reducir tanto el error de muestreo como el error de no respuesta. La calibración sólo dispone de un proceso, en que la calibración se produce. No se dará la modelización por separado de la falta de respuesta. Por esto el enfoque de calibración es más adecuado para un tratamiento práctico de no respuesta que el del muestreo en dos fases. Los estadísticos han intentado utilizar la información auxiliar para mejorar las estimaciones de la encuestas. Un estimador de calibración va a poder incorporar la información auxiliar bajo cualquier diseño de muestral. Según Deville & Särndal, los - 41 - estimadores de calibración son una familia o clase de estimadores que tienen una forma muy atractiva y que se caracterizan por usar pesos calibrados, los cuales son cercanos a los pesos originales o inversos de la probabilidad de inclusión del elemento seleccionado en la muestra y además estos estimadores de calibración respetan un conjunto de restricciones, las ecuaciones de calibración. Supongamos, como para el estimador de regresión, que asociado al k-ésimo individuo de la muestra hay un vector de valores auxiliares dado por xk = ( x1k,…,x2k,…,xpk). En una muestra se conoce tanto xk como yk. Además, conocemos el total de la población del vector de la información auxiliar: t X = ∑k∈U xk Partiendo del estimador de Horvitz-Thompson para el total de una característica de ⌢ interés, y, YHT = ∑k∈s dk yk , los estimadores de calibración introducen la información auxiliar junto con el diseño muestral p (⋅) . Se construyen unos nuevos pesos wk de forma que sean lo más cercanos posibles a dk= 1 / π k y que cumplan con la ecuación de calibración: t X = ∑ k ∈s w k x k Los pesos wk deben tener, por tanto, las siguientes propiedades: 1. Consistencia: un sistema de pesos satisfactorio, el cual reproduce el total de la población conocido para cada variable auxiliar. 2. Cercanía a los pesos básicos del diseño: el peso del diseño dk= 1 / π k tiene la propiedad de producir estimaciones insesgadas respecto al diseño de muestreo utilizado. Cualquier desviación de estos pesos tiene que ser pequeña para salvar esta propiedad, al menos aproximadamente o asintóticamente. 3. Control sobre los totales de las variables auxiliares: cuantas más variables sean utilizadas en el proceso de calibración mejor será la estimación. Se demuestra que la varianza de un estimador de calibración decrece mientras más variables auxiliares sean tenidas en cuenta en la calibración. Podemos decir que el ítem más importante en la calibración es la existencia de la información auxiliar, sin información auxiliar no hay nada que se pueda calibrar. Las características de una estimación por calibración, son entonces: 1º Suponemos que tenemos un vector de información auxiliar xk = ( x1k,…, x2k,…,xpk), de p variables auxiliares, conocidas para los individuos seleccionados en la muestra. - 42 - 2º Además, por registros administrativos u otras fuentes de confianza, se tiene el conocimiento del total del vector de información auxiliar, t X = ∑ k ∈U x k 3º El propósito del estudio es estimar el total de las características de interés usando la información dada por xk , k ∈ s . 4º Se requiere que las estimaciones cumplan con t X = ∑ k∈S wk x k ecuación que es conocida como de calibración. 5º La idea es buscar pesos wk tan cercanos como se pueda al inverso de la probabilidad de inclusión del k-ésimo elemento, dk= 1 / π k . Este método tiene sus antecedentes en el trabajo Deming & Stephan (1940). Según Särndal existen diferentes puntos de vista para justificar el uso práctico de los estimadores de calibración que son los siguientes: 1) Como método de ponderación lineal: La calibración es nueva en el muestreo, pero no es nueva para producir ponderaciones, por ejemplo en el muestreo por cuotas es una forma de muestreo no probabilístico que usa estimaciones calibradas con los totales demográficos de una población en estudio. La ponderación de los valores observados de las características de interés fue un tópico muy importante antes que el término de calibración comenzara a popularizase. Algunos autores encuentra la ponderación al reconocer que un estimador de regresión lineal podría ser escrito como una suma ponderada de los valores de la característica de interés. 2) Como una forma sistemática para utilizar la información auxiliar: la calibración provee de una forma sistemática para incluir la información auxiliar. La información auxiliar fue usada para mejorar la precisión de los estimadores mucho antes de que existiera el término calibración. La calibración lo que hace es incorporar la información auxiliar. 3) Como un enfoque para conseguir consistencia: Las ecuaciones de calibración se caracterizan por el vector de ponderaciones, así que cuando lo aplicamos a las variables auxiliares el resultado será consistente a todas las variables. Cuando la motivación primaria para la calibración no es la concordancia con los totales de la información auxiliar sino el reducir la varianza y el sesgo debido a la ausencia de respuesta, entonces el vector de ponderaciones se dice balanceado. 4) Como excusa de transparencia y conveniencia: La calibración ha ido ganando importancia ya que las estimaciones resultantes son fáciles de interpretar y de motivar ya que esta relacionadas con los pesos inducidos por el diseño de muestreo. El usuario que entiende la ponderación muestral aprecia el método de calibración puesto que cambia ligeramente los pesos originales pero respetando la información auxiliar y el sesgo es despreciable. Otro beneficio es que la calibración propone un único vector de ponderaciones aplicables a todas las - 43 - variables del estudio. Esto hace que se utilice sobre todo en encuestas muy extensas. 5) Como una nueva dirección de pensamiento: El estadístico puede encontrar aquí algunos tratamientos para la ausencia de respuesta, deficiencias en el marco muestral y errores de medición. Son usados en la práctica en algunos procesos como la imputación y la reponderación por no respuesta, aunque estos métodos no están enmarcados dentro de una teoría exhaustiva de inferencia en poblaciones finitas. El estimador de calibración para el total poblacional de y, t y = ∑ k∈U yk es ɵt y ,cal = w y con w pesos que minimizan la distancia Φs con la restricción ∑ k k k k∈s ∑ w x′ = t′ . k∈s k k x Cuando construimos un estimador de calibración podemos usar dos componentes una es la distancia de Φs y la otra el conjunto de restricciones ∑ wk x′k = t′x . La distancia de Jik∈s cuadrado es la más usada en la práctica: Φs= ∑ k∈s (wk − d k )2 / (d k qk ) donde qk no esta correlacionada con d k . La minimización conduce a que los pesos de calibración queden definidos como: wk = d k + d k ( t x − ɵt xπ )′( ∑ qk d k x k x k ′ ) −1 qk x k k∈s donde definimos ɵt xπ = ∑ k∈s d k x k como el estimador de Horvitz-Thompson para el total de vectores de la información auxiliar. Por lo tanto el estimador de calibración para el total de la población quedaría de la siguiente forma: ɵt y ,cal = w y = ɵt yπ ( t − ɵt xπ )′B ∑ k k x k∈s siendo ɵt yΠ = ∑ k∈s d k yk el estimador de Horvitz- Thompson para la variable de interés =( yB ∑ k∈s qk d k x k x k ′ )−1 ∑ k∈s qk d k x k yk la matriz de coeficientes de regresión. Estimación puntual por calibración con no respuesta Antes de detallar la estimación puntual bajo el enfoque de la calibración, supongamos que el estimador GREG con un vector especifico x k , tiene una respuesta completa de forma que r = s. Se requiere conocer el total en la población del vector x k , estimador es una buena opción ya que: a) es insesgado, - 44 - ∑ U x k . El b) la varianza es pequeña cuando x k es un vector que explica bien la variable yk , c) y es consistente con la ecuación de calibración: ∑ s d k g k x k = ∑U x k Como hay falta de respuesta, los valores yk están disponibles sólo para los k elementos del conjunto r, subconjunto de la muestra s. Por lo tanto sea cual sea la teoría de estimación siempre aparecerá cierto sesgo. Las propiedades del estimador elegido serán: i) pequeño sesgo de no respuesta (es la más importante) , ii) pequeña varianza total, y iii) que coincida con el estimador GREG cuando r = s La varianza total es la suma de la varianza muestral y la varianza de no respuesta. El estimador de calibración se define como: Yˆw = ∑ r wk yk donde wk = d k vk con vk = 1 + ck (∑ U x k − ∑ r d k x k )′(∑ r d k ck x k x′k ) −1 x k para k ∈ r (es una suma ponderada de los valores yk observados). En el criterio para obtener los pesos wk = d k vk , lo primordial es minimizar la función que mida la distancia de la ponderación “vieja” d k y de la “nueva” wk , sujeta a la ecuación calibración ∑ r d k vk x k = ∑U x k El grado con el que Yˆw cumple con las propiedades deseadas i) y ii) depende de la calidad del vector auxiliar x k . Algunos vectores x k consiguen mejores resultados que otros. La propiedad iii) del estimador se cumple cuando r = s, vk se reduce g k , para obtener una respuesta completa, e Yˆ es idéntico al estimador GREG. w Estimación por calibración sin el total poblacional conocido También es posible definir un estimador de calibración en una encuesta en que el vector auxiliar x k se conoce hasta un nivel muestral s, es decir, cuando ∑ U x k es desconocido. Sabemos lo suficiente como para formar el estimador HT del total, en base al muestreo, ∑ s d k xk . La calibración produce los pesos d k vsk con el siguiente estimador de calibración: - 45 - Yˆws = ∑ r d k vsk yk con vsk = 1 + ck (∑ s d k x k − ∑ r d k x k )′(∑ r d k ck x k x′k )−1 x k . La calibración es muy flexible. Las técnicas de ponderación de no respuesta son casos especiales de los descritos anteriormente. Cuando la calibración se aplica a las encuestas, no necesitamos obtener fórmulas para aplicaciones específicas, una vez que el vector x k y el factor ck se han especificado. Estimación por calibración en dominios En las encuestas no sólo necesitamos la estimación del total de la población, sino también en otros ámbitos o dominios de la población. Cuando en la encuesta hay falta de respuesta, la nueva ponderación la realizamos mediante la calibración y la estimación del total del dominio Yd . Si la información auxiliar esta formada por vectores con ∑ U x k conocido, sus pesos estarán dados por un conjunto de pesos calibrados descritos anteriormente. Estos han sido utilizados para producir el estimador del total de Y en la población. Sin embargo, para el total del dominio Yd, mantenemos los mismos pesos y cambiamos solamente la variable de estudio y por yd. El estimador de calibración resultante para el total del dominio sería: YˆdW = con w k = d k v k y v k ∑ r wk y dk descritos anteriormente. En algunas aplicaciones los dominios de interés U1 ,...U d ,...U D forman una partición de U, como cuando los dominios son las regiones que componen un país D. Los estimadores de los D dominios Y ,..., Yˆ ,..., Yˆ , tiene la propiedad atrayente que su 1w dw Dw suma da la estimación de calibración para el conjunto de la población, esta propiedad viene de: D D D d =1 d =1 d =1 ∑ YˆdW =∑∑ r wk ydk = ∑ r wk ∑ ydk = ∑ r wk yk = Yˆw Y combinando la estimación en dominios y el tener sólo información a nivel muestral conduce, de forma similar al estimador Ydws = ∑ r d k vsk ydk Estimación de la varianza Para estudiar la precisión y construir intervalos de confianza, tenemos que estimar la varianza de los estimadores de calibración. Para el enfoque de dos fases hay que suponer que las probabilidades de respuesta de primer y segundo orden, θ k y θ kl , son - 46 - conocidas. En el enfoque de calibración, las probabilidades de inclusión no son necesarias, pero sin embargo, algunos indicadores aproximados de las probabilidades de inclusión si son necesarias para la varianza estimada. La expresión se obtiene de la más general del estimador de regresión en muestreo en dos fases, y suponiendo que se responde de forma independiente, θ kl = θ kθl . De esta manera se llega al siguiente estimador de la varianza: V (Y W ) = V SAM + V N R donde V NR = ∑ r d 2 k vsk (vsk − 1)e 2 k con vsk = 1 + ck (∑ s d k x k − ∑ r d k x k )′(∑ r d k ck x k x′k )−1 x k , e k = y k − x ′k Bˆ ν , Bˆ ν = (∑ r d k vsk ck x k x′k )−1 ∑ r d k vsk ck x k yk y V SAM = ∑∑ r (d k d l − d kl )( g k vsk ek )( g l vsl el ) − ∑ r d k (d k − 1)vsk (vsk − 1)( g k ek ) 2 El estimador de la varianza tiene dos componentes, uno estima la varianza de muestreo V SAM , y otro estima la varianza de no respuesta V NR . Se utiliza para calcular los intervalos de confianza, donde se supone implícitamente que el sesgo de no respuesta, Bc, es muy pequeño. Si el sesgo es considerable, el nivel de confianza del intervalo Y puede estar más bien lejano al nivel deseado 1 - α. El nivel de confianza correcto es w cuando el sesgo sea cercano a cero. En el caso de conocer el total auxiliar sólo a nivel muestral, se tiene: V ( Y W s ) = V S A M + V N R donde V NR = ∑ r d 2 k v sk ( v sk − 1) e 2 k V SAM = ∑∑ r (d k d l − d kl )(vsk yk )(vsl yl ) − ∑ r d k (d k − 1)vsk (vsk − 1) yk 2 Y en el caso de la estimación en dominios con el estimador Y dW viene dada sustituyendo yk por ydk y por lo tanto reemplazamos ek por edk = y dk − x ′k Bˆ dν donde Bˆ dν = (∑ r d k vsk ck x k x′k ) −1 ∑ r d k vsk ck x k ydk - 47 - 4. Software Existe diverso software para el cálculo del estimador puntual y del estimador de la varianza. Si la información auxiliar consiste en ∑ U x k , el total conocido, el estimador puntual será Yw , y el total del dominio es Y dW , ambos implementados para los diseños de muestreo usuales. La estimaciones de la varianza se calculan según la formula de V (Yˆw ) este paso necesita de vsk y g k . Se pueden construir estimadores puntuales y estimadores de la varianza para parámetros más complejos, considerando el parámetro ψ = f (Y1 ,..., Y q ,..., YQ ) donde f específica cierta función de Q totales en la población: Y1 ,..., Yq ,..., YQ . Algún software como CLAN97 permite estimar tales funciones de totales, en concreto con funciones racionales que son aquellas que se limitan al uso de las cuatro reglas básicas algebraicas, suma, resta, multiplicación y división. Para cualquier función racional los totales se pueden estimar puntualmente ψ = (Yˆ ,..., Yˆ ,..., Yˆ ) donde Yˆ ,..., Yˆ ,..., Yˆ son 1 q Q 1 q Q estimaciones respectivas de calibración y también permiten estimar la varianza correspondiente. Es un software desarrollado como una macro de SAS por Statistics Sweden (www.scb.se). Considera dos modelos diferentes de respuesta: (i) las respuestas independientes, con probabilidades de respuesta iguales dentro de los estratos, y (ii) grupos de homogeneidad de respuesta en cada estrato (con la opción de dividirlos en dos o más grupos). El desarrollo de software se ha producido ligado a las necesidades de las agencias de estadística. A continuación resumimos las agencias y el software que actualmente desarrollan: CALMAR; Institut National de la Statistique et des Études Économiques (INSEE) Fue desarrollado como una macro de SAS por INSEE para producir pesos calibrados de las diferentes funciones distancias descritas por Deville y Särndal (1992). Es usado en la mayor parte de las encuestas sobre los modos de vida y presupuestos familiares del Institute Nacional de la Statistique et des Études Économiques (INSEE) de Francia (www.insee.fr); en la Encuesta de Población Activa del Statistics South Africa (www.statssa.gov.za), en los estudios del Censo Federal de Población (RFP) y la Encuesta sobre la Renta y el Consumo (ERC) realizadas por el Statistique Suisse (www.bfs.admin.ch). Actualmente se encuentra disponible la segunda edición CALMAR2, creada por Sautory y Le Guennec (2004), y es actualmente utilizado por numerosas oficinas de estadística públicas y centros privados de todo el mundo. G-CALIB-S; Statistics Belgium - 48 - Software desarrollado por Vanderhoeft et al. en el Statistics Belgium (www.statbel.fgov.be), al igual que el g-DESIGN, como un módulo del paquete SPSS usando la sintaxis disponible en dicho programa. BASCULA; Statistics Netherlands Software desarrollado en delphi por Statistics Netherlands (www.cbs.nl), es uno de los paquetes más utilizados para satisfacer la creciente necesidad de recopilar información estadística para el cálculo de pesos para todas las unidades muestrales con información auxiliar. BASCULA, una vez recopilada la información auxiliar en un modelo de ponderación, utiliza métodos basados en el estimador de regresión y puede utilizar los pesos calculados para estimar la población total o los promedios, así como las diferencias, sobre la base de técnicas de linealización de Taylor y/o replicación de muestras, abarcando así los parámetros de población más comunes para las estadísticas oficiales. GES; Statistics Canada Software desarrollado por Statistics Canada (www.statcan.gc.ca) con enfoque en la estimación por calibración mediante regresión generalizada (GREG). GREGWT; Australian Bureau of Statistics Software desarrollado como una macro en SAS por Australian Bureau of Statistics ABS (www.abs.gov.au) para realizar regresión generalizada y ponderación de los resultados de la muestra de encuestas. Package Survey; University of Washington Software desarrollado como un paquete del entorno R por Thomas Lumley, Universidad de Washington, para los análisis de muestras de encuestas complejas. Entre otras virtudes se caracteriza porque nos permite hacer estudios descriptivos, modelos lineales generalizados y estimaciones por máxima verosimilitud. Analiza estudios muestrales estratificados, por conglomerados, polietápicos y estudios con probabilidades desiguales. Además estima varianzas de estimadores por los métodos de linealización o por las técnicas de replicación (BRR, Jackknife). Este paquete trata la calibración utilizando los métodos post-estratificación, raking y la calibración lineal (o estimación GREG) que tratan sobre las formas de utilización de la información auxiliar disponible sobre el conjunto de la población e implican la adaptación de todos los pesos de muestreo a fin de que los totales de las variables auxiliares se reproduzcan exactamente. Package Sampling; EUREDIT Software desarrollado como un paquete del entorno R por Matei, A. y Tillé para seleccionar y calibrar muestras. Este paquete permite extraer muestras para estudios complejos (muestreo con probabilidades desiguales, muestreo estratificado, muestreo por conglomerados, muestreo en dos fases), y calcular los totales con calibración y - 49 - con técnicas de regresión. El paquete se puede descargar desde la página web oficial de R-project (http://cran.rproject.org/src/contrib/PACKAGES.html). 5. Ejemplos de estimadores de calibración para no respuesta En la realización de encuestas siempre se puede, para cada vector x k especificado, calcular un estimador de calibración. Sólo hay un enfoque general, aunque muchos especialistas están acostumbrados a fórmulas específicas que corresponden a métodos particulares. Desde el enfoque general el estimador de calibración es YˆW = ∑ r wr y k donde wk = d kν k con ν k = 1 + ck ( ∑U x k − ∑ r d k x k ) '( ∑ r d k ck x k x′k ) −1 x k para k ∈ r Vemos algunos ejemplos de estimadores de calibración que se corresponden con métodos tradicionalmente usados. Comenzamos con formas simples para el vector x k para ir gradualmente complicando la información auxiliar. Para simplificar, suponemos muestreo aleatorio simple SRS, de forma que d k = N / n para todo k, donde n es el tamaño de muestra. El vector auxiliar más simple El vector auxiliar más simple es x k = 1 para todo k, que no diferencia los elementos. Especificando ck = 1 para todo k, se obtienen los pesos ν k = n / m para todo k, y el estimador de calibración resulta ⌢ N YˆW = ∑ k∈s y k =YEXP n que se conoce como estimador de expansión simple. Es de uso frecuente cuando no hay información auxiliar disponible y cuando la no respuesta se considera que ocurre de forma aleatoria. Además, se calcula en una encuesta como un estimador para comparar el resto de estimadores alternativos. Una clasificación La población U está dividida en grupos incompatibles y exhaustivos U p , p = 1,… , P , basados en un criterio, por ejemplo, edad por sexo. El vector auxiliar para el elemento k es el identificador del grupo x k = (γ 1k ,… , γ pk ,… , γ Pk ) ' donde, para p = 1,… , P , γ pk = 1 si k ∈ U p ∑ U y es cero en otro caso. Se tiene entonces x k = ( N 1 ,… , N p ,… , N P ) ' donde N p es el tamaño de U p . Así, se requiere que - 50 - los totales, el número de elementos que contiene cada grupo, sean conocidos. Tomando para todo k, c k = 1, se obtienen los pesos ν k = N p n / Nm p para k ∈ rp y el estimador de calibración resulta P ⌢ YˆW = ∑ N p y rp = YPST p =1 1 ∑ yk y m p el número de respondientes en el grupo p. Este m p rp estimador se conoce como estimador post-estratificado. siendo y rp = Una única variable cuantitativa Sea xk una variable cuantitativa disponible, por ejemplo, el número de empleados de una empresa k en un muestreo de empresas, k = 1,..., N. El total poblacional, ∑ u xk , se asume conocido. Si es ésta sólo la información auxiliar disponible, x k= x k . Tomando ck = xk−1 , el estimador de calibración obtenido es ⌢ y YˆW = ( ∑ U xk ) r = YRA xr donde yr = ⌢ 1 1 y . Este es el estimador de razón, . y x = x Y ∑ ∑ k r k RA m r m r Con la misma información auxiliar se puede formar el vector x k = (1, xk ) ' . Es posible puesto que la información requerida, junto con que sea conocido ∑ xk , es que sea u conocido el tamaño de la población N = ∑U 1 , que lo es. Cuando ck = 1 para todo k, el estimador de calibración resulta ⌢ ⌢ YˆW = N { y s + ( X − x ) B} = YREG donde 1 ˆ  ∑ y x − 1 ∑ y ∑ x  /  ∑ x 2 − 1 (∑ x )2  x y B= ∑ U k r k  r k k m r k r k   r k m  N ⌢ La notación YREG se usa para indicar la forma de un estimador de regresión. X = Una clasificación combinada con una variable cuantitativa En este caso, la información se refiere a una variable auxiliar categórica con P modalidades y a una variable cuantitativa, x, que puede ser un indicador del tamaño de un elemento. Suponemos que se pueden clasificar todos los elementos incluidos en la muestra en el grupo apropiado, que sabemos su valor xk , y que para cada p = 1,..., P , - 51 - conocemos el tamaño, Np , y el total, ∑ U xk . Hay más de una forma de usar esta información auxiliar. Una opción es definir el vector auxiliar como x k = (γ 1k xk ,… , γ pk xk ,… , γ Pk xk ) ' El total poblacional de x k es entonces el vector cuyos elementos son los P totales conocidos ∑ Up xk . Aunque esta formulación no incluye el conocimiento de los tamaños de los grupos, N p , resulta un estimador conocido, ya que tomando ck = xk−1 , el estimador de calibración que resulta es P yr YˆW = ∑ ( ∑U xk ) p = YˆSEPRA p xrp p =1 1 1 y y xrp = ∑ ∑ xk . Es por tanto el estimador de razón separado, rp k mp m p rp la suma de estimadores de razón, uno por cada grupo. con y rp = Otra alternativa que hace uso de la información auxiliar completa, es decir, que también usa que son conocidos los tamaños de los grupos, N p , es usar el vector auxiliar x k = (γ 1k ,… , γ pk ,… , γ Pk , γ 1k xk ,… , γ pk xk ,… , γ Pk xk ) ' Con ck = 1 para todo k, el estimador de calibración resulta { P ) } ( YˆW = ∑ N p yrp + X p − xrp Bˆ p = YˆSEPREG p =1 donde X p = cov xyrp = 1 Np ∑ Up xk y Bˆ p = 1  1  ∑ rp yk xk − m p − 1  mp cov xyrp S xr2 p ∑ rp con   1  1 2 2 yk ∑ r xk  y S xr2 p = x − ( x )   ∑ ∑ k k rp p m p − 1  rp mp   que es el estimador de regresión separado. Una clasificación doble En la práctica es común tener información sobre dos o más variables auxiliares categóricas. Presentamos el caso de dos variables categóricas. El razonamiento se puede extender a una clasificación múltiple. Supongamos que hay P categorías del primer factor, por ejemplo, una clasificación geográfica, y las H categorías de la segunda, por ejemplo, una clasificación socioeconómica. Podemos pensar en la U población dividida en P × H subconjuntos o celda, U ph , p = 1,… , P; h = 1,… H . Dependiendo de la información disponible sobre las celdas, es posible formular el vector x k de varias formas. - 52 - Consideremos el vector auxiliar x k = (γ 1k ,… , γ pk ,… , γ Pk , δ 1k ,… , δ hk ,… , δ Hk ) ' donde, para h=1,..., H, δ pk = 1 si k ∈ U h y es cero en otro caso. Esta formulación requiere el conocimiento de los P+H totales marginales P H p =1 h =1 N p• = ∑ N ph y N • h = ∑ N ph Con esta formulación, podemos tratar tres de las situaciones que ocurren más habitualmente (i) Los P × H contadores de celdas N ph , p = 1,… , P; h = 1,… H son conocidos, pero se considera que los P + H totales marginales contienen casi al misma información N p• , p = 1,… , P , N • h , h = 1,… H (ii) Los P × H contadores de celdas N ph , p = 1,… , P; h = 1,… H son conocidos, pero algunos de ellos son muy pequeños o cero, una situación frecuente que plantean en la práctica. Aunque el recurso de colapsar las celdas es de uso común, para este problema, podría causar una pérdida no despreciable de información auxiliar. Se prefiere entonces utilizar simplemente los totales marginales. (iii) Los P + H totales marginales son conocidos, pero los P × H contadores de celdas N ph , p = 1,… , P; h = 1,… H , no. Un ejemplo de esto que sucede en la práctica es cuando N p• y N • h se toman de dos registros diferentes. En esta situación, el vector x k del estimador de calibración YˆW no tiene una forma simple. Computacionalmente, sin embargo, es fácil de obtener. Una discusión general de la calibración en clasificaciones cruzadas en el caso de respuesta completa se encuentra en Deville, Särndal y Sautory (1993). - 53 - - 54 - Capítulo IV: Un indicador del sesgo de no respuesta Falta de respuesta se produce en prácticamente todas las encuestas. Hace algunas décadas, las tasas de no respuesta eran bajas y no eran motivo de gran preocupación. Sin embargo, la falta de respuesta en las encuesta va en aumento en las encuestas de muchos países. Como es bien sabido, la alta falta de respuesta tiene un impacto negativo en la calidad de las estadísticas elaboradas en una encuesta, a menos que se tengan procedimientos de ajuste de gran alcance y puedan llevarse a cabo. En este sentido, algunas agencias de Estadística se encuentran en una posición relativamente favorable, porque los registros administrativos que muchas tienen disponibles constituyen una rica fuente de información auxiliar. Las agencias de Estadística han dedicado considerables recursos al estudio de la falta de respuesta y sus consecuencias. Durante mucho tiempo, las tasas de no respuesta han sido cuidadosamente supervisados en la mayoría de las encuestas de las agencias. Varios proyectos de las últimas décadas se han centrado en cuestiones relacionadas con la falta de respuesta en encuestas. Esta sección del trabajo se basa en el artículo de Carl-Erik Särndal y Lundstrom Sixten, “Evaluación de vectores de información auxiliar para el control de la falta de respuesta en el Estimador de Calibración”, y aporta una mayor comprensión de los efectos que pueda ejercer la no respuesta. El indicador examinado en este trabajo es una herramienta útil en el diagnóstico de sesgo de no respuesta. 1. Introducción Tras realizar una encuesta nos encontramos siempre con falta de respuesta, lo que vamos a ver son los estimadores de calibración en encuestas con falta de respuesta. Los pesos calibrados lo calcularemos a partir de la información auxiliar formada por un vector. Un vector auxiliar ideal sería aquel que eliminara el sesgo, pero este no existe, ni con el mejor de los vectores auxiliares. Siempre aparecerá algún sesgo en el estimador de calibración. Por otro lado si las estimaciones las vamos a producir para toda una encuesta, debemos conformarnos con un vector auxiliar y utilizarlo para calcular los pesos de calibrados y estimadores muestrales. En una encuesta típica de individuos y hogares tenemos un gran número de posibles variables auxiliares que contienen variables categóricas como el sexo, grupo de edad, clases de ingresos, el país de origen, región de residencia, tamaño de la familia, nivel de estudios, grupo profesional, etc. Estos vectores creados los tenemos que evaluar por su capacidad para reducir el sesgo. - 55 - Aquí vamos a analizar las propiedades de un indicador y vamos a mostrar su uso como una herramienta para construir el vector auxiliar a través de la selección de variables por pasos hacia delante o hacia atrás, seleccionando las variables paso por paso. El indicador se calcula sobre los valores del vector auxiliar para las unidades de la muestra, los que responden y los que no responden. Una ventaja es su independencia de las variables de estudio, de las cuales hay muchas en una gran encuesta. El indicador tiende, conforme aumenta el tamaño de la muestra, a su análogo de la población, que se demuestra que esta relacionado con el sesgo a través de una relación aproximadamente lineal. Cuanto mayor sea el valor del indicador, es más probable que el sesgo se reduzca para muchas variables en estudio. Las características anheladas de un vector auxiliar son: 1) que explique el modelo de respuesta, 2) que explique muy bien las variables de estudio en la encuesta, y 3) que informe de los principales dominios del interés de la encuesta. Särndal y Lundstrom se refieren al punto 1) y 3) como "principios para un vector auxiliar". Aquí nos vamos a centrar más en la explicación del modelo de respuesta. A continuación vamos a estudiar un indicador del sesgo, lo denotaremos como Q̂ , que será la varianza de la influencia (la inversa de la probabilidad de respuesta) de las unidades que responden. Esta puede servir como indicador de sesgo, ya que la variabilidad en la influencia esperada refleja bien las características únicas de los que responden. El calculo de Q̂ necesita de los valores de un vector auxiliar para las unidades muestreadas, tanto de los que responde como de los que no. El vector auxiliar se hace muy importante. El valor de Q̂ va en aumento con el número de variables en el vector. Mas adelante analizaremos los usos de Q̂ como herramienta de diagnóstico para la búsqueda del "mejor vector auxiliar", entre los que son posibles en la encuesta. Terminaremos con un ejemplo de su aplicación para seleccionar las variables auxiliares en un amplio estudio de la agencia de Estadística de Suecia, en la sección siguiente. 2. Información auxiliar para el estimador de calibración El ajuste con reponderación para tratar el sesgo de no respuesta, con el uso de la información auxiliar ha sido estudiado por muchos autores y desde diversos ángulos, por ejemplo, Bethlehem (1988), Bethlehem y Schouten (2004), Deville (2002), Folsom y Singh (2000) , Fuller, Loughin y Baker (1994), Harms (2003), Lundstrom (1997), Rizzo, Kalton y Brick (1996), Thomsen et al (2006). Algunos de estos autores se centran en el enfoque de calibración para la estimación, en particular Deville (2002), Harms (2003) y Lundstrom (1997), y también lo hace este trabajo, donde las premisas básicas se pueden ver en el libro de Särndal y Lundstrom (2005). - 56 - Partimos de una población finita U = {1, 2,..., N } de la que extraemos una muestra s de U . Tomamos r como el subconjunto de los que responden de s. Tenemos U ⊇ s ⊇ r y probabilidad de inclusión extraemos la muestra probabilística s según el diseño muestral que da para la unidad k, π k > 0 . Los pesos conocidos de la unidad k son d k = 1 / π k > 0 . El subconjunto de respuesta r resulta cuando la muestra s se expone a una distribución de la respuesta desconocido q (r| s ), de forma que la unidad k tiene una probabilidad de respuesta desconocida θ k , que se asume positiva. Detrás del fracaso para registrar, yk , valor de la variable de estudio en la unidad k, puede estar una negación, no estar en casa u otros tipos de no respuesta. Notar que yk puede ser al mismo tiempo continua o categórica (como ejemplo, “ yk = 1 si k tiene un atributo de interés, como desempleado” e yk = 0 en otro caso.). Puede haber todavía otras causas para no obtener el valor deseado y. Aunque se llama “probabilidad de respuesta”, θ k puede ser visto de manera más general como la probabilidad de que el valor se registre para la unidad k ∈ s . Se perdió, por cualquier razón con probabilidad 1 − θ k . Entonces los datos incluyen el valor yk para k ∈ r y el resultado de la respuesta: Rk =1 para k ∈ r , Rk =0 para k ∈ s − r . Para cada muestra s, se asume E q ( Rk s ) =θ k , donde q refiere la fase de respuesta. En muchas encuestas encontramos información de dos tipos puesto que corresponden a dos tipos de vectores auxiliares x ∗k y x 0k . El vector x ∗k lo que hace es llevar la información auxiliar a nivel de la población, su valor se conoce para cada k ∈ U , por lo tanto es también conocida para cada k ∈ s y para cada k ∈ r . Por lo tanto, el total de la población lo obtendremos sumando los valores de x ∗k , denotado ∑ ∗ U x k . Cuando esta suma de valores la incluimos en la población es de forma demográfica como grupos de edad, sexo. Sin embargo el vector x 0k lo que contiene es la información auxiliar a nivel de la muestra, su valor se observa para cada k ∈ s y por lo tanto para cada k ∈ r . Un ejemplo de este caso sería en el caso de negación a ser encuestado, información obtenida al respecto por el entrevistador. La diferencia entre x 0k y x ∗k es que ∑ ∗ U x k es conocida, mientras que desconocida. Sin embargo, su estimación es computable ∑ ∑ 0 U x k es 0 Us d k x k y sirve como información auxiliar importante para el cálculo del peso calibrado. En un muestreo con ambos tipos de información, el vector auxiliar y la información con la que se calibra son: - 57 -  ∑ U x∗k   x∗k  xk =  0  ; X =    ∑ d k x 0k   xk  Us   El objetivo de la estimación es el total Y = ∑U yk . Särndal y Lundstrom (2005) examinan el estimador de calibración de Y sobre la base de la información X anterior. Viene dada por el estimador YW = ∑ r wk yk con pesos wk = d kν k , donde d k = 1 / π k es ′ el peso del diseño y donde el factor ν k = 1 + X − ∑ r d k x k ( ) ( ∑ x x′ ) r k −1 k x k tiene dos objetivos: reducir el sesgo de no respuesta y reducir la varianza de Y w . Sin embargo si la encuesta sólo tiene un tipo de información y es del primer tipo será x k = x ∗k y ∑ ∗ x = X . En otro caso si sólo hay un tipo, de información y es del U k segundo tipo sería x k = x 0k y ∑US d k x k = X . 0 Se consideran vectores x k con la siguiente propiedad: Existe un vector µ constante tal que µ′x k = 1 para todo k ∈ U . Constante significa que µ no debe depender de k, ni en s ni en r. La condición no es una restricción importante en x k . La mayoría de los vectores de interés en la práctica están incluidos. Algunos ejemplos son los siguientes: (1) x k = (1, xk ) , donde xk es el valor de unidad k de una variable auxiliar continua x; (2) el vector de clasificación utilizado para codificar J grupos de población mutuamente excluyentes y exhaustivos, x = γ = γ ,..., γ ,..., γ ′ , tal que, para k k ( 1k jk Jk ) j = 1, 2,..., J , γ jk = 1 si pertenece al grupo j la unidad k, y γ jk = 0 si no; (3) la combinación de (1) y (2), x k = ( γ′k , xk , γ′k )′ ; (4) el vector x k que codifica dos clasificaciones cruzadas, y siendo la dimensión de x k J 1 + J 2 − 1 , donde J 1 y J 2 son el número de las categorías respectivas, y el menos uno es para evitar una matriz singular en el cálculo de los pesos; (5) la extensión de (4) a más de dos clasificaciones. El estimador de calibración es YˆW = ∑ r wk yk = ∑ r d kν k yk con d k = 1 / π k con ν k = X′ ( ∑ x x′ ) r k k −1 xk A pesar de la mejor de calibración, un sesgo residual permanece siempre en Y. Este sesgo debe estar en el centro de nuestra atención, porque el componente de sesgo al - 58 - cuadrado a menudo domina el error cuadrático medio. A diferencia de la varianza, el sesgo no se aproxima a cero cada vez que se tenga mayor tamaño de la muestra. 3. Expresiones del sesgo El sesgo de YˆW se deriva del diseño muestral p ( s ) con probabilidades conocidas π k y con distribución de respuesta q(r|s), con desconocidas probabilidades de respuesta θ k . El sesgo de YˆW , B(YˆW ) = E p Eq (YˆW | s ) − Y es intratable puesto que YˆW es no lineal. Nos centramos en la aproximación obtenida por Taylor, la cual denotaremos AB(Yˆ ) . La W aproximación del sesgo, AB(YˆW ) , aunque es desconocida porque es función de valores en toda la población, es la base para el diseño de métodos para reducir el sesgo. Särndal y Lundström obtienen la siguiente expresión para el sesgo aproximado: AB (YˆW ) = ( ∑U x k )′( BU ;θ − BU ) donde BU ;θ = ( ∑U θ k x k x′k ) −1 ∑U θ k x k yk ; BU = ( ∑U x k x′k ) −1 ∑U x k yk Bajo condiciones de suavidad (1 / N )( B(Y W ) − AB(Y W ) ) es de orden n −1/ 2 donde n es el tamaño de la muestra. La diferencia entre BU ;θ y BU resalta la falta de respuesta. La diferencia más o menos pronunciada entre los dos causa un sesgo más o menos pronunciado en YˆW . Tener AB(Y W ) = 0 no es factible. Se podría producir si todos θ k fueran iguales, lo cual es poco probable. No importa lo buena que sea la información auxiliar, puesto que sigue apareciendo sesgo, por lo tanto lo que hay que intentar es reducir éste. Una aclaración sobre la notación BU ;θ y BU están formados por uno o dos índices donde el primer índice nos indica el conjunto de unidades donde se define la cantidad y el segundo índice muestra la ponderación. Al estudiar el sesgo aproximado no tenemos que especificar qué variables xk son x 0k y cuales x ∗k . La variable auxiliar xk es igualmente de eficaz para reducir el sesgo aproximado cuando se inscribe en x 0k (aporta información a la muestra solamente) o cuando se clasifica en x ∗k (lleva la información de la población). A la hora de computar los pesos, sin embargo, si difiere en el total de  ∑U x ∗k  ∑U x k =  x0   ∑U k  Alternativamente, el sesgo aproximado se escribe - 59 - AB(Y W ) = ∑U θ k M k ek ek = yk − x′k BU donde son los residuos de mínimos cuadrados y M k = ( ∑U x k )′ ( ∑U θ k x k x′k ) −1 x k Tenemos que ∑ U ek = 0 es una consecuencia de µ′x k = 1 para todo k ∈ U . Alternativamente, el sesgo aproximado también se escribe AB (YˆW ) = ∑U (θ k M k − 1) yk La cantidad M k es muy importante para el diagnóstico del sesgo. Podemos ver M k como una variable derivada que depende los valores de x k sobre el vector auxiliar y de la probabilidad de respuesta θ k . Vamos a comparar las alternativas de vectores x k en los que respeta a su capacidad para controlar es sesgo. Como referencia utilizamos x k = 1 para k ∈ U lo que nos da YˆW = N y r = N ∑ r yk / nr donde nr es el tamaño del conjunto r de respuesta. Entonces tenemos M k = N / ∑U θ k = 1/ θU para todo k y reducimos la expresión a AB ( N y r ) = N ( yU ;θ − yU ) donde yU ;θ = ∑U θ k yk / ∑ U θ k y yU = ∑ U yk / N . Cuando la media ponderada y la media no ponderada difieren considerablemente YˆW = N y r tiene una aproximación del sesgo grande. Vamos a utilizar dos medidas de sesgos relativos. Estas a su vez dependen de tres factores: i) los valores x k del vector auxiliar utilizados para el calculo de YˆW ii) las probabilidades de respuesta θ k iii) los valores de yk de las variables en estudio y son razones sobre el objetivo de la estimación, Y = N yU . La primera medida será el sesgo relativo: AB (Y W ) ∑U (θ k M k −1) yk RB (Y W ) = = N yU N yU y la segunda que mida, dado un vector especificado x k , cómo controla el sesgo comparado con el primero: - 60 - P= AB(Y W ) = AB( N yUr ) ∑ U (θ k M k −1) yk N ( yU ;θ − yU ) Cuando tengamos distintos candidatos para el vector x k , será más efectivo el que dé menores valores de ambos RB(Yˆ ) y P. W 4. Influencia de la respuesta y aproximación del sesgo cero Se da AB(YˆW ) = 0 cuando los residuos de ek = yk − x′k BU son cero para todo k ∈ U , es decir si x k explica yk sin error para cada unidad de la población. En las encuestas hay, sin embargo, múltiples variables de interés y. Para conseguir un sesgo cero en todas, tendrán que ser cero cada uno de los residuos ek , para todas las unidades y para todas las variables y, que esto ocurra es algo poco probable. Sin embargo, si nos centramos la distribución de la respuesta, se dan condiciones en las que la aproximación del sesgo es cero para todas las variables y. 1 Vamos a definir la influencia de la respuesta de la unidad k como φk = , donde θk suponemos 0 < θ k ≤ 1 para todos los k. Así, cada unidad viene acompañada de una influencia, que será alta cuando tenga una probabilidad baja θ k de respuesta, al igual que tiene un peso de diseño d k = 1/ π k que es alto cuando tenga una baja probabilidad π k de inclusión en la muestra. Antes de tomar todos los datos de φk e yk son desconocidas, pero φk con k ∈ U siguen siendo desconocidas una vez observada la muestra. Un vector auxiliar ideal es el que explica perfectamente la influencia de φk . De forma mas concreta un vector ideal x k es el que cumple esta condición: Existe un vector 1 constante λ , de tal forma que: φk = = λ ′x k para todo k ∈ U . Pues en este caso, θk AB(YˆW ) = 0 . No podremos encontrar el vector ideal x k , pero si existiera y lo pudiéramos utilizar, eliminaría la aproximación del sesgo. En primer lugar vamos a tomar un vector auxiliar fijo x k . Como φk = 1 θk son desconocidas y no observables, incluso para las unidades de la muestra, podemos, con los datos auxiliares x k para k ∈ s predecir las influencias, las cuales utilizaremos después para obtener el indicador del sesgo. Minimizando la suma de las diferencias al cuadrado, φk − λ′x k , con mínimos cuadrados ponderados, es decir, minimizando WSS = ∑U θ k (φk − λ ′x k ) 2 , se obtiene: - 61 - φÛk = ( ∑U x k )′( ∑U θ k x k x k ′ ) −1 x k = M k La cantidad M k ya las hemos visto anteriormente. Estas están relacionadas con la aproximación del sesgo. Dado un vector auxiliar fijo x k , M U = ∑U M k / N verifica 1 φ U ≥ M U ≥ M U ;θ = donde φU = ∑U φk / N , M U ;θ MU , 1 θU θU = ∑U θ k M k / ∑U θ k y θU = ∑U θ k / N . La cota inferior de , se alcanza cuando x k = 1 para todo k. La superior, φU , cuando x k es el vector ideal que elimina completamente la aproximación del sesgo. La varianza ponderada de las predicciones φÛk = M k para k ∈ U , es Q= 1 ∑ U θk ∑U θk ( M k − M U ;θ )2 = ∑ M ∑θ U U k k − N2 ( ∑U θ k ) 2 = 1 θU ( MU − 1 θU ) La cantidad Q es importante como indicador del sesgo. Destacamos las propiedades de Q que son: a) para cualquier vector dado x k , Q ≥ 0 , b) el valor mínimo Q=0, se produce con el vector primario x k = 1 para todo k ∈U , c) el limite superior de Q se denota como Qsup , lo alcanza un vector x k , que cumpla la condición de ajuste perfecto Qsup ∑ = ∑ φk N2 1 1 − = (φU − ) θ ∑U θ k θU θU U k U d) la inclusión en el vector x k de otras variables, aumenta el valor de Q . Otra cantidad útil es el coeficiente de variación M k para k ∈ U que se puede escribir como H = θU Q = M UθU − 1 , y cuyo límite superior de H es H sup = φ U θ U − 1 . El coeficiente de correlación ponderado entre M k y φk es - 62 - rM φ = ∑ θ k ( M k − M U ;θ )(φk − φU ;θ ) M U − 1/ θU = 2 1/ 2 2 1/ 2 ( ∑U θ k ( M k − M U ;θ ) ) ( ∑U θ k (φk − φU ;θ ) ) φU − 1/ θU U y el coeficiente de no-determinación 1 − rM2 φ cumple 0 ≤ 1 − rM2 φ ≤ 1 , y tiene varias expresiones: 1 − rM2 φ = φU − M U Q H2 = 1− = 1− 2 Qsup H sup φU − 1/ θU La relación entre el sesgo aproximado y el indicador Q la da el siguiente resultado: Dado un vector auxiliar x k para el vector de calibración YˆW , AB (Y W ) = N ( yU ;θ − yU )(1 − rM2 φ ) + R donde R = ∑ U θ k M k Ek con Ek = yk − yU − (φk − φU ) yU − yU ;θ φU − 1/ θU En cualquier encuesta comparamos los vectores x k para saber si se puede o no reducir el sesgo. Tomamos el vector primero donde x =1 para todo k, con el que Yˆ = N y y k W r AB ( N yr ) = N ( yU ;θ − yU ) . Para otro vector más eficaz x k se usa el término principal AB(Y W ) el cual es igual a la proporción 1 − rM2 φ del valor N ( yU ;θ − yU ) para el primer vector, para cual rM2 φ = 0 . Cuando el vector auxiliar x k mejora y se aproxima a la forma ideal, M U va aumentado hacia el limite superior φ , la fracción 1 − r 2 tiende a cero, y AB(Y W ) se aproxima a U MØ cero. De esta manera podemos reducir el sesgo. El segundo término R = ∑ U θ k M k Ek no es cero, pero puede tomar el valor cero si se verifican una serie de condiciones. Sea un vector auxiliar x k fijo, el término restante sería R = ∑ U θ k M k Ek y éste vale cero en los siguientes casos: i) x k es el vector primario en x k =1 para todo k ii) x k cumple con la condición de ajuste perfecto iv) para algún vector constante µ , Ek = µ′(x k − xU ) para k ∈ U iv) para algunas constantes co y c1 , yk = co + c1φk para k ∈ U La condición iii) nos dice que x k explica perfectamente la variación de yk después de la dependencia de φk . La condición iv) nos dice que la variación de yk es explicada por la influencia φk . - 63 - Así, si el término R en AB (Y W ) = N ( yU ;θ − yU )(1 − rM2 φ ) + R es muy pequeño en comparación P= AB(YˆW ) = AB( N yr ) ∑ U (θ k M k −1) yk N ( yU ;θ − yU ) ≈ 1 − rM2 φ AB (YˆW ) mide al vector x k por su capacidad para controlar el sesgo AB ( N yr ) en comparación con el vector primario. Este cociente depende de tres factores los cuales son: El cociente P = i) los valores del vector x k ii) la probabilidad de respuesta θ k iii) los valores de la variables yk Pero si se utiliza la aproximación anterior, P ≈ 1 − rM2 φ , 1 − rM2 φ dependen de los dos primeros factores, pero es independiente de la variable y. Así que 1 − rM2 φ representa la parte del cociente P que es independiente de la variable de estudio. Cuando se disponen de varias variables en una encuesta, miramos qué vector controla mejor el sesgo de todas las variables en estudio. Si R tiene un valor pequeño, la aproximación P ≈ 1 − rM2 φ sugiere buscar un vector x k con un gran valor de Q o H . Si nos centramos en Q , la aproximación del sesgo ha de ser aproximadamente una función lineal en Q , AB (Y W ) ≈ Co − C1Q donde Co = N ( yU ;θ − yU ) y C1 = Co / Qsup no dependen de x k . Cuando el vector x k es sustituido por otro mejor aumenta el valor de Q , y el valor absoluto de AB(Y W ) se reduce de manera lineal. Lo ideal sería un vector x k que dé un valor de Q próximo al limite superior de Q , puesto que AB(Y W ) será cercano a cero sup para todas las variables y. En la fórmula de Q = 1 ∑ θ U k ∑ U θ k ( M k − M θ ) se define Q como la varianza de las U; influencias predichas φÛk = M k , luego cuanto mayor sea su varianza mayor será la probabilidad de que el sesgo sea pequeño. Ni la varianza Q ni el coeficiente de variación H son computables, ya que estos dependen de total de la población con sus probabilidades de respuesta desconocida. Veamos en la siguiente sección cómo estimarlos en una muestra concreta. - 64 - 5. Estimación del indicador en una muestra La predicción basada en la muestra de φk es φˆsk = mk . Tenemos que implica que porque ∑ s ∑ r ∑ r d k mk =∑ s d k , lo d k mk es una estimación no sesgada del tamaño de la población N, d k cumple una propiedad. La cantidad mk esta relacionada los pesos de los factores vk en el estimador de calibración Y W = ∑ r d k vk yk . Tenemos mk = vk cuando la información auxiliar es exclusivamente a nivel de muestra, de manera que x k = x 0k . De lo contrario mk y vk se diferencian en una pequeña cantidad. Con argumentos similares a nivel muestra, se llega a (∑ s d k ) W Qˆ = d ( m − m ) = − = mr ;d ( ms:d − mr ;d ) ∑ k k r ; d ∑r dk r ∑ r d k ( ∑ r d k )2 2 1 2 donde ∑ d m = ∑ d ,m = ∑ d m ∑d ∑d ∑d W = ∑ d m = ∑ d m = ( ∑ d x )′( ∑ d x x ′ ) ( ∑ d x mr ;d = k r k s k k s k s ;d r r k k 2 k r k k k s k −1 s s k k r k k k k s k ) También se puede razonar a partir de las estimaciones muestrales desde el diseño de los elementos que componen Q Q= 1 ∑ U θk ∑U θk ( M k − M U ;θ )2 = ∑ M ∑θ U U k k − N2 ( ∑U θ k ) 2 como: Vamos a exponer algunas propiedades de Q ≥0 1) para cualquier vector x k , Q = 0 para el vector primario x = 1 para todo k 2) Q k 3) Q = 0 cuando r = s , cuando la respuesta es completa = 0 si x = x 4) Q s ;d r ;d no tiene un limite superior especificado. 5) a diferencia de Q , Q converge en probabilidad a Q 6) Para un determinado x , Q k a Q puede ser lenta y la variabilidad de muestra a muestra de Q La convergencia de Q puede ser considerable, a no ser que r y s sean las dos grandes (mil unidades, como ocurre en la mayoría de las encuestas que realizan las agencias de estadística) - 65 - 6. Herramienta de diagnóstico para evaluar el potencial de reducción del sesgo de un vector auxiliar Cuando encontramos en una encuesta una no respuesta importante, la responsabilidad recaerá en poder ajustar las estimaciones. Es necesaria una rica fuente de datos auxiliares, como ocurre en la mayoría de los países desarrollados. Vamos a comparar los vectores en los que respecta a su capacidad para reducir el sesgo del estimador de calibración YˆW = ∑ r wk yk Aquí nos hacemos un serie de preguntas a las que intentaremos darle una respuesta. ¿Cómo se comparan los vectores con otros candidatos a vectores x k para evaluar la capacidad de reducir el sesgo de Yˆ ? (ambos tipos de información de x∗ como x 0 W k puede estar presente en x k ). La aproximación P ≈ 1 − r 2 Mφ k sugiere un aumento de Q = Q (x k ) que va acompañada de una disminución lineal de la aproximación del sesgo. Como Q (x k ) depende de toda la población, deberá ser sustituido en la práctica por =Q (x ) . Q k (x ) nos guíe correctamente al vector x ? ¿Qué garantías tenemos de que Q k k Supongamos que podemos comparar dos vectores x1k y x 2 k de forma que x 2 k es x1k con un vector adicional x + k : x 2 k = ( x1′ k , x′+ k )′ , por lo tanto Q ( x 2 k ) ≥ Q (x1k ) . A la hora de sumar otras variables aumenta el valor de Q . Lo mismo ocurre para Qˆ ( x ) ≥ Qˆ (x ) 2k 1k en cualquier muestra s y cualquier respuesta r, aunque no se garantiza que el sesgo sea se utilizará menor para x que para x . Si Q nos dice x es preferible a x , en Q 2k 1k 2k 1k este indicador para cualquier realización (s,r). Esta situación cambia cuando los vectores que comparamos x 2 k y x1k , no están relacionados, es decir, cuando x 2 k no se obtiene por las variables auxiliares de x1k , (x ) ≥ Q ( x ) pueden mantener esta situación en una realización de (s,r), entonces Q 2k 1k pero no necesariamente en todas. (x ) nos da una herramienta para ir paso a paso a seleccionar una variable x de un Q k grupo J el cual es un potencial interesante de variables auxiliares, categóricas o (x ) para cada variable individual x, y nos continuas. En primer lugar calculamos Q k (x ) . En segundo lugar calculamos Q (x ) quedamos con la que da el mayor valor de Q k k para cada uno de los vectores J-1 formados con la variable del paso uno y cada una de las J-1 restantes, de los cuales se selecciona la que produce mayor aumento de (x ) .Y así sucesivamente. Q k (x ) va suprimiendo variables. Otra alternativa es utilizar el paso hacia atrás, donde Q k No se pueden mantener todas las variables de ese vector por: - 66 - i) algunas de las variables x contribuyen poco al objetivo de reducir el sesgo, ii) una inspección puede revelar algunos pesos grandes o pequeñas en exceso. (x ) para un vector completo y a Por lo tanto en primer lugar calculamos Q k continuación los Q (x ) para cada J-1 diferentes vectores con la variable x eliminada. k 7. Un ejemplo de aplicación A continuación exponemos un ejemplo de aplicación desarrollado en la Agencia de Estadística de Suecia. En el año 2006, el Consejo Nacional Sueco realizó un estudio para la prevención del delito, el cual fue llevado a cabo por el Instituto Nacional de Victimas del Crimen. Para este estudio se tomó una muestra de 10.000 personas que fueron tomadas a partir de un registro de la población total sueca (RTP). El objetivo de la encuesta era medir como iban evolucionando los tipos de delitos, sobre todo los delitos contra las personas, conocer el nivel de inseguridad y ver como éstos variaban en la sociedad Sueca. Este estudio lo llevaron acabo a través de un muestreo estratificado aleatorio simple, con una muestra s de 10.000 personas que se tomaron de RTP. Los estratos los tomaron con clasificación cruzada de la zona de residencia y por grupos de edad. Las regiones fueron las 21 de Suecia del área administrativa que se conoce como “LAN”. Los grupos de edad fueron clasificados en tres: 16-29, 30-74 y de 75-79. Este diseño cumple con un objetivo de obtener resultados más precisos en cada uno de los 21 LAN, y en cada grupo de edad. La proporción de la muestra en los estratos será más o menos proporcional al tamaño de la población en el estrato, con las menos posibles modificaciones para así poder conseguir el objetivo de obtener una suficiente precisión para los dominios de interés en LAN y en los grupos de edad. La tasa de respuesta conseguida fue del 77,8%. La falta de respuesta es pronunciada en los distintos dominios de interés. El número de posibles variables auxiliares se formó de RTP y por un subconjunto de una base de datos de una Estadística de Suecia, conocidas como LISA. Las variables auxiliares utilizadas son categóricas. Las variables que se obtuvieron de LISA fueron transcritas sólo a la base de datos de la muestra, por lo que son del tipo de x 0k , las cuales ya hemos visto anteriormente. Utilizaremos Q̂ para poder seleccionar las variables por grupos. En cada paso el vector auxiliar x k se amplia agregando una variable categórica, que lo que hace es que produzca un mayor incremento en Q . Esta nueva variable se suma al resto de variables formando ya el vector. En la tabla que tenemos después podemos ver qué variable xk entra en la primera selección en diez pasos hacia delante. El país de nacimiento entró en el primer paso, es una variable dicotómica la cual nos indica si ha - 67 - nacido en Escandinavia o no. En tercer y cuarto lugar entrarían las variables de ajuste grupo de edad y sexo. En la tabla podemos ver el número de grupos de cada variable categórica y los valores . Como podemos observar los valores de Q no aumentan tanto sucesivos 1000 × Q después de algunos pasos. En este caso las estimaciones fueron producidas para el estudio de totales o proporciones de muchas variables categóricas. Aquí el total de la población objetivo Y es un recuento de la población, el número de personas con una propiedad específica como sería en este caso la inseguridad o el miedo a ser víctima de la delincuencia en algún momento. Por lo tanto tenemos Y = ∑U yk donde yk = 1 si la persona k tiene esta propiedad o yk = 0 en caso contrario. El sesgo producido en las estimaciones sigue siendo desconocido. Si seleccionamos un conjunto de variables del estudio podemos calcular el número estimado en cada paso, es decir, Y W = ∑ r wk yk con peso wk basado en x k vectores de las variables seleccionadas incluidas en el paso. La estimación en el paso cero se calcula sin ningún tipo de vector x k dentro del estrato H Y = ∑ N h y rh donde y rh es la respuesta media del estrato h. h =1 Algunos estimaciones de los recuentos cambiaban en dos o más puntos, en los pasos del 0 al 6. Para esta encuesta esto es un gran cambio, puesto que la falta de respuesta es un fuerte impacto. Nosotros no podemos decir que la estimación del paso 6 es mas exacta (menos sesgo) que la del paso 0. Una característica principal es que el mayor cambio en la estimación se produce al pasar del paso 0 al paso 1, que el cambio fue también notable en los pasos 2, 3, y 4 y después del cambio es muy poco acentuado. Este patrón coincide con el que desarrolla las etapas del valor Q . Además, en las variables que no se ven afectada tanto por la falta de respuesta los cambios fueron pequeños. Tabla: Selección paso a paso hacia delante de variables en el vector auxiliar en una encuesta del Instituto Nacional de Víctimas del Crimen en Suecia. Pasos 1 2 3 4 5 6 7 8 9 10 Variable de entrada auxiliar País de nacimiento Los ingresos del grupo Grupo de edad Género Estado civil Región Grupo familiar de tamaño Días desempleados Centro urbano habitante Ocupación Número de grupos 2 3 6 2 2 21 5 6 2 10 - 68 - Valor de 1000 × Q 20,0 27,6 31,3 35,1 38,6 40,7 41,4 41,9 42,3 42,7 Bibliografía Andersson, C. and Nordberg, L. (1998). CLAN97 a SAS-program for computation of point- and standard error estimates in sample surveys. Statistics Sweden. Bankier, M.D., Rathwell, S. and Majkowski, M. (1992). Two step generalized least squares estimation in the 1991 Canadian Census. Proceedings of the Section on Survey Research Methods, American Statistical Association,, 764-769. Bethlehem, J.G. and Kersten, H.M.P. (1985). On the treatment nonresponse in sample surveys. Journal of Official Statistics 1, 287-300. of Bethlehem, J.G. (1988). Reduction of nonresponse bias through regression estimation. Journal of Official Statistics 4, 251-260. Bethlehem, J.G. and Schouten, B. (2004). Nonresponse adjustment in household surveys. Discussion paper 04007. Voorburg: Statistics Netherlands. Deville, J.C. and Särndal, C.E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 376-382. Deville, J.C., Särndal, C.E. and Sautory, O. (1993). Generalized raking procedures in survey sampling. Journal of the American Statistical Association 88, 10131020. Deville, J.C. (2002). La correction de la non-réponse par calage généralisé. Actes des Journeés de Méthodologie, I.N.S.E.E., Paris. Ekholm, A. and Laaksonen, S. (1991). Weighting via response modeling in the Finnish Household Budget Survey. Journal of Official Statistics 3, 325337. Estevao, V.M., Hidiroglou, M.A. and Särndal, C.E. (1995). Methodological principles for a generalized estimation system at Statistics Canada. Journal of Official Statistics, 11, 181-204. Folsom, R.E. and Singh, A.C. (2000). The generalized exponential model for sampling weight calibration for extreme values, nonresponse and poststratification. American Statistical Association, Proceedings Survey Research Methods Section, 598-603. Fuller, W.A. (2002). Regression estimation for survey samples. Survey Methodology, 28, 5-23. Fuller, W.A., Loughin, M.M. and Baker, H.D. (1994). Regression weighting in the presence of nonresponse with application to the 1987-1988 nationwide Food Consumption Survey. Survey Methodology 20, 75-85. - 69 - Gabler, S. and Häder, S. (1999). Representive Weights and Imputation for the 1997 German ISSP: An Application of the Conditional Minimax Principle. Paper presented at the International Conference on Survey Nonresponse in Portland, Oregon, U.S.A. Groves, R.M. and Couper, M.P. (1993). Unit nonresponse in demographic surveys. Proceedings of the Bureau of the Census Annual Research Conference, 593619. Gutiérrez Rojas, H. A. (2009) Comunicaciones en Estadística. Bogotá Harms, T. (2003). Calibration estimators for prediction of dynamics in panels. Using longitudinal patterns to improve calibration estimates about developments in panels. Chintex working paper no. 14, Federal Statistical Office, Germany. Holt, D. and Elliot, D. (1991). Methods of weighting for unit non-response. The Statistician 40, 333-342. Hörngren, J. (1992). The use of registers as auxiliary information in the Swedish Labour Force Survey. Statistics Sweden, R&D Report no. 1992:13. INE (1997) Encuesta Continua de Presupuestos Familiares. INE 5 28-30 INE (2003) Encuesta Nacional de Salud. INE 6 1-9 Jagers, P. (1986). Post-stratification against bias in sampling. International Statistical Review 54, 159-167. Kalton, G. and Kasprzyk, D. (1986). The treatment of missing data. Survey Methodology 12, 1-16. Kalton, G. and Maligalig, D.S. (1991). A comparison of weighting adjustment for nonresponse. Proceedings of the Bureau of the Census Annual Research Conference, 409-428. Kersten, H.M.P. and Bethlehem, J.G. (1984). Exploring and reducing the noresponse bias by asking the basic question. Statistical Journal of the United Nations, ECE 2, 369-380. Kish, L. and Anderson, D.W. (1978). Multivariate and stratification. Journal of the American Statistical Association 73, 24-34. multipurpose Kish, L. (1979). Samples and censuses. International Statistical Review 47, 99-110. Lindström, H. (1983). Nonresponse errors in sample surveys. Urval 16, Statistics Sweden. - 70 - Little, R.J.A. (1986). Survey nonresponse adjustments for estimates of means. International Statistical Review 54, 139-157. Lundström, S. and Särndal, C.E. (1999). Calibration as a standard method for treatment of nonresponse. Journal of Official Statistics 15, 305-327. Nascimento Silva, P.L.D. and Skinner, C.J. (1997). Variable selection for regression estimation in finite populations. Survey Methodology 23, 23-32. Oh, H.L. and Scheuren, F.J. (1983). Weighting adjustment for unit nonresponse. In: W.G. Madow, I. Olkin and D.B. Rubin (eds.), Incomplete Data in Sample Surveys, Vol. 2. New York: Academic Press, 143-184. Ospina Botero D. (2001) Introducción al muestreo. Colombia. Bogotá Rizzo, L., Kalton, G., and Brick, J.M. (1996). A comparison of some weighting adjustment methods for panel nonresponse. Survey Methodology Journal, 22, 43-53. Särndal, C.E. and Lundström, S. (2005). Estimation in Surveys with Nonresponse. New York: Wiley. Särndal, C.E. and Swensson, B. (1987). A general view of estimation for two phases of selection with applications to two-phase sampling and nonresponse. International Statistical Review 55, 279-294. Särndal, C.E., Swensson, B. and Wretman, J.H. (1992). Model Asssisted Survey Sampling. New York: Springer-Verlag. - 71 -

Un indicador del sesgo de no respuesta

Documentos relacionados

Productos

Apoyo

Un indicador del sesgo de no respuesta

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib