Simulación de Monte Carlo para comparar estimadores de regresión en la estimación de totales y razones* JAIRO A. FÚQUENE P. ** Resumen. Se presenta el concepto de estimador de regresión para la estimación de un total poblacional bajo el diseño M.A.S. y los modelos heterocedástico sin intercepto y homocedástico con intercepto dados por Särndal, Swensson & Wretman (1992). Además, se muestra un estimador de razón construido en este trabajo con dos estimadores de regresión por medio del método de linealización de Taylor. Finalmente, mediante simulación de Monte Carlo, se comparan las propiedades del estimador propuesto por Horvitz-Thompson, cinco estimadores de regresión para la estimación de un total y el estimador de razón. Palabras clave: estimadores de regresión, simulación de Monte Carlo, diseño M.A.S, método de linealización de Taylor. 1. Introducción En la actualidad en la teorı́a de muestreo, los estudios se centran en la idea de utilizar información auxiliar conocida a nivel poblacional para disminuir la varianza de las estimaciones obtenidas a partir de muestras probabilı́sticas. Esta información puede ser aprovechada tanto en la fase de diseño, en la asignación de las probabilidades de inclusión y/o selección de los elementos de la población; como en la fase de la estimación, en la construcción de estimadores. En cualquier caso el objetivo es minimizar el error de la estimación del parámetro en estudio, utilizando la información que en lo posible debe estar altamente correlacionada con la variable en estudio. * Trabajo presentado en el área de Estadı́stica. Estudiante de la maestrı́a en Matemáticas. Departamento de Matemáticas. Recinto de Rı́o Piedras. Universidad de Puerto Rico. E-mail: [email protected] ** 1 2 JAIRO A. FÚQUENE P. Por otra parte, existen diseños muestrales con y sin reemplazamiento como el diseño con probabilidad de selección proporcional al tamaño (P.P.T) y el diseño con probabilidad de inclusión proporcional al tamaño (π-P.T), que representan alternativas de uso de la información auxiliar en la fase del diseño. De otro lado los estimadores de regresión mostrados en Särndal et al. (1992) ofrecen como posibilidad utilizar dicha información auxiliar en la fase de estimación. Por lo anterior es de interés estudiar las propiedades de los estimadores de regresión, de manera teórica y mediante simulación, para la estimación de totales y razones bajo el diseño de muestreo aleatorio simple (M.A.S)1 . En la segunda sección se muestran los estimadores de regresión para la estimación de un total bajo dos diferentes modelos. En la sección tres se encuentra el estimador de una razón construido por medio de dos estimadores de regresión mediante linealización de Taylor. En la sección cuatro, se muestra el procedimiento de una simulación de Monte Carlo para comparar las propiedades de los estimadores estudiados. En la quinta sección se muestran los resultados de la simulación mencionada y en la sexta y última sección se dan las conclusiones de este trabajo. 2. Estimador de regresión para la estimación de un total Para un universo conocido de antemano y conformado por N elementos, notado por U = {1, 2, ..., N }, sea y la caracterı́stica en estudio y por ende yk su valor en el k-ésimo elemento. El objetivo muestral es estimar mediante una muestra de tamaño m el total desconocido: X ty = yk (2.1) U Cuando se observa la variable de interés y para la muestra y un vector de J-variables auxiliares para la población de estudio que para el k-ésimo 1 La principal razón de hacer un diseño M.A.S. se debe a que es un diseño sencillo que no utiliza información auxiliar. 3 ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES elemento se denota por: 0 xk = (x1k , ..., xJk ) (2.2) En el análisis de regresión es natural utilizar estimadores para los coeficientes de regresión denotados como B̂1 , B̂2 , ..., B̂J . En general el estimador de regresión para la estimación de un total, t̂yr , es formalmete definido: t̂yr = t̂yπ + J X B̂j (txj − t̂xjπ ) (2.3) j=1 donde t̂yπ = X yk πk m (2.4) en donde πk es la probabilidad de inclusión de primer orden del elemento k en la muestra, t̂yπ es el estimador de Horvitz-Thompson para (2.1) y X xjπ t̂xjπ = (2.5) πk m es el π-estimador del total desconocido para la variable xj : X txj = xj (2.6) U y B̂1 , B̂2 , ..., B̂J son componentes del J - vector X xk x0 X xk yk k −1 ) B̂ = (B̂1 , B̂2 , ..., B̂J ) = ( σk2 πk σk2 πk m m 0 (2.7) la estimación en (2.7) es motivada por un modelo ξ que considera una completa enumeración de la población (censo) donde se observa yk y xk para todo k U . En este caso el estimador de mı́nimos cuadrados de: 0 β = (β1 , ..., βJ ) (2.8) sobre el modelo ξ puede darse por: X xk x0 X xk y 0 0 k −1 k −1 B = (B1 , B2 , ..., BJ ) = ( ) ( ) σk2 σk2 U U (2.9) 4 JAIRO A. FÚQUENE P. En notación más familiar frente al análisis de regresión: 0 B = (XΣ−1 X )−1 XΣ−1 Y (2.10) Se tienen los siguientes comentarios del papel del modelo ξ en un estimador de regresión para la estimación de un total: 1. No se requiere que el modelo ξ sea cierto en el sentido de que describa de manera correcta algún proceso real. 2. Las conclusiones sobre los parámetros de la población de estudio son independientes de los supuestos del modelo. 3. Sı́ los datos poblacionales pueden ser descritos por el modelo ξ, el estimador de regresión tiene por lo general una menor varianza en comparación al π - estimador. Es decir, la eficiencia del estimador de regresión en comparación con el π - estimador depende de la calidad del ajuste. 4. Por las razones anteriores se dice que el estimador de regresión es asistido por el modelo ξ pero no depende del modelo ξ. Para comparar los estimadores estudiados se sigue el trabajo realizado en Särndal et al. (1992) y Fúquene (2003) y por tanto se consideran los modelos: 1. Heterocedástico sin intercepto (J = 1) ( Eξ1 (yk ) = β1 xk ξ1 = Vξ1 (yk ) = σ 2 xk (2.11) En este caso se asumen (x1 , ..., xN > 0) 2. Homocedástico con intercepto (J = 2) ( Eξ2 (yk ) = β1 + β2 xk ξ2 = Vξ2 (yk ) = σ 2 (2.12) 5 ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES Para el modelo ξ1 se tiene que el estimador del total es: t̂yrc = X U P yk S π xk P xkk S πk (2.13) Para el modelo ξ2 se tiene que el estimador del total es: t̂yr = N [ỹs + B̂2 (x̄U − x̃s )] (2.14) P Donde N es el total poblacional y N x̄U = U xk el total de las dos variables x (La primera variable x es constante e igual a la unidad). donde P m x̃m = 3. N̂ xk πk P m ; ỹm = N̂ yk πk ; N̂ = X 1 πk m (2.15) Estimación de una razón de totales En muchos estudios de tipo muestral el interés se centra en la estimación de la razón de totales, ejemplo tı́pico es la cifra de Desempleo; que se obtiene como el cociente de los que “buscan”empleo sobre el tamaño de la población económicamente activa en la región. También es el caso de los resultados arrojados por las encuestas electorales, pues se trata de la razón entre quienes apoyan a un determinado candidato sobre la cantidad de quienes votarán en el comicio electoral. Estudios sobre la estimación de razones con variables categóricas se muestran en Fúquene (2005a), Fúquene (2005b) y Fúquene (2005). Por otra parte, la estimación de cuantiles mediante estimadores de regresión se da en Rao, Kovar & Mantel. (1990) y los resultados teóricos a nivel general de estimadores de regresión en la estimación de razones se encuentran en Fúquene (2003). El objetivo de este trabajo es mostrar un estudio teórico y de simulación para los estimadores de regresión en el caso particular de un diseño M.A.S y, además, la aplicabilidad del estimador de razón en la estimación de la tasa de favoritismo por un candidato en la elección presidencial en Colombia en el 2002. 6 JAIRO A. FÚQUENE P. En esta sección se muestra la aplicabilidad de dos estimadores de regresión bajo el modelo (2.11) en la estimación de una razón. Sean y y z las variables de interés que definen el parámetro: R= ty tz (3.1) y dos variables auxiliares x y w para y y z respectivamente. La estimación de la razón mediante dos estimadores Horvitz-Thompson se puede realizar, ası́: t̂yπ R̂ = (3.2) t̂zπ La aproximación de la varianza de (3.2) se hace mediante linealización de Taylor y la variable ûk conocida para la muestra es útil en la estimación de la varianza y se obtiene mediante: ûk = 1 t̂zπ (yk − R̂zk ) (3.3) que para el caso particular de un diseño M.A.S. dicha estimación de varianza tiene la siguiente expresión: V̂M AS (R̂) = N2 m 2 1− Sum m N (3.4) donde 2 Sum = 3.1. 1 X ¯k ) (ûk − û m−1 m (3.5) Estimador de una razón cuando se utilizan estimadores de regresión Los estimadores propuestos para estimar la razón para el denominador y el numerador son respectivamente: t̂yrc = tx t̂yπ t̂xπ ; t̂zrc = tw t̂zπ t̂wπ (3.6) 7 ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES El estimador R̂ es una función no lineal de π-estimadores t̂yπ , t̂wπ , t̂zπ y t̂xπ . R̂ = tx t̂yπ t̂wπ t̂yrc = = f (t̂yπ , t̂wπ , t̂zπ , t̂xπ ) t̂zrc tw t̂zπ t̂xπ (3.7) Para AV (R̂) se utiliza la aproximación lineal de Taylor, para aproximar la varianza se establecen las derivadas y se evaluan en t̂yπ = ty t̂wπ = tw , t̂zπ = tz y t̂xπ = tx , de la siguiente manera: a1 = ∂ R̂ 1 = ; tz ∂ t̂yπ a4 = ty ∂ R̂ = tw tz ∂ t̂wπ a2 = ty ∂ R̂ = − 2; tz ∂ t̂zπ a3 = ty ∂ R̂ =− ; t z tx ∂ t̂xπ En este caso se tiene que: uk = 4 X aj yjk = a1 yk + a2 zk + a3 xk + a4 wk (3.8) j=1 De esta manera la variable (3.8) queda definida como: ty 1 tz uk = yk − xk − R zk − wk tz tx tw (3.9) En particular para el diseño M.A.S. la aproximación de la varianza es: AVM AS (R̂) = donde 2 SuU = N2 m 2 1− SuU m N 1 X ¯k ) (ûk − û m−1 (3.10) (3.11) U 4. Estudio de simulación Para obtener la distribución exacta de un estimador dado se deben considerar todas las muestras S posibles de un diseño muestral fijo. Sin embargo 8 JAIRO A. FÚQUENE P. en la práctica el número total de posibles muestras puede ser muy grande; por esta razón se realiza una simulación de Monte Carlo expuesta en Martı́n, Rı́os. & Rı́os. (2000) que se usa frecuentemente cuando es difı́cil de obtener la distribución muestral de un estimador dado. Por tanto se toman 5000 muestras de diferente tamaño de una población y se calcula lo siguiente: 1. t̂ = 5000 1 X t̂j 5000 (4.1) j=1 con t̂j la estimación del total para la j-ésima muestra. Que es una estimación de E[t̂]. 2. P5000 St̂2 j=1 = ¯2 (t̂j − t̂) 5000 − 1 (4.2) que es una estimación de la varianza V (t̂) 3. V̂ = 5000 1 X V̂ (t̂)J 5000 (4.3) j=1 que es una estimación del valor esperado de la varianza del estimador E[V̂ (t̂)]. 4. Para cada muestra se calcula el intervalo de confianza de aproximadamente el 95 % 1 t̂ ± 1,96[V̂ (t̂)] 2 (4.4) y se cuenta el número de intervalos M que contienen al verdadero valor del total t, es decir, M/5000 es una estimación del nivel de confianza. Para el caso de la estimación de la razón se calculan: 1. ˆ R̄ M AS = 5000 1 X R̂j 5000 j=1 (4.5) 9 ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES con R̂j la estimación de la razón para la j-ésima muestra de tamaño ˆ es una estimación de E[R̂]. m y R̄ 2. P5000 2 SR̂ M AS = j=1 ¯ (R̂j − R̂P P T )2 5000 − 1 (4.6) que es una estimación de la aproximación de la varianza de la razón, AVM AS (R̂). Para comparar los estimadores estudiados para la estimación de un total se pretende estimar el total de ingresos tributarios en Suecia2 en el año 1985 con un diseño M.A.S. y se proponen los siguientes estimadores: 1. El π-estimador t̂yπ . 2. El estimador de regresión t̂yrc basado en un modelo univariado, heterocedástico sin intercepto con variable auxiliar x1 la cantidad de concejales conservadores en el municipio. 3. El estimador de regresión t̂yrc igual al anterior pero con variable x2 la cantidad de concejales socialistas en el municipio. 4. El estimador de regresión t̂yr basado en un modelo homocedástico con intercepto y variable auxiliar x1 . 5. El estimador de regresión t̂yr igual al anterior pero con variable x2 . 2 Los datos son tomados de Särndal et al. (1992). Por razones administrativas Suecia en 1985 se encontraba dividida en 284 municipios. Los municipios variaban considerablemente en tamaño y otras caracterı́sticas. Sin embargo, la variable de estudio (ingresos tributarios por municipio) tan sólo tiene cinco datos extremos y por tanto la población de estudio resulta ser homogénea y adecuada para utilizar un diseño M.A.S. 10 JAIRO A. FÚQUENE P. 6. El estimador de regresión t̂yreg basado en un modelo con dos regresores (x1 , x2 ) homocedástico con intercepto: ( Eξ3 (yk ) = β1 + β2 x1k + β3 x2k ξ3 = Vξ3 (yk ) = σ 2 (4.7) Para comparar los estimadores para la estimación de una razón la solución práctica, aplicada en general y en particular en este trabajo es utilizar datos completos de perı́odos anteriores, como si ellos constituyeran los datos desconocidos del dı́a de hoy. Para realizar estimaciones referentes al 2002 en Colombia se toman los datos de la elección presidencial de 1998. Se estima mediante dicha información la razón de personas que apoyaron al candidato Serpa3 en el 2002 con los siguientes estimadores: 1. El estimador de razón R̂ con un π-estimador t̂yπ en el numerador para la variable y (personas que apoyaron al candidato serpa por municipio en el 2002) y como denominador un π-estimador t̂zπ para la variable z (personas que participaron en la votación por municipio en el 2002). 2. Un estimador de razón con un estimador de regresión en el numerador y denominador respectivamente bajo el modelo heterocedástico sin intercepto. La variable de interés para el numerador es y y la variable auxiliar es x1 (personas que apoyaron al candidato serpa por municipio en 1998) y, para el denominador se tiene como variable de interés a z y como auxiliar a x2 (personas que participaron por municipio en la votación en 1998). 3 Debido a que la información censal de Colombia contiene datos por sector, sección y manzana se deben realizar ajustes en RNEC (1998) y RNEC (2002) para llevar la información a nivel municipal. La base final de datos contiene información de 1081 municipios. Un dato importante que sugiere un patron de comportamiento electoral, es que el 78.6 % de los municipios en los que Serpa perdió en 1998 fue también perdedor de forma contundente en el 2002, es decir que existe una alta relación entre los datos 1998 y 2002 lo que indica que la información auxiliar es útil. ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES 4.1. 11 Estimadores mı́nimo cuadraticos poblacionales. Como se dispone de todos los valores para las variables x1 , x2 , y y z se puede entonces establecer los estimadores mı́nimo cuadráticos poblacionales de los modelos de regresión. Para los casos dos y tres (recordando que el diseño muestral es M.A.S.) se tiene que: P yk B1 = P U (4.8) x U k Para los casos cuatro y cinco: P B1 = ȳU − B1 x̄U ; B2 = − x̄U )(yk − ȳU ) 2 U (xk − x̄U ) U (x Pk Para el caso seis se debe trabajar con matrices: " #−1 " # B1 X X 0 xk xk xk yk B = B2 = U U B3 (4.9) (4.10) donde: " # X U 4.2. 0 xk xk P P U x2k PU x1k P PN = PU x1k P U x21k U x1k x2k P 2 U x2k U x1k x2k U x2k " # P y X P U k xk yk = PU yk x1k U U yk x2k (4.11) (4.12) Residuales poblacionales Los residuales correspondientes para los casos dos y tres son: Ek = yk − ŷk = yk − B1 xk (4.13) para los casos cuatro y cinco se tiene: Ek = yk − ŷk = yk − (ȳU − B2 x̄U ) − B2 xk (4.14) 12 JAIRO A. FÚQUENE P. Para el caso seis se calculan los residuales poblacionales mediante: Ek = yk − ŷk = yk − B1 − B2 x1k − B3 x2k (4.15) Para el caso siete (la estimación de razón) la variable uk de la aproximación de la varianza se puede definir como: uk = 1 [Eyk − REzk ] tz (4.16) en donde los residuales Eyk y Ezk están dados por: Eyk = yk − By1 x1k ; Ezk = zk − Bz1 x2k (4.17) Para determinar la calidad del ajuste de regresión se utilizan los residuales poblacionales Ek , mediante la siguiente expresión: 2 R =1− 2 Ek2 SEU = 1 − 2 2 (N − 1)SyU SyU P U (4.18) Finalmente y para cada caso se puede establecer la aproximación de la varianza mediante la formula: AVM AS = N2 n 2 1− SEU n N (4.19) 2 para el caso de la razón SEU es la varianza de la variable uk . En la siguiente tabla se muestran los resultados poblacionales: La tabla 1. muestra los resultados del análisis de regresión basado sobre todos los 281 datos. En dicha tabla se puede observar que, excepto para el caso 3 en el que el porcentaje es del 30 %, cada variable x1 y x2 explican aproximadamente el 40 % de la variación de la variable y. De otro lado, ambas variables explican un 74.7 % de la variación en y. Resulta natural suponer que puede resultar más eficiente el estimador que usa como información auxiliar las dos variables en comparación del que únicamente tiene en cuenta una variable auxiliar. ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES 13 Tabla 1: Estimadores mı́nimo cuadraticos, calidad del ajuste y varianza aproximada de los casos estudiados en la estimación de un total. Valores de B1 , B2 y B3 multiplicados por mil. Cálculo de AV para m=100. Caso Estimador B1 B2 B3 R2 AV 1 t̂yπ . . . . 0,204 2 t̂yrc (x1 ) . 2,12 . 3 t̂yrc (x2 ) . . 4 t̂yr (x1 ) -6,44 2,84 5 t̂yr (x2 ) -21,30 . 6 4.3. 40.4 0,121 0,86 30,5 0,142 . 43,2 0,116 1,82 42,3 0,117 t̂yreg (x1 , x2 ) -38,32 2,48 1,59 74,7 0,052 Estimaciones muestrales A continuación se muestran las estimaciones muestrales del total, la razón y la varianza para cada uno de los casos estudiados. Para el primer caso el estimador para el total es el siguiente: NX yk n m t̂yπ = (4.20) Y la estimación de la varianza de (4.20) está definida por: V̂M AS (t̂yπ ) = N2 n 2 1− Sym n N (4.21) Para los casos dos y tres el estimador del total bajo el diseno M.A.S está dado por: X P yk t̂yrc = xk P m (4.22) m xk U 14 JAIRO A. FÚQUENE P. En donde la estimación de la varianza de (4.22) es: n 2 N2 1− Sem n N (4.23) P yk P = yk − B̂1 xk ; B̂1 = m x m k (4.24) V̂M AS (t̂yrc ) = Donde ekm Para los casos cuatro y cinco el estimador de regresión para el total es: t̂yr = N [ỹm + B̂2 (x̄U − x̃m )] (4.25) La varianza estimada de (4.25) se calcula como: V̂M AS (t̂yr ) = n 2 N2 1− Sem n N (4.26) Donde P ekm = yk − ŷm − B̂2 (xk − x̄m ); B̂2 = − x̄m )(yk − ȳm ) 2 m (xk − x̄m ) m (x Pk (4.27) Para el caso seis es necesario trabajar con matrices y se obtiene que el estimador de regresión para el total es el siguiente: t̂yreg = N [ȳm + B̂2 (x̄1U − x̄1m ) + B̂3 (x̄2U − x̄2m )] (4.28) La estimación de la varianza para (4.28) se obtiene mediante: V̂M AS (t̂reg ) = N2 n 2 1− Sem n N (4.29) Donde ekm B̂0 = yk − (1, x1k , x2k ) B̂1 B̂2 (4.30) Y −1 P P P B̂O m x2k m yk Pn Pm x1k P P 2 B̂1 = m x1k x2k Pm x1k P m x1k P Pm yk x1k 2 B̂2 m x2k m x1k x2k m x2k m yk x2k 15 ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES El caso siete, el estimador de una razón con π-estimadores, se mostró en la sección anterior. Para el caso ocho, la estimación de una razón con estimadores de regresión, se tiene que el estimador bajo el diseno M.A.S. es: P P tx ( m yk )( s wk ) t̂yr P P R̂ = = (4.31) tw ( m xk )( s zk ) t̂zr y la estimación de la varianza de (4.31) se calcula como: V̂M AS (R̂) = Donde 1 [eyk − R̂ezk ] t̂zπ y ezk están dados por: ûk = en donde los residuales eyk N2 n 2 1− Sum n N eyk = yk − B̂y1 x1k ; ezk = zk − B̂z1 x2k (4.32) (4.33) (4.34) y B̂y = 5. t̂yπ ; t̂xπ B̂y = t̂zπ t̂wπ (4.35) Resultados Para la tabla 2 se tienen los siguientes comentarios: 1. Los seis estimadores tienen un sesgo relativo siempre menor a 0.1, aún para un tamaño de muestra de m = 36. 2. La varianza del estimador t̂yreg con dos regresores es casi la cuarta parte de la varianza del π - estimador, con cualquier tamaño de muestra. 3. La varianza del estimador t̂yreg con dos regresores es la mitad de la varianza del estimador que considera sólo una variable auxiliar. 16 4. JAIRO A. FÚQUENE P. El quinto estimador es un 15 % más eficiente que el tercero al considerar un modelo con intercepto. 5. S 2 (t̂y ) y V̂M AS son aproximadamente iguales. Es importante mencionar que S 2 (t̂y ) estima la verdadera varianza con un grado de precisión de 5000 repeticiones y, por ende, la aproximación de la varianza AVM AS subestimó la varianza en un 15 % con m = 36, en un 4 % cuando m = 100 y se acerco bastante con m = 140. 6. La subestimación que hace el c.v.e. del verdadero C.V. es muy baja, aún para tamaños modestos de muestra (m = 36). 7. La tasa empirica de cobertura, T C, es cercana a la tasa nominal del 95 %, esta cercanı́a aumenta con el tamaño de muestra. 8. No hay diferencia de resultados si se realizan cinco mil o diez mil iteraciones. 9. Los resultados son estables a la realización de varias aplicaciones, cada una con 5000 replicas. De la tabla 3 se puede observar: 1. Cada una de las dos estimaciones es muy cercana al verdadero valor de la razón poblacional que es 0.365. En los dos casos se tiene un sesgo del estimador que se puede considerar despreciable. 2. S 2 y AVM AS son cercanas ésto indica que AVM AS representa con precisión para un tamaño de muestra pequeño la verdadera varianza. 3. La varianza del estimador que considera un modelo heterocedástico sin intercepto es la mitad de la varianza de la estimación de la razón con π estimadores. Es decir, al considerar dos estimadores de regresión para la razón se obtiene una eficiencia relativa del 50 %. 17 ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES Tabla 2: Resultados de una simulación de 5000 muestras M.A.S. de m = 36, m = 100 y m = 140, el total poblacional es ty = 5,315. m Caso Estimador t̂y S 2 (t̂y ) ¯ V̂ 36 1 t̂yπ 5,30 0,784 0,759 0,766 16,4 16,7 90,4 36 2 t̂yrc (x1 ) 5,30 0,462 0,441 0,456 12,5 12,8 90,3 36 3 t̂yrc (x2 ) 5,28 0,539 0,519 0,533 13,6 13,9 90,4 36 4 t̂yr (x1 ) 5,28 0,463 0,404 0,435 12,0 12,9 89,0 36 5 t̂yr (x2 ) 5,24 0,473 0,415 0,442 12,3 13,1 89,3 36 6 t̂yreg (x1 , x2 ) 5,28 0,228 0,173 0,194 7,9 9,0 87,3 100 1 t̂yπ 5,31 0,205 0,203 0,204 8,5 8,5 93,4 100 2 t̂yrc (x1 ) 5,31 0,122 0,120 0,121 6,5 6,6 93,1 100 3 t̂yrc (x2 ) 5,31 0,141 0,141 0,142 7,1 7,1 93,7 100 4 t̂yr (x1 ) 5,31 0,119 0,113 0,116 6,3 6,5 93,0 100 5 t̂yr (x2 ) 5,30 0,121 0,116 0,117 6,4 6,6 93,2 100 6 t̂yreg (x1 , x2 ) 5,30 0,054 0,050 0,052 4,2 4,4 92,1 140 1 t̂yπ 5,33 0,117 0,114 0,113 6,3 6,4 93,9 140 2 t̂yrc (x1 ) 5,32 0,069 0,068 0,067 4,9 4,9 94,2 140 3 t̂yrc (x2 ) 5,32 0,081 0,079 0,079 5,3 5,4 93,9 140 4 t̂yr (x1 ) 5,32 0,067 0,064 0,064 4,8 4,9 93,6 140 5 t̂yr (x2 ) 5,31 0,068 0,065 0,065 4,8 4,9 93,6 140 6 t̂yreg (x1 , x2 ) 5,32 0,030 0,029 0,029 3,2 3,3 93,2 AVM AS ( %)cves ( %)CV Tabla 3: Resultados de una simulación de 5000 muestras M.A.S. de m = 100 y la razón poblacional es R = 0, 365 Estimador Estimación S2 AVM AS R̂π 0,36 0,047 0,046 R̂regξ1 0,37 0,024 0,025 TC 18 6. JAIRO A. FÚQUENE P. Conclusiones Como producto de los ejercicios desarrollados en este trabajo para la estimación de un total y una razón mediante estimadores de regresión se puede concluir: 1. El estimador de regresión para la estimación de un total tiene un sesgo relativo menor a 0.1, su eficiencia aumenta con la calidad del ajuste. 2. La aproximación de la varianza que se obtiene mediante linealización de Taylor para la estimación del total o de la razón es aproximadamente igual al verdadero valor de la varianza. 3. El uso de los estimadores de regresión es recomendable sólo en los casos en los que el sesgo relativo es inferior a 0.1, pues son estimadores aproximadamente insesgados de los parámetros poblacionales. Bibliografı́a Fúquene, J. (2003), La varianza del estimador de una razón cuando en el numerador y en el denominador se utilizan r-estimadores, in ‘Simposio Nacional de Estadı́stica’, Universidad Nacional de Colombia. Fúquene, J. (2005a), Información auxiliar categórica en diseños muestrales de elementos para la estimación de una razón de totales de variables dicotomicas., in ‘II Congreso Binacional de Estadı́stica’, Universidad de los Andes, Mérida (Venezuela). Fúquene, J. (2005b), ‘Metodologı́a para la estimación de dico-razones con el uso de información auxiliar en tablas de contingencia 3x3’, Revista Colombiana de Estadı́stica 28, 141–154. Fúquene, J. (2005), Estratificación sesgo y eficiencia en la estimación de una proporción aplicando un diseño estratificado de muestreo, in ‘Tercer Coloquio Regional de Estadı́stica’, Universidad Nacional de Colombia, Medellı́n. ESTIMADORES DE REGRESIÓN DE RAZONES Y TOTALES 19 Martı́n, J., Rı́os., D. & Rı́os., S. (2000), Simulación, Métodos y Aplicaciones, Ra-Ma, Madrid. Rao, J. N. K., Kovar, J. G. & Mantel., H. J. (1990), ‘On estimating distribution functions and quantiles from survey data using auxiliary information’, Biometrika 77. RNEC (1998), Elecciones presidenciales de 1998 en Colombia, Registradurı́a Nacional del Estado Civil, Bogotá. RNEC (2002), Elecciones presidenciales de 2002 en Colombia, Registradurı́a Nacional del Estado Civil, Bogotá. Särndal, C.-E., Swensson, B. & Wretman, J. (1992), Model Assisted Survey Sampling, Springer Verlag, New York.