Tema: Métodos Indirectos de Estimación. 1.- Introducción: X i , Y i representa un vector aleatorio correspondiente a dos medidas tomadas en el individuo i-ésimo. X variable auxiliar, Y variable de interés. Cuestión fundamental, ¿Cuando realmente interesa utilizar una (o más de una) variable auxiliar en un método indirecto?. Las técnicas de regresión resuelven la cuestión. Estas mismas técnicas permitirían generalizar el procedimiento de estimación si tenemos dos o más variables auxiliares que podría ser el caso. Expresión general de estimadores indirectos: YR Y b 0 X − X donde b 0 puede considerarse un coeficiente de correción para mejorar Y . Posibles valores para b 0 : i) Estimador Directo b 0 0 YR Y ii) Estimador de Razón b 0 Y X YR Y X X iii) Estimador por Diferencia b 0 1 YR Y X − X iv) Estimador de Regresión b 0 Coef. de regresión de Y sobre X. Características de los métodos indirectos: i) La información auxiliar X se conoce en todos los individuos de la población, x i i∈U , es conocido, por tanto se conoce X . ii) Para los individuos tomados en la muestra s se conoce su respuesta a la variables de interés y auxiliar y i , x i i∈s . 2.- Estimador de Razón: 2.1 Modelo Común de razón: Suposiciones: V.a auxiliar X positiva y ademas n yk xk N ∑y k yk xk cte. ∀k EY/X x k x k y ∑y k k1 n ∑x k k1 N ∑x k k1 k1 N 2.2 ¿Cómo estimar una razón R Y X ∑y k k1 N ∑ ? xk k1 R Y X Resultados: i) E R −R 2 Var R ≤ Var X 2X Si el error estándar relativo 1/2 Var X ˆ 0 la razón del | X | sesgo ˆ 0 . ii) Diseño muestral m.a.s.: AVar R AVar R E. C. M. R 1−f n ∑ 1 2 X 1−f n y k −Rx k sr n−1 ∑y k −Rx k 2 1 2X U N−1 ∑y 2k R ∑x 2k −2R∑y k x k 2 2 1−f n 1 2 X k∈s k∈s n−1 k∈s Ejemplo: Se está interesado en estudiar la diferencia en el valor catastral de las casas en cierta comunidad particular durante un período de dos años. Se toman 20 de las 1000 casas utilizando m.a.s. midiendo Y, valor catastral de este año, X, valor catastral de hace dos años. A partir de la tabla adjunta de datos, ¿qué concluyes? yi x 2i y 2i xiyi Casa xi 1 6. 7 7. 1 44. 89 50. 41 47. 57 ... ... ... ... ... ... 20 8. 9 9. 4 79. 21 88. 86 83. 66 Total 154. 5 164. 7 1210. 55 1373. 71 1288. 95 Solución: 20 ∑y k R k1 20 ∑x k 1. 07 El valor catastral ha aumentado un 7%. 164.7 154.5 k1 Var R 2 Var R 1− 1 20 1373.71.07 2 1210.53−21071288.9 1 2 19 7.725 20 1000 0. 02 2.3 Cómo estimar Y : Modelo y k x k ∑ y k ∑ x k YR U Como min∑ y k − x k ∑y k x k 2 U ∑x k U ∑y k U ∑x k U 2.3.1 Caso m.a.s.: k n N YR U Y X ∑y k sr ∑x k N x Var R x X Y YR X n X; Y ∑ 2 N2 Nota: A menudo AVar YR de aqui yk k k1 se deduce una U 2 X y ∑ x k N x x ss RN x , sr AVar YR Y U aproximación para la varianza: AVar YR 1−f n N 2 1−f n ∑ y k −Rx k ∑y k −Rx k 2 U N−1 2 s n−1 ≤ Var m.a.s regresión pasa, o muy cerca, del origen. Obtención de n fijados B y K: Tomada una muestra piloto se estima V ∗2 x X 2 N2 1−f n CorrX, Y ≥ ∑ y k −Rx k s n−1 2 ∗2 ∗ S ∗2 y R S x − 2RS xy 1 CV U X 2 CV U Y y la recta de 2 n V ∗2 N 2 B2 k2 NV ∗2 2.3.2 Diseño muestral estratificado: Tenemos la población N dividida en L estratos, N N 1 . . . N L , en cada estrato h se toma una m.a.s. de n h individuos. Y es la variable de interés y X la auxiliar. i) Estimador de razón estratificado separado; (Caso y y Se toman estimadores de razón en cada estrato, yh x hh xh . Se simplifica a un único estimador tomando un promedio con pesos de estos L estimadores: L y SRy ∑ W h x hh xh . h1 Nh L AVar SRY ∑ W 2h 1−f h nh 2 ∗2 ∗ ∗ ∗2 hy R h hx − 2R h hxy ; hxy ∑x hi − xh y hi − yh i1 N h −1 h1 nh L AVar SRY ∑ W 2h h1 2 xh Xh 1−f h nh 2 yh xh ∗2 ∗ S ∗2 hy R h S hx − 2R h S hxy ; R h ; S ∗hxy ∑x hi − xh y hi − yh i1 n h −1 Obtención de n fijados B y K: Tomada una muestra piloto se estima V ∗2 h 2 ∗2 ∗ S ∗2 hy R h S hx − 2R h S hxy L Si afijación proporcional n h nW h , ∑ W 2h 1 nW h − 1 Nh V ∗2 h B2 k2 y se despeja n. h1 ii) Estimador de razón estratificado combinado; (Caso y L CRy STy STx AVar CRy ∑W h y h x L h1 L ∑W h x h x. h1 ∑ W 2h 1−f h nh ∗ 2 ∗2 ∗2 hy R hx − 2R hxy ; h1 AVar CRy L ∑ W 2h h1 L xh Xh 2 1−f h nh STy STx 2 ∗2 ∗ S ∗2 hy R S hx − 2RS hxy ; R ∑W h y h h1 L ∑ Whxh h1 Obtención de n fijados B y K: Tomada una muestra piloto se estima V ∗2 h 2 ∗2 ∗ S ∗2 hy R S hx − 2RS hxy L Si afijación proporcional n h nW h , ∑ W 2h 1 nW h − 1 Nh V ∗2 h B2 k2 y se despeja n. h1 Cuestiones: 1ª ¿Cuando usar el estimador estratificado separado o el combinado? Habitualmente sucede que el error de muestreo es superior con el estimador combinado. Sin embargo el estimador separado puede tener mayor sesgo puesto que el estimador de razón de cada estrato contribuye al sesgo. Por tanto, si los tamaños de muestra son pequeños en cada estrato o si las razones dentro de los estratos son aproximadamente iguales, utilizaremos el estimador combinado. 2ª ¿Cuando usar el estimador de razón? Cuando la relación entre las variables Y y X sea aproximadamente lineal a traves del origen y ademas, la varianza de la variable Y sea proporcional a la varianza de la variable X. 3.- Estimador Producto. El estimador de razón no puede ser utilizado para mejorar el estimador directo cuando la correlación entre las variables de interés y auxiliar es negativa. Una alternativa es el estimador producto. yx x YP x , estimador más eficiente que el de m.a.s. si xy ≤ − 12 CV CV y 1−f Sesgo: E YP − y n y xy CV x CV y 1−f ∗ 2 ∗2 AVar YP n ∗2 y R x 2R xy 2 1−f ∗2 ∗ AVar YP n S ∗2 y R S x 2RS xy Ejemplo: 4.- Estimador de Regresión: Cuando el modelo entre X e Y es lineal pero no pasa por el origen, el estimador de regresión es el adecuado. 4.1 Estimador Diferencia: Se supone y 1 , x 1 , . . . , y n , x n m.a.s. de n unidades de una población de N elementos. Sea una constante predetermianda. Definición de estimador diferencia YD y x − x Propiedades: i) Para todo el YD es insesgado. ii) La varianza de este estimador es mínima si xy2 . x Alternativas para : i) 1; Sólo funciona bien si la relación entre X e Y es lineal con pendiente próxima a la unidad; YD y x − x ∑d k −d 2 1−f s Var YD n ; dk yk − xk n−1 ii) Utilizar estudios previos para proponer una estimación del coeficiente de regresión 1−f ∗ 2 ∗2 Var YD n S ∗2 y S x − 2S xy Ejemplo: 4.2 Estimador de Regresión: Consideramos toda la población Uy 1 , x 1 , . . . , y N , x N y que el modelo es y i 0 1 x i ; i 1, . . . , N. 0 y − 1x min∑ y i − 0 − 1 x i 2 0 , 1 U 1 xy 2x ∑y i − y x i − x U ∑x i − x 2 U El tomar una muestra kl ∀k, l ∈ s, y i , x i i∈s , x i i∈U . s de U según un diseñoconocer k y ∑ 0 y s − 1 x s; y s s yk k N ; xs ∑ xk k s N ;N ∑ 1 k s y k − y s x k − x s k ∑ 1 s ∑ xk−xks 2 s 4.2.1 Sea s una m.a.s.: S∗ y s y; x s x; 1 S ∗2xy x Por y 1 y 1 x 1 − x N ∑y i i1N ...... y N y 1 x N − x 2 ∗2 ∗ 1−f Var yreg n S ∗2 y 1 S x − 2 1 S xy tanto: N ∑x i −x i1 yreg y 1 N y 1 x − x Ejemplo: 4.2.2 Sea s una muestra obtenida mediante diseño estratificado: N N 1 . . . N L , en cada estrato h se toma una m.a.s. de n h individuos. Y es la variable de interés y X la auxiliar. i) Estimador de regresión simple: Suponiendo que los n h son suficentemente grandes para que los estimadores en cada estrato sean lo suficientemente aproximados. Nh Para cada estrato: h S ∗hxy S ∗2 fx L ∑x hi −x h i1 , yhreg y h h Nh y h h hx − x h Globalmente: yrs ∑ W h yhreg L AVar yrs ∑ h1 1−f W 2h n hh 2 ∗2 ∗ S ∗2 hy h S hx − 2 h S hxy h1 ii) Estimador de regresión combinado: Cuando existan evidencias de que los h no difieren mucho entre si, ó si los n h no son suficentemente grandes. L c ∑W2h 1−fnhh S ∗hxy h1 L ∑ L , 1−f W 2h n h h S ∗2 hx h1 yestr ∑ W h y h (estimador de y con diseño h1 L xestr ∑ W h x h (estimador de x con diseño estratificado). h1 Globalmente: yrc yestr c x − xestr L 2 ∗2 ∗ 1−f AVar yrc ∑ W 2h n hh S ∗2 hy c S hx − 2 c S hxy estratificado), h1 4.3 Expresiones Alternativas para el Estimador de Regresión: Suponemos observado un vector x de J variables auxiliares y los modelos E y k x k E y k 1 2 x k y 2 1 V y k 2 x k V y k 2 i) Primera alternativa : Dada la muestra s el ajuste del modelo permite estimar J ′ x k x ′k xkyk ′ t ∑ 2 1 , . . . , J y y k x k ∑ j x jk T ∑ 2 k∈s k k k∈s k k ∑s Para el modelo 1 ∑s ∑s ys ∑s yk k 1 k ∑s , xs ∑s xk k 1 k ∑ yr ∑ U x k s ∑s yk k xk k 1 Para el modelo 2 j1 2 ∑s , 2 x k − x s y k − y s k ∑s x k − x s 2 k 1 2 yk k xk k −1 T t / k 1, . . . , N. y s − 2 x s 2 donde yr N y s 2 x U − x s ii) Segunda alternativa: luego los residuales muestrales son, k∈s e ks y k − y k , Observamos que e ks y y k dependen de s por , que y k es evaluable para toda la población y que se conoce x 1 , . . . , x N . Sin embargo los residuales solo son evaluables para la muestra. El estimador de regresión puede ser expresado: yr ∑ y k ∑ eksk ∑ y k ∑ e ks U U k∈s k∈s iii) Varianza del estimador de regresión: Var yr ∑ ∑ s Δ kl g ks e ks g ls e ls / Δ kl 1 − kl kl , e ls e ls k , g ks ∑ U xk ∑ s xkk Casos Particulares: Si el modelo es Var yr N 2 E y k x k V y k 2 x k ∑U x ∑s 2 k xk k 1−f n ∑s , bajo m.a.s. y k −x k 2 n−1 Propiedad: Una condición necesaria y suficiente para que ∑ e ks k 0 es que exista ∈ J k∈s / 2k ′ x k . Ejemplos de estructura de varianza que cumplen esta condición: 2k 2 y x 1k 1 para k ∈ U. 2k x jk para todo k ∈ U. 5.- Ejemplos: 5.1 Una fábrica de frigoríficos contempla revisar su política de mercado. Por ello, desea estimar cuántos frigoríficos se van a vender el próximo verano, y . Atendiendo a varios factores, se divide el país en cuatro zonas. El número de comerciales en estas cuatro zonas es 400, 216, 364 y 274, mientras que el número total de refrigeradores vendidos el pasado verano fue 29100, 12060, 26567 y 1811. Tratando las zonas como estratos, se decide seleccionar una muestra de 42 comerciales. Se utiliza afijación de mínima varianza ya que se facilita la siguiente información poblacional respecto del número de ventas del año ∗2 ∗2 ∗2 pasado en cada estrato: ∗2 1 207. 36, 2 282. 24, 3 184. 96, 4 127. 69. Los datos observados se muestran en la siguiente tabla: (X:ventas del pasado verano, Y:ventas esperadas del próximo verano) nh Zona I Zona II Zona III Zona IV X Y X Y X Y X Y 53 69 44 52 60 67 58 52 84 80 67 73 76 86 65 71 93 87 84 78 78 75 56 62 66 72 52 60 68 77 48 44 77 81 48 42 55 64 73 77 82 94 62 56 48 45 85 80 68 64 56 50 86 98 61 66 84 88 70 76 91 95 79 72 40 48 69 76 98 110 70 79 50 62 79 92 78 70 49 66 92 85 63 77 Nh Wh xh xh xh yh S ∗2 hy S ∗2 hx S ∗hxy h Estrato 1 14 400 0.319 72.8 29100 76.2 79.4 166.7 211.1 146.5 0.694 Estrato 2 9 216 0.172 55.8 12060 58.1 59.4 174.3 197.1 164.8 0.836 Estrato 3 12 364 0.290 Estrato 4 7 73 26567 69.1 76.7 226.6 193 188.3 0.975 274 0.218 66.1 18111 63.7 64.6 170.6 147.9 142.8 0.965 rh 0.781 0.889 0.900 0.899 5.2 Un experimento tiene por objeto estimar la superficie (v.a. Y) media de hoja de una nueva variedad de trigo. El experimentador decide plantar 40 unidades entre tres lugares diferentes. Se obtienen 640, 710 y 769 hojas respectivamente. El peso total de estas hojas en estas tres plantaciones fue 69000, 81137 y 78009 grs respectivamente. Usando afijación proporcional se toma una m.a.s. de 39 hojas con los siguientes resultados (Y: área en cm 2 , X: peso en grs.); Estrato I Estrato II Estrato III Y X Y X Y X 26. 01 103 21. 08 97 41. 07 130 25. 7 103 26. 13 107 18 89 34. 23 119 28. 05 109 17. 92 91 26. 16 107 33. 71 117 26. 73 105 19. 37 99 28. 56 112 24. 81 101 28 103 29. 43 110 28. 3 107 24. 03 91 22. 41 105 16. 07 81 36. 61 123 32. 06 113 29. 41 111 34. 09 117 27. 64 108 21. 09 104 102 35. 47 121 22. 18 102 34. 78 122 31. 57 113 17. 76 23. 17 106 39. 06 129 28. 21 101 20. 66 99 26. 7 106 19. 84 96 84 21 Estimar el área media de cada hoja. S ∗2 hx S ∗hxy h Estrato 1 12 640 0. 3020 107. 8 69000 103. 04 25. 75 40. 148 133. 9 68. 41 0. 5109 Estrato 2 13 710 0. 3351 114. 3 81137 66. 24 41. 758 0. 6304 nh Nh Wh xh xh Estrato 3 14 769 0. 3629 101. 4 78009 xh 110. 9 yh S ∗2 hy 28. 94 30. 334 104. 3 25. 84 45. 446 154. 99 81. 065 El programa metiejem.m resuelve el resto del ejercicio con el siguiente resultado: error 6.1675 (error de muestreo) icmyest 15.5905 39.7670 (intervalo de confianza) myest 27.6788 (estimación puntual) La estimación del área media en cada estrato es: my1 27.9692 my2 31.0179 my3 24.3542 0. 523