1. DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE MEDIAS MUESTRALES TEOREMA: Supongamos que X1 es una variable aleatoria definida sobre una población 1 cuyos parámetros son 1 y 1. Sea X2 una variable aleatoria definida sobre la población 2 cuyos parámetros son 2 y 2. Sea X 1 la media de una muestra de tamaño n1 extraída de la población 1 y sea X 2 la media de una muestra de tamaño n2 extraída de la población 2. Entonces X1 X 2 es una nueva variable aleatoria definida como la diferencia de medias muestrales tales que X X2 1X2 1X 2 1 2 12 n1 y 22 n2 Si los tamaños de muestra son suficientemente grandes, aplicando el TCL diremos que Z ( X 1 X 2 ) ( 1 2 ) 12 n1 22 es tal que Z N(0, 1). n2 Comentarios: 1. La distribución de X1 X 2 es válida cuando ambas poblaciones son finitas y las muestras se extraen con reposición. 2. Es válida también cuando las poblaciones son infinitas y las muestras se extraen con o sin reposición. 3. Si las poblaciones de las cuales se extraen las muestras son finitas y sin reposición, para encontrar la varianza de cada una de las medias se debe usar lo visto en el teorema de las medias muestrales. 4. Ejemplo 8 5De dos máquinas embotelladoras de gaseosas se han extraído muestras de tamaño 64 cada una. La distribución de probabilidad del contenido de cada una de ellas es normal con 1 2 y 1 4 ml y 2 9 ml . Determine la probabilidad de que la diferencia entre las medias muestrales exceda a 0.60. Solución Sea X 1 la media muestral que representa el promedio de botellas llenadas con la máquina 1 Defina a X 2 : ........................................................ De acuerdo a los datos E[ X 1 ] = 1 , V[ X 1 ] = .............. y n1 = ................ E[ X 2 ] = 1 , V[ X 2 ] = ......................... y n2 = .................... La probabilidad de que la diferencia entre las medias muestrales exceda a 0.60 se expresa por P( | .................... | > 0.6 ). Resolviendo P( | ..................... | > 0.6 ) = P( ................ < - 0.6 ) + P( ............... > 0.6 ) Ahora le restamos la diferencia de medias poblacionales y dividimos por la varianza de la diferencia de medias. Esto en ambos miembros de la desigualdad. = P( ( X 1 X 2 ) ( 1 2 ) 12 n1 22 n2 0.6 0 ( X X 2 ) ( 1 2 ) ) P( 1 2 2 4 9 1 2 64 64 n1 n2 0.6 0 ) 4 9 64 64 Después de simplificar, use Minitab para obtener P(Z 1.33) P(Z 1.33) ................ Ejemplo 9 En el ciclo de verano del 2004, el curso de Estadística Aplicada tuvo dos secciones. En cada sección se aplicó metodologías de enseñanza diferentes. Al final del ciclo los estudiantes se sometieron a un examen final integrado, donde se obtuvo los siguientes resultados: Sección Número de alumnos Desviación estándar 401 30 4.5 402 30 2.9 Si se asume que cada sección es una muestra aleatoria independiente, extraídas de poblaciones normales con promedios iguales, ¿Cuál es la probabilidad de que entre ambas secciones exista una diferencia de a lo más 3 puntos en el promedio de notas? Solución Sea X X y 1 2 los promedios de notas en ambas muestras de tamaño 30. Se pide que encontremos P( | X Esto es igual a P(3 1 X X 1 2 X 2 | 3) 3) Recuerde que, según el problema, las dos secciones tienen promedios poblacionales iguales; es decir, µ1 = µ2 . Obtenga X 1 X2 = ……………. y X 1 X2 ………….. Luego encuentre la probabilidad usando MInitab. Ejemplo 10 Una muestra de tamaño 25 se toma de una población normal con media de 80 y desviación estándar de 5; una segunda muestra de tamaño 36 se toma de una población normal con media 75 y desviación estándar de 3. Hallar la probabilidad de que la media de la muestra de tamaño 25 exceda a la media de la muestra de tamaño 36 en por lo menos 3.4 pero menos de 5.9. Solución De acuerdo al problema, tenemos Población 1: 1 = .......... , = ........... , n1 = ................. Población 2: 1 = ................. , = .............., n2 = ................. De donde E[ X 1 ] = 1 = ...........; V[ X 1 ] = ................. E[ X 2 ] = 1 = ............ V[ X 2 ] = .................. Luego P(3.4 < X 1 - X 2 < 5.9 ) Use Minitab para obtener esta probabilidad, que debe ser igual a 0.7146, creo. Ejercicio 6 En una región costeña el consumo promedio por día de proteínas es de 200 gramos, con una desviación de 80 gramos. En otra región el consumo promedio es de 150 gramos, con una desviación de 80 gramos. Si dicho consumo se distribuye normalmente en ambas regiones, ¿cuál es la probabilidad de que dos muestras aleatorias independientes de tamaño 40, tomadas en cada región tengan una diferencia de medias muestrales a lo más de 2 gramos? Eejercicio 7 Una compañía quiere hacer un muestreo y comparar el promedio de días de incapacidad temporal por enfermedad, por año, para dos clases de empleados: Los que tienen menos de 5 años de servicio y los que tienen 10 o más. Los tamaños muestrales son n1 = n2 = 100 empleados y las desviaciones estándar son 1 = 8.2 días y 2 = 5.7 días, respectivamente. a) ¿Cuál es la probabilidad de que la diferencia entre las medias muestrales difiera de la diferencia poblacional, en el promedio de días de incapacidad, por más de 1 día? b) Es posible que X 1 - X 2 se desvíe de 1 - 2 en más de 5 días? Ejercicio 8 Una fábrica trabaja con dos tipos de máquinas: Máquina de tipo A y Máquina de tipo B. El costo semanal X de reparación, para las máquinas de tipo A, tienen una distribución normal con media 220 dólares y una desviación de ². El costo semanal Y de reparación, para las máquinas de tipo B, también tienen una distribución normal con media 250 dólares y una varianza de 3². Si el costo total de reparación para la fábrica se define como C = 2X + Y, a) Obtenga la media y varianza del costo semanal C de reparación de las dos máquinas b) ¿Cuál será el valor de , para que el costo semanal de reparación de las dos máquinas no exceda los 1000 dólares, en el 95% de las veces? c) Si se selecciona una muestra aleatoria X1, X2, ..., Xn de costos semanales para las máquinas de tipo A y otra muestra aleatoria Y1, Y2, ..., Ym de costos semanales para las máquinas de tipo B, obtenga la distribución muestral de X Y , calculando su media y varianza. 2. DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE PROPORCIONES MUESTRALES DEFINICIÓN Sea p1 la proporción de éxitos en la ocurrencia de un evento en la población 1 y p2 la proporción de éxitos en la población 2 . Si en estas dos poblaciones se toman muestras de tamaño n1 y n2 , respectivamente, y definimos a p1 como la proporción muestral extraída desde la primera población y p 2 como la proporción muestral extraída a partir de la segunda población, diremos que p1 p2 es una variable muestral llamada diferencia muestral de la diferencia de proporciones. Como en los casos anteriores la distribución de probabilidad de esta variable estará dada por su media y su varianza. Veamos como se definen cada una de ellas. p p E[ p1 p 2 ] E[ p1 ] E[ p 2 ] 1 2p 2 1 p2 V [ p1 p 2 ] V [ p1 ] V [ p 2 ] De donde p1 p 2 y p1 (1 p1 ) p2 (1 p2 ) n n p 1 p2 p1 (1 p1 ) p2 (1 p2 ) n n Si los tamaños de las muestras son suficientemente grandes, aplicando el TLC la variable Z ( p1 p 2 ) ( p p ) 1 p 2 es tal que Z N(0,1). 1 p2 Comentarios 1. Si el muestreo se hace con reposición sobre poblaciones finitas entonces la media y varianza de p1 p2 serán las indicadas en el teorema. 2. Si el muestreo se realiza sin reposición, sobre poblaciones finitas, se deberá aplicar el factor de corrección para poblaciones finitas en el cálculo de la varianza. 3. Si las muestras se extraen con o sin reposición sobre poblaciones infinitas, tanto la media como la varianza de p1 p2 serán las que se indica en el teorema. Ejemplo 11 Una compañía de investigación de mercado desea realizar un análisis comparativo sobre el consumo de un determinado producto en personas adultas de ambos sexos. Se cree que el 30% de las mujeres y el 20% de los hombres aceptan dicho producto. Si el análisis pasa por la selección de una muestra de 200 hombres y 200 mujeres, elegidos al azar, ¿cuál es la probabilidad de que las mujeres acepten más que los hombres tal producto?. Solución Sea p1 la proporción de mujeres que prefieren el producto, con lo cual p1 = 0.30. Igualmente sea p2 : ......................................................................, por lo que p2 = 0.20. Sea p1 y p 2 las .....................................con tamaños de muestra son n1 = y n2 = , respectivamente. Puesto que debemos encontrar la probabilidad de que las mujeres acepten el producto más que los hombres; es decir, p1 > p 2 ; debemos definir la variable muestral p1 p2 , diferencia de proporciones muestrales de tal manera que tengamos que evaluar P( p1 p2 >0). La distribución de probabilidad de esta variable viene expresada por p1 p p1 p2 .......................... .......... 2 p 1 p2 .......... .............. 0.043 200 200 Luego P( p1 p 2 ) P( p1 p 2 0) P( Z 0 p 1 p2 p p 1 ) P( Z 0.10 ) 1 (2.32) 0.9898 0.043 2 Luego la probabilidad de que las mujeres acepten el producto más que los hombres es 0.9898 Ejemplo 12 Dentro de la enorme cantidad de información existente en el INE (Instituto Nacional de Estadística) se encuentra una clasificación de la población peruana en términos de su situación socioeconómica; lo que se conoce como el mapa de pobreza del Perú, el cual está actualizado hasta el año 1993. En ella se encontró que el porcentaje de hogares con necesidades básicas insatisfechas (NBI) en los distritos de La Molina y Comas fue aproximadamente de 10% y 60%, respectivamente. Si en un estudio por muestreo se toma una muestra de 30 y 40 hogares en cada uno de los distritos mencionados, respectivamente; determine la probabilidad de que la diferencia de porcentaje de NBI encontrados en ambos distritos sea a lo más de 50%. Solución Según los datos: La Molina: p1 = ......., n1 = .....; Sea p1 su proporción muestral Comas: p2 = ......, n2 = .....; Sea p 2 su proporción muestral Que “La diferencia de porcentajes en ambos distritos se a lo más de 50%” significa, en términos matemáticos, | p2 p1 | 0.5; cuya probabilidad se debe encontrar. Veamos la distribución de p2 p1 : p 2 p1 p p1 2 0.60 0.10 0.50 0.6 x0.4 0.1x0.9 0.09486 ........ ....... Luego P(| p2 p1 | 0.5) P(0.5 p2 p1 0.5) P(............ Z 0) 0.5 Por lo tanto, existe un 50% de probabilidad de que la diferencia entre las necesidades básicas insatisfechas se diferencien a lo más en 50%. Ejercicio 9 Un politólogo considera que el 85% de la población de la ciudad de Iquitos y el 95% de la ciudad de Arequipa no están de acuerdo con la gestión del gobierno. Para validar su opinión, levantó una encuesta independiente en cada ciudad. Comprobó que 240 de 300 personas entrevistadas en Iquitos no estaban de acuerdo con la gestión del gobierno, mientras que 340 de 400 personas entrevistadas en en Arequipa no estaban de acuerdo. Cuál es la probabilidad de observar una diferencia entre ambas proporciones muestrales mayor o igual a la que realmente se observa? Ejercicio 10 Tomando en cuenta las consideraciones del problema anterior, se cree que el 16% de los hogares del Distrito de La Victoria tienen ingresos familiares que se clasifican como los de “nivel bajo”. Del mismo modo se cree que en el Distrito del Rimac, esta proporción es del 11%. Si estas proporciones fueron válidas en 1996, ¿cuál es la probabilidad de que en una muestra aleatoria de 200 hogares del Distrito de La Victoria y en otra muestra aleatoria de 225 hogares del Distrito del Rimac, arrojen una diferencia entre las proporciones muestrales de por lo menos el 10%? Ejercicio 11 Luego de varias investigaciones realizadas en un determinado laboratorio se han encontrado que los productos farmacéuticos A y B reducen el nivel de hipertensión en ciertas personas. La proporción de personas en las que dichos productos resultan efectivos es 0.70. Para determinar la efectividad de estos productos, el producto A se les administró a un conjunto de 100 personas hipertensas, tomadas aleatoriamente, 75 de las cuales redujeron su hipertensión; del mismo modo, a otro grupo de 150 personas hipertensas, se les administró el producto B, logrando también efectividad en 105 de ellas. Si de acuerdo a los datos históricos los dos productos son igualmente efectivos, ¿cuál es la probabilidad de observar una diferencia de proporciones muestrales sea tanto o más de lo que se encontraron? Ejercicio 12 Cada domingo a las 9:00 de la mañana y a las 20:00 de la noche un gran porcentaje de televidentes sintonizan en gran proporción, dos programas de televisión que se emiten en estos horarios. Supongamos que estos programas son emitidos por los canales A y B. El “rating” del último domingo, practicado en 500 televidentes, muestran proporciones de 30% para el programa en el canal A y 35% para el programa en el canal B. Una empresa consultora de opinión no está satisfecho con estos resultados, motivo por el cual decide realizar su propia encuesta a 500 casas de televidentes durante la transmisión del programa por el canal A, transmitido por las mañanas y otra encuesta practicada bajo la misma modalidad sobre 500 televidentes, durante la transmisión del programa por el canal B. ¿Cuál es la probabilidad de que los resultados indiquen una preferencia superior por el programa transmitido por el canal B, respecto del programa transmitido por el canal A?. 3. DISTRIBUCIONES PARA MUESTRAS PEQUEÑAS ¿Qué ocurre si el tamaño de muestra no cumple con el requerimiento del TLC? Las distribuciones de probabilidad de las variables aleatorias Chi – Cuadrado, t de Student y F de Fisher, son las que se emplean en los casos en que el tamaño de muestra es menor que 30. Nota: Pero no se emplea indistintamente, La distribución t de Student se usa en la distribución muestral de medias cuando se desconoce la varianza poblacional. La distribución Chi – Cuadrado en la distribución muestral de la varianza muestral La distribución F de Fisher en la distribución muestral de la razón de varianzas Nota: Si el tamaño de muestra fuera pequeño, y la muestra proviene de poblaciones con distribución conocida, entonces a la variable muestral se aplica la misma distribución poblacional. 3.1. DISTRIBUCIÓN MUESTRAL DE MEDIAS CUANDO SE DESCONOCE LA VARIANZA POBLACIONAL Caso de una población Sea X1, X2, ..., Xn una ................................ de tamaño ...., extraída de una población normal con ....... μ y ............ σ² desconocida. Sea X la ......................... Si n < 30 X entonces la variable T es una variable que tiene distribución t (n-1). s n donde s² = .................................... y (n-1) representan los grados de ........................ Observación: Si no se conoce la varianza poblacional, ¿cómo se calcula entonces la variable T? Caso de dos poblaciones Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n1, extraída de una población normal con media μ1 y varianza σ1² desconocida. Sea Y1, Y2, ..., Yn una muestra aleatoria de tamaño n2, extraída de una población normal con media μ2 y varianza σ2² desconocida. Sea X Y la v.a. definida como la diferencia muestral de medias muestrales. Si n1 + n2 ≤ 30 entonces la variable T ( X Y ) ( ) 1 2 es una variable que X Y tiene distribución t (n1 + n2 -2 ). donde faltaría determinar cómo obtenemos X Y Casos que se presentan: a) Que, siendo desconocidas las varianzas poblaciones, suponer que son iguales (σ1² = σ2²) En este caso ( X Y ) ( ) 1 2 T 1 1 ( ) n n 1 t(n1+n2-2) donde (n1 1) s1 (n2 1) s 2 2 n n 1 2 2 2 2 b) Que, siendo desconocidas las varianza poblacionales, se supongan diferentes. T ( X Y ) ( ) donde 2 1 2 1 2 1 2 t(g) 2 s s n n s s n n g s s n n n 1 n 1 2 2 1 2 1 2 2 2 1 2 2 2 2 1 1 2 2 2 TAREA 5 La asociación de empleados de Metro está preocupada por la diferencia que existe entre los salarios semanales respecto a Totus. Los gerentes de Metro saben que realmente en su empresa el salario semanal promedio es de $ 70 y en la segunda empresa el salario semanal promedio es de $75 y que los salarios en ambas empresas tienen distribución normal. La asociación de empleados encarga realizar un estudio. Se toman muestras de 14 empleados de cada una de las empresas y se obtiene una desviación estándar muestral de $ 8 en los sueldos de Metro mientras que en los de Totus es de $ 10. ¿Cree Ud. que es muy probable que en los resultados muestrales exista la diferencia de sueldos señalada por los empleados de Metro? Asuma primero varianzas poblacionales iguales y luego diferentes. Sugerencia Sea X1: Salario semanal en Metro µ1 = 70; n1 = 14; s1 = 8 Sea X2: El salario semanal en Totus. µ2 = 75; n2 = 14; s2 = 10 Debemos encontrar P( X 2 X 2 5) . Si esta probabilidad es alta, diremos que es muy probable que exista diferencia de sueldos, en caso contrario, no la hay. Caso a). Suponer varianzas poblacionales desconocidas e iguales Obtener su media y varianza y luego usar Minitab par resolver la probabilidad. Caso b) Suponer varianzas poblacionales desconocidas y diferentes. Obtener su media y varianza y luego usar Minitab par resolver la probabilidad. Ejemplo 13 Una empresa consultora de mercadotecnia aplica dos técnicas de ventas. La primera se aplica a 12 vendedores y la segunda a 15. Las investigaciones indican que la segunda técnica debe producir mejores resultados. Al final de un mes se obtuvieron los siguientes resultados. Ventas Técnica 1 Técnica 2 Media 68 72 Varianza 50 75 Si se supone que la variabilidad para ambas técnicas son desconocidas pero iguales; ¿presentan estos datos suficiente evidencia para afirmar que la técnica 2 produce mejores resultados que la técnica 1? Se supone que la distribución de ambas técnicas son aproximadamente normal. Solución Para responder a esta pregunta es suficiente encontrar P( ) P( 0) 2 1 2 1 De acuerdo a los datos: n1 = ......... ; X 1 = ............... n2 = ......... ; X 1 = ............... s s 2 1 2 2 = .................. = ......................... Al no conocer las varianzas poblacionales y suponer que son iguales debemos aplicar el caso .............. Según esto, primero obtenga = ................................................................... Ahora obtenga T = .................................................................. Luego P(T < 1.291) = .................................. Debemos usar Minitab para encontrar la probabilidad, para ello. Compruebe que el resultado es P(T < 1.291 ) = 0.8952 3.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL Sea X1, X2, ..., Xn una ................................ de tamaño ...., extraída de una población normal con ....... μ y ............ σ² . Si definimos la variable V ( n 1) s X Del mismo modo, si V entonces V 2 2 (n 1) 2 n i 1 2 i X 2 entonces V 2 (n 1) Ejemplo 14 Encuentre la probabilidad de que en una muestra de 25 observaciones de una población normal con varianza 9, tenga una varianza muestral entre 4.071 y 15.10125. Solución Según los datos: n = .........; σ² = ........... Debemos hallar: P(......... ≤ s² ≤ ..........) De acuerdo a esto, debemos generar la definición de V en el centro de esta desigualdad. Para ello, debemos multiplicar por (n -1 ) y dividir por σ². Esto es: 2 24 * 4.071 (n 1) s ² 24 *15.10125 P( ) P(10.856 (24) 40.27 ) . 9 ² 9 ........ Ejemplo 15 El departamento de control de calidad de una empresa manufacturera compra unos componentes eléctricos a un vendedor extranjero. La empresa especifica que la varianza de las resistencias de los componentes no debe exceder de 40 ohmios². Para aceptar las remesas que no cumplan con esta especificación, el departamento de control de calidad toma una muestra de 25 componentes de cada remesa y mide la resistencia de cada uno. Si la varianza de la muestra es demasiado grande, el departamento rechaza el pedido. Se considera que una varianza muestral es demasiado grande si la probabilidad de que las varianzas de las resistencias es menor o igual a 0.02. Se acaba de seleccionar una muestra de una remesa y se ha obtenido s²=0.75. Debe aceptarse la remesa? Suponga que las resistencias están normalmente distribuidas. Solución Según los datos: n = .....; σ² = ......... y nro. de gdos. Lib. = ......... Debemos obtener: P( .............................) Esto es P(............................) = 1 – P(...................................) Usando Minitab, obtendremos que P(s² ≥ 0.75 ) = 0.00723 (aproximadamente) Responda a la pregunta: ................................................................................ 3.3. DISTRIBUCIÓN DE LA RAZÓN DE DOS VARIANZAS Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n1, extraída de una población normal con media μ1 y varianza σ1² desconocida. Sea Y1, Y2, ..., Yn una muestra aleatoria de tamaño n2, extraída de una población normal con media μ2 y varianza σ2². La variable s s F donde s 2 1 2 1 2 1 2 tal que F F(n1 – 1, n2 – 1) 2 2 2 y s 2 2 son las varianzas muestrales de cada muestra. Ejemplo 16 Dadas dos muestras aleatorias de poblaciones normales con varianzas iguales, de tamaño 10 cada una, ¿cual es la probabilidad de observar que la varianza de la primera muestra sea por lo menos cuatro veces la varianza de la segunda muestra? Solución Como las varianzas de ambas poblaciones son iguales entonces σ1 = σ2 ; del mismo modo, n1 = n2 = 10. s²1 y s²2 son las varianzas muestrales. La pregunta es P(s²1 ≥ 4 s²2 ) Aquí debemos tratar de obtener un cociente de varianzas de la forma s F s 2 1 2 1 2 2 2 2 ≥ 4 s²2 ) dividimos entre la segunda varianza y Para esto en P(s²1 obtenemos P( s ²21 4) s 2 Como ambas varianza poblacionales son iguales entonces σ²1 = σ²2 = σ² A numerador y denominador se divide entre σ² Como dicha variable así definida tiene distribución F tal que s 2 1 2 P ( s ²21 4) P ( 21 4) P(F(10 -1, 10 – 1) ≥ 4 ) s 2 s 2 2 2 ESTADISTICA INFERENCIAL 4. INTRODUCCION En la mayoría de los problemas económicos y sociales en los cuales se puede utilizar la estadística son susceptibles de ser explicados mediante la construcción de un modelo estadístico, máxime si la regularidad de la ocurrencia de tales ocurrencias se puede expresar mediante los conceptos de variable aleatoria. En este caso, el modelo que describe al comportamiento de la población, en los cuales se manifiesta el problema, son modelos probabilísticas. Según esto, el modelo puede ser representado mediante una función, digamos f, por la variable aleatoria X (pueden ser múltiples variables) y por un conjunto de parámetros, los que en conjunto describe el comportamiento de la población. Por esta razón, f ( X ; 1, 2 ,..., k ) será la función de distribución del modelo, en donde X será la variable aleatoria (vector aleatorio en un modelo de varias variables) y θ1, θ2 , ...., θk serán los parámetros de la distribución. Ejemplos de modelos probabilísticas: 1 x 1 2 Modelo Normal: f(x; μ, σ²) = e 2 Modelo Binomial: ............................................. Modelo Exponencial: ....................................... Modelo Poissoniano: ........................................ Modelo Chi – Cuadrado: ....................................... a) b) c) d) e) aquí f) g) 2 Haga clic 1 Modelo t de Student : ............................................. Modeo F de Fisher: ................................................... Como hemos dicho en las clases anteriores, al conocer la distribución de probabilidades de una variable aleatoria, X; es decir, al conocer los parámetros de la distribución, podemos determinar y explicar el comportamiento de la población. Puesto que dichos parámetros no siempre se conocen, el estudio se realiza a partir de una muestra aleatoria X1, X2, ...., Xn de tamaño n, que tienen la misma distribución que la poblacional X, de parámetros θ1, θ2, ....., θn. El objetivo de la Inferencia Estadística es Determinar el valor del (o de los) parámetro(s) desconocido(s) Decidir si θ o alguna otra función g(θ) es igual al valor supuesto verdadero, θ0 de θ. El método de estimación puede ser Estimación Puntual o Estimación por Intervalos. 5. ESTIMACION PUNTUAL Definición Sea X una variable aleatoria con f(x; θ), su función de distribución en el cual, θ representa el o los parámetros poblacionales. Sea X1, X2, ..., Xn una muestra aleatoria de tamaño n, extraída de esta población. Diremos que es un estimador del parámetro , si existe una función H tal que = H(X1, X2, ..., Xn ). Observaciones: 1. Si X1, X2, ..., Xn es una muestra aleatoria y H se aplica sobre ella, entonces el estimador de es en realidad un estadístico de la muestra. 2. Según lo anterior, los estimadores se calculan. 3. Puesto que los estadísticos de la muestra como son: la media muestral, la proporción muestral, la ..................................................................................... .................................................................................................... son estimadores de los correspondientes parámetros poblacionales. 1 La dirección es la siguiente: http://www.geocities.com/inforice/modelosprob.doc 4. Luego la media muestral = X es un estimador de ........... ; la varianza muestral = s² es un estimador de ..........; del mismo modo, = ................... es un estimador de μ1 - μ2 . 5. Ahora bien, si Usted vuelve a leer la cuarta observación, notará que hemos dicho que es UN estimador de . Esto quiere decir entonces que puede o tiene otros estimadores?. Si así fuera, qué forma tendrán los otros estimadores de las estadísticas de la muestra? Es decir, si 1 y 2 son los estimadores de , a cuál de ellos debemos tomar? 6. Siguiendo la reflexión anterior, es posible que de todos los posibles estimadores que pudiera tener un parámetro poblacional, habrá uno que es el mejor, el más eficiente, el que mejor lo describe y representa; es decir, el óptimo o el de mayor confianza. Propiedades de los estimadores Para que sea un estimador de siguientes: , debe poseer algunas propiedades y estas son las P1. Debe ser un estimador INSESGADO. Diremos que es un estimador INSESGADO de no se cumple entonces será un estimador SESGADO de , si E( ) = . Si esta igualdad . De manera que = X es un estimador insesgado de μ ya que E( ) = E( X ) = μ ¿Cuál es el estimador insesgado de ? ........................... Por qué? ................................ ¿Cuál es el estimador insesgado de μ1 - μ2 ? ................................................................. ¿Cuál es el estimador insesgado de 1 - 2 ? ............................................................ En cuanto al estimador de σ²: X n a) Si = s² X 2 i i 1 entonces n s² es un estimador SESGADO de σ² ya que NO se cumple que E( ) = σ². X n b) Si = s 2 i 1 X 2 i n 1 entonces s² es un estimador INSESGADO de σ² ya que se cumple que E( ) = σ². Ejercicio de consulta: En la página 121 del Libro Inferencia Estadística de Máximo Mitacc se encuentra las demostraciones de los casos a) y b). Usted debe estudiar estas demostraciones y presentarlas al profesor en una hoja. Ejemplo 1 Sea Z1, Z2, ..., Z5 una muestra aleatoria extraída de una población N(μ, σ²). Sean los estadísticos: 1 y 2 definidos como 1 = Z y 2= Z Z 1 2 2Z 3 Z 4 Z 5 6 ¿Ambos estadísticos son estimadores insesgados de μ? Solución Por definición, si E( ) = entonces es un estimador insesgado de . Tomemos esperanza al primer estadístico: E( 1 ) = .E( Z ) = ............... Según esto, Z (es / no es ) es un estimador insesgado de μ. En cuanto al segundo estadístico: Tomemos esperanza a ambos miembros: 2Z 3 Z 4 Z 5 ) ............................................. E( 2 ) = E ( Z 1 Z 2 6 Luego 2 (es / no es ) un estimador insesgado de μ. Ejercicio 1 De una población N(μ, σ²) se escogen dos muestras aleatorias independientes de tamaños n1 y n2. Sean X 1 y X 2 y 2 s1 y 2 s 2 son las medias y varianzas muestrales respectivas. a) Si X n X n X n n 1 1 2 1 2 2 ¿es la estadística un estimador insesgado de μ?. 2 b) Si s2 σ²? Ejercicio 2 (n11) s12 (n2 1) s 2 n1 n2 2 ¿la estadística s² un estimador insesgado de Sean X 1 y X 2 son las medias muestrales de dos muestras aleatorias independientes de tamaño n1 y n2 escogidas de una población X de Poisson de parámetro λ, a) Probar que la estadística n1 X 1 n 2 X 2 ¿es un estimador insesgado de λ? n1 n2 b) Pruebe que la varianza de este estimador es igual a n n 1 2 P2. Debe ser un estimador CONSISTENTE Un estimador es un estimador CONSISTENTE del parámetro si P(| =0 |>ε) Es decir, si la probabilidad de que la desviación entre el valor del estimador y el valor del parámetro sea mayor que un cierto valor, es insignificante. Se comprueba que es un estimador consistente de Lim E( ) = si Lim Var( ) = 0 , cuando n y P3. Debe ser un estimador EFICIENTE Un estimador es un estimador EFICIENTE del parámetro si es INSESGADO y de VARIANZA MINIMA. Se dice que es de varianza mínima ya que si existiera otro estimador insesgado digamos , se debe cumplir que V( ) < V( ). Ejemplo 2 Sea X1, X2, X3, X4 una muestra aleatoria de cualquier población con μ y σ² sus parámetros. ¿Cuál de los dos estadísticos que se definen a continuación, es el más eficiente μ?. 4 1 X1 X 2 4 X 3 X 4 2 X 1 X4 3 X 4 Solución Primero debemos probar si son insesgados, encontrando E( 1 ) y E( 2 ) ............................................................................................................................. Ambos son insesgados? .................. Luego debemos obtener la varianza de cada uno de ellos; es decir, debemos encontrar V( 1 ) y V( 2 ). V( 1 ) = .......................................................................................................................... V( 2 ) = ...................................................................................................................... Cuál de ellos tiene menor varianza? ......................... Luego ................. es un estimador eficiente de μ. Ejercicio Resuelva los ejercicios 1 y 4 de la página 151 del Libro Inferencia Estadística de Máximo Mitacc (519.54/ M66 / 1999).